Описание тега apache-spark

Apache Spark - это механизм распределенной обработки данных с открытым исходным кодом, написанный на Scala, предоставляющий пользователям унифицированный API и распределенные наборы данных. Примеры использования Apache Spark часто связаны с машинным / глубоким обучением, обработкой графиков.

С https://spark.apache.org/:

Apache Spark - это кластерная вычислительная система с открытым исходным кодом, цель которой - сделать аналитику данных быстрой - как в работе, так и в записи.

Для более быстрого запуска программ Spark предлагает общую модель выполнения, основанную на RDDабстракция данных, которая может помочь оптимизировать произвольные длинные графы операторов, и поддерживает вычисления в памяти, что позволяет запрашивать данные быстрее, чем дисковые механизмы, такие как hadoop.

Spark не привязан к двухэтапной парадигме mapreduce и обещает производительность до 100 раз быстрее, чем Hadoop MapReduce.

Spark предоставляет примитивы для кластерных вычислений в памяти, которые позволяют пользовательским программам загружать данные в память кластера и многократно запрашивать их, что делает его хорошо подходящим как для интерактивных, так и для итерационных алгоритмов в машинном обучении или графических вычислениях.

Spark можно использовать для решения проблем с потоковой обработкой с помощью многих подходов (микропакетная обработка, непрерывная обработка, начиная с 2.3, выполнение SQL-запросов, оконная обработка данных и потоков, запуск ML-библиотек для обучения на потоковых данных и т. Д.).

Чтобы ускорить программирование, Spark предоставляет чистые и лаконичные API-интерфейсы на языках scala, java, python и r. Вы также можете использовать Spark в интерактивном режиме из оболочек scala, python и r для быстрого запроса больших наборов данных.

Свечи работает на пряжу, Mesos, kubernetes, автономные, или в облаке. Он может получить доступ к различным источникам данных, включая HDFS, Кассандра, HBase, амазонку-s3 и Google-облачную платформу.

Задавая вопрос, связанный со Spark, не забудьте предоставить воспроизводимый пример (он же MVCE), если это применимо. Вы можете обратиться к Как сделать хорошие воспроизводимые примеры Apache Spark для получения общих рекомендаций и предложений.

Последняя версия

Примечания к выпуску стабильных выпусков

Рекомендуемые справочные источники: