Описание тега apache-spark

Описание тега Вопросы с тегом

Apache Spark - это механизм распределенной обработки данных с открытым исходным кодом, написанный на Scala, предоставляющий пользователям унифицированный API и распределенные наборы данных. Примеры использования Apache Spark часто связаны с машинным / глубоким обучением, обработкой графиков.

С https://spark.apache.org/:

Apache Spark - это кластерная вычислительная система с открытым исходным кодом, цель которой - сделать аналитику данных быстрой - как в работе, так и в записи.

Для более быстрого запуска программ Spark предлагает общую модель выполнения, основанную на RDDабстракция данных, которая может помочь оптимизировать произвольные длинные графы операторов, и поддерживает вычисления в памяти, что позволяет запрашивать данные быстрее, чем дисковые механизмы, такие как hadoop.

Spark не привязан к двухэтапной парадигме mapreduce и обещает производительность до 100 раз быстрее, чем Hadoop MapReduce.

Spark предоставляет примитивы для кластерных вычислений в памяти, которые позволяют пользовательским программам загружать данные в память кластера и многократно запрашивать их, что делает его хорошо подходящим как для интерактивных, так и для итерационных алгоритмов в машинном обучении или графических вычислениях.

Spark можно использовать для решения проблем с потоковой обработкой с помощью многих подходов (микропакетная обработка, непрерывная обработка, начиная с 2.3, выполнение SQL-запросов, оконная обработка данных и потоков, запуск ML-библиотек для обучения на потоковых данных и т. Д.).

Чтобы ускорить программирование, Spark предоставляет чистые и лаконичные API-интерфейсы на языках scala, java, python и r. Вы также можете использовать Spark в интерактивном режиме из оболочек scala, python и r для быстрого запроса больших наборов данных.

Свечи работает на пряжу, Mesos, kubernetes, автономные, или в облаке. Он может получить доступ к различным источникам данных, включая HDFS, Кассандра, HBase, амазонку-s3 и Google-облачную платформу.

Задавая вопрос, связанный со Spark, не забудьте предоставить воспроизводимый пример (он же MVCE), если это применимо. Вы можете обратиться к Как сделать хорошие воспроизводимые примеры Apache Spark для получения общих рекомендаций и предложений.

Последняя версия

Примечания к выпуску стабильных выпусков

Рекомендуемые справочные источники:

Документация Spark
Руководство по программированию Spark - показывает каждую из этих функций на каждом из поддерживаемых языков Spark (Python, Scala, Java).
Прошедшие мероприятия Spark-Summit Онлайн-материалы учебных курсов и программных докладов Spark (см. Вкладку ПРОШЕДШИЕ СОБЫТИЯ вверху)
Awesome Spark - Потрясающая коллекция ресурсов от сообщества Github Apache Spark
Освоение Apache Spark 2 - Замечания по внутреннему устройству Apache Spark, Spark SQL и Spark MLlib
Learning Spark - молниеносный анализ больших данных
AMP Camp 6 (Беркли, Калифорния, 19-20 ноября 2015 г.)
AMP Camp 5 (Беркли, Калифорния, 20-21 ноября 2014 г.)
AMP Camp 4 (Strata Santa Clara, февраль 2014 г.) - основное внимание уделяется BlinkDB, MLlib, GraphX, Tachyon
AMP Camp 3 (Беркли, Калифорния, август 2013 г.)
AMP Camp 2 (Strata Santa Clara, фев 2013)
AMP Camp 1 (Беркли, Калифорния, август 2012 г.)