Описание тега apache-spark
Apache Spark - это кластерная вычислительная система с открытым исходным кодом, цель которой - сделать аналитику данных быстрой - как в работе, так и в записи.
Для более быстрого запуска программ Spark предлагает общую модель выполнения, основанную на RDD
абстракция данных, которая может помочь оптимизировать произвольные длинные графы операторов, и поддерживает вычисления в памяти, что позволяет запрашивать данные быстрее, чем дисковые механизмы, такие как hadoop.
Spark не привязан к двухэтапной парадигме mapreduce и обещает производительность до 100 раз быстрее, чем Hadoop MapReduce.
Spark предоставляет примитивы для кластерных вычислений в памяти, которые позволяют пользовательским программам загружать данные в память кластера и многократно запрашивать их, что делает его хорошо подходящим как для интерактивных, так и для итерационных алгоритмов в машинном обучении или графических вычислениях.
Spark можно использовать для решения проблем с потоковой обработкой с помощью многих подходов (микропакетная обработка, непрерывная обработка, начиная с 2.3, выполнение SQL-запросов, оконная обработка данных и потоков, запуск ML-библиотек для обучения на потоковых данных и т. Д.).
Чтобы ускорить программирование, Spark предоставляет чистые и лаконичные API-интерфейсы на языках scala, java, python и r. Вы также можете использовать Spark в интерактивном режиме из оболочек scala, python и r для быстрого запроса больших наборов данных.
Свечи работает на пряжу, Mesos, kubernetes, автономные, или в облаке. Он может получить доступ к различным источникам данных, включая HDFS, Кассандра, HBase, амазонку-s3 и Google-облачную платформу.
Задавая вопрос, связанный со Spark, не забудьте предоставить воспроизводимый пример (он же MVCE), если это применимо. Вы можете обратиться к Как сделать хорошие воспроизводимые примеры Apache Spark для получения общих рекомендаций и предложений.
Примечания к выпуску стабильных выпусков
Рекомендуемые справочные источники:
Руководство по программированию Spark - показывает каждую из этих функций на каждом из поддерживаемых языков Spark (Python, Scala, Java).
Прошедшие мероприятия Spark-Summit Онлайн-материалы учебных курсов и программных докладов Spark (см. Вкладку ПРОШЕДШИЕ СОБЫТИЯ вверху)
Awesome Spark - Потрясающая коллекция ресурсов от сообщества Github Apache Spark
Освоение Apache Spark 2 - Замечания по внутреннему устройству Apache Spark, Spark SQL и Spark MLlib
Learning Spark - молниеносный анализ больших данных
AMP Camp 6 (Беркли, Калифорния, 19-20 ноября 2015 г.)
AMP Camp 5 (Беркли, Калифорния, 20-21 ноября 2014 г.)
AMP Camp 4 (Strata Santa Clara, февраль 2014 г.) - основное внимание уделяется BlinkDB, MLlib, GraphX, Tachyon
AMP Camp 3 (Беркли, Калифорния, август 2013 г.)
AMP Camp 2 (Strata Santa Clara, фев 2013)
AMP Camp 1 (Беркли, Калифорния, август 2012 г.)