Описание тега hadoop
Проект Apache™ Hadoop™ разрабатывает программное обеспечение с открытым исходным кодом для надежных, масштабируемых распределенных вычислений.
" Hadoop " обычно относится к программному обеспечению в проекте, которое реализует структуру анализа данных с сокращением карты, а также к распределенной файловой системе (HDFS), которая лежит в ее основе.
Существует именной узел, обычно у вас есть по крайней мере один именной узел, но обычно у вас есть более одного для избыточности. И этот узел имени будет принимать запросы, поступающие от клиентских приложений, для выполнения некоторой обработки, и затем он будет использовать некоторые узлы данных, и обычно у нас есть много узлов данных, которые будут разделять работу по обработке между ними. И способ, которым они это делают, заключается в том, что все они имеют доступ к общей файловой системе, которая обычно называется распределенной файловой системой Hadoop или HDFS.
https://stackru.com/images/23f50b5acf3fe2d1759f96051c78ae138a1a3159.jpg
Apache Hadoop также работает с другими файловыми системами, специфичной для платформы "локальной" файловой системой, хранилищами Blobstore, такими как Amazon S3 и хранилище Azure, а также с альтернативными распределенными файловыми системами. См.: Совместимость файловой системы с Apache Hadoop.
Начиная с версии 0.23 в Hadoop есть автономный менеджер ресурсов: yarn.
Этот менеджер ресурсов упрощает использование других модулей вместе с движком MapReduce, например:
- Accumulo - отсортированное распределенное хранилище ключей / значений, обеспечивающее надежное масштабируемое хранение и извлечение данных.
- Ambari, веб-инструмент для подготовки, управления и
мониторинга кластеров Apache Hadoop, который включает поддержку Hadoop
HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig и Sqoop. Ambari также предоставляет панель мониторинга для просмотра
состояния кластера, например тепловых карт, и возможность
визуально просматривать приложения MapReduce, Pig и Hive, а также функции для диагностики их
характеристик производительности в удобной для пользователя форме. - Avro, система сериализации данных, основанная на схемах JSON.
- Cassandra, реплицируемая, отказоустойчивая, децентрализованная и масштабируемая система баз данных.
- Chukwa: система сбора данных для управления большими распределенными системами.
- Каскадирование. Каскадирование - это уровень абстракции программного обеспечения для Apache Hadoop, предназначенный в основном для разработчиков Java. Фреймворк был разработан, чтобы сократить трудозатраты на написание стандартного кода программистами MapReduce, имеющими навыки Java.
- Flink, быстрый и надежный движок для крупномасштабной обработки данных.
- Giraph - это среда итеративной обработки графов, построенная на основе Apache Hadoop.
- HBase, масштабируемая распределенная база данных, поддерживающая структурированное хранилище данных для больших таблиц.
- Hive, инфраструктура хранилища данных, которая обеспечивает суммирование данных и специальные запросы.
- Mahout, библиотека алгоритмов машинного обучения, совместимая с парадигмой M/R.
- Oozie, система планировщика рабочих процессов для управления заданиями Apache Hadoop.
- Pig, платформа / язык программирования для создания распараллеливаемых заданий
- Spark, быстрый и универсальный движок для крупномасштабной обработки данных.
- Storm, система для обработки в реальном времени и потоковой обработки
- Tez - это расширяемая платформа для создания высокопроизводительных приложений пакетной и интерактивной обработки данных, координируемая YARN.
- ZooKeeper, система для координации распределенных узлов, похожая на Chubby от Google.
Ссылки
Онлайн-уроки
- Основы Cloudera для Apache Hadoop
- CoreServlets.com: Разработка приложений для больших данных с помощью Apache Hadoop
- Coursera (оплачивается)
- Учебное пособие: Hadoop
Связанные теги
Hadoop
- elasticsearch-hadoop
- google-hadoop
- hadoop-2.7.2
- hadoop-2.7.3
- хадуп-архив
- Hadoop-Izo
- разбиение на разделы
- плагины hadoop
- хадуп-стриминг
- hadoop2
- hadoop3
- хриплый
- mongodb-hadoop
- Rhadoop
- Spring-Data-Hadoop
Связанные технологии
- накопить
- большой стол
- большая палатка
- жираф
- hbase
- улей
- HDFS
- уменьшение карты
- ил
- свинья
- искра
- sqoop
- Tez
- пряжа
- работник зоопарка
Коммерческая поддержка предоставляется множеством компаний.