Описание тега hadoop

Hadoop - это проект Apache с открытым исходным кодом, который предоставляет программное обеспечение для надежных и масштабируемых распределенных вычислений. Ядро состоит из распределенной файловой системы (HDFS) и диспетчера ресурсов (YARN). Различные другие проекты с открытым исходным кодом, такие как Apache Hive, используют Apache Hadoop в качестве уровня сохраняемости.

Проект Apache™ Hadoop™ разрабатывает программное обеспечение с открытым исходным кодом для надежных, масштабируемых распределенных вычислений.

" Hadoop " обычно относится к программному обеспечению в проекте, которое реализует структуру анализа данных с сокращением карты, а также к распределенной файловой системе (HDFS), которая лежит в ее основе.

Существует именной узел, обычно у вас есть по крайней мере один именной узел, но обычно у вас есть более одного для избыточности. И этот узел имени будет принимать запросы, поступающие от клиентских приложений, для выполнения некоторой обработки, и затем он будет использовать некоторые узлы данных, и обычно у нас есть много узлов данных, которые будут разделять работу по обработке между ними. И способ, которым они это делают, заключается в том, что все они имеют доступ к общей файловой системе, которая обычно называется распределенной файловой системой Hadoop или HDFS.

https://stackru.com/images/23f50b5acf3fe2d1759f96051c78ae138a1a3159.jpg

Apache Hadoop также работает с другими файловыми системами, специфичной для платформы "локальной" файловой системой, хранилищами Blobstore, такими как Amazon S3 и хранилище Azure, а также с альтернативными распределенными файловыми системами. См.: Совместимость файловой системы с Apache Hadoop.

Начиная с версии 0.23 в Hadoop есть автономный менеджер ресурсов: yarn.

Этот менеджер ресурсов упрощает использование других модулей вместе с движком MapReduce, например:

  • Accumulo - отсортированное распределенное хранилище ключей / значений, обеспечивающее надежное масштабируемое хранение и извлечение данных.
  • Ambari, веб-инструмент для подготовки, управления и
    мониторинга кластеров Apache Hadoop, который включает поддержку Hadoop
    HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig и Sqoop. Ambari также предоставляет панель мониторинга для просмотра
    состояния кластера, например тепловых карт, и возможность
    визуально просматривать приложения MapReduce, Pig и Hive, а также функции для диагностики их
    характеристик производительности в удобной для пользователя форме.
  • Avro, система сериализации данных, основанная на схемах JSON.
  • Cassandra, реплицируемая, отказоустойчивая, децентрализованная и масштабируемая система баз данных.
  • Chukwa: система сбора данных для управления большими распределенными системами.
  • Каскадирование. Каскадирование - это уровень абстракции программного обеспечения для Apache Hadoop, предназначенный в основном для разработчиков Java. Фреймворк был разработан, чтобы сократить трудозатраты на написание стандартного кода программистами MapReduce, имеющими навыки Java.
  • Flink, быстрый и надежный движок для крупномасштабной обработки данных.
  • Giraph - это среда итеративной обработки графов, построенная на основе Apache Hadoop.
  • HBase, масштабируемая распределенная база данных, поддерживающая структурированное хранилище данных для больших таблиц.
  • Hive, инфраструктура хранилища данных, которая обеспечивает суммирование данных и специальные запросы.
  • Mahout, библиотека алгоритмов машинного обучения, совместимая с парадигмой M/R.
  • Oozie, система планировщика рабочих процессов для управления заданиями Apache Hadoop.
  • Pig, платформа / язык программирования для создания распараллеливаемых заданий
  • Spark, быстрый и универсальный движок для крупномасштабной обработки данных.
  • Storm, система для обработки в реальном времени и потоковой обработки
  • Tez - это расширяемая платформа для создания высокопроизводительных приложений пакетной и интерактивной обработки данных, координируемая YARN.
  • ZooKeeper, система для координации распределенных узлов, похожая на Chubby от Google.

Ссылки

Онлайн-уроки

Связанные теги

Hadoop

Связанные технологии

Коммерческая поддержка предоставляется множеством компаний.