Разница между Свинья и Hadoop

Какая разница между Свинья и Hadoop?
Работает ли Pig поверх Hadoop и предлагает ли Pig Latin возможность в полной мере использовать технологию Hadoop?

1 ответ

Решение

Hadoop состоит из 2 компонентов HDFS и MapReduce.

  • HDFS - это распределенная файловая система для хранения больших порций данных, которая отличается высокой масштабируемостью и отказоустойчивостью.
  • MapReduce, с другой стороны, является механизмом обработки, который может обрабатывать данные, хранящиеся в HDFS. MR пытается принести вычисления туда, где находятся данные (data-locality).

Для разработки алгоритмов обработки / анализа данных, хранящихся в HDFS, MapReduce предоставляет следующие API:

  • JAVA API - позволяет пользователю писать приложения MapReduce, как правило, в 2 этапа Mapper & Reducer
  • Streaming API - позволяет пользователю писать карту и сокращать на динамических языках программирования, таких как Python/Perl/Ruby/Shell/...
  • Трубы - позволяет пользователю писать карту и уменьшить в C++

С другой стороны, Pig & Hive - это фреймворки, которые расположены поверх MapReduce и могут преобразовывать код, написанный на PigLatin (язык потока данных) или HiveQL (SQL-подобный синтаксис), соответственно, в набор заданий MapReduce, что экономит много времени на программирование.,

Другие вопросы по тегам