Разница между Свинья и Hadoop
Какая разница между Свинья и Hadoop?
Работает ли Pig поверх Hadoop и предлагает ли Pig Latin возможность в полной мере использовать технологию Hadoop?
1 ответ
Решение
Hadoop состоит из 2 компонентов HDFS и MapReduce.
- HDFS - это распределенная файловая система для хранения больших порций данных, которая отличается высокой масштабируемостью и отказоустойчивостью.
- MapReduce, с другой стороны, является механизмом обработки, который может обрабатывать данные, хранящиеся в HDFS. MR пытается принести вычисления туда, где находятся данные (data-locality).
Для разработки алгоритмов обработки / анализа данных, хранящихся в HDFS, MapReduce предоставляет следующие API:
- JAVA API - позволяет пользователю писать приложения MapReduce, как правило, в 2 этапа Mapper & Reducer
- Streaming API - позволяет пользователю писать карту и сокращать на динамических языках программирования, таких как Python/Perl/Ruby/Shell/...
- Трубы - позволяет пользователю писать карту и уменьшить в C++
С другой стороны, Pig & Hive - это фреймворки, которые расположены поверх MapReduce и могут преобразовывать код, написанный на PigLatin (язык потока данных) или HiveQL (SQL-подобный синтаксис), соответственно, в набор заданий MapReduce, что экономит много времени на программирование.,