Загрузка данных в улей, а затем анализировать их от свиньи с помощью hcatalogue. Кажется ли это хорошей идеей?

Допустим, у нас есть данные в формате JSON, и мы хотим получить некоторые результаты для бизнес-пользователей.
Загрузка данных в улей из HDFS, а затем анализировать их от свиньи с помощью hcatalog. У меня есть ниже вопрос в этом отношении.
В. Можно ли загружать данные из hcatalog и анализировать их в pig, будут ли это иметь издержки производительности по сравнению с прямым чтением данных из pig, сохраняя их в HDFS.

1 ответ

Лично я предпочел бы использовать ETL с использованием Pig. В вашем случае данные JSON могут быть загружены с помощью JsonLoader и могут быть сохранены с помощью JsonStorage. Поэтому я бы загружал данные с помощью Jsonloader, а затем сохранял их в csv. Затем я бы использовал Hive для анализа этого данные.

Загрузка JSON

http://joshualande.com/read-write-json-apache-pig/

В качестве альтернативы мы можем использовать твиттер загрузчик JSON Elephantbird

http://eric.lubow.org/2011/hadoop/pig-queries-parsing-json-on-amazons-elastic-map-reduce-using-s3-data/

Другие вопросы по тегам