Загрузка данных в улей, а затем анализировать их от свиньи с помощью hcatalogue. Кажется ли это хорошей идеей?
Допустим, у нас есть данные в формате JSON, и мы хотим получить некоторые результаты для бизнес-пользователей.
Загрузка данных в улей из HDFS, а затем анализировать их от свиньи с помощью hcatalog. У меня есть ниже вопрос в этом отношении.
В. Можно ли загружать данные из hcatalog и анализировать их в pig, будут ли это иметь издержки производительности по сравнению с прямым чтением данных из pig, сохраняя их в HDFS.
1 ответ
Лично я предпочел бы использовать ETL с использованием Pig. В вашем случае данные JSON могут быть загружены с помощью JsonLoader и могут быть сохранены с помощью JsonStorage. Поэтому я бы загружал данные с помощью Jsonloader, а затем сохранял их в csv. Затем я бы использовал Hive для анализа этого данные.
Загрузка JSON
http://joshualande.com/read-write-json-apache-pig/
В качестве альтернативы мы можем использовать твиттер загрузчик JSON Elephantbird