Использование Pig для манипулирования файлом JSON

Я вызвал файл json в HDFS (HDF 2.4 Sandbox, работающий на виртуальной машине), и теперь я хочу использовать Pig для манипулирования данными в файле.

Я начал с того, что пытался определить схему для передачи файла в Pig с помощью JsonLoader, но отказался от этого, когда прочитал где-то, что Pig не может обрабатывать многострочные файлы, что, как я подозреваю, может быть (это мой первый раз, когда я работал с json и файл данных довольно сложно структурированы - это 3-часовой прогноз погоды на 5 дней, полученный из API Met Office ( http://www.metoffice.gov.uk/datapoint/product/uk-3hourly-site-specific-forecast).

Мой вопрос: каков самый быстрый и простой способ просто передать эти данные в Pig, чтобы я мог начать манипулировать ими?

Я случайно запустил следующий скрипт для загрузки файла, но, поскольку файл занимает всего 4,3 КБ, и сценарии теперь выполняются более 15 минут без результата или сгенерированных журналов, я пришел к выводу, что этот подход не был успешным:

jdata = LOAD '/user/maria_dev/MetFiles/matched/BolsoverSite.json' USING PigStorage(',')   

Большое спасибо за любые рекомендации, спасибо.

0 ответов

Другие вопросы по тегам