Использование Pig для манипулирования файлом JSON
Я вызвал файл json в HDFS (HDF 2.4 Sandbox, работающий на виртуальной машине), и теперь я хочу использовать Pig для манипулирования данными в файле.
Я начал с того, что пытался определить схему для передачи файла в Pig с помощью JsonLoader, но отказался от этого, когда прочитал где-то, что Pig не может обрабатывать многострочные файлы, что, как я подозреваю, может быть (это мой первый раз, когда я работал с json и файл данных довольно сложно структурированы - это 3-часовой прогноз погоды на 5 дней, полученный из API Met Office ( http://www.metoffice.gov.uk/datapoint/product/uk-3hourly-site-specific-forecast).
Мой вопрос: каков самый быстрый и простой способ просто передать эти данные в Pig, чтобы я мог начать манипулировать ими?
Я случайно запустил следующий скрипт для загрузки файла, но, поскольку файл занимает всего 4,3 КБ, и сценарии теперь выполняются более 15 минут без результата или сгенерированных журналов, я пришел к выводу, что этот подход не был успешным:
jdata = LOAD '/user/maria_dev/MetFiles/matched/BolsoverSite.json' USING PigStorage(',')
Большое спасибо за любые рекомендации, спасибо.