Описание тега apache-pig
Apache Pig - это платформа для анализа больших наборов данных, состоящая из языка высокого уровня для выражения программ анализа данных, а также инфраструктуры для оценки этих программ. Важным свойством программ Pig является то, что их структура поддается существенному распараллеливанию, что позволяет им обрабатывать очень большие наборы данных.
2
ответа
Ошибка: не удалось создать хранилище данных при запуске встроенной свиньи в Java
Я написал простую программу для тестирования встроенной свиньи в Java для запуска в режиме mapreduce. Версия hadoop на сервере, на котором я работаю, - 0.20.2-cdh3u4a, а версия pig - 0.10.0-cdh3u4a. Когда я пытаюсь запустить в локальном режиме, он р…
17 июл '13 в 00:02
1
ответ
Pig - загружать документы Word (.doc & .docx) с помощью pig
Я не могу загрузить документы Microsoft Word (.doc или.docx) с поросенком. Действительно, когда я пытаюсь это сделать, используя TextLoader(), PigStorage() или вообще не загружая, это не работает. На выходе получаются странные символы. Я слышал, что…
29 авг '13 в 09:03
1
ответ
Ошибка при запуске Pig
Я настроил Pig в своей системе Hadoop, но при запуске я получаю ошибку, связанную с log4j. Я что-то пропустил? Спасибо! $ pig log4j:ERROR Could not instantiate class [org.apache.hadoop.log.metrics.EventCounter]. java.lang.ClassNotFoundException: org…
14 фев '14 в 13:22
1
ответ
Как почистить фляги на моем клиенте hadoop
Проблема в том, что файлы jar в каталоге / tmp (моего клиента) не очищаются после выполнения работы. У меня есть следующий (упрощенный) код: public void run() throws IOException { PigServer pigServer = null; try { StringBuilder sb = new StringBuilde…
01 июл '13 в 07:54
0
ответов
Предупреждение "Неявное приведение к карте" в apache pig
Запустив следующую команду в pig: extract_details = FOREACH load_tweets GENERATE myMap # 'id' как идентификатор,myMap#'text' как текст; выдал это предупреждение: [main] WARN org.apache.pig.newplan.BaseOperatorPlan - Обнаружено предупреждение IMPLICI…
11 ноя '17 в 05:29
1
ответ
Как получить этот вывод из латыни свиньи в MapReduce
Я хочу получить следующий вывод из Pig Latin / Hadoop ((39,50,60,42,15,Bachelor,Male),5) ((40,35,HS-grad,Male),2) ((39,45,15,30,12,7,HS-grad,Female),6) из следующей выборки данных выборка данных для взрослых данных Я написал следующий текст на латин…
10 июн '16 в 12:03
1
ответ
Как разделить число на цифры и добавить символ между
Вход: 2134Желаемый результат: 21:34 Как получить этот результат с PIG?
25 июн '17 в 15:31
2
ответа
Hive выделить данные в массив структур
Я пытаюсь найти способ в Hive выбрать данные из плоского источника и вывести их в массив именованных структур. Вот пример того, что я ищу... Пример данных: house_id,first_name,last_name 1,bob,jones 1,jenny,jones 2,sally,johnson 3,john,smith 3,barb,s…
03 сен '15 в 21:06
0
ответов
ПРИСОЕДИНЯЙТЕСЬ И FOREACH в Apache Pig
Мне нужно знать, обязательно ли использовать FOREACH для любого преобразования отношений в Apache Pig. Не могли бы вы помочь мне понять, какой из следующих подходов лучше и может помочь в улучшении производительности. Размеры файлов огромны. Approac…
30 авг '17 в 06:21
1
ответ
Разница между Свинья и Hadoop
Какая разница между Свинья и Hadoop?Работает ли Pig поверх Hadoop и предлагает ли Pig Latin возможность в полной мере использовать технологию Hadoop?
24 ноя '14 в 17:28
2
ответа
Можно ли в PIG создать поле столбца, определив значение поля столбца
Предположим, у меня есть ниже файл структурированных данных 1298712012061228765236542123049824234209374 1203972012073042198531203948203498023498023 1203712012092329385612350924395798456892345 1234812012101223423498230482034893204820398 Здесь в приве…
24 июн '15 в 04:43
0
ответов
Как передать переменную pig в качестве параметра в операторе LOAD?
Я пытаюсь загрузить данные из Phoenix в сценарий свиньи для обработки У меня есть сценарий свиньи, как так - grain1 = LOAD 'cache' USING USING PigStorage(',') AS (partitionNumber: chararray, Id: chararray); DUMP grain1;// grain 1 dumps Id's correctl…
14 июн '18 в 17:42
0
ответов
Apache Pig извлекает определенные строки в отношении
Я использую Apache Pig для анализа данных. У меня есть отношение A, которое содержит 100000 записей. И я хотел бы разбить их равномерно на 100 файлов, каждый из которых содержит 1000 записей. Могу ли я сделать это без UDF?
25 янв '16 в 22:57
2
ответа
Как кусты udf, udaf, udtfs, написанные на java, отлажены в ide как eclipse?
Например, для отладки UDF свиней это работает: http://ben-tech.blogspot.ie/2011/08/how-to-debug-pig-udfs-in-eclipse.html У меня есть скрипт улья, в котором я использую свой udaf, который не работает, поэтому я хотел бы пройтись по коду udf.
09 май '16 в 09:42
1
ответ
Задание ORDER BY не выполнено в сценарии Pig при запуске EmbeddedPig с использованием Java
У меня есть следующий скрипт PIG, который отлично работает с использованием grunt shell (результаты сохраняются в HDFS без каких-либо проблем); однако последнее задание (ORDER BY) не удалось, если я запустил тот же сценарий с использованием Java Emb…
05 апр '12 в 17:25
1
ответ
Почему DISTINCT быстрее, чем GROUP BY/FOREACH в Pig
Я понятия не имею, почему DISTINCT быстрее, чем GROUP BY/FOREACH в Pig, они должны быть такими же в MapReduce Framework, но относятся к: http://pig.apache.org/docs/r0.10.0/perf.html#distinct В Pig wiki сказано, что "для извлечения уникальных значени…
16 янв '13 в 08:08
1
ответ
Увеличение параллелизма Foreach у свиньи
У меня есть список URL-адресов, которые я хочу перебрать, где каждый содержит определенный файл, который я хочу загрузить. Я пытаюсь использовать hadoop / pig, чтобы ускорить этот процесс, полагая, что каждый узел заботится о конкретной загрузке / в…
20 мар '14 в 16:49
1
ответ
Pig Latin: загрузка очень простой сумки
Я пишу, потому что сегодня я столкнулся с проблемой, которую никак не могу решить, несмотря на то, что искал везде и пробовал много разных утверждений. У меня есть этот входной файл: 3 {(car pen house glass)} 5 {(battery phone)} 6 {(the)} (Я хотел б…
26 ноя '16 в 18:06
4
ответа
Как я могу включить текущее имя входного файла в мой скрипт Pig Latin?
Я обрабатываю данные из набора файлов, которые содержат штамп даты как часть имени файла. Данные в файле не содержат отметку даты. Я хотел бы обработать имя файла и добавить его к одной из структур данных в сценарии. Есть ли способ сделать это в Pig…
17 мар '12 в 16:04
1
ответ
Свинья - конвертировать строки в несколько столбцов
Можем ли мы преобразовать входные строки в несколько столбцов, оканчивающихся на три.*
18 авг '17 в 05:10