Описание тега apache-crunch

Описание тега Вопросы с тегом

Простые и эффективные конвейеры MapReduce

1 ответ

Что означает чтение данных как "потоковая мода"?

Я читал Apache Crunch documentation и я нашел следующее предложение: Данные считываются из файловой системы в потоковом режиме, поэтому не требуется, чтобы содержимое PCollection помещалось в память, чтобы оно могло быть прочитано клиентом с использ…

27 апр '17 в 01:31

1 ответ

Приходит ли Apache Crunch с API Hadoop MapReduce?

Когда вы загружаете Apache Crunch со своего веб-сайта (он поставляется в виде исходного кода), он не содержит связанных с ним классов MapReduce. Два вопроса: 1- Как это возможно? Apache Crunch - это абстракция поверх MapReduce. Почему это не упакова…

java apache hadoop mapreduce apache-crunch

02 июл '15 в 21:45

0 ответов

Масштабирование Oozie Map Сокращение заданий: сокращает ли разбиение на меньшие задания общее время выполнения и использование памяти?

У меня есть рабочий процесс Oozie, который выполняет задание Map-Reduction в определенной очереди в кластере. Я должен добавить больше входных источников / клиентов к этой работе, так что эта работа будет обрабатывать в n раз больше данных, чем сего…

mapreduce bigdata distributed-computing oozie apache-crunch

23 мар '17 в 15:54

2 ответа

В Apache Crunch, Как узнать, есть ли в PCollection или PTable какие-либо элементы? И если так, сколько?

Я попытался установить точку останова и сделать следующее в окне просмотра: check .getSize(), который должен возвращать размер в байтах. И.materialize(), чтобы увидеть, могу ли я посмотреть на объекты Java. .GetSize () показывает число>0, но я сомне…

java hadoop collections mapreduce apache-crunch

25 авг '14 в 19:48

1 ответ

Apache crunch не может записать вывод

Может быть, это упущение, но я не могу определить, почему Apache Crunch не записывает вывод в файл для очень простой программы, которую я пишу для изучения Crunch. Вот код: import org.apache.crunch.Pipeline; import org.apache.hadoop.conf.Configurati…

java hadoop bigdata apache-crunch

31 дек '18 в 15:51

1 ответ

Как выполнить одно конкретное действие рабочего процесса в Oozie. Если я убил рабочий процесс Oozie вручную?

У меня ниже рабочий процесс Oozie. Предположим, я вручную убил задание, когда выполнялось действие "Do_task1", но все же я хочу выполнить действие "Do_task2", несмотря на то, что вручную убивал задание oozie (когда выполнялось действие "Do_task1"). …

hadoop oozie oozie-coordinator oozie-workflow apache-crunch

30 янв '19 в 17:36

1 ответ

Как запустить приложение Apache Crunch без Hadoop?

Я слышал, что Apache Crunch - это фасад, и он может запускать приложения без Hadoop. Это правда? Если да, то как это сделать? В Apache Crunch Getting Started самый первый пример включает команду hadoop: $ hadoop jar target/crunch-demo-1.0-SNAPSHOT-j…

java hadoop apache-crunch

23 май '18 в 10:28

0 ответов

Apache Crunch: как установить несколько путей ввода?

У меня проблема: я не могу установить несколько путей ввода, когда использую Apache Crunch. Как я могу решить эту проблему?

mapreduce hadoop2 apache-crunch

11 июл '18 в 03:47

1 ответ

java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/mapreduce/MultiTableInputFormat

При выполнении теста для задания mapReduce на мини-кластере Hadoop я получаю сообщение об ошибке: java.lang.NoClassDefFoundError: org / apache / hadoop / hbase / mapreduce / MultiTableInputFormat в org.apache.crunch.io.hbase.HBaseSourceTarget.(HBase…

hadoop mapreduce integration-testing hbase apache-crunch

02 дек '16 в 22:17

3 ответа

Как отследить происхождение сбоев "<init>() V" в Avro?

Я использую Apache Crunch и получил загадочное сообщение об ошибке от Avro: java.lang.NoSuchMethodError: org.apache.avro.mapred.AvroKey: method <init>()V not found at org.apache.crunch.types.avro.AvroKeyConverter.getWrapper(AvroKeyConverter.ja…

java reflection avro methodnotfound apache-crunch

06 янв '14 в 14:15

1 ответ

Как использовать счетчики в Apache Crunch

В Apache Crunch есть метод с именем increment("any enum"), я использовал increment(TOTAL_IDS);, но там, где я вижу результат работы счетчиков, счетчики не появляются в журналах после завершения работы. Что мне там не хватает?

apache-crunch

15 авг '17 в 13:46

1 ответ

Как я могу определить DoFn в apache crunch с типом данных void?

По сути, мне не нужен вывод из DoFn, я просто хочу обновить некоторые mysql db для каждой записи, которую я получаю в DoFn. Итак, как я могу определить DoFn, имеющий тип данных void? По сути, я не хочу излучать что-либо из DoFn.

apache-crunch

23 сен '17 в 13:10

1 ответ

Как Apache Crunch PTable collectValues работает внутренне

Я просматривал некоторые документы, относящиеся к архитектуре HDFS и Apache crunch PTable. Исходя из моего понимания, когда мы генерируем PTable, данные хранятся внутри узлов данных в HDFS. Это означает, что если у меня есть PTable с <K1,V1>,&…

hadoop apache-crunch

27 апр '16 в 12:45

1 ответ

java.lang.UnsatisfiedLinkError при записи с использованием хруста MemPipeline

Я использую версию com.cloudera.crunch: "0.3.0-3-cdh-5.2.1". У меня есть небольшая программа, которая читает некоторые AVRO и отфильтровывает неверные данные на основе некоторых критериев. Я использую pipe.write(PCollection, AvroFileTarget), чтобы з…

java hadoop mapreduce apache-crunch

02 авг '16 в 14:19

2 ответа

Crunch Debug Logging

Любой, кто использовал конвейеры Crunch, знает, что на самом деле ничего не выполняется до pipeline.run() или же pipeline.done() метод называется. Традиционно в большинстве языков мы можем поместить операторы log для вывода промежуточных значений пе…

logging apache-crunch

14 май '15 в 15:57

0 ответов

Единый тип сериализации (SST) Pig/Cascading и множественный тип сериализации (MST) Apache Crunch

В своих часто задаваемых вопросах здесь, команды Crunch подчеркивают, что основным отличием является MST Crunch от SST Cascading. Я не уверен, как они отличаются. Кто-нибудь может объяснить на примере?

hadoop cloudera hadoop2 cascading apache-crunch

09 мар '14 в 23:44

1 ответ

WordCount с Apache Crunch в HBase Standalone

В настоящее время я оцениваю Apache Crunch. Я последовал простому примеру задания WordCount MapReduce: после этого я пытаюсь сохранить результаты в автономной базе данных HBase. HBase работает (проверено с помощью jps и оболочки HBase), как описано …

java hadoop mapreduce hbase apache-crunch

17 дек '14 в 14:57

0 ответов

Использование enum, Ошибка: org.apache.crunch.CrunchRuntimeException: java.lang.NoSuchMethodException:

Когда я использую пользовательский enum в кризис parallelDo (Avros.reflects(TestEnumType.class)) функция карты, я получаю ошибку ниже. Error: org.apache.crunch.CrunchRuntimeException: java.lang.NoSuchMethodException:EntityChangeType.<init>() a…

java bigdata avro apache-crunch

31 окт '18 в 15:58

1 ответ

Написание паркетного файла в Apache Crunch

Я новичок в apache crunch и ищу чтение и запись файла Parquet в apache crunch. Я следовал документации и API, но не получил прямого подхода / метода для того же. PCollection<String> pipeLine = MemPipeline.collectionOf("Pineapple", "Banana", "O…

mapreduce parquet hadoop2 apache-crunch

01 мар '17 в 07:06

1 ответ

Как прочитать раздел куста в конвейер Apache Crunch?

Я могу читать текстовые файлы в формате hdf в конвейер Apache Crunch. Но теперь мне нужно прочитать разделы улья. Проблема в том, что согласно нашему дизайну я не должен иметь прямой доступ к файлу. Следовательно, теперь мне нужен какой-то способ, к…

hadoop hive pipeline hcatalog apache-crunch

20 окт '14 в 08:20