Описание тега apache-crunch

Простые и эффективные конвейеры MapReduce
1 ответ

Что означает чтение данных как "потоковая мода"?

Я читал Apache Crunch documentation и я нашел следующее предложение: Данные считываются из файловой системы в потоковом режиме, поэтому не требуется, чтобы содержимое PCollection помещалось в память, чтобы оно могло быть прочитано клиентом с использ…
1 ответ

Приходит ли Apache Crunch с API Hadoop MapReduce?

Когда вы загружаете Apache Crunch со своего веб-сайта (он поставляется в виде исходного кода), он не содержит связанных с ним классов MapReduce. Два вопроса: 1- Как это возможно? Apache Crunch - это абстракция поверх MapReduce. Почему это не упакова…
02 июл '15 в 21:45
0 ответов

Масштабирование Oozie Map Сокращение заданий: сокращает ли разбиение на меньшие задания общее время выполнения и использование памяти?

У меня есть рабочий процесс Oozie, который выполняет задание Map-Reduction в определенной очереди в кластере. Я должен добавить больше входных источников / клиентов к этой работе, так что эта работа будет обрабатывать в n раз больше данных, чем сего…
2 ответа

В Apache Crunch, Как узнать, есть ли в PCollection или PTable какие-либо элементы? И если так, сколько?

Я попытался установить точку останова и сделать следующее в окне просмотра: check .getSize(), который должен возвращать размер в байтах. И.materialize(), чтобы увидеть, могу ли я посмотреть на объекты Java. .GetSize () показывает число>0, но я сомне…
25 авг '14 в 19:48
1 ответ

Apache crunch не может записать вывод

Может быть, это упущение, но я не могу определить, почему Apache Crunch не записывает вывод в файл для очень простой программы, которую я пишу для изучения Crunch. Вот код: import org.apache.crunch.Pipeline; import org.apache.hadoop.conf.Configurati…
31 дек '18 в 15:51
1 ответ

Как выполнить одно конкретное действие рабочего процесса в Oozie. Если я убил рабочий процесс Oozie вручную?

У меня ниже рабочий процесс Oozie. Предположим, я вручную убил задание, когда выполнялось действие "Do_task1", но все же я хочу выполнить действие "Do_task2", несмотря на то, что вручную убивал задание oozie (когда выполнялось действие "Do_task1"). …
1 ответ

Как запустить приложение Apache Crunch без Hadoop?

Я слышал, что Apache Crunch - это фасад, и он может запускать приложения без Hadoop. Это правда? Если да, то как это сделать? В Apache Crunch Getting Started самый первый пример включает команду hadoop: $ hadoop jar target/crunch-demo-1.0-SNAPSHOT-j…
23 май '18 в 10:28
0 ответов

Apache Crunch: как установить несколько путей ввода?

У меня проблема: я не могу установить несколько путей ввода, когда использую Apache Crunch. Как я могу решить эту проблему?
11 июл '18 в 03:47
1 ответ

java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/mapreduce/MultiTableInputFormat

При выполнении теста для задания mapReduce на мини-кластере Hadoop я получаю сообщение об ошибке: java.lang.NoClassDefFoundError: org / apache / hadoop / hbase / mapreduce / MultiTableInputFormat в org.apache.crunch.io.hbase.HBaseSourceTarget.(HBase…
3 ответа

Как отследить происхождение сбоев "<init>() V" в Avro?

Я использую Apache Crunch и получил загадочное сообщение об ошибке от Avro: java.lang.NoSuchMethodError: org.apache.avro.mapred.AvroKey: method &lt;init&gt;()V not found at org.apache.crunch.types.avro.AvroKeyConverter.getWrapper(AvroKeyConverter.ja…
1 ответ

Как использовать счетчики в Apache Crunch

В Apache Crunch есть метод с именем increment("any enum"), я использовал increment(TOTAL_IDS);, но там, где я вижу результат работы счетчиков, счетчики не появляются в журналах после завершения работы. Что мне там не хватает?
15 авг '17 в 13:46
1 ответ

Как я могу определить DoFn в apache crunch с типом данных void?

По сути, мне не нужен вывод из DoFn, я просто хочу обновить некоторые mysql db для каждой записи, которую я получаю в DoFn. Итак, как я могу определить DoFn, имеющий тип данных void? По сути, я не хочу излучать что-либо из DoFn.
23 сен '17 в 13:10
1 ответ

Как Apache Crunch PTable collectValues ​​работает внутренне

Я просматривал некоторые документы, относящиеся к архитектуре HDFS и Apache crunch PTable. Исходя из моего понимания, когда мы генерируем PTable, данные хранятся внутри узлов данных в HDFS. Это означает, что если у меня есть PTable с &lt;K1,V1&gt;,&…
27 апр '16 в 12:45
1 ответ

java.lang.UnsatisfiedLinkError при записи с использованием хруста MemPipeline

Я использую версию com.cloudera.crunch: "0.3.0-3-cdh-5.2.1". У меня есть небольшая программа, которая читает некоторые AVRO и отфильтровывает неверные данные на основе некоторых критериев. Я использую pipe.write(PCollection, AvroFileTarget), чтобы з…
02 авг '16 в 14:19
2 ответа

Crunch Debug Logging

Любой, кто использовал конвейеры Crunch, знает, что на самом деле ничего не выполняется до pipeline.run() или же pipeline.done() метод называется. Традиционно в большинстве языков мы можем поместить операторы log для вывода промежуточных значений пе…
14 май '15 в 15:57
0 ответов

Единый тип сериализации (SST) Pig/Cascading и множественный тип сериализации (MST) Apache Crunch

В своих часто задаваемых вопросах здесь, команды Crunch подчеркивают, что основным отличием является MST Crunch от SST Cascading. Я не уверен, как они отличаются. Кто-нибудь может объяснить на примере?
09 мар '14 в 23:44
1 ответ

WordCount с Apache Crunch в HBase Standalone

В настоящее время я оцениваю Apache Crunch. Я последовал простому примеру задания WordCount MapReduce: после этого я пытаюсь сохранить результаты в автономной базе данных HBase. HBase работает (проверено с помощью jps и оболочки HBase), как описано …
17 дек '14 в 14:57
0 ответов

Использование enum, Ошибка: org.apache.crunch.CrunchRuntimeException: java.lang.NoSuchMethodException:

Когда я использую пользовательский enum в кризис parallelDo (Avros.reflects(TestEnumType.class)) функция карты, я получаю ошибку ниже. Error: org.apache.crunch.CrunchRuntimeException: java.lang.NoSuchMethodException:EntityChangeType.&lt;init&gt;() a…
31 окт '18 в 15:58
1 ответ

Написание паркетного файла в Apache Crunch

Я новичок в apache crunch и ищу чтение и запись файла Parquet в apache crunch. Я следовал документации и API, но не получил прямого подхода / метода для того же. PCollection&lt;String&gt; pipeLine = MemPipeline.collectionOf("Pineapple", "Banana", "O…
01 мар '17 в 07:06
1 ответ

Как прочитать раздел куста в конвейер Apache Crunch?

Я могу читать текстовые файлы в формате hdf в конвейер Apache Crunch. Но теперь мне нужно прочитать разделы улья. Проблема в том, что согласно нашему дизайну я не должен иметь прямой доступ к файлу. Следовательно, теперь мне нужен какой-то способ, к…
20 окт '14 в 08:20