Описание тега scalding

Scalding - это scala DSL для каскадирования, работающий на Hadoop.
1 ответ

Можно ли получить доступ к базовому org.apache.hadoop.mapreduce.Job из задания Scalding?

В моей работе Scalding у меня есть такой код: import org.apache.hadoop.mapreduce.lib.input.FileInputFormat class MyJob(args: Args) extends Job(args) { FileInputFormat.setInputPathFilter(???, classOf[MyFilter]) // ... rest of job ... } class MyFilter…
1 ответ

Ошпаривание: исходная схема из работы с трубами

Я читаю файлы в HDFS через ошпаривание, агрегирование по некоторым полям и запись в файл с разделителями табуляции через TSV. Как я могу выписать файл, который содержит схему моего выходного файла? Например, UnpackedAvroSource(args("input")) .projec…
15 дек '14 в 18:04
1 ответ

Обжига: не может уменьшить с частичной функцией

Я использую обжига, чтобы делать простой тип подсчета слов. Я получаю сообщение об ошибке при использовании частичной функции для расширения кортежа. Точное сообщение об ошибке: Error:(15, 14) missing parameter type for expanded function The argumen…
13 июл '16 в 18:50
0 ответов

Обжигающие работают на группу после groupBy

Я пишу ошпаривающую работу. Вот что я хочу сделать: первая группа по ключу. Это должно дать мне кучу пар (Key, Iterator[Value]) для каждого ключа (поправьте меня, если я здесь не прав). Затем для каждой лей я хочу применить функцию к связанному с не…
04 июн '17 в 04:55
2 ответа

Почему Scala не может вывести аргумент типа, когда он очевиден?

В следующем примере я пытался создать неявное преобразование между MySource а также TypedPipe[T], я владею MySourceНа самом деле у меня много таких источников, поэтому я хотел использовать Porable[T] черта, чтобы отметить, какой тип аргумента T Я хо…
09 июн '15 в 07:47
1 ответ

Перебрать значения в richPipe: ошпаривание

Я пытаюсь решить проблему, в которой я должен пройтись по всем значениям в pipe. Чтобы смоделировать мою проблему, я объясню через примерную проблему Input file : number 1 2 3 4 Output should be number sumOfSmaller 1 0 2 1 3 3 4 6 Поэтому для каждог…
22 янв '16 в 21:57
0 ответов

Scalding: Как уменьшить вычисления в памяти в списках?

С помощью Scalding я пытаюсь найти расстояние редактирования между парами похожих строк. Всего у меня есть 10 000 000 строк в файле CSV. Для сокращения вычислений я использую следующий алгоритм: Разделите все строки в группы, используя первые три си…
31 июл '14 в 16:07
1 ответ

Как mapTo более эффективен, чем map в Scalding?

Ссылка Scalding на Github ( https://github.com/twitter/scalding/wiki/Fields-based-API-Reference) гласит следующее: MapTo эквивалентно отображению и затем проецированию на новые поля, но более эффективно. Таким образом, следующие две строки дают один…
05 сен '14 в 20:57
1 ответ

Вывод Scalding TypedPipe в SequenceFile в нескольких каталогах на основе одного из полей

Я использую Scalding в Hadoop, у меня есть большой набор данных в форме TypedPipe, который я хочу выводить порциями на основе одного из полей данных. Например, данные <category, field1, field2>и я хочу, чтобы данные для каждой категории сохран…
10 май '15 в 10:08
0 ответов

Масштабирующая запись в JDBCSource, имеющий более 22 столбцов

Есть ли способ обжига для записи в таблицу SQL, которая имеет более 22 столбцов? Проблема, с которой я сталкиваюсь, заключается в следующем. У меня есть таблица, которая имеет 28 столбцов, каждый ряд которых я представляю с использованием класса cas…
09 ноя '15 в 22:20
1 ответ

Как объявить зависимость от Scalding в проекте sbt?

Я пытаюсь выяснить, как создать build.sbt файл для моего собственного проекта на базе Scalding. Масштабирующая исходная структура не имеет build.sbt файл. Вместо этого он имеет project/Build.scala Построить определение. Как правильно интегрировать м…
14 июл '14 в 12:47
1 ответ

Ошибка масштабирования задания с VerifyError в EMR версии 4.2.0

У нас есть работа Scalding, которую я хочу запустить на AWS Elastic MapReduce с использованием метки релиза 4.2.0. Эта работа была успешно выполнена на AMI 2.4.2. Когда мы обновили его до AMI 3.7.0, мы столкнулись с java.lang.VerifyError вызвано нес…
23 ноя '15 в 11:35
1 ответ

Проблема зависимости с Scalding и Hadoop с sbt-сборкой

Я пытаюсь построить далеко с sbt простой задачи hadoop, которую я пытаюсь запустить, пытаясь запустить ее на Amazon EMR. Однако когда я бегу sbt assembly Я получаю следующую ошибку: [error] (*:assembly) deduplicate: different file contents found in …
14 сен '13 в 21:59
1 ответ

Законный код не компилируется в Scalding

Я пишу работу в MapReduce в Scalding и испытываю трудности с компиляцией кода, который мне кажется вполне законным. val persistenceBins = List[Int](1000 * 60 * 60, 2 * 1000 * 60 * 60, 4 * 1000 * 60 * 60) val persistenceValues = persistenceBins.map(b…
17 июл '14 в 16:05
1 ответ

Используйте AWS Java SDK внутри EMR Job

У меня есть работа Scalding, упакованная в fatjar и работающая на кластере EMR Hadoop. Недавно я добавил новую функцию, требующую подключения DynamoDB внутри карты. Но как только маппер достигает инициализации DynamoDB, он выдает следующее исключени…
31 янв '17 в 20:20
1 ответ

Ошпаривание, выравнивание полей после groupBy

Я вижу это: Scalding: Как сохранить другое поле после groupBy('field){. Size}? это настоящая боль и беспорядок по сравнению с Apache Pig... Что я делаю не так? Могу ли я сделать то же самое, что и GENERATE(FLATTEN()) свинья? Я не совсем понимаю. Вот…
23 сен '14 в 12:14
2 ответа

Масштабирование: создание списка из столбца в трубе

Мне нужно взять канал, у которого есть столбец меток со связанными значениями, и повернуть этот канал так, чтобы для каждой метки был столбец с правильными значениями в каждом столбце. Вот пример, если у меня есть это: Id Label Value 1 Red 5 1 Blue …
25 мар '15 в 14:41
1 ответ

Масштабирование конвертировать один ряд в несколько

Итак, у меня есть ошпаривающий канал, который содержит записи в форме (String, Map[String, Int]). Мне нужно преобразовать каждый экземпляр этой строки в несколько строк. То есть, если бы я ("Тип A", ["a1" -> 2, "a2" ->2, "a3" -> 3]) Мне нужно в каче…
01 май '15 в 21:39
1 ответ

Учебник по масштабированию: ошибки rsync HDFS

Помогите, пожалуйста, разобраться в результатах неудачного запуска Scalding на Hadoop. Я получил последний дистрибутив Scalding от git: git clone https://github.com/twitter/scalding.git После sbt assembly от scalding каталог я попытался запустить уч…
03 июл '14 в 16:14
0 ответов

TextLine не дает байтового смещения (Scalding)

TextLine не дает байтового смещения строки согласно документации. Вместо этого он дает номер строки. Вывод также вставлен ниже. TextLine(input).write(Tsv(output)) 0 This is the 100th Etext file presented by Project Gutenberg, and 1 is presented in c…
08 окт '18 в 04:05