Описание тега scalding
Scalding - это scala DSL для каскадирования, работающий на Hadoop.
1
ответ
Можно ли получить доступ к базовому org.apache.hadoop.mapreduce.Job из задания Scalding?
В моей работе Scalding у меня есть такой код: import org.apache.hadoop.mapreduce.lib.input.FileInputFormat class MyJob(args: Args) extends Job(args) { FileInputFormat.setInputPathFilter(???, classOf[MyFilter]) // ... rest of job ... } class MyFilter…
05 май '16 в 10:36
1
ответ
Ошпаривание: исходная схема из работы с трубами
Я читаю файлы в HDFS через ошпаривание, агрегирование по некоторым полям и запись в файл с разделителями табуляции через TSV. Как я могу выписать файл, который содержит схему моего выходного файла? Например, UnpackedAvroSource(args("input")) .projec…
15 дек '14 в 18:04
1
ответ
Обжига: не может уменьшить с частичной функцией
Я использую обжига, чтобы делать простой тип подсчета слов. Я получаю сообщение об ошибке при использовании частичной функции для расширения кортежа. Точное сообщение об ошибке: Error:(15, 14) missing parameter type for expanded function The argumen…
13 июл '16 в 18:50
0
ответов
Обжигающие работают на группу после groupBy
Я пишу ошпаривающую работу. Вот что я хочу сделать: первая группа по ключу. Это должно дать мне кучу пар (Key, Iterator[Value]) для каждого ключа (поправьте меня, если я здесь не прав). Затем для каждой лей я хочу применить функцию к связанному с не…
04 июн '17 в 04:55
2
ответа
Почему Scala не может вывести аргумент типа, когда он очевиден?
В следующем примере я пытался создать неявное преобразование между MySource а также TypedPipe[T], я владею MySourceНа самом деле у меня много таких источников, поэтому я хотел использовать Porable[T] черта, чтобы отметить, какой тип аргумента T Я хо…
09 июн '15 в 07:47
1
ответ
Перебрать значения в richPipe: ошпаривание
Я пытаюсь решить проблему, в которой я должен пройтись по всем значениям в pipe. Чтобы смоделировать мою проблему, я объясню через примерную проблему Input file : number 1 2 3 4 Output should be number sumOfSmaller 1 0 2 1 3 3 4 6 Поэтому для каждог…
22 янв '16 в 21:57
0
ответов
Scalding: Как уменьшить вычисления в памяти в списках?
С помощью Scalding я пытаюсь найти расстояние редактирования между парами похожих строк. Всего у меня есть 10 000 000 строк в файле CSV. Для сокращения вычислений я использую следующий алгоритм: Разделите все строки в группы, используя первые три си…
31 июл '14 в 16:07
1
ответ
Как mapTo более эффективен, чем map в Scalding?
Ссылка Scalding на Github ( https://github.com/twitter/scalding/wiki/Fields-based-API-Reference) гласит следующее: MapTo эквивалентно отображению и затем проецированию на новые поля, но более эффективно. Таким образом, следующие две строки дают один…
05 сен '14 в 20:57
1
ответ
Вывод Scalding TypedPipe в SequenceFile в нескольких каталогах на основе одного из полей
Я использую Scalding в Hadoop, у меня есть большой набор данных в форме TypedPipe, который я хочу выводить порциями на основе одного из полей данных. Например, данные <category, field1, field2>и я хочу, чтобы данные для каждой категории сохран…
10 май '15 в 10:08
0
ответов
Масштабирующая запись в JDBCSource, имеющий более 22 столбцов
Есть ли способ обжига для записи в таблицу SQL, которая имеет более 22 столбцов? Проблема, с которой я сталкиваюсь, заключается в следующем. У меня есть таблица, которая имеет 28 столбцов, каждый ряд которых я представляю с использованием класса cas…
09 ноя '15 в 22:20
1
ответ
Как объявить зависимость от Scalding в проекте sbt?
Я пытаюсь выяснить, как создать build.sbt файл для моего собственного проекта на базе Scalding. Масштабирующая исходная структура не имеет build.sbt файл. Вместо этого он имеет project/Build.scala Построить определение. Как правильно интегрировать м…
14 июл '14 в 12:47
1
ответ
Ошибка масштабирования задания с VerifyError в EMR версии 4.2.0
У нас есть работа Scalding, которую я хочу запустить на AWS Elastic MapReduce с использованием метки релиза 4.2.0. Эта работа была успешно выполнена на AMI 2.4.2. Когда мы обновили его до AMI 3.7.0, мы столкнулись с java.lang.VerifyError вызвано нес…
23 ноя '15 в 11:35
1
ответ
Проблема зависимости с Scalding и Hadoop с sbt-сборкой
Я пытаюсь построить далеко с sbt простой задачи hadoop, которую я пытаюсь запустить, пытаясь запустить ее на Amazon EMR. Однако когда я бегу sbt assembly Я получаю следующую ошибку: [error] (*:assembly) deduplicate: different file contents found in …
14 сен '13 в 21:59
1
ответ
Законный код не компилируется в Scalding
Я пишу работу в MapReduce в Scalding и испытываю трудности с компиляцией кода, который мне кажется вполне законным. val persistenceBins = List[Int](1000 * 60 * 60, 2 * 1000 * 60 * 60, 4 * 1000 * 60 * 60) val persistenceValues = persistenceBins.map(b…
17 июл '14 в 16:05
1
ответ
Используйте AWS Java SDK внутри EMR Job
У меня есть работа Scalding, упакованная в fatjar и работающая на кластере EMR Hadoop. Недавно я добавил новую функцию, требующую подключения DynamoDB внутри карты. Но как только маппер достигает инициализации DynamoDB, он выдает следующее исключени…
31 янв '17 в 20:20
1
ответ
Ошпаривание, выравнивание полей после groupBy
Я вижу это: Scalding: Как сохранить другое поле после groupBy('field){. Size}? это настоящая боль и беспорядок по сравнению с Apache Pig... Что я делаю не так? Могу ли я сделать то же самое, что и GENERATE(FLATTEN()) свинья? Я не совсем понимаю. Вот…
23 сен '14 в 12:14
2
ответа
Масштабирование: создание списка из столбца в трубе
Мне нужно взять канал, у которого есть столбец меток со связанными значениями, и повернуть этот канал так, чтобы для каждой метки был столбец с правильными значениями в каждом столбце. Вот пример, если у меня есть это: Id Label Value 1 Red 5 1 Blue …
25 мар '15 в 14:41
1
ответ
Масштабирование конвертировать один ряд в несколько
Итак, у меня есть ошпаривающий канал, который содержит записи в форме (String, Map[String, Int]). Мне нужно преобразовать каждый экземпляр этой строки в несколько строк. То есть, если бы я ("Тип A", ["a1" -> 2, "a2" ->2, "a3" -> 3]) Мне нужно в каче…
01 май '15 в 21:39
1
ответ
Учебник по масштабированию: ошибки rsync HDFS
Помогите, пожалуйста, разобраться в результатах неудачного запуска Scalding на Hadoop. Я получил последний дистрибутив Scalding от git: git clone https://github.com/twitter/scalding.git После sbt assembly от scalding каталог я попытался запустить уч…
03 июл '14 в 16:14
0
ответов
TextLine не дает байтового смещения (Scalding)
TextLine не дает байтового смещения строки согласно документации. Вместо этого он дает номер строки. Вывод также вставлен ниже. TextLine(input).write(Tsv(output)) 0 This is the 100th Etext file presented by Project Gutenberg, and 1 is presented in c…
08 окт '18 в 04:05