Описание тега recordreader

3 ответа

Как мне конвертировать EBCDIC в TEXT, используя Hadoop Mapreduce

Мне нужно проанализировать формат входного файла EBCDIC. Используя Java, я могу прочитать это, как показано ниже: InputStreamReader rdr = new InputStreamReader(new FileInputStream("/Users/rr/Documents/workspace/EBCDIC_TO_ASCII/ebcdic.txt"), java.nio…
19 янв '16 в 05:32
1 ответ

Java-код для открытия защищенного паролем zip-файла, который открывается только с 7zx и keka в Mac OS

У меня есть защищенный паролем почтовый файл, который открывается только с 7zx и keka в Mac. Я должен написать код в Java, чтобы распаковать zip-файл, защищенный паролем, а затем выполнить некоторые операции с ним. Я пытался использовать Sevenz API …
21 дек '16 в 11:12
1 ответ

Как метод mapper run() обрабатывает последнюю запись?

public void run(Context context) throws IOException, InterruptedException { setup(context); while (context.nextKeyValue()) { map(context.getCurrentKey(), context.getCurrentValue(), context); } cleanup(context); } При использовании приведенного выше …
17 мар '15 в 17:14
1 ответ

Hadoop 2: пустой результат при использовании пользовательского InputFormat

Я хочу использовать свой собственный FileInputFormat с обычаем RecordReader читать данные CSV в <Long><String> пар. Поэтому я создал класс MyTextInputFormat: import java.io.IOException; import org.apache.hadoop.fs.FileSystem; import org.…
27 июн '16 в 09:15
2 ответа

Передача аргументов читателю записи в mapreduce hadoop

Это мой код для использования variours arg import java.io.File; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.…
28 сен '15 в 08:18
2 ответа

Нужна ли реализация Hadoop MapReduce RecordReader?

Из документа Apache об интерфейсе InputFormat Hadoop MapReduce: " [L] Огическое разбиение на основе входного размера недостаточно для многих приложений, поскольку необходимо соблюдать границы записей. В таких случаях приложение должно также реализов…
06 авг '15 в 13:10
0 ответов

PDF Сохранить макет для текста Haoop Mapreduce

Мне нужно преобразовать PDFPreserveLayout в текстовый файл в Mapreduce, я использую PDFBOX для преобразования обычного PDF-файла в текстовый файл, но он не работает для pdfpreservelayout. Может ли кто-нибудь помочь в решении этой проблемы?
04 янв '16 в 12:58
1 ответ

Основы MapReduce

У меня есть текстовый файл 300 МБ с размером блока 128 МБ. Таким образом, всего будет создано 3 блока 128+128+44 мб. Поправьте меня - для уменьшения карты разделение ввода по умолчанию совпадает с размером блока 128 МБ, который можно настроить. Тепе…
11 дек '17 в 20:28
3 ответа

Реализация пользовательских программ чтения Hadoop

Я не могу понять, что происходит в методе nextKeyValue(), объясненном по ссылке ниже: http://analyticspro.org/2012/08/01/wordcount-with-custom-record-reader-of-textinputformat/ особенно цикл for в nextKeyValue() Любая помощь будет заметна заранее сп…
20 авг '15 в 05:17
1 ответ

mapreduce.TextInputFormat hadoop

Я начинающий хадооп. Я натолкнулся на эту пользовательскую программу RecordReader, которая читает 3 строки за раз и выводит число раз, когда 3-строчный ввод был дан мапперу. Я могу понять, почему используется RecordReader, но я не могу понять, как к…
16 авг '14 в 12:55
2 ответа

Пользовательская инициализация RecordReader не вызывается

Я недавно начал возиться с Hadoop и просто создал свой собственный формат ввода для обработки PDF. По какой-то причине мой пользовательский класс RecordReader не имеет вызванного метода инициализации. (проверил это с помощью sysout, потому что я не …
18 фев '14 в 13:43
0 ответов

MapReduce - RecordReader для неровных линий

Я работаю над написанием пользовательского RecordReader для обработки ежедневных наборов данных, которые будут содержать сотни тысяч записей. Большинство записей будет проходить через одну строку, оканчивающуюся символом LF. Отдельные поля в записи …
16 авг '18 в 12:59
1 ответ

Как читать простой CSV-файл с помощью Datavec

Я хочу прочитать простой CSV-файл со списком чисел, используя Datavec, для использования в Deeplearning4j. Я пробовал множество примеров, но продолжаю получать ошибки. например, когда я выполню это: RecordReader rrTest = new CSVRecordReader(); rrTes…
07 фев '18 в 06:59
0 ответов

Mapreduce: объяснение кода читателя

Может кто-нибудь объяснить следующий код: public RecordReader createRecordReader (разделение InputSplit, контекст TaskAttemptContext) { return new EmailRecordReader();
24 ноя '17 в 16:57
1 ответ

Hadoop Map Reduction Testing - программа для чтения пользовательских записей

Я написал специальную программу для чтения записей и ищу пример тестового кода для тестирования своей программы для чтения с помощью MRUnit или любой другой среды тестирования. Он работает нормально в соответствии с функциональностью, но я хотел бы …
11 мар '14 в 04:14
2 ответа

Чтение записи разбито на две строки из-за /n в MapReduce

Я пытаюсь написать пользовательский ридер, который служит мне для чтения записи (состоящей из двух строк) с определенным количеством полей. Например, 1,2,3,4("," can be there or not) ,5,6,7,8 Мое требование - прочитать запись и вставить ее в маппер …
21 янв '15 в 13:18
0 ответов

Преждевременный EOF из inputStream в Hadoop

Я хочу читать большие файлы в Hadoop, блок за блоком (не строка за строкой), где каждый блок имеет размер почти 5 МБ. Для этого я написал обычай recordreader, Но это дает мне ошибку Premature EOF from inputStream, который вызван nextKeyValue(), read…
14 июн '14 в 10:04
1 ответ

Разбор Hadoop + Джексона: ObjectMapper читает Object, а затем разбивает

Я реализую JSON RecordReader в Hadoop с Джексоном. К настоящему времени я тестирую локально с помощью JUnit + MRUnit. Файлы JSON содержат по одному объекту, который после некоторых заголовков имеет поле, значением которого является массив записей, к…
07 ноя '14 в 14:04
1 ответ

Hadoop Mapreduce со сжатыми / зашифрованными файлами (файл большого размера)

У меня есть кластер hdfs, который хранит большие CSV-файлы в сжатом / зашифрованном виде по выбору конечного пользователя. Для сжатия, шифрования я создал поток ввода оболочки, который передает данные в HDFS в сжатом / зашифрованном виде. Использует…
1 ответ

Mapreduce combfileinputformat java.lang.reflect.InvocationTargetException, когда два задания получают доступ к одним и тем же данным.

Hadoop Mapreduce CombineFileInputFormat отлично работает, когда дело доходит до чтения большого количества файлов небольшого размера, однако я заметил, что иногда происходит сбой задания со следующим исключением: java.lang.RuntimeException: java.lan…