Описание тега input-split

1 ответ

Входные расщепления в Hadoop

Если размер входного файла составляет 200 МБ, будет 4 блока / входные разбиения, но на каждом узле данных будет работать маппер. Если все 4 входных разбиения находятся в одном узле данных, то будет выполнена только одна задача карты?или как количест…
11 фев '16 в 07:00
1 ответ

Почему чанки разделяются, хотя размер файла не 64 МБ?

Я загружал данные из твиттера, используя flume в hdfs. Хотя у меня есть данные больше чем 2 ГБ, мои фрагменты файла чанка меньше чем 64 МБ. т.е. 1-й файл с 300 КБ,2-й файл - 566 КБ. Почему это происходит?
09 фев '15 в 08:22
1 ответ

Меняет ли блоки разбиения, такие как FileSplit в Haddop?

Первый вопрос: я хочу знать, изменяет ли разделение блоков каким-либо образом (то есть изменяет размер, перемещает блок в другое место, создает новые блоки...). Второй вопрос: я думаю, что разбиения не изменяют блоки, но указывают, где должен сущест…
27 ноя '16 в 19:45
1 ответ

InputSplits в mapreduce

Я только начал изучать Mapreduce и у меня есть несколько вопросов, на которые я хочу получить ответы. Вот оно: 1) Случай 1: FileInputFormat в качестве формата ввода. Каталог, содержащий несколько файлов для обработки, является входным путем. Если у …
17 ноя '17 в 06:41
2 ответа

Нужна ли реализация Hadoop MapReduce RecordReader?

Из документа Apache об интерфейсе InputFormat Hadoop MapReduce: " [L] Огическое разбиение на основе входного размера недостаточно для многих приложений, поскольку необходимо соблюдать границы записей. В таких случаях приложение должно также реализов…
06 авг '15 в 13:10
2 ответа

Wordcount: более 1 задачи карты на блок, с отключенным спекулятивным выполнением

В Wordcount кажется, что вы можете получить более 1 задачи карты на блок, с отключенным спекулятивным выполнением. Делает ли Jobtracker какую-то магию под капотом, чтобы распределить задачи больше, чем предусмотрено InputSplits?
11 сен '13 в 17:18
2 ответа

Количество входных разбиений равно количеству картографов?

Я обрабатываю один файл с картой, уменьшив этот размер файла до 1 ГБ, а размер моего блока по умолчанию в HDFS составляет 64 МБ, так что для этого примера, сколько разделений ввода и сколько картографов?
07 окт '15 в 12:03
1 ответ

Основы MapReduce

У меня есть текстовый файл 300 МБ с размером блока 128 МБ. Таким образом, всего будет создано 3 блока 128+128+44 мб. Поправьте меня - для уменьшения карты разделение ввода по умолчанию совпадает с размером блока 128 МБ, который можно настроить. Тепе…
11 дек '17 в 20:28
1 ответ

Расположение HadoopPartition

У меня есть набор данных в CSV-файле, который занимает два блока в HDFS и реплицируется на двух узлах, A и B. У каждого узла есть копия набора данных. Когда Spark начинает обрабатывать данные, я видел два способа, как Spark загружает набор данных в …
03 июл '15 в 17:56
1 ответ

hadoop - как бы сформировались входные разбиения, если файл имеет только одну запись, а размер файла больше размера блока?

пример для объяснения вопроса - у меня есть файл размером 500 МБ (input.csv) файл содержит только одну строку (запись) так как файл будет храниться в блоках HDFS и как будут вычисляться входные разбиения?
02 мар '16 в 04:28
3 ответа

Разделение ввода Hadoop для сжатого блока

Если у меня сжатый файл объемом 1 ГБ, который можно разделить, и по умолчанию размер блока и размер входного разбиения составляет 128 МБ, то создается 8 блоков и 8 входных разделений. Когда сжатый блок считывается по карте, он распаковывается и, ска…
25 окт '15 в 15:22
2 ответа

Как прочитать запись, которая разбита на несколько строк, а также как обрабатывать поврежденные записи во время разделения ввода

У меня есть файл журнала, как показано ниже Begin ... 12-07-2008 02:00:05 ----> record1 incidentID: inc001 description: blah blah blah owner: abc status: resolved end .... 13-07-2008 02:00:05 Begin ... 12-07-2008 03:00:05 ----> record2 inciden…
18 июл '13 в 02:23
1 ответ

Вычисление входных разбиений в MapReduce

Файл хранится в HDFS размером 260 МБ, тогда как размер блока HDFS по умолчанию составляет 64 МБ. Выполнив работу по уменьшению карты для этого файла, я обнаружил, что количество входных разбиений, которые он создает, составляет всего 4. как рассчита…
11 фев '18 в 18:33
0 ответов

Как выбрать верхние строки в hadoop?

Я читаю файл Hadoop размером 138 МБ и пытаюсь присвоить порядковые номера каждой записи. Ниже приведен подход, которому я следовал. Я прочитал весь файл, используя каскадирование, назначенный номер текущей секции и счетчик текущей записи для каждой …
1 ответ

Эффективность вычислений InputSplit в NLineInputFormat

Я посмотрел в getSplitsForFile() Fn NLineInputFormat. Я обнаружил, что InputStream создается для входного файла, а затем его итерация и разбиения создаются каждые n строк. Это эффективно? Особенно, когда эта операция чтения происходит на 1 узле пере…
16 авг '14 в 07:12
1 ответ

Учитывает ли податель задания hadoop при расчете разбиений границы записей?

Этот вопрос НЕ является дубликатом: как записи процесса Hadoop разделяются по границам блоков? У меня есть один вопрос, касающийся расчета входного сплита. Согласно руководству Hadoop 1) InputSplits уважают границы записи 2) В то же время говорится,…
01 авг '14 в 14:50
0 ответов

Hadoop map.input.start не граница линии?

Кажется, что свойство map.input.start не дает мне положение начала строки (за исключением, конечно, первого map.input.start, который равен 0). Иногда map.input.start находится где-то посередине первой строки ввода преобразователя, иногда где-то посе…
11 июл '12 в 13:51
0 ответов

Как я могу объяснить Hadoop не разбивать мой файл в какой-то специальной задаче MapReduce?

Учитывая, что у меня есть файл для обработки с Hadoop, и я знаю, что размер файла меньше, чем размер блока HDFS. Гарантирует ли это, что файл не будет разбит, и мне не нужно писать для него InputSplit, потому что по умолчанию он не будет разбиваться…
01 дек '14 в 22:51
1 ответ

Как рассчитываются местоположения на входных разделениях

В "Hadoop - Полное руководство" говорится -> Клиент, выполняющий задание, вычисляет разбиения для задания, вызывая getSplits(), а затем отправляет их в отслеживатель заданий, который использует свои места хранения для планирования задач сопоставлени…
05 сен '13 в 09:08
1 ответ

Mapper не выполняется на имени хоста, возвращенного из getLocations() InputSplit в Hadoop

Я продлил InputSplit класс Hadoop для вычисления моего пользовательского разделения ввода, однако, хотя я возвращаю определенный HostIP(т.е. IP-адрес datanode) в виде строки для переопределенного getLocations (), задача Map для него не выполняется н…
27 сен '15 в 12:30