Описание тега input-split

Вопросы с тегом

1 ответ

Входные расщепления в Hadoop

Если размер входного файла составляет 200 МБ, будет 4 блока / входные разбиения, но на каждом узле данных будет работать маппер. Если все 4 входных разбиения находятся в одном узле данных, то будет выполнена только одна задача карты?или как количест…

hadoop input-split

11 фев '16 в 07:00

1 ответ

Почему чанки разделяются, хотя размер файла не 64 МБ?

Я загружал данные из твиттера, используя flume в hdfs. Хотя у меня есть данные больше чем 2 ГБ, мои фрагменты файла чанка меньше чем 64 МБ. т.е. 1-й файл с 300 КБ,2-й файл - 566 КБ. Почему это происходит?

hadoop block input-split

09 фев '15 в 08:22

1 ответ

Меняет ли блоки разбиения, такие как FileSplit в Haddop?

Первый вопрос: я хочу знать, изменяет ли разделение блоков каким-либо образом (то есть изменяет размер, перемещает блок в другое место, создает новые блоки...). Второй вопрос: я думаю, что разбиения не изменяют блоки, но указывают, где должен сущест…

hadoop input-split

27 ноя '16 в 19:45

1 ответ

InputSplits в mapreduce

Я только начал изучать Mapreduce и у меня есть несколько вопросов, на которые я хочу получить ответы. Вот оно: 1) Случай 1: FileInputFormat в качестве формата ввода. Каталог, содержащий несколько файлов для обработки, является входным путем. Если у …

hadoop mapreduce input-split

17 ноя '17 в 06:41

2 ответа

Нужна ли реализация Hadoop MapReduce RecordReader?

Из документа Apache об интерфейсе InputFormat Hadoop MapReduce: " [L] Огическое разбиение на основе входного размера недостаточно для многих приложений, поскольку необходимо соблюдать границы записей. В таких случаях приложение должно также реализов…

java hadoop mapreduce input-split recordreader

06 авг '15 в 13:10

2 ответа

Wordcount: более 1 задачи карты на блок, с отключенным спекулятивным выполнением

В Wordcount кажется, что вы можете получить более 1 задачи карты на блок, с отключенным спекулятивным выполнением. Делает ли Jobtracker какую-то магию под капотом, чтобы распределить задачи больше, чем предусмотрено InputSplits?

hadoop mapper input-split

11 сен '13 в 17:18

2 ответа

Количество входных разбиений равно количеству картографов?

Я обрабатываю один файл с картой, уменьшив этот размер файла до 1 ГБ, а размер моего блока по умолчанию в HDFS составляет 64 МБ, так что для этого примера, сколько разделений ввода и сколько картографов?

hadoop mapreduce hdfs mapper input-split

07 окт '15 в 12:03

1 ответ

Основы MapReduce

У меня есть текстовый файл 300 МБ с размером блока 128 МБ. Таким образом, всего будет создано 3 блока 128+128+44 мб. Поправьте меня - для уменьшения карты разделение ввода по умолчанию совпадает с размером блока 128 МБ, который можно настроить. Тепе…

mapreduce input-split recordreader

11 дек '17 в 20:28

1 ответ

Расположение HadoopPartition

У меня есть набор данных в CSV-файле, который занимает два блока в HDFS и реплицируется на двух узлах, A и B. У каждого узла есть копия набора данных. Когда Spark начинает обрабатывать данные, я видел два способа, как Spark загружает набор данных в …

apache-spark load-balancing input-split

03 июл '15 в 17:56

1 ответ

hadoop - как бы сформировались входные разбиения, если файл имеет только одну запись, а размер файла больше размера блока?

пример для объяснения вопроса - у меня есть файл размером 500 МБ (input.csv) файл содержит только одну строку (запись) так как файл будет храниться в блоках HDFS и как будут вычисляться входные разбиения?

hadoop mapreduce hdfs input-split

02 мар '16 в 04:28

3 ответа

Разделение ввода Hadoop для сжатого блока

Если у меня сжатый файл объемом 1 ГБ, который можно разделить, и по умолчанию размер блока и размер входного разбиения составляет 128 МБ, то создается 8 блоков и 8 входных разделений. Когда сжатый блок считывается по карте, он распаковывается и, ска…

hadoop input-split

25 окт '15 в 15:22

2 ответа

Как прочитать запись, которая разбита на несколько строк, а также как обрабатывать поврежденные записи во время разделения ввода

У меня есть файл журнала, как показано ниже Begin ... 12-07-2008 02:00:05 ----> record1 incidentID: inc001 description: blah blah blah owner: abc status: resolved end .... 13-07-2008 02:00:05 Begin ... 12-07-2008 03:00:05 ----> record2 inciden…

hadoop mapreduce input-split

18 июл '13 в 02:23

1 ответ

Вычисление входных разбиений в MapReduce

Файл хранится в HDFS размером 260 МБ, тогда как размер блока HDFS по умолчанию составляет 64 МБ. Выполнив работу по уменьшению карты для этого файла, я обнаружил, что количество входных разбиений, которые он создает, составляет всего 4. как рассчита…

hadoop mapreduce hadoop2 input-split

11 фев '18 в 18:33

0 ответов

Как выбрать верхние строки в hadoop?

Я читаю файл Hadoop размером 138 МБ и пытаюсь присвоить порядковые номера каждой записи. Ниже приведен подход, которому я следовал. Я прочитал весь файл, используя каскадирование, назначенный номер текущей секции и счетчик текущей записи для каждой …

hadoop mapreduce cascading hadoop-partitioning input-split

20 июл '15 в 11:23

1 ответ

Эффективность вычислений InputSplit в NLineInputFormat

Я посмотрел в getSplitsForFile() Fn NLineInputFormat. Я обнаружил, что InputStream создается для входного файла, а затем его итерация и разбиения создаются каждые n строк. Это эффективно? Особенно, когда эта операция чтения происходит на 1 узле пере…

java hadoop input-split

16 авг '14 в 07:12

1 ответ

Учитывает ли податель задания hadoop при расчете разбиений границы записей?

Этот вопрос НЕ является дубликатом: как записи процесса Hadoop разделяются по границам блоков? У меня есть один вопрос, касающийся расчета входного сплита. Согласно руководству Hadoop 1) InputSplits уважают границы записи 2) В то же время говорится,…

hadoop mapreduce input-split

01 авг '14 в 14:50

0 ответов

Hadoop map.input.start не граница линии?

Кажется, что свойство map.input.start не дает мне положение начала строки (за исключением, конечно, первого map.input.start, который равен 0). Иногда map.input.start находится где-то посередине первой строки ввода преобразователя, иногда где-то посе…

hadoop streaming input-split

11 июл '12 в 13:51

0 ответов

Как я могу объяснить Hadoop не разбивать мой файл в какой-то специальной задаче MapReduce?

Учитывая, что у меня есть файл для обработки с Hadoop, и я знаю, что размер файла меньше, чем размер блока HDFS. Гарантирует ли это, что файл не будет разбит, и мне не нужно писать для него InputSplit, потому что по умолчанию он не будет разбиваться…

hadoop mapreduce input-split

01 дек '14 в 22:51

1 ответ

Как рассчитываются местоположения на входных разделениях

В "Hadoop - Полное руководство" говорится -> Клиент, выполняющий задание, вычисляет разбиения для задания, вызывая getSplits(), а затем отправляет их в отслеживатель заданий, который использует свои места хранения для планирования задач сопоставлени…

java hadoop input-split

05 сен '13 в 09:08

1 ответ

Mapper не выполняется на имени хоста, возвращенного из getLocations() InputSplit в Hadoop

Я продлил InputSplit класс Hadoop для вычисления моего пользовательского разделения ввода, однако, хотя я возвращаю определенный HostIP(т.е. IP-адрес datanode) в виде строки для переопределенного getLocations (), задача Map для него не выполняется н…

hadoop mapreduce yarn hadoop2 input-split

27 сен '15 в 12:30