Как я могу объяснить Hadoop не разбивать мой файл в какой-то специальной задаче MapReduce?

  1. Учитывая, что у меня есть файл для обработки с Hadoop, и я знаю, что размер файла меньше, чем размер блока HDFS. Гарантирует ли это, что файл не будет разбит, и мне не нужно писать для него InputSplit, потому что по умолчанию он не будет разбиваться?

  2. Учитывая, что файл, сохраненный с SequenceFileOutputFormat (или каким-либо другим форматом вывода), больше, чем размер блока, но состоит только из одной пары ключ-значение. Означает ли это, что файловые блоки будут храниться на том же узле (за исключением реплицированных копий), и задача MapReduce не будет тратить много времени на их извлечение? Означает ли это, что мне не нужно писать свой собственный inputSplit, потому что ключ не будет разделен (размер ключа меньше размера блока и есть только один ключ)?

0 ответов

Другие вопросы по тегам