Как заставить содержимое файла обрабатываться последовательно?

Question

Как заставить содержимое файла обрабатываться последовательно?

Я получил требование обрабатывать файл как есть, значит, содержимое файла должно быть обработано так, как оно отображается в файле.

Например: у меня есть файл размером 700 МБ. Как мы можем убедиться, что файл будет обработан так, как он выглядит, поскольку это зависит от доступности Datanode. В некоторых случаях, если какой-либо из Datanode обрабатывает файл медленно (низкая конфигурация).

Один из способов исправить это, добавить уникальный идентификатор / ключ в файл, но мы не хотим добавлять что-либо новое в файл.

Какие-нибудь мысли:)

0

hadoop hive mapreduce hdfs bigsql

Источник

user3659459 16 фев '16 в 08:58

1 ответ

Другие вопросы по тегам hadoop hive mapreduce hdfs bigsql

user1662167 16 фев '16 в 10:06 2016-02-16 10:06 · Answer 1 · 2016-02-16 10:06

Вы можете гарантировать, что только один маппер вычислит содержимое файла, написав свой собственный FileInputFormat который устанавливает isSplitable ложно. Например

public class WholeFileInputFormat extends FileInputFormat<Text, BytesWritable> {
        @Override
        protected boolean isSplitable(FileSystem fs, Path filename) {
            return false;
        }


        @Override
        public RecordReader<Text, BytesWritable> getRecordReader(
          InputSplit split, JobConf job, Reporter reporter) throws IOException {
            return new WholeFileRecordReader((FileSplit) split, job);
        }
}

Для большего количества примеров, как это сделать, я хотел бы порекомендовать проект GitHub. В зависимости от вашей версии hadoop могут потребоваться небольшие изменения.