ElasticMapReduce потоковый сжатый вывод
Я выполняю потоковые задания с помощью сценариев Python для карты и сокращения. Поток работ, который я создаю с помощью библиотеки boto.
Я использую входные файлы gzip. Как я могу создать выходные файлы gzip?
1 ответ
Я использую Java для обработки файлов GZIP и генерировать вывод в сжатие GZIP. Я использую ниже код
FileOutputFormat.setCompressOutput(job, true);
FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);
FileOutputFormat.setOutputPath(job, output path));
Я надеюсь, что вы найдете похожий API/ код в Python.
Вы можете генерировать файлы gzip в качестве вашего сгенерированного вывода. Передайте '-D mapred.output.compress=true -D mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec' в качестве опции для задания потоковой передачи.