ElasticMapReduce потоковый сжатый вывод

Я выполняю потоковые задания с помощью сценариев Python для карты и сокращения. Поток работ, который я создаю с помощью библиотеки boto.

Я использую входные файлы gzip. Как я могу создать выходные файлы gzip?

1 ответ

Я использую Java для обработки файлов GZIP и генерировать вывод в сжатие GZIP. Я использую ниже код

    FileOutputFormat.setCompressOutput(job, true);
    FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);  
    FileOutputFormat.setOutputPath(job, output path));

Я надеюсь, что вы найдете похожий API/ код в Python.

Вы можете генерировать файлы gzip в качестве вашего сгенерированного вывода. Передайте '-D mapred.output.compress=true -D mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec' в качестве опции для задания потоковой передачи.

Другие вопросы по тегам