Morphline Читать один большой файл

У меня есть таблица Hive, которую я пытаюсь проиндексировать в SolrCloud с помощью morphline, однако данные за таблицей Hive составляют ОДИН большой файл 20 ГБ, который для обработки morphline занимает много времени.

Вместо запуска нескольких мапперов и редукторов может быть запущен только один маппер, вероятно, из-за того, что у нас есть только один файл.

yarn jar /opt/<path>/search-mr-1.0.0-cdh5.5.1-job.jar \
org.apache.solr.hadoop.MapReduceIndexerTool \
--morphline-file morphlines.conf \
--output-dir hdfs://<outputdir> \
--zk-host node1.datafireball.com:2181/solr \
--collection <collectionname> \
--input-list <filewherethedatais> \
--mappers 6 

И он все еще выбрасывает только 1 работу... и это требует вечности, кто-нибудь может пролить свет на это?

Ресурсы, которые могут оказаться полезными:

  1. Cloudera Mapreduce Пакетный индекс в Solrcloud
  2. Kitesdk, которому принадлежит морфлайн.

0 ответов

Другие вопросы по тегам