Elasticsearch Hadoop настроить размер партии
Я прочитал, возможно, Stackru, что проекты es-hadoop / es-spark используют массовую индексацию. Если это так, размер пакета по умолчанию соответствует BulkProcessor(5Mb). Есть ли конфигурация, чтобы изменить это.
я использую JavaEsSparkSQL.saveToEs(dataset,index)
в моем коде, и я хочу знать, какие доступные конфигурации доступны для настройки производительности. Связано ли это также с разделением набора данных.
1 ответ
Найденные настройки на их странице конфигурации
es.batch.size.bytes (default 1mb)
Размер (в байтах) для пакетной записи с использованием массового API Elasticsearch. Обратите внимание, что общий размер выделяется для каждого экземпляра задачи. Всегда умножайте количество задач в задании Hadoop, чтобы получить общий объемный объем во время выполнения, поражающий Elasticsearch.
es.batch.size.entries (default 1000)
Размер (в записях) для пакетной записи с использованием API -интерфейса Elasticsearch - (0 отключает его). В дополнение к es.batch.size.bytes, при совпадении, выполняется пакетное обновление. Подобно размеру, этот параметр относится к экземпляру задачи; во время выполнения он умножается на общее количество запущенных задач Hadoop.