Elasticsearch Hadoop настроить размер партии

Я прочитал, возможно, Stackru, что проекты es-hadoop / es-spark используют массовую индексацию. Если это так, размер пакета по умолчанию соответствует BulkProcessor(5Mb). Есть ли конфигурация, чтобы изменить это.

я использую JavaEsSparkSQL.saveToEs(dataset,index) в моем коде, и я хочу знать, какие доступные конфигурации доступны для настройки производительности. Связано ли это также с разделением набора данных.

1 ответ

Найденные настройки на их странице конфигурации

es.batch.size.bytes (default 1mb)

Размер (в байтах) для пакетной записи с использованием массового API Elasticsearch. Обратите внимание, что общий размер выделяется для каждого экземпляра задачи. Всегда умножайте количество задач в задании Hadoop, чтобы получить общий объемный объем во время выполнения, поражающий Elasticsearch.

es.batch.size.entries (default 1000)

Размер (в записях) для пакетной записи с использованием API -интерфейса Elasticsearch - (0 отключает его). В дополнение к es.batch.size.bytes, при совпадении, выполняется пакетное обновление. Подобно размеру, этот параметр относится к экземпляру задачи; во время выполнения он умножается на общее количество запущенных задач Hadoop.

Другие вопросы по тегам