Elasticsearch-Hadoop получить неиндексированные данные

Question

Elasticsearch-Hadoop получить неиндексированные данные

У меня есть кластер эластичного поиска, который имеет большой объем данных. Я хочу извлечь все данные из asticsearch в Hadoop(Hive). Я использовал драйвер Elasticsearch-Hadoop для извлечения данных из эластичного поиска с использованием внешней таблицы Hive, но он слишком медленный и всегда не справляется с задачей.

Моя первая проблема - получить все данные из моего существующего кластера эластичного поиска. Вторая проблема заключается в дублировании всех данных, которые передаются в эластичный поиск по HDFS, один раз в день или час.

Как я могу достичь этого?

Заранее спасибо.

1

elasticsearch hadoop hadoop-streaming elastic-map-reduce elasticsearch-hadoop

Источник

user1672029 13 мар '15 в 15:45

1 ответ

Решение

Другие вопросы по тегам elasticsearch hadoop hadoop-streaming elastic-map-reduce elasticsearch-hadoop

user2813959 10 апр '15 в 10:01 2015-04-10 10:01 · Accepted Answer · 2015-04-10 10:01

Вы можете использовать систему hadoop в качестве хранилища для хранения данных, откуда вы можете отправлять данные в эластичный поиск и наоборот. Попробуйте использовать эластичный поиск только для тех данных, для которых вы хотите провести анализ, в настоящее время удалите оставшиеся данные из эластичного поиска. Поэтому каждый раз, когда вы хотите провести анализ по различным аспектам, извлекайте эти данные из hadoop и используйте их.