Elasticsearch-Hadoop получить неиндексированные данные

У меня есть кластер эластичного поиска, который имеет большой объем данных. Я хочу извлечь все данные из asticsearch в Hadoop(Hive). Я использовал драйвер Elasticsearch-Hadoop для извлечения данных из эластичного поиска с использованием внешней таблицы Hive, но он слишком медленный и всегда не справляется с задачей.

Моя первая проблема - получить все данные из моего существующего кластера эластичного поиска. Вторая проблема заключается в дублировании всех данных, которые передаются в эластичный поиск по HDFS, один раз в день или час.

Как я могу достичь этого?

Заранее спасибо.

1 ответ

Решение

Вы можете использовать систему hadoop в качестве хранилища для хранения данных, откуда вы можете отправлять данные в эластичный поиск и наоборот. Попробуйте использовать эластичный поиск только для тех данных, для которых вы хотите провести анализ, в настоящее время удалите оставшиеся данные из эластичного поиска. Поэтому каждый раз, когда вы хотите провести анализ по различным аспектам, извлекайте эти данные из hadoop и используйте их.

Другие вопросы по тегам