Elasticsearch-Hadoop получить неиндексированные данные
У меня есть кластер эластичного поиска, который имеет большой объем данных. Я хочу извлечь все данные из asticsearch в Hadoop(Hive). Я использовал драйвер Elasticsearch-Hadoop для извлечения данных из эластичного поиска с использованием внешней таблицы Hive, но он слишком медленный и всегда не справляется с задачей.
Моя первая проблема - получить все данные из моего существующего кластера эластичного поиска. Вторая проблема заключается в дублировании всех данных, которые передаются в эластичный поиск по HDFS, один раз в день или час.
Как я могу достичь этого?
Заранее спасибо.
1 ответ
Вы можете использовать систему hadoop в качестве хранилища для хранения данных, откуда вы можете отправлять данные в эластичный поиск и наоборот. Попробуйте использовать эластичный поиск только для тех данных, для которых вы хотите провести анализ, в настоящее время удалите оставшиеся данные из эластичного поиска. Поэтому каждый раз, когда вы хотите провести анализ по различным аспектам, извлекайте эти данные из hadoop и используйте их.