Обработка и запрос большого количества больших файлов в формате JSON Lines
По какой технологии лучше всего импортировать большое количество больших файлов формата JSON Line (около 2 ГБ на файл).
Я думаю о Solr.
После того, как данные будут импортированы, они должны будут иметь возможность запроса.
Какую технологию вы бы предложили импортировать, а затем своевременно запрашивать данные формата строки JSON?
1 ответ
Вы можете начать создание прототипов с использованием любого языка сценариев, который вы предпочитаете, чтобы читать строки, массировать формат по мере необходимости, чтобы получить действительный Solr json и отправить его в Solr через HTTP. Будет быстрее, чтобы начать.
В долгосрочной перспективе SolrJ позволит вам получить максимальную производительность (если вам нужно), так как вы можете:
- поразить реплику лидера непосредственно в среде Solrcloud
- использовать несколько потоков для загрузки и отправки документов (вы также можете использовать несколько процессов). Не то чтобы это было сложнее / невозможно со всеми другими технологиями, но в некоторых это так.
- у вас есть полная гибкость использования всех API SolrJ