Обработка и запрос большого количества больших файлов в формате JSON Lines

По какой технологии лучше всего импортировать большое количество больших файлов формата JSON Line (около 2 ГБ на файл).

Я думаю о Solr.

После того, как данные будут импортированы, они должны будут иметь возможность запроса.

Какую технологию вы бы предложили импортировать, а затем своевременно запрашивать данные формата строки JSON?

1 ответ

Вы можете начать создание прототипов с использованием любого языка сценариев, который вы предпочитаете, чтобы читать строки, массировать формат по мере необходимости, чтобы получить действительный Solr json и отправить его в Solr через HTTP. Будет быстрее, чтобы начать.

В долгосрочной перспективе SolrJ позволит вам получить максимальную производительность (если вам нужно), так как вы можете:

  1. поразить реплику лидера непосредственно в среде Solrcloud
  2. использовать несколько потоков для загрузки и отправки документов (вы также можете использовать несколько процессов). Не то чтобы это было сложнее / невозможно со всеми другими технологиями, но в некоторых это так.
  3. у вас есть полная гибкость использования всех API SolrJ
Другие вопросы по тегам