30 миллионов строк CSV в месяц, требующих добавления полей в каждой строке на основе поиска из отдельного файла
У меня есть 30 миллионов строк CSV, которые создаются каждый месяц, я пытаюсь добавить 2 поля, которые заполняются на основе поиска из отдельного файла, и позволить ему работать без присмотра. Я пытаюсь выбрать технологию прямо сейчас - я бы предпочел использовать язык сценариев, который можно запускать из командной строки (Windows) и что-то бесплатное в идеале, но открытое для предложений. База данных SQL на самом деле не вариант.
1 ответ
Взгляните на интеграцию данных Pentaho. Он основан на Java, многопоточный и может работать с большими CSV-файлами со скоростью 100 000 строк в секунду.
Вы можете вызвать его из командной строки в Linux или Windows, а также можете параметризовать задания и преобразования, чтобы получить параметры командной строки для таких вещей, как пути к файлам, соединения с БД и т. Д.
Существует платная версия Enterprise Edition, но также и бесплатная версия с открытым исходным кодом для сообщества.
Смотрите community.pentaho.com.
Осторожно: крутая кривая обучения. Кричите, если вам нужны дополнительные указатели.