30 миллионов строк CSV в месяц, требующих добавления полей в каждой строке на основе поиска из отдельного файла

Question

30 миллионов строк CSV в месяц, требующих добавления полей в каждой строке на основе поиска из отдельного файла

У меня есть 30 миллионов строк CSV, которые создаются каждый месяц, я пытаюсь добавить 2 поля, которые заполняются на основе поиска из отдельного файла, и позволить ему работать без присмотра. Я пытаюсь выбрать технологию прямо сейчас - я бы предпочел использовать язык сценариев, который можно запускать из командной строки (Windows) и что-то бесплатное в идеале, но открытое для предложений. База данных SQL на самом деле не вариант.

0

windows csv etl scripting-language

Источник

user3431289 21 сен '18 в 12:27

1 ответ

Другие вопросы по тегам windows csv etl scripting-language

user3593498 22 сен '18 в 07:49 2018-09-22 07:49 · Answer 1 · 2018-09-22 07:49

Взгляните на интеграцию данных Pentaho. Он основан на Java, многопоточный и может работать с большими CSV-файлами со скоростью 100 000 строк в секунду.

Вы можете вызвать его из командной строки в Linux или Windows, а также можете параметризовать задания и преобразования, чтобы получить параметры командной строки для таких вещей, как пути к файлам, соединения с БД и т. Д.

Существует платная версия Enterprise Edition, но также и бесплатная версия с открытым исходным кодом для сообщества.

Смотрите community.pentaho.com.

Осторожно: крутая кривая обучения. Кричите, если вам нужны дополнительные указатели.