30 миллионов строк CSV в месяц, требующих добавления полей в каждой строке на основе поиска из отдельного файла

У меня есть 30 миллионов строк CSV, которые создаются каждый месяц, я пытаюсь добавить 2 поля, которые заполняются на основе поиска из отдельного файла, и позволить ему работать без присмотра. Я пытаюсь выбрать технологию прямо сейчас - я бы предпочел использовать язык сценариев, который можно запускать из командной строки (Windows) и что-то бесплатное в идеале, но открытое для предложений. База данных SQL на самом деле не вариант.

1 ответ

Взгляните на интеграцию данных Pentaho. Он основан на Java, многопоточный и может работать с большими CSV-файлами со скоростью 100 000 строк в секунду.

Вы можете вызвать его из командной строки в Linux или Windows, а также можете параметризовать задания и преобразования, чтобы получить параметры командной строки для таких вещей, как пути к файлам, соединения с БД и т. Д.

Существует платная версия Enterprise Edition, но также и бесплатная версия с открытым исходным кодом для сообщества.

Смотрите community.pentaho.com.

Осторожно: крутая кривая обучения. Кричите, если вам нужны дополнительные указатели.

Другие вопросы по тегам