Каковы лучшие характеристики между pandas и csv.reader в Python?

Я работаю над дампом Stackru, чтобы восстановить репутацию пользователя за определенный период. Для этого мне нужно прочитать некоторые файлы csv, а затем получить доступ к полям этих файлов csv. Имея, например, файл с 10 миллионами строк и 13 столбцами, какое решение я должен выбрать для ускорения чтения между read_csv pandas и csv.reader? Не только это, имея узкое место в доступе к жесткому диску и параллельном запуске нескольких экземпляров алгоритма (многопроцессорная обработка), что рекомендуется делать для повышения производительности? Лично я обнаружил заметное улучшение, сохранив файлы на ssd, но, безусловно, можно добиться большего.

0 ответов

Другие вопросы по тегам