R - чтение большого файла с маленькой памятью

Question

R - чтение большого файла с маленькой памятью

Мои данные организованы в CSV-файл с миллионами строк и несколькими столбцами. Этот файл слишком велик для одновременного чтения в память.

К счастью, я хочу вычислить только некоторые статистические данные, например среднее значение каждого столбца на каждые 100 строк и т. Д. Мое решение, основанное на других постах, где было использовать read.csv2 с параметрами nrow и skip. Это работает.

Однако я понял, что при загрузке с конца файла этот процесс довольно медленный. Насколько я могу судить, читатель просматривает файл, пока не пропустит все строки, которые я говорю, чтобы пропустить, а затем прочитать. Это, конечно, неоптимально, так как каждый раз продолжает читать по начальным строкам.

Есть ли решение, такое как анализатор python, где мы можем читать файл построчно, останавливаться при необходимости, а затем продолжать? И сохранить простоту чтения, которая исходит от read.csv2?

0

r performance csv memory large-file-upload

Источник

user2501571 27 мар '18 в 13:23

0 ответов

Другие вопросы по тегам r performance csv memory large-file-upload