R - чтение большого файла с маленькой памятью
Мои данные организованы в CSV-файл с миллионами строк и несколькими столбцами. Этот файл слишком велик для одновременного чтения в память.
К счастью, я хочу вычислить только некоторые статистические данные, например среднее значение каждого столбца на каждые 100 строк и т. Д. Мое решение, основанное на других постах, где было использовать read.csv2 с параметрами nrow и skip. Это работает.
Однако я понял, что при загрузке с конца файла этот процесс довольно медленный. Насколько я могу судить, читатель просматривает файл, пока не пропустит все строки, которые я говорю, чтобы пропустить, а затем прочитать. Это, конечно, неоптимально, так как каждый раз продолжает читать по начальным строкам.
Есть ли решение, такое как анализатор python, где мы можем читать файл построчно, останавливаться при необходимости, а затем продолжать? И сохранить простоту чтения, которая исходит от read.csv2?