pandas dataframe to R с использованием pyRserve

Большой фрейм данных (пара миллионов строк, несколько тысяч столбцов) создается Pandas в python. Этот фрейм данных должен быть передан в R с помощью PyRserve. Это должно быть быстро - максимум несколько секунд.

В пандах есть функция to_json. Является ли общение с такими большими объектами единственным способом? это нормально для таких больших объектов?

Я всегда могу записать его на диск и прочитать (быстро, используя fread, и это то, что я сделал), но каков наилучший способ сделать это?

1 ответ

Не испытав это, to_json кажется очень плохой идеей, усугубляющейся с большими кадрами данных, так как это требует много времени, как при записи, так и при чтении данных.

Я бы рекомендовал использовать rpy2 (который поддерживается непосредственно пандами) или, если вы хотите записать что-то на диск (возможно, потому что кадр данных генерируется только один раз), вы можете использовать HDF5 (см. Эту ветку для получения дополнительной информации о взаимодействии панд и R используя этот формат).

Другие вопросы по тегам