Панды преобразуют CSV в файл H5, избегая ошибки памяти

Question

Панды преобразуют CSV в файл H5, избегая ошибки памяти

У меня есть этот простой код

data = pd.read_csv(file_path + 'PSI_TS_clean.csv', nrows=None, 
                   names=None, usecols=None)

data.to_hdf(file_path + 'PSI_TS_clean.h5', 'table')

но мои данные слишком велики, и у меня возникают проблемы с памятью.

Что такое чистый способ сделать этот кусок за кусок?

1

python pandas expand hdf

Источник

user2411173 15 май '15 в 10:08

1 ответ

Другие вопросы по тегам python pandas expand hdf

user4843695 15 май '15 в 23:07 2015-05-15 23:07 · Answer 1 · 2015-05-15 23:07

Если csv действительно большой, разделите файл, используя метод, такой как подробно описанный здесь: /questions/44051179/kuski-dannyih-iz-bolshogo-fajla-dlya-mnogoprotsessornoj-obrabotki

затем переберите файлы и используйте pd.read_csv для каждого, затем используйте метод pd.to_hdf

для to_hdf проверьте параметры здесь: DataFrame.to_hdf, вам нужно обеспечить режим 'a' и рассмотреть возможность добавления.

Не зная дополнительных подробностей о структуре данных, трудно комментировать дальше.

также для read_csv есть параметр: low_memory=False