CSV перо в пандах с нарезкой строк
Я обрабатываю огромный набор данных (50 миллионов строк) в CSV. Я пытаюсь нарезать его и сохранить как формат пера, чтобы сэкономить память при последующей загрузке формата пера.
В качестве обходного пути я загрузил данные порциями в виде файла CSV, а затем объединил их в один фрейм данных.
Это то, что я пробовал до сих пор:
df[2000000:4000000].to_feather('name')
Я получил следующую ошибку:
ValueError: feather does not support serializing a non-default index for the index; you can .reset_index() to make the index into column(s)
Затем я попытался сбросить индекс, но все равно я получаю ту же ошибку.
2 ответа
Попробуйте с
.loc
:
df.loc[2000000:4000000].reset_index().to_feather("./myfeather.ftr")
Вам придется сбросить индексы, чтобы сохранить кадр данных в формате перьев. Работает на меня.
Сохраните фрагмент данных в csv df.to_csv(), снова загрузите данные из csv и затем сохраните в перьевом формате. этот метод сработал для меня