CSV перо в пандах с нарезкой строк

Я обрабатываю огромный набор данных (50 миллионов строк) в CSV. Я пытаюсь нарезать его и сохранить как формат пера, чтобы сэкономить память при последующей загрузке формата пера.

В качестве обходного пути я загрузил данные порциями в виде файла CSV, а затем объединил их в один фрейм данных.

Это то, что я пробовал до сих пор:

df[2000000:4000000].to_feather('name')

Я получил следующую ошибку:

ValueError: feather does not support serializing a non-default index for the index; you can .reset_index() to make the index into column(s)

Затем я попытался сбросить индекс, но все равно я получаю ту же ошибку.

2 ответа

Попробуйте с .loc:

      df.loc[2000000:4000000].reset_index().to_feather("./myfeather.ftr")

Вам придется сбросить индексы, чтобы сохранить кадр данных в формате перьев. Работает на меня.

Сохраните фрагмент данных в csv df.to_csv(), снова загрузите данные из csv и затем сохраните в перьевом формате. этот метод сработал для меня

Другие вопросы по тегам