Можете ли вы добавить в формат.feather?
Есть ли способ добавить файл формата.feather с помощью pd.to_feather?
Мне также любопытно, если кто-нибудь знает некоторые ограничения с точки зрения максимального размера файла, и можно ли запрашивать некоторые конкретные данные, когда вы читаете файл.feather (например, читать строки, где дата> '2017-03-31 ").
Мне нравится идея возможности хранить мои фреймы данных и категориальные данные.
2 ответа
К сожалению, как перо, так и паркет являются колонно-ориентированными файлами. Это означает, что вы не можете "добавить", поскольку это возможно только в форматах файлов, ориентированных на строки. Альтернативы, которые вы могли бы рассмотреть, если вы хотите использовать паркет или перо, это разделить файлы. Например, если у вас есть данные, которые не изменяются и генерируются один раз в день, вы можете записывать и разбивать на основе даты. Это создает некоторые издержки при чтении и записи файла, но может быть лучшим вариантом, чем перезаписывать весь файл каждый раз.
Поскольку это столбчатый формат, вы также не можете запрашивать и читать только в строках, где, например, дата>2017-01-01, в чем паркет отличается тем, что вы скорее можете читать только в тех столбцах, которые нужны для анализа,
В течение достаточно долгого времени Feather (как и Parquet) использовал структуру "кусков", которая делает возможной запись файлов частями. Хотя это и не является строго «добавлением», оно обеспечивает большинство преимуществ и требует лишь небольшой дополнительной работы для его структурирования в коде.
См. https://arrow.apache.org/docs/python/ipc.html#efficiently-writing-and-reading-arrow-data .