Как сохранить метки времени в файлах паркета в C++ и загрузить их в Python Pandas?

Я использую Apache Arrow в C++, чтобы сохранить коллекцию временных рядов в виде файла паркета и использовать python для загрузки файла паркета как PandasDataframe, Процесс работает для всех типов, кроме Date64Type, Я экономлю время эпохи в C++, и при загрузке в панды информация о времени теряется.

Например, для ускорения posix времени: 2018-04-01T20:11:17.112ZВремя эпохи (в int64_t) является 1522613477112000, но когда я сохранил в паркет файл как (Date64Type) и загрузить в пандах результат 2018-04-01 и информация о времени теряется. Как правильно сохранять временные метки в файлах паркета?

1 ответ

Решение

Вам нужно использовать arrow::TimestampType вместо. Date32Type а также Date64Type только разрешение дня поддержки; их внутреннее представление немного отличается (int32_t дней со времен UNIX против int64_t миллисекунды с эпохи UNIX)

Другие вопросы по тегам