Как мне стричь паркет, используя пиарроу?

Я пытаюсь прочитать большой набор файлов паркетных файлов по частям, выполнить какую-то операцию, а затем перейти к следующему, не сохраняя их все в памяти. Мне нужно сделать это, потому что весь набор данных не помещается в память. Ранее я использовал ParquetDataset и я в курсе RecordBatchStreamReader но я не уверен, как их объединить.

Как я могу использовать Pyarrow для этого?

1 ответ

Решение

В настоящее время API-интерфейсы Parquet поддерживают только полное чтение отдельных файлов, поэтому мы можем ограничивать чтение только при детализации одного файла. Мы хотели бы создать реализацию arrow::RecordBatchReader (интерфейс потоковых данных), который читает из файлов Parquet, см. https://issues.apache.org/jira/browse/ARROW-1012. Патчи будут приветствоваться.

Другие вопросы по тегам