Как мне стричь паркет, используя пиарроу?
Я пытаюсь прочитать большой набор файлов паркетных файлов по частям, выполнить какую-то операцию, а затем перейти к следующему, не сохраняя их все в памяти. Мне нужно сделать это, потому что весь набор данных не помещается в память. Ранее я использовал ParquetDataset
и я в курсе RecordBatchStreamReader
но я не уверен, как их объединить.
Как я могу использовать Pyarrow для этого?
1 ответ
В настоящее время API-интерфейсы Parquet поддерживают только полное чтение отдельных файлов, поэтому мы можем ограничивать чтение только при детализации одного файла. Мы хотели бы создать реализацию arrow::RecordBatchReader
(интерфейс потоковых данных), который читает из файлов Parquet, см. https://issues.apache.org/jira/browse/ARROW-1012. Патчи будут приветствоваться.