Как мне стричь паркет, используя пиарроу?

Question

Как мне стричь паркет, используя пиарроу?

Я пытаюсь прочитать большой набор файлов паркетных файлов по частям, выполнить какую-то операцию, а затем перейти к следующему, не сохраняя их все в памяти. Мне нужно сделать это, потому что весь набор данных не помещается в память. Ранее я использовал ParquetDataset и я в курсе RecordBatchStreamReader но я не уверен, как их объединить.

Как я могу использовать Pyarrow для этого?

2

parquet pyarrow

Источник

user1470672 01 мар '18 в 00:12

1 ответ

Решение

Другие вопросы по тегам parquet pyarrow

user776560 01 мар '18 в 01:31 2018-03-01 01:31 · Accepted Answer · 2018-03-01 01:31

В настоящее время API-интерфейсы Parquet поддерживают только полное чтение отдельных файлов, поэтому мы можем ограничивать чтение только при детализации одного файла. Мы хотели бы создать реализацию arrow::RecordBatchReader (интерфейс потоковых данных), который читает из файлов Parquet, см. https://issues.apache.org/jira/browse/ARROW-1012. Патчи будут приветствоваться.