Ошибка стрелки: недействительно: BinaryArray

Я пытаюсь прочитать файл партера, используя pyarrow, но столкнулся со следующей проблемой:

Pyarrow версия: 0.9.0.post1

import pyarrow.parquet as pq

pd = pq.ParquetDataset('/tmp/201832615.parquet.snappy').read_pandas(nthreads=16)
print(len(pd.index)

Вот ошибка, которую я получаю при выполнении приведенного выше кода.

Traceback (most recent call last):
  File "test.py", line 4, in <module>
     pd = pq.ParquetDataset('/tmp/201832615.parquet.snappy').read_pandas(nthreads=16)
  File "/usr/local/lib/python3.6/site-packages/pyarrow/parquet.py", line 831, in read_pandas
    return self.read(use_pandas_metadata=True, **kwargs)
  File "/usr/local/lib/python3.6/site-packages/pyarrow/parquet.py", line 803, in read
    use_pandas_metadata=use_pandas_metadata)
  File "/usr/local/lib/python3.6/site-packages/pyarrow/parquet.py", line 451, in read
    table = reader.read(**options)
  File "/usr/local/lib/python3.6/site-packages/pyarrow/parquet.py", line 150, in read
    nthreads=nthreads)
  File "_parquet.pyx", line 734, in pyarrow._parquet.ParquetReader.read_all
  File "error.pxi", line 79, in pyarrow.lib.check_status
pyarrow.lib.ArrowIOError: Arrow error: Invalid: BinaryArray cannot contain more than 2147483646 bytes, have 2147483719

Любая помощь приветствуется?

0 ответов

Другие вопросы по тегам