Ошибка стрелки: недействительно: BinaryArray
Я пытаюсь прочитать файл партера, используя pyarrow, но столкнулся со следующей проблемой:
Pyarrow версия: 0.9.0.post1
import pyarrow.parquet as pq
pd = pq.ParquetDataset('/tmp/201832615.parquet.snappy').read_pandas(nthreads=16)
print(len(pd.index)
Вот ошибка, которую я получаю при выполнении приведенного выше кода.
Traceback (most recent call last):
File "test.py", line 4, in <module>
pd = pq.ParquetDataset('/tmp/201832615.parquet.snappy').read_pandas(nthreads=16)
File "/usr/local/lib/python3.6/site-packages/pyarrow/parquet.py", line 831, in read_pandas
return self.read(use_pandas_metadata=True, **kwargs)
File "/usr/local/lib/python3.6/site-packages/pyarrow/parquet.py", line 803, in read
use_pandas_metadata=use_pandas_metadata)
File "/usr/local/lib/python3.6/site-packages/pyarrow/parquet.py", line 451, in read
table = reader.read(**options)
File "/usr/local/lib/python3.6/site-packages/pyarrow/parquet.py", line 150, in read
nthreads=nthreads)
File "_parquet.pyx", line 734, in pyarrow._parquet.ParquetReader.read_all
File "error.pxi", line 79, in pyarrow.lib.check_status
pyarrow.lib.ArrowIOError: Arrow error: Invalid: BinaryArray cannot contain more than 2147483646 bytes, have 2147483719
Любая помощь приветствуется?