Описание тега pyarrow

NonePyarrow - это интерфейс Python для Apache Arrow
2 ответа

Установка пиарроу в альпийском докере

Я пытаюсь установить pyarrow с помощью pip в моем образе альпийского докера, но pip не может найти пакет. Я использую следующий Dockerfile: FROM python:3.6-alpine3.7 RUN apk add --no-cache musl-dev linux-headers g++ RUN pip install pyarrow выход: Se…
01 мар '18 в 22:35
1 ответ

Как мне стричь паркет, используя пиарроу?

Я пытаюсь прочитать большой набор файлов паркетных файлов по частям, выполнить какую-то операцию, а затем перейти к следующему, не сохраняя их все в памяти. Мне нужно сделать это, потому что весь набор данных не помещается в память. Ранее я использо…
01 мар '18 в 00:12
1 ответ

Проблема производительности с таблицей Impala с объединенными файлами паркета

Здесь у меня есть утилита python для создания нескольких файлов паркета с использованием библиотеки Pyarrow для одного набора данных, так как размер набора данных огромен за один день. Здесь файл паркета содержит 10K групп строк паркета в каждом фай…
28 янв '19 в 19:30
0 ответов

Невозможно загрузить libhdfs

Попытка использовать pyarrow для доступа к файлу hdfs и не в состоянии заставить его работать, ниже приведен код, большое спасибо заранее. [rxie@cedgedev03 code]$ python Python 2.7.12 |Anaconda 4.2.0 (64-bit)| (default, Jul 2 2016, 17:42:40) [GCC 4.…
28 окт '18 в 02:44
0 ответов

Чтение определенной группы строк из набора данных паркета

Можно ли прочитать определенную группу строк из набора данных паркета, используя пиарроу? Я могу сделать это для файла паркета. Я изучил документацию для pyarrow.parquet, а также изучил сигнатуры методов / классов.
06 июл '18 в 09:55
1 ответ

Использование многопроцессорной обработки с HdfsClient Pyarrows

У меня есть функция верхнего уровня, которая получает кортеж, содержащий путь к файлу паркета и имя столбца. Функция загружает только столбец из файла, преобразует его в pandas, а затем упаковывает / сериализует его в стандартную форму. Что-то вроде…
09 янв '18 в 22:52
1 ответ

Совместимы ли паркетные файлы, созданные с помощью pyarrow и pyspark?

Я должен преобразовать аналитические данные в JSON в паркет в два этапа. Для больших объемов существующих данных я пишу работу PySpark и делаю df.repartition(*partitionby).write.partitionBy(partitionby). mode("append").parquet(output,compression=cod…
18 янв '18 в 06:11
0 ответов

Как предотвратить ошибку "https://github.com/pandas-dev/pandas/issues/19195" с десериализованным фреймом данных из pyarrow

Я извлекаю кортеж из dataframes из сжатого буфера, используя pyarrow (pa): (_, _, df)=pa.deserialize(pa.decompress(zbuf, codec="brotli", decompressed_size=decompresed_size)) После того, как я собираю данные из фрейма данных: df2=df.groupby("IdTrip")…
02 апр '18 в 22:21
1 ответ

Как сохранить метки времени в файлах паркета в C++ и загрузить их в Python Pandas?

Я использую Apache Arrow в C++, чтобы сохранить коллекцию временных рядов в виде файла паркета и использовать python для загрузки файла паркета как Pandas Dataframe, Процесс работает для всех типов, кроме Date64Type, Я экономлю время эпохи в C++, и …
07 дек '18 в 01:51
5 ответов

Pyar pip install pyarrow error, невозможно выполнить 'cmake'

Я пытаюсь установить pyarrow на главном экземпляре моего кластера EMR, однако я всегда получаю эту ошибку. [hadoop@ip-XXX-XXX-XXX-XXX ~]$ sudo /usr/bin/pip-3.4 install pyarrow Collecting pyarrow Downloading https://files.pythonhosted.org/packages/c0…
05 сен '18 в 09:12
1 ответ

Ошибка с pyarrow при загрузке файла паркета, где индекс имеет избыточный столбец

Я использую pandas/dask для выполнения вычислений, и я храню свои данные в файле паркета на диске. Проблема в том, что у меня есть столбец "время", а также индекс, который называется время. Я хочу оставить оба. Когда я сохраняю данные, а затем загру…
30 окт '17 в 10:29
1 ответ

Встраиваемые типы в паркете

Поддерживайте паркет встраиваемых типов, таких как JSON и BSON, как указано в документации. Я не могу сгенерировать вложенные типы паркета, используя scala, pyarrow,hive.
31 янв '19 в 07:14
0 ответов

Несовместимая схема при чтении паркета и экспорте из Vertica

Я заметил странное поведение при экспорте данных из Vertica и попытке прочитать его позже с паркетом (python). Допустим, я хочу иметь дамп таблицы для паркета: EXPORT TO PARQUET (directory = '/data/table_name') over (partition by event_date) AS sele…
04 фев '19 в 13:53
1 ответ

Совместное использование объектов между работниками с помощью пиарроу

Я хотел бы предоставить доступ только для чтения к общему DataFrame нескольким рабочим процессам, созданным multiprocessing.Pool.map(), Я хотел бы избежать копирования и маринования. Я понял, что пиарроу можно использовать для этого. Однако я нахожу…
07 фев '19 в 20:51
1 ответ

Сборка hadoop 3.1.1 в osx для получения нативных библиотек

Я устанавливаю Hadoop по brew install hadoop а затем использовать pip install pyarrow как клиент client = pa.hdfs.connect('localhost', 9000, driver='libhdfs') for x in client.ls('/'): print(x) получить ошибку Traceback (most recent call last): File …
21 фев '19 в 07:56
0 ответов

PyArrow: хранить список диктов в паркете, используя вложенные типы

Я хочу сохранить следующий кадр данных pandas в файле паркета с помощью PyArrow: import pandas as pd df = pd.DataFrame({'field': [[{}, {}]]}) Тип field столбец - список диктовок: field 0 [{}, {}] Сначала я определяю соответствующую схему PyArrow: im…
21 фев '19 в 22:07
0 ответов

osx get pyarrow.lib.ArrowIOError: невозможно загрузить libhdfs

import pyarrow as pa client = pa.hdfs.connect('localhost', 9000) ОШИБКА Traceback (most recent call last): File "/Users/wyx/project/py3.7aio/hdfs/list_dir.py", line 13, in <module> client = pa.hdfs.connect('localhost', 9000) File "/Users/wyx/p…
24 фев '19 в 14:10
2 ответа

Проблемы с типами данных при преобразовании данных паркета в кадр данных Pandas

У меня проблема с типами файлов при преобразовании файла паркета в фрейм данных. я делаю bucket = 's3://some_bucket/test/usages' import pyarrow.parquet as pq import s3fs s3 = s3fs.S3FileSystem() read_pq = pq.ParquetDataset(bucket, filesystem=s3).rea…
25 фев '19 в 12:45
1 ответ

Панды для паркет НЕ в файловую систему, но получить содержимое результирующего файла в переменной

Есть несколько способов, как можно превратить панды в паркет. например, pyarrow.Table.from_pandas или dataframe.to_parquet. Общее у них то, что они получают в качестве параметра filePath, где должен храниться файл df.parquet. Мне нужно получить соде…
13 фев '19 в 11:33
1 ответ

Ошибка переполнения при использовании datetime с Pyarrow

При рандомизации даты и времени для проверки базы данных я сохранил их в паркет, используя pyarrow.parquets ' write_table(), а затем прочитать их обратно, используя read_table(), При попытке преобразовать в типы данных Python с to_pydict()Я получил …
22 дек '17 в 18:48