Описание тега fastparquet

Описание тега Вопросы с тегом

Интерфейс Python для файлового формата Parquet.

1 ответ

Как прочитать один файл паркета из s3 в dask dataframe?

Я пытаюсь прочитать один файл партера с мгновенным сжатием из s3 в Dask Dataframe. Каталог метаданных отсутствует, поскольку этот файл был написан с использованием Spark 2.1. Это не работает локально с fastparquet import dask.dataframe as dd dd.read…

python dask fastparquet

16 янв '18 в 07:36

0 ответов

Управление схемой с использованием библиотеки Fastparquet

Я делю большой файл данных (~10 ГБ) на несколько частей и создаю из них файлы паркета с помощью библиотеки fastparquet. Я привожу типы столбцов, используя атрибут object_encoding на основе словаря столбцов, который определяет столбцы как числовые ил…

fastparquet

29 дек '18 в 23:56

0 ответов

Читайте s3a паркетный раздел от s3 как pandas df - python

Я пытаюсь прочитать конкретный паркетный раздел из s3 в Python, получая разные ошибки в каждом подходе. Может кто-нибудь указать мне, что здесь не так. Сначала я проверил, существует ли файл, да, он есть. Также я проверил aws s3api list-object --buc…

python-2.7 amazon-s3 parquet pyarrow fastparquet

31 июл '18 в 10:31

1 ответ

Генерация паркетных файлов - различия между R и Python

Мы создали parquet файл в Dask (Python) и с Drill (R используя Sergeant пакет). Мы заметили несколько проблем: Формат Dask (т.е. fastparquet) имеет _metadata и _common_metadata файлы в то время как parquet файл в R \ Drill не имеют этих файлов и име…

r dask parquet apache-drill fastparquet

31 июл '17 в 12:21

1 ответ

Фильтрация методом dask read_parquet дает нежелательные результаты

Я пытаюсь читать файлы паркета, используяdask read_parquet метод и filters kwarg. однако иногда он не фильтруется в соответствии с заданным условием. Пример: создание и сохранение фрейма данных с dates колонка import pandas as pd import numpy as np …

python dataframe filtering dask fastparquet

09 июл '18 в 11:18

2 ответа

Dask DataFrame to_parquet возвращает байты вместо записи в файл

Можно ли записать dask/pandas DataFrame в паркет, а затем вернуть строку байтов? Я знаю, что это невозможно с to_parquet() функция, которая принимает путь к файлу. Может быть, у вас есть другие способы сделать это. Если нет возможности сделать что-т…

pandas dataframe dask parquet fastparquet

05 окт '18 в 13:38

0 ответов

Работник Dask не смог десериализовать задачу

Я добавил новый узел в кластер dask и установил все зависимости с помощью conda. Установка схожа с точки зрения пакета и версии на всех узлах dask. Однако задача на новом узле завершается с ошибкой ниже: ModuleNotFoundError: No module named 'parquet…

dask dask-distributed fastparquet

04 окт '17 в 22:06

1 ответ

Есть ли хороший способ прочитать содержимое Spark RDD в структуру Dask

В настоящее время интеграция между структурами Spark и Dask кажется сложной при работе со сложными вложенными структурами. Конкретный сброс Spark Dataframe со вложенной структурой для чтения Dask пока еще не очень надежен, хотя загрузка паркета явля…

python pyspark dask dask-distributed fastparquet

06 ноя '18 в 10:07

0 ответов

Сделать быстрый паркетный файл куста на кусте s3 из операционной системы Windows не удается

Следующий код работает для меня в Unix, но не работает в Windows. from fastparquet import write import pandas as pd import s3fs s3 = s3fs.S3FileSystem() bucket = "your-bucket-name" filepath = "s3://{b}/testspace/example.parquet".format(b=bucket) df …

windows amazon-s3 s3fs fastparquet

26 янв '18 в 16:58

1 ответ

Fastparquet, похоже, не давит на фильтры

Я создал файл паркета с использованием dask dataframe to_parquet метод с использованием fastparquet как двигатель. Чтение файла с использованием fastparquet.ParquetFile я получаю следующую информацию from fastparquet import ParquetFile file = Parque…

python dask parquet fastparquet

29 ноя '18 в 08:36

1 ответ

UnicodeEncodeError при попытке печати Pandas DataFrame, созданного с помощью запроса в Python 3

Я искал и искал. Я не могу точно найти проблему, как у меня. Я попробовал. Я прочитал данные Parquet в фрейм данных Pandas и использовал оператор.query для фильтрации данных. import pandas as pd import fastparquet as fp fieldsToInclude = ['ACCURACY'…

python pandas unicode fastparquet

01 мар '18 в 19:55

2 ответа

Использование статистики паркетных файлов без чтения файлов

Насколько я понимаю, файлы паркета имеют минимальную / максимальную статистику для столбцов. мой вопрос, как прочитать эту статистику с использованием Python, не читая весь файл? Если это поможет, у меня также есть _common_metadata а также _metadata…

python dask parquet pyarrow fastparquet

11 июл '18 в 11:49

1 ответ

Противоречивое время обработки в распределенном фастпарке

У меня есть файл паркета в формате улья и мгновенное сжатие. Он помещается в память, и pandas.info предоставляет следующие данные. Количество строк в группе в файле паркета составляет всего 100 КБ >>> df.info() <class 'pandas.core.frame.…

python pandas dask distributed fastparquet

13 окт '17 в 22:13

1 ответ

Параллельное вычисление с dask, когда необходимо вычислить столбец dataframe

У меня есть 360 миллионов записей данных о наблюдениях за птицами и я хотел бы вычислить центр тяжести каждого вида птиц в зависимости от дня года, используя dask распределенным способом. Я хотел бы сделать: df2 = df.groupby(['VERNACULARNAME', 'year…

python pandas dask fastparquet

12 сен '18 в 12:33

2 ответа

Потоковый паркетный файл python и только даунсэмплинг

У меня есть данные в формате паркета, которые слишком велики, чтобы уместиться в память (6 ГБ). Я ищу способ прочитать и обработать файл, используя Python 3.6. Есть ли способ для потоковой передачи файла, сэмплирования и сохранения в dataframe? В ко…

python-3.x parquet pyarrow fastparquet

02 янв '19 в 15:28

2 ответа

Python Pandas для конвертации CSV в паркет с помощью Fastparquet

Я использую интерпретатор Python 3.6 в моем PyCharm venv, и пытаюсь конвертировать CSV в Parquet. import pandas as pd df = pd.read_csv('/parquet/drivers.csv') df.to_parquet('output.parquet') Ошибка-1 ImportError: Невозможно найти работающий движок; …

python python-3.x pandas fastparquet

12 фев '19 в 02:42

6 ответов

Тип данных Pandas datetime64[ns] не работает в Hive/Athena

Я работаю над приложением python, которое просто конвертирует CSV-файл в формат паркет, совместимый с hive / athena, и для этого использую библиотеки fastparquet и pandas. В CSV-файле есть значения меток времени, например 2018-12-21 23:45:00 который…

python pandas hive amazon-athena fastparquet

25 дек '18 в 06:06

2 ответа

Как Афина может прочитать файл паркета из ведра S3

Я портирую проект Python (S3 + Athena) с использованием CSV для паркета. Я могу сделать паркетный файл, который можно просмотреть в Parquet View. Я могу загрузить файл в ведро s3. Я могу создать таблицу Athena, указывающую на ведро s3. Однако, когда…

python amazon-s3 parquet amazon-athena fastparquet

06 сен '18 в 03:45

0 ответов

Ошибка стрелки: недействительно: BinaryArray

Я пытаюсь прочитать файл партера, используя pyarrow, но столкнулся со следующей проблемой: Pyarrow версия: 0.9.0.post1 import pyarrow.parquet as pq pd = pq.ParquetDataset('/tmp/201832615.parquet.snappy').read_pandas(nthreads=16) print(len(pd.index) …

python-3.x pyarrow fastparquet

24 май '18 в 00:17

1 ответ

pandas to_parquet не работает на больших наборах данных

Я пытаюсь сохранить очень большой набор данных, используя pandas to_parquet, и кажется, что он выходит из строя при превышении определенного предела, как с помощью "pyarrow", так и "fastparquet". Я воспроизвел ошибки, которые я получаю с помощью сле…

pandas parquet pyarrow fastparquet

10 июн '18 в 09:23