Описание тега fastparquet

Интерфейс Python для файлового формата Parquet.
1 ответ

Как прочитать один файл паркета из s3 в dask dataframe?

Я пытаюсь прочитать один файл партера с мгновенным сжатием из s3 в Dask Dataframe. Каталог метаданных отсутствует, поскольку этот файл был написан с использованием Spark 2.1. Это не работает локально с fastparquet import dask.dataframe as dd dd.read…
16 янв '18 в 07:36
0 ответов

Управление схемой с использованием библиотеки Fastparquet

Я делю большой файл данных (~10 ГБ) на несколько частей и создаю из них файлы паркета с помощью библиотеки fastparquet. Я привожу типы столбцов, используя атрибут object_encoding на основе словаря столбцов, который определяет столбцы как числовые ил…
29 дек '18 в 23:56
0 ответов

Читайте s3a паркетный раздел от s3 как pandas df - python

Я пытаюсь прочитать конкретный паркетный раздел из s3 в Python, получая разные ошибки в каждом подходе. Может кто-нибудь указать мне, что здесь не так. Сначала я проверил, существует ли файл, да, он есть. Также я проверил aws s3api list-object --buc…
1 ответ

Генерация паркетных файлов - различия между R и Python

Мы создали parquet файл в Dask (Python) и с Drill (R используя Sergeant пакет). Мы заметили несколько проблем: Формат Dask (т.е. fastparquet) имеет _metadata и _common_metadata файлы в то время как parquet файл в R \ Drill не имеют этих файлов и име…
31 июл '17 в 12:21
1 ответ

Фильтрация методом dask read_parquet дает нежелательные результаты

Я пытаюсь читать файлы паркета, используяdask read_parquet метод и filters kwarg. однако иногда он не фильтруется в соответствии с заданным условием. Пример: создание и сохранение фрейма данных с dates колонка import pandas as pd import numpy as np …
09 июл '18 в 11:18
2 ответа

Dask DataFrame to_parquet возвращает байты вместо записи в файл

Можно ли записать dask/pandas DataFrame в паркет, а затем вернуть строку байтов? Я знаю, что это невозможно с to_parquet() функция, которая принимает путь к файлу. Может быть, у вас есть другие способы сделать это. Если нет возможности сделать что-т…
05 окт '18 в 13:38
0 ответов

Работник Dask не смог десериализовать задачу

Я добавил новый узел в кластер dask и установил все зависимости с помощью conda. Установка схожа с точки зрения пакета и версии на всех узлах dask. Однако задача на новом узле завершается с ошибкой ниже: ModuleNotFoundError: No module named 'parquet…
04 окт '17 в 22:06
1 ответ

Есть ли хороший способ прочитать содержимое Spark RDD в структуру Dask

В настоящее время интеграция между структурами Spark и Dask кажется сложной при работе со сложными вложенными структурами. Конкретный сброс Spark Dataframe со вложенной структурой для чтения Dask пока еще не очень надежен, хотя загрузка паркета явля…
0 ответов

Сделать быстрый паркетный файл куста на кусте s3 из операционной системы Windows не удается

Следующий код работает для меня в Unix, но не работает в Windows. from fastparquet import write import pandas as pd import s3fs s3 = s3fs.S3FileSystem() bucket = "your-bucket-name" filepath = "s3://{b}/testspace/example.parquet".format(b=bucket) df …
26 янв '18 в 16:58
1 ответ

Fastparquet, похоже, не давит на фильтры

Я создал файл паркета с использованием dask dataframe to_parquet метод с использованием fastparquet как двигатель. Чтение файла с использованием fastparquet.ParquetFile я получаю следующую информацию from fastparquet import ParquetFile file = Parque…
29 ноя '18 в 08:36
1 ответ

UnicodeEncodeError при попытке печати Pandas DataFrame, созданного с помощью запроса в Python 3

Я искал и искал. Я не могу точно найти проблему, как у меня. Я попробовал. Я прочитал данные Parquet в фрейм данных Pandas и использовал оператор.query для фильтрации данных. import pandas as pd import fastparquet as fp fieldsToInclude = ['ACCURACY'…
01 мар '18 в 19:55
2 ответа

Использование статистики паркетных файлов без чтения файлов

Насколько я понимаю, файлы паркета имеют минимальную / максимальную статистику для столбцов. мой вопрос, как прочитать эту статистику с использованием Python, не читая весь файл? Если это поможет, у меня также есть _common_metadata а также _metadata…
11 июл '18 в 11:49
1 ответ

Противоречивое время обработки в распределенном фастпарке

У меня есть файл паркета в формате улья и мгновенное сжатие. Он помещается в память, и pandas.info предоставляет следующие данные. Количество строк в группе в файле паркета составляет всего 100 КБ >>> df.info() <class 'pandas.core.frame.…
13 окт '17 в 22:13
1 ответ

Параллельное вычисление с dask, когда необходимо вычислить столбец dataframe

У меня есть 360 миллионов записей данных о наблюдениях за птицами и я хотел бы вычислить центр тяжести каждого вида птиц в зависимости от дня года, используя dask распределенным способом. Я хотел бы сделать: df2 = df.groupby(['VERNACULARNAME', 'year…
12 сен '18 в 12:33
2 ответа

Потоковый паркетный файл python и только даунсэмплинг

У меня есть данные в формате паркета, которые слишком велики, чтобы уместиться в память (6 ГБ). Я ищу способ прочитать и обработать файл, используя Python 3.6. Есть ли способ для потоковой передачи файла, сэмплирования и сохранения в dataframe? В ко…
02 янв '19 в 15:28
2 ответа

Python Pandas для конвертации CSV в паркет с помощью Fastparquet

Я использую интерпретатор Python 3.6 в моем PyCharm venv, и пытаюсь конвертировать CSV в Parquet. import pandas as pd df = pd.read_csv('/parquet/drivers.csv') df.to_parquet('output.parquet') Ошибка-1 ImportError: Невозможно найти работающий движок; …
12 фев '19 в 02:42
6 ответов

Тип данных Pandas datetime64[ns] не работает в Hive/Athena

Я работаю над приложением python, которое просто конвертирует CSV-файл в формат паркет, совместимый с hive / athena, и для этого использую библиотеки fastparquet и pandas. В CSV-файле есть значения меток времени, например 2018-12-21 23:45:00 который…
25 дек '18 в 06:06
2 ответа

Как Афина может прочитать файл паркета из ведра S3

Я портирую проект Python (S3 + Athena) с использованием CSV для паркета. Я могу сделать паркетный файл, который можно просмотреть в Parquet View. Я могу загрузить файл в ведро s3. Я могу создать таблицу Athena, указывающую на ведро s3. Однако, когда…
0 ответов

Ошибка стрелки: недействительно: BinaryArray

Я пытаюсь прочитать файл партера, используя pyarrow, но столкнулся со следующей проблемой: Pyarrow версия: 0.9.0.post1 import pyarrow.parquet as pq pd = pq.ParquetDataset('/tmp/201832615.parquet.snappy').read_pandas(nthreads=16) print(len(pd.index) …
24 май '18 в 00:17
1 ответ

pandas to_parquet не работает на больших наборах данных

Я пытаюсь сохранить очень большой набор данных, используя pandas to_parquet, и кажется, что он выходит из строя при превышении определенного предела, как с помощью "pyarrow", так и "fastparquet". Я воспроизвел ошибки, которые я получаю с помощью сле…
10 июн '18 в 09:23