Описание тега fastparquet
Интерфейс Python для файлового формата Parquet.
1
ответ
Как прочитать один файл паркета из s3 в dask dataframe?
Я пытаюсь прочитать один файл партера с мгновенным сжатием из s3 в Dask Dataframe. Каталог метаданных отсутствует, поскольку этот файл был написан с использованием Spark 2.1. Это не работает локально с fastparquet import dask.dataframe as dd dd.read…
16 янв '18 в 07:36
0
ответов
Управление схемой с использованием библиотеки Fastparquet
Я делю большой файл данных (~10 ГБ) на несколько частей и создаю из них файлы паркета с помощью библиотеки fastparquet. Я привожу типы столбцов, используя атрибут object_encoding на основе словаря столбцов, который определяет столбцы как числовые ил…
29 дек '18 в 23:56
0
ответов
Читайте s3a паркетный раздел от s3 как pandas df - python
Я пытаюсь прочитать конкретный паркетный раздел из s3 в Python, получая разные ошибки в каждом подходе. Может кто-нибудь указать мне, что здесь не так. Сначала я проверил, существует ли файл, да, он есть. Также я проверил aws s3api list-object --buc…
31 июл '18 в 10:31
1
ответ
Генерация паркетных файлов - различия между R и Python
Мы создали parquet файл в Dask (Python) и с Drill (R используя Sergeant пакет). Мы заметили несколько проблем: Формат Dask (т.е. fastparquet) имеет _metadata и _common_metadata файлы в то время как parquet файл в R \ Drill не имеют этих файлов и име…
31 июл '17 в 12:21
1
ответ
Фильтрация методом dask read_parquet дает нежелательные результаты
Я пытаюсь читать файлы паркета, используяdask read_parquet метод и filters kwarg. однако иногда он не фильтруется в соответствии с заданным условием. Пример: создание и сохранение фрейма данных с dates колонка import pandas as pd import numpy as np …
09 июл '18 в 11:18
2
ответа
Dask DataFrame to_parquet возвращает байты вместо записи в файл
Можно ли записать dask/pandas DataFrame в паркет, а затем вернуть строку байтов? Я знаю, что это невозможно с to_parquet() функция, которая принимает путь к файлу. Может быть, у вас есть другие способы сделать это. Если нет возможности сделать что-т…
05 окт '18 в 13:38
0
ответов
Работник Dask не смог десериализовать задачу
Я добавил новый узел в кластер dask и установил все зависимости с помощью conda. Установка схожа с точки зрения пакета и версии на всех узлах dask. Однако задача на новом узле завершается с ошибкой ниже: ModuleNotFoundError: No module named 'parquet…
04 окт '17 в 22:06
1
ответ
Есть ли хороший способ прочитать содержимое Spark RDD в структуру Dask
В настоящее время интеграция между структурами Spark и Dask кажется сложной при работе со сложными вложенными структурами. Конкретный сброс Spark Dataframe со вложенной структурой для чтения Dask пока еще не очень надежен, хотя загрузка паркета явля…
06 ноя '18 в 10:07
0
ответов
Сделать быстрый паркетный файл куста на кусте s3 из операционной системы Windows не удается
Следующий код работает для меня в Unix, но не работает в Windows. from fastparquet import write import pandas as pd import s3fs s3 = s3fs.S3FileSystem() bucket = "your-bucket-name" filepath = "s3://{b}/testspace/example.parquet".format(b=bucket) df …
26 янв '18 в 16:58
1
ответ
Fastparquet, похоже, не давит на фильтры
Я создал файл паркета с использованием dask dataframe to_parquet метод с использованием fastparquet как двигатель. Чтение файла с использованием fastparquet.ParquetFile я получаю следующую информацию from fastparquet import ParquetFile file = Parque…
29 ноя '18 в 08:36
1
ответ
UnicodeEncodeError при попытке печати Pandas DataFrame, созданного с помощью запроса в Python 3
Я искал и искал. Я не могу точно найти проблему, как у меня. Я попробовал. Я прочитал данные Parquet в фрейм данных Pandas и использовал оператор.query для фильтрации данных. import pandas as pd import fastparquet as fp fieldsToInclude = ['ACCURACY'…
01 мар '18 в 19:55
2
ответа
Использование статистики паркетных файлов без чтения файлов
Насколько я понимаю, файлы паркета имеют минимальную / максимальную статистику для столбцов. мой вопрос, как прочитать эту статистику с использованием Python, не читая весь файл? Если это поможет, у меня также есть _common_metadata а также _metadata…
11 июл '18 в 11:49
1
ответ
Противоречивое время обработки в распределенном фастпарке
У меня есть файл паркета в формате улья и мгновенное сжатие. Он помещается в память, и pandas.info предоставляет следующие данные. Количество строк в группе в файле паркета составляет всего 100 КБ >>> df.info() <class 'pandas.core.frame.…
13 окт '17 в 22:13
1
ответ
Параллельное вычисление с dask, когда необходимо вычислить столбец dataframe
У меня есть 360 миллионов записей данных о наблюдениях за птицами и я хотел бы вычислить центр тяжести каждого вида птиц в зависимости от дня года, используя dask распределенным способом. Я хотел бы сделать: df2 = df.groupby(['VERNACULARNAME', 'year…
12 сен '18 в 12:33
2
ответа
Потоковый паркетный файл python и только даунсэмплинг
У меня есть данные в формате паркета, которые слишком велики, чтобы уместиться в память (6 ГБ). Я ищу способ прочитать и обработать файл, используя Python 3.6. Есть ли способ для потоковой передачи файла, сэмплирования и сохранения в dataframe? В ко…
02 янв '19 в 15:28
2
ответа
Python Pandas для конвертации CSV в паркет с помощью Fastparquet
Я использую интерпретатор Python 3.6 в моем PyCharm venv, и пытаюсь конвертировать CSV в Parquet. import pandas as pd df = pd.read_csv('/parquet/drivers.csv') df.to_parquet('output.parquet') Ошибка-1 ImportError: Невозможно найти работающий движок; …
12 фев '19 в 02:42
6
ответов
Тип данных Pandas datetime64[ns] не работает в Hive/Athena
Я работаю над приложением python, которое просто конвертирует CSV-файл в формат паркет, совместимый с hive / athena, и для этого использую библиотеки fastparquet и pandas. В CSV-файле есть значения меток времени, например 2018-12-21 23:45:00 который…
25 дек '18 в 06:06
2
ответа
Как Афина может прочитать файл паркета из ведра S3
Я портирую проект Python (S3 + Athena) с использованием CSV для паркета. Я могу сделать паркетный файл, который можно просмотреть в Parquet View. Я могу загрузить файл в ведро s3. Я могу создать таблицу Athena, указывающую на ведро s3. Однако, когда…
06 сен '18 в 03:45
0
ответов
Ошибка стрелки: недействительно: BinaryArray
Я пытаюсь прочитать файл партера, используя pyarrow, но столкнулся со следующей проблемой: Pyarrow версия: 0.9.0.post1 import pyarrow.parquet as pq pd = pq.ParquetDataset('/tmp/201832615.parquet.snappy').read_pandas(nthreads=16) print(len(pd.index) …
24 май '18 в 00:17
1
ответ
pandas to_parquet не работает на больших наборах данных
Я пытаюсь сохранить очень большой набор данных, используя pandas to_parquet, и кажется, что он выходит из строя при превышении определенного предела, как с помощью "pyarrow", так и "fastparquet". Я воспроизвел ошибки, которые я получаю с помощью сле…
10 июн '18 в 09:23