Описание тега parquet

Описание тега Вопросы с тегом

Apache Parquet - это столбчатый формат хранения для Hadoop.

1 ответ

Как поместить небольшие двоичные файлы в файл Parquet как метаданные Map<fileName, fileContent>? Какие-нибудь ограничения?

Как поместить несколько десятков небольших двоичных файлов в файл Parquet в качестве метаданных Map<fileName, fileContent>? Небольшие файлы - это документы, фотографии размером около 100 КБ. Мы уже поместили некоторые короткие строковые значен…

hadoop parquet

23 мар '16 в 02:06

1 ответ

dask.read_parquet вызывает ошибку OOM

Я использую Dask для очистки данных в нескольких файлах CSV. Этот код работает нормально: import pandas as pd import glob import os from timeit import default_timer from dask.distributed import Client import dask.dataframe as dd cols_to_keep = ["bar…

python dask parquet

08 авг '18 в 15:01

0 ответов

Запрос файла паркета через Apache Parquet-Mr Java

В настоящее время я использую Apache Parquet-Mr(Java) для обработки файлов Parquet. Я заинтересован в написании запроса к файлу Parquet вида SELECT X FROM TABLE1, ГДЕ Y>1 изначально (без использования чего-либо вроде Apache Drill). Я могу отфильтров…

java hadoop parquet avro

24 авг '18 в 11:02

1 ответ

Частичное вертикальное кэширование DataFrame

Я использую искру с паркетом. Я хотел бы иметь возможность кэшировать столбцы, которые мы чаще всего используем для фильтрации, при этом оставляя другие на диске. Я бегу что-то вроде: myDataFrame.select("field1").cache myDataFrame.select("field1").c…

dataframe apache-spark caching parquet

03 янв '17 в 13:51

5 ответов

Каковы плюсы и минусы формата паркета по сравнению с другими форматами?

Характеристики Apache Parquet: Самоописание Колоночный формат Независимый от языка По сравнению с Avro, Sequence Files, RC File и т. Д. Я хочу краткий обзор форматов. Я уже читал: как Impala работает с форматами файлов Hadoop, он дает некоторое пред…

file hadoop hdfs parquet avro

24 апр '16 в 10:59

1 ответ

Исключение числового формата при записи файла паркета с использованием Spark, вызванное тем, что некоторые поля имеют неизвестное значение

scala apache-spark apache-spark-sql parquet

18 сен '18 в 05:49

1 ответ

Ускорить запись Spark, когда coalesce = 1?

У меня есть задание Spark, которое за день считывает данные из местоположения A и записывает их в местоположение B. Смысл задания - объединить множество маленьких файлов в один файл для каждого раздела стиля улья в s3. Мой код очень прост, но он раб…

apache-spark parquet

10 апр '18 в 20:19

1 ответ

Возможно ли сохранить значение столбца только один раз в хранилище столбцов?

Я новичок в Кассандре, и у меня есть основной вопрос о том, как Кассандра и Паркет справляются с этим столбчатым делом. Я пытался понять это сам, но пока не повезло. Я нашел ниже информацию на вики …;Smith:001;Jones:002,004;Johnson:003;… Поскольку в…

cassandra parquet datastax-enterprise

16 окт '17 в 11:28

2 ответа

Паркетный файл - Временные ряды с переменной частотой

Моя ситуация такова: У меня есть список из сотен параметров временных рядов Каждый параметр не зависит друг от друга Каждый параметр имеет базовую частоту (скажем, 10 Гц), но из-за аппаратных ограничений может быть сохранено от 9 до 11 Гц (переменна…

time-series parquet

08 фев '18 в 18:47

1 ответ

Как мне стричь паркет, используя пиарроу?

Я пытаюсь прочитать большой набор файлов паркетных файлов по частям, выполнить какую-то операцию, а затем перейти к следующему, не сохраняя их все в памяти. Мне нужно сделать это, потому что весь набор данных не помещается в память. Ранее я использо…

parquet pyarrow

01 мар '18 в 00:12

1 ответ

Шаг зажигания EMR и объединить вывод в один файл

Я пытаюсь EMR искра шаг. У меня есть каталог ввода S3. Которые имеют несколько файлов: f1,f2,f3 Я добавляю шаг искры так: aws emr --region us-west-2 add-steps --cluster-id foo --steps '[{"Args":["spark-submit","--deploy-mode","cluster","--class","Js…

parquet spark-dataframe emr

24 окт '17 в 02:36

1 ответ

Модель MLlib (RandomForestModel) сохраняет модель с многочисленными небольшими файлами паркета

Я пытаюсь обучить модель MLlib RandomForestRegression с помощью API RandomForest.trainRegressor. После тренировки, когда я пытаюсь сохранить модель, полученная папка модели имеет размер 6,5 МБ на диске, но в папке данных есть 1120 небольших файлов п…

apache-spark parquet apache-spark-mllib

30 янв '16 в 19:32

2 ответа

Как сохранить pyspark sql DataFrame в формате xml

Я сохранил pyspark sql dataframe в формате паркета. Теперь я хочу сохранить его также в формате xml. Как я могу это сделать? Решение для непосредственного сохранения pyspark sql dataframe в xml или конвертации паркета в xml что-нибудь будет работать…

xml python-2.7 pyspark parquet spark-dataframe

21 июн '16 в 13:24

2 ответа

Как читать табличные данные на s3 в pyspark?

У меня есть некоторые разделенные табуляцией данные на s3 в каталоге s3://mybucket/my/directory/, Теперь я говорю pyspark, что я хочу использовать \t в качестве разделителя для чтения только в одном файле, как это: from pyspark import SparkContext f…

amazon-s3 pyspark amazon-ec2 parquet pyspark-sql

17 июл '17 в 06:01

1 ответ

Sqoop Snappy сжатия не работает

У меня есть следующий скрипт sqoop, который должен получить данные в паркет и использовать сжатие Snappy. sqoop import \ --hive-drop-import-delims \ --fields-terminated-by '\001' \ --connect '<Connection URL>' \ --query 'select * from <db_n…

hadoop hive parquet snappy

26 июн '17 в 22:01

0 ответов

Низкоуровневый столбчатый механизм хранения с Java API

Не могли бы вы предложить низкоуровневый столбчатый механизм хранения, который можно интегрировать в Java-приложение? Причина: нам нужен столбчатый механизм хранения с Java API, чтобы интегрировать его в наше приложение для обработки данных. Справоч…

java apache-spark hadoop hive parquet

20 июл '15 в 20:10

1 ответ

Какие части паркетного файла имеют значение?

У меня есть куча паркетных данных в структуре что-то вроде col1=1/col2=2/col3=3/part-00000-33b48309-0442-4e86-870f-f3070268107f-c000.snappy.parquet Я прочитал о том, что я мог найти, и кажется довольно ясным, что означает каждая часть имени файла - …

apache-spark parquet

04 дек '18 в 08:51

2 ответа

Как вы видите группы строк ваших файлов в hdfs

Я наткнулся на эту страницу в jira, и я хотел бы знать, как получить такое же представление о группах строк. Как это: Есть ли в hdfs команда, которая может показать это мне?

apache-spark hadoop hdfs parquet

13 ноя '18 в 17:30

4 ответа

Эффективный способ чтения определенных столбцов из файла паркета в искре

Какой самый эффективный способ чтения только подмножества столбцов в искре из файла паркета, который имеет много столбцов? Использует spark.read.format("parquet").load(<parquet>).select(...col1, col2) лучший способ сделать это? Я также предпоч…

apache-spark parquet

24 янв '18 в 12:08

0 ответов

Передача и запись паркета с питоном и пандами получили ошибку отметки времени

Я попытался concat() два файла паркета с пандами в Python .Это может работать, но когда я пытаюсь записать и сохранить фрейм данных в файл паркета, он отображает ошибку: ArrowInvalid: Casting from timestamp[ns] to timestamp[ms] would lose data: Я пр…

python pandas parquet

22 дек '18 в 06:30