Описание тега parquet

Apache Parquet - это столбчатый формат хранения для Hadoop.
1 ответ

Как поместить небольшие двоичные файлы в файл Parquet как метаданные Map<fileName, fileContent>? Какие-нибудь ограничения?

Как поместить несколько десятков небольших двоичных файлов в файл Parquet в качестве метаданных Map&lt;fileName, fileContent&gt;? Небольшие файлы - это документы, фотографии размером около 100 КБ. Мы уже поместили некоторые короткие строковые значен…
23 мар '16 в 02:06
1 ответ

dask.read_parquet вызывает ошибку OOM

Я использую Dask для очистки данных в нескольких файлах CSV. Этот код работает нормально: import pandas as pd import glob import os from timeit import default_timer from dask.distributed import Client import dask.dataframe as dd cols_to_keep = ["bar…
08 авг '18 в 15:01
0 ответов

Запрос файла паркета через Apache Parquet-Mr Java

В настоящее время я использую Apache Parquet-Mr(Java) для обработки файлов Parquet. Я заинтересован в написании запроса к файлу Parquet вида SELECT X FROM TABLE1, ГДЕ Y>1 изначально (без использования чего-либо вроде Apache Drill). Я могу отфильтров…
24 авг '18 в 11:02
1 ответ

Частичное вертикальное кэширование DataFrame

Я использую искру с паркетом. Я хотел бы иметь возможность кэшировать столбцы, которые мы чаще всего используем для фильтрации, при этом оставляя другие на диске. Я бегу что-то вроде: myDataFrame.select("field1").cache myDataFrame.select("field1").c…
03 янв '17 в 13:51
5 ответов

Каковы плюсы и минусы формата паркета по сравнению с другими форматами?

Характеристики Apache Parquet: Самоописание Колоночный формат Независимый от языка По сравнению с Avro, Sequence Files, RC File и т. Д. Я хочу краткий обзор форматов. Я уже читал: как Impala работает с форматами файлов Hadoop, он дает некоторое пред…
24 апр '16 в 10:59
1 ответ

Исключение числового формата при записи файла паркета с использованием Spark, вызванное тем, что некоторые поля имеют неизвестное значение

Я читаю текстовый файл, используя спарк со схемой ниже. root |-- id: long (nullable = true) |-- name: string (nullable = true) |-- style: string (nullable = true) |-- code: integer (nullable = true) |-- state_code: integer (nullable = true) |-- post…
18 сен '18 в 05:49
1 ответ

Ускорить запись Spark, когда coalesce = 1?

У меня есть задание Spark, которое за день считывает данные из местоположения A и записывает их в местоположение B. Смысл задания - объединить множество маленьких файлов в один файл для каждого раздела стиля улья в s3. Мой код очень прост, но он раб…
10 апр '18 в 20:19
1 ответ

Возможно ли сохранить значение столбца только один раз в хранилище столбцов?

Я новичок в Кассандре, и у меня есть основной вопрос о том, как Кассандра и Паркет справляются с этим столбчатым делом. Я пытался понять это сам, но пока не повезло. Я нашел ниже информацию на вики …;Smith:001;Jones:002,004;Johnson:003;… Поскольку в…
16 окт '17 в 11:28
2 ответа

Паркетный файл - Временные ряды с переменной частотой

Моя ситуация такова: У меня есть список из сотен параметров временных рядов Каждый параметр не зависит друг от друга Каждый параметр имеет базовую частоту (скажем, 10 Гц), но из-за аппаратных ограничений может быть сохранено от 9 до 11 Гц (переменна…
08 фев '18 в 18:47
1 ответ

Как мне стричь паркет, используя пиарроу?

Я пытаюсь прочитать большой набор файлов паркетных файлов по частям, выполнить какую-то операцию, а затем перейти к следующему, не сохраняя их все в памяти. Мне нужно сделать это, потому что весь набор данных не помещается в память. Ранее я использо…
01 мар '18 в 00:12
1 ответ

Шаг зажигания EMR и объединить вывод в один файл

Я пытаюсь EMR искра шаг. У меня есть каталог ввода S3. Которые имеют несколько файлов: f1,f2,f3 Я добавляю шаг искры так: aws emr --region us-west-2 add-steps --cluster-id foo --steps '[{"Args":["spark-submit","--deploy-mode","cluster","--class","Js…
24 окт '17 в 02:36
1 ответ

Модель MLlib (RandomForestModel) сохраняет модель с многочисленными небольшими файлами паркета

Я пытаюсь обучить модель MLlib RandomForestRegression с помощью API RandomForest.trainRegressor. После тренировки, когда я пытаюсь сохранить модель, полученная папка модели имеет размер 6,5 МБ на диске, но в папке данных есть 1120 небольших файлов п…
30 янв '16 в 19:32
2 ответа

Как сохранить pyspark sql DataFrame в формате xml

Я сохранил pyspark sql dataframe в формате паркета. Теперь я хочу сохранить его также в формате xml. Как я могу это сделать? Решение для непосредственного сохранения pyspark sql dataframe в xml или конвертации паркета в xml что-нибудь будет работать…
21 июн '16 в 13:24
2 ответа

Как читать табличные данные на s3 в pyspark?

У меня есть некоторые разделенные табуляцией данные на s3 в каталоге s3://mybucket/my/directory/, Теперь я говорю pyspark, что я хочу использовать \t в качестве разделителя для чтения только в одном файле, как это: from pyspark import SparkContext f…
1 ответ

Sqoop Snappy сжатия не работает

У меня есть следующий скрипт sqoop, который должен получить данные в паркет и использовать сжатие Snappy. sqoop import \ --hive-drop-import-delims \ --fields-terminated-by '\001' \ --connect '&lt;Connection URL&gt;' \ --query 'select * from &lt;db_n…
26 июн '17 в 22:01
0 ответов

Низкоуровневый столбчатый механизм хранения с Java API

Не могли бы вы предложить низкоуровневый столбчатый механизм хранения, который можно интегрировать в Java-приложение? Причина: нам нужен столбчатый механизм хранения с Java API, чтобы интегрировать его в наше приложение для обработки данных. Справоч…
20 июл '15 в 20:10
1 ответ

Какие части паркетного файла имеют значение?

У меня есть куча паркетных данных в структуре что-то вроде col1=1/col2=2/col3=3/part-00000-33b48309-0442-4e86-870f-f3070268107f-c000.snappy.parquet Я прочитал о том, что я мог найти, и кажется довольно ясным, что означает каждая часть имени файла - …
04 дек '18 в 08:51
2 ответа

Как вы видите группы строк ваших файлов в hdfs

Я наткнулся на эту страницу в jira, и я хотел бы знать, как получить такое же представление о группах строк. Как это: Есть ли в hdfs команда, которая может показать это мне?
13 ноя '18 в 17:30
4 ответа

Эффективный способ чтения определенных столбцов из файла паркета в искре

Какой самый эффективный способ чтения только подмножества столбцов в искре из файла паркета, который имеет много столбцов? Использует spark.read.format("parquet").load(&lt;parquet&gt;).select(...col1, col2) лучший способ сделать это? Я также предпоч…
24 янв '18 в 12:08
0 ответов

Передача и запись паркета с питоном и пандами получили ошибку отметки времени

Я попытался concat() два файла паркета с пандами в Python .Это может работать, но когда я пытаюсь записать и сохранить фрейм данных в файл паркета, он отображает ошибку: ArrowInvalid: Casting from timestamp[ns] to timestamp[ms] would lose data: Я пр…
22 дек '18 в 06:30