Описание тега parquet-mr

1 ответ

java.lang.ClassCastException: необязательный счетчик int32 не является группой

Я хочу увидеть содержимое parquet файл. Я выполнил следующую команду, но получил ошибку java.lang.ClassCastException: optional int32 count is not a group, manu@manu-VirtualBox:~/parquet-mr/parquet-tools/target$ java -jar parquet-tools-1.12.0-SNAPSHO…
17 фев '19 в 14:44
0 ответов

Невозможно отфильтровать файл паркета, используя условие where.... error "unsafe symbol Unstable"

Я не в состоянии слесаря ​​дать паркет. У меня есть dataframe с "family_id" типа String и "lastStagedTs" типа Date. т.е. 2018-11-30 в формате. Я пытаюсь отфильтровать файл паркета, как показано ниже, т.е. выбрать данные, размер которых превышает 201…
27 ноя '18 в 10:32
0 ответов

Размер блока паркетного файла

С учетом файла паркета, как можно определить размер блока, используемого для создания файла. Я пытаюсь использовать AWS S3 API для запроса файла паркета. Одним из ограничений является то, что "максимальный размер несжатого блока составляет 256 МБ". …
28 дек '18 в 01:23
1 ответ

Как преобразовать схему паркета в avro в Java/Scala

Допустим, у меня есть файл паркета в файловой системе. Как получить схему паркета и преобразовать ее в схему Avro?
12 янв '19 в 12:12
1 ответ

Как вы запрашиваете файл паркета, используя parquet-mr?

У меня есть файл паркета в AWS S3, который я хочу запросить. Я хочу получить определенную строку данных, учитывая, что она равна значению. Почти как в SQL: SELECT * FROM file.parquet WHERE id = '1234'; я использую parquet-mr загрузить его в память п…
08 фев '19 в 08:51
1 ответ

Использование инструментов паркета для файлов в формате hdfs

Я скачал и собрал parquet-1.5.0 из https://github.com/apache/parquet-mr. Теперь я хочу выполнить некоторые команды для моих файлов паркета, которые находятся в hdfs. Я попробовал это: cd ~/parquet-mr/parquet-tools/src/main/scripts ./parquet-tools me…
14 ноя '18 в 19:37
1 ответ

Как установить размер группы строк для файлов в формате hdf?

Я провожу некоторые эксперименты с размером блока (dfs.block.size) и размером группы строк (parquet.block.size) в hdfs. У меня большой набор данных в формате hdf, и я хочу скопировать данные с различными размерами блоков и групп строк для тестирован…
15 ноя '18 в 17:43
5 ответов

Установка паркета-инструментов

Я пытаюсь установить паркетные инструменты на машине с FreeBSD. Я клонировал этот репо: git clone https://github.com/apache/parquet-mr Тогда я сделал cd parquet-mr/parquet-tools Затем я сделал `mvn clean package -Plocal Как указано здесь: https://gi…
14 ноя '18 в 18:05
1 ответ

flink сток в файл паркета с AvroParquetWriter не записывает данные в файл

Я пытаюсь написать файл паркета в качестве приемника с помощью AvroParquetWriter. Файл создан, но имеет длину 0 (данные не записываются). Я делаю что-то неправильно? не мог понять в чем проблема import io.eels.component.parquet.ParquetWriterConfig i…
29 ноя '18 в 05:53
0 ответов

Как найти файл паркета в каталоге для выполнения операции обновления файла паркета

У меня есть список файлов паркета, хранящихся в каталоге. Теперь я должен выполнить операцию обновления этих файлов в соответствии с новой входящей записью. Как мне найти конкретный файл из каталога файлов паркета для выполнения операции обновления …
03 дек '18 в 04:19
1 ответ

PySpark Записать двоичную колонку паркета со статистикой (подписано-min-max.enabled)

Я нашел этот билет apache-parquet https://issues.apache.org/jira/browse/PARQUET-686 который помечен как разрешенный для parquet-mr 1.8.2. Функция, которую я хочу, это рассчитанная min/max в метаданных паркета для (string или же BINARY) столбец. И сс…
1 ответ

Документация для библиотеки Parquet-mr java

Мне нужно использовать библиотеку Parquet-mr для программного чтения файлов Parquet на Java. Мне нужно выборочно прочитать несколько столбцов и пропустить другие столбцы (например, прочитать 3 столбца из 500 столбцов). Я не могу найти документацию о…
22 янв '19 в 20:03
0 ответов

Как справиться с этим исключением паркета

Я пишу protobuf для Parquet с помощью ProtoParquetWriter, я также пишу в локальную HDFS и пишу только один файл для каждого parquetWriter. мой код работает в среде больших данных. проблема в том, что примерно через 30 минут я начинаю получать следую…
26 фев '19 в 12:51
0 ответов

Есть ли способ добавить данные в существующий файл Parquet с той же схемой, используя Java API

В настоящее время я пробую Пакетную обработку с использованием Spring Batch с CSV для обработки данных Parquet. Есть ли способ с помощью Java API, где я могу добавить данные в файл Parquet, так как Пакетная обработка является итеративным подходом. Я…
28 май '19 в 09:15
1 ответ

Почему страница словаря смещена в 0 для кодировки plain_dictionary?

Паркет был создан Spark v2.4 Parquet-mr v1.10 n = 10000 x = [1.0, 2.0, 3.0, 4.0, 5.0, 5.0, None] * n y = [u'é', u'é', u'é', u'é', u'a', None, u'a'] * n z = np.random.rand(len(x)).tolist() dfs = spark.createDataFrame(zip(x, y, z), schema=StructType([…
18 мар '19 в 15:45
0 ответов

Преобразование Parquet в avro создает java.lang.IllegalArgumentException: INT96 еще не реализована ошибка

Я пытаюсь преобразовать файл паркета в avro, но выбрасываю "INT96 еще не реализовано" Не могли бы вы предложить какое-либо решение для этого Parquet parquet = ParquetReaderUtils.getParquetData("000001_0"); MessageType messageType = new MessageType("…
12 апр '19 в 02:59
0 ответов

Добавить паркетные инструменты в путь (код Visual Studio)

Я пытаюсь использовать программу просмотра паркета, чтобы легко просматривать файлы паркета в коде Visual Studio. Это требует, чтобы паркетные инструменты были доступны в пути. я сделал brew install parquet-tools и когда я пытаюсь открыть свой файл.…
26 авг '19 в 20:09
1 ответ

Используя PageIndex, почему паркет не пропускает ненужные страницы?

С помощью parquet-mr@1.11.0У меня есть такая схема: schema message page { required binary url (STRING); optional binary content (STRING); } Я делаю поиск по одной строке url чтобы получить связанный content Ряды упорядочены url, Файл был создан с по…
17 июн '19 в 18:38
0 ответов

Перечисления Avro, закодированные с помощью Parquet, искажены в UTF-8?

Если я определю простой тип записи в Avro: { "type": "record", "name": "Measure", "namespace": "parquet.model", "fields": [ { "name" : "measure_id", "type" : "int" },{ "name" : "measure_name", "type" : "string" },{ "name" : "measure_type", "type": {…
19 июл '19 в 12:59
0 ответов

Какие изменения схемы нарушены в parquet-protobuf?

Я пытаюсь понять, что является серьезными изменениями в схеме паркета. Я использую protobuf для определения схемы. Предположим, у меня есть следующая схема: message TestMessage { string name=1; string address=2; int age=3; } А что если я поменяю схе…
30 июн '19 в 13:19