Формат файла Optimized Row Columnar (ORC) обеспечивает высокоэффективный способ хранения данных Hive. Он был разработан для преодоления ограничений других форматов файлов Hive. Использование файлов ORC повышает производительность, когда Hive читает, записывает и обрабатывает данные.
1 ответ

Ожидается org.apache.hadoop.hive.ql.io.orc.OrcStruct, получено org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow

Когда я читаю orcfile и записываю данные в orcfile, я получаю следующую ошибку: expected org.apache.hadoop.hive.ql.io.orc.OrcStruct, received org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow Это MapoutputValue.class не правильно? this is my pro…
02 ноя '15 в 08:56
2 ответа

Как работает Hive "изменить таблицу <имя таблицы> конкатенация"?

Я имею n(large) количество небольших файлов орков, которые я хочу объединить k(small) количество больших файлов орков. Это сделано с помощью alter table table_name concatenate команда в улье. Я хочу понять, как Hive реализует это. Я ищу, чтобы реали…
24 янв '17 в 05:53
2 ответа

Microsoft Computer Vision API Handwriting

Я пытаюсь использовать службу Microsoft Computer Vision API для обнаружения почерка и преобразования его в машиночитаемый текст. Однако, когда я тестирую этот сервис на их веб-сайте после предоставления моего API-ключа, он просто возвращает заголово…
24 апр '17 в 03:04
0 ответов

Создание таблицы HIVE в формате ORC

С помощью приведенного ниже запроса HIVE я создаю таблицу HIVE в формате ORC, которая должна была успешно его создать: create table etl_stats.err_mstr_40sq_orc(audt_id int,err_col_lineage_id int,err_cd int, err_dscr string,cntxt_txt string, src_nm s…
04 янв '18 в 08:18
1 ответ

Как объединить несколько ORC-файлов (принадлежащих каждому разделу) в ORC-таблице Partitioned Hive в один большой ORC-файл

У меня есть секционированная таблица ORC в Hive. После загрузки таблицы со всеми возможными разделами я получаю в HDFS - несколько файлов ORC, т.е. в каждом каталоге разделов в HDFS есть файл ORC. Мне нужно объединить все эти файлы ORC в каждом разд…
29 дек '17 в 19:32
1 ответ

Невозможно увидеть данные от искрового билайна для таблицы орков улья

Я создал таблицу улья орков, как показано ниже: создать таблицу forest41 (id int, type string), кластеризованную (id) в 2 сегмента, хранящихся как orc TBLPROPERTIES ('транзакция'='истина'); вставить в таблицу forest41 значения (1, "красный"),(2, "бе…
23 ноя '15 в 12:15
4 ответа

Агрегирование нескольких столбцов с пользовательской функцией в искре

Мне было интересно, если есть какой-то способ указать пользовательскую функцию агрегирования для фреймов данных искры по нескольким столбцам. У меня есть такая таблица типа (имя, предмет, цена): john | tomato | 1.99 john | carrot | 0.45 bill | apple…
1 ответ

Как читать файлы ORC без метастазов в pyspark 2.0

Я хочу прочитать некоторые файлы ORC, используя pyspark 2.0 без метастазов. Теоретически это возможно, поскольку схема данных встроена в файл ORC. Но вот что я получил: [me @ hostname ~] $ / usr / local / spark-2.0.0-bin-hadoop2.6 / bin / pyspark Py…
21 авг '16 в 14:39
1 ответ

Перенос таблиц кустов, хранящихся в формате orc, из локальной HDFS в Google Cloud Storage

Мне нужно перенести очень большие таблицы, хранящиеся в локальной HDFS, в Google Cloud. Все таблицы в формате ORC. Каков наилучший способ перенести все мои столы?
29 авг '18 в 13:19
1 ответ

ORC Format сканирует все таблицы в каждом запросе

Я создал свой первый стол орков в Афине. CREATE EXTERNAL TABLE `orc_test`( `hexid` string, `version` int, `ts` int, `campaignid` int, `sourceuid` string, `publisherid` string, `adslot` string, `share` double, `earn` double, `spent` double, `rebate` …
23 мар '18 в 15:05
2 ответа

Spark удалить файл Apache Orc

Я сохранил фрейм данных spark как файл orc, используя оболочку spark следующим образом: jdbcDF.write.format("orc").partitionBy("ID").save("applicationsPartitioned") Я обнаружил, что данные теперь живут в Windows\ System32\ ApplicationsPartitioned Ка…
12 июл '17 в 09:24
2 ответа

ORC с указанием сериализатора не работает

У меня есть некоторые данные в HDFS, которые были импортированы с помощью Sqoop. Данные были импортированы как ORC, а сжатие - Snappy. Я пытаюсь создать таблицу поверх этих данных с помощью следующего оператора DDL. Однако я получаю следующую ошибку…
23 июн '17 в 17:56
2 ответа

Как прочитать таблицу улья транзакции орка в спарк?

как прочитать таблицу улья транзакции орка в спарк? Я столкнулся с проблемой при чтении таблицы транзакций ORC через спарк. Я получаю схему таблицы кустов, но не могу прочитать фактические данные. Смотрите полный сценарий: hive> создать таблицу defa…
09 май '18 в 13:26
0 ответов

В какой степени эволюция схемы доступна в файлах ORC в Hive 0.13?

Допускаются ли изменения в схеме, такие как добавление, удаление, переименование, изменение типа данных в столбцах, не нарушая ничего в файлах ORC в Hive 0.13.
25 фев '18 в 19:39
1 ответ

Сериализация различных типов данных в формате ORC в Java

Я могу конвертировать данные CSV в формат ORC. Но в соответствии с новым требованием, мое приложение должно сериализовать входные данные, которые могут быть в любых форматах, таких как CSV, Avro и т. Д., В понятный для ORC писатель формат и записать…
31 июл '18 в 13:56
0 ответов

Как установить orc.stripe.size в PySpark (а не в scala и)?

Я пробовал.options("orc.stripe.size","25634344") на уровне записи данных, но не дал желаемых результатов. Как изменить размер полосы по умолчанию для файла ORC в Zeppelin?
12 окт '18 в 00:41
0 ответов

Невозможно загрузить инкрементные данные, используя MERGE в улье

У меня есть 2 таблицы - промежуточный стол - Внешний - AVRO хранилище финальный стол - управляемый Hive - хранилище ORC (16 блоков) У меня есть работа, которая выполняет все задачи в следующем порядке: Действие Sqoop извлекает данные из Teradata в к…
08 фев '18 в 17:05
3 ответа

NPE при чтении ORC-файла с использованием Spark 1.4 API

Привет! Я прочитал много файлов ORC в Spark и обработал их. Эти файлы в основном являются разделами Hive. В большинстве случаев обработка идет хорошо, но для нескольких файлов я получаю следующее исключение, не знаю почему? Эти файлы отлично работаю…
08 сен '15 в 15:26
1 ответ

Ошибка конфигурации Spark 2.0 DataSourceRegister при сохранении DataFrame в виде cvs

Я пытаюсь сохранить фрейм данных в cvs в Spark 2.0, Scala 2.11 (процесс переноса кода из Spark 1.6). sparkSession.sql("SELECT * FROM myTable"). coalesce(1). write. format("com.databricks.spark.csv"). option("header","true"). save(config.resultLayer)…
06 янв '17 в 23:44
1 ответ

Является ли определение разделителя в таблице ORC улья бесполезным?

Когда вы создаете таблицу ORC в кусте, вы меняете тип файла на orc. Это означает, что вы не можете смотреть на определенный файл за пределами таблицы orc. Вот пример оператора orc create table CREATE TABLE IF NOT EXISTS table_orc_v1 ( col1 int, col2…
20 дек '18 в 15:29