Описание тега orc

Описание тега Вопросы с тегом

Формат файла Optimized Row Columnar (ORC) обеспечивает высокоэффективный способ хранения данных Hive. Он был разработан для преодоления ограничений других форматов файлов Hive. Использование файлов ORC повышает производительность, когда Hive читает, записывает и обрабатывает данные.

1 ответ

Ожидается org.apache.hadoop.hive.ql.io.orc.OrcStruct, получено org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow

Когда я читаю orcfile и записываю данные в orcfile, я получаю следующую ошибку: expected org.apache.hadoop.hive.ql.io.orc.OrcStruct, received org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow Это MapoutputValue.class не правильно? this is my pro…

02 ноя '15 в 08:56

2 ответа

Как работает Hive "изменить таблицу <имя таблицы> конкатенация"?

Я имею n(large) количество небольших файлов орков, которые я хочу объединить k(small) количество больших файлов орков. Это сделано с помощью alter table table_name concatenate команда в улье. Я хочу понять, как Hive реализует это. Я ищу, чтобы реали…

hadoop hive hiveql orc

24 янв '17 в 05:53

2 ответа

Microsoft Computer Vision API Handwriting

Я пытаюсь использовать службу Microsoft Computer Vision API для обнаружения почерка и преобразования его в машиночитаемый текст. Однако, когда я тестирую этот сервис на их веб-сайте после предоставления моего API-ключа, он просто возвращает заголово…

azure api computer-vision orc

24 апр '17 в 03:04

0 ответов

Создание таблицы HIVE в формате ORC

С помощью приведенного ниже запроса HIVE я создаю таблицу HIVE в формате ORC, которая должна была успешно его создать: create table etl_stats.err_mstr_40sq_orc(audt_id int,err_col_lineage_id int,err_cd int, err_dscr string,cntxt_txt string, src_nm s…

hadoop hive orc

04 янв '18 в 08:18

1 ответ

Как объединить несколько ORC-файлов (принадлежащих каждому разделу) в ORC-таблице Partitioned Hive в один большой ORC-файл

У меня есть секционированная таблица ORC в Hive. После загрузки таблицы со всеми возможными разделами я получаю в HDFS - несколько файлов ORC, т.е. в каждом каталоге разделов в HDFS есть файл ORC. Мне нужно объединить все эти файлы ORC в каждом разд…

hadoop hive partitioning orc

29 дек '17 в 19:32

1 ответ

Невозможно увидеть данные от искрового билайна для таблицы орков улья

Я создал таблицу улья орков, как показано ниже: создать таблицу forest41 (id int, type string), кластеризованную (id) в 2 сегмента, хранящихся как orc TBLPROPERTIES ('транзакция'='истина'); вставить в таблицу forest41 значения (1, "красный"),(2, "бе…

apache-spark orc

23 ноя '15 в 12:15

4 ответа

Агрегирование нескольких столбцов с пользовательской функцией в искре

dataframe scala apache-spark apache-spark-sql spark-dataframe orc

09 июн '16 в 23:38

1 ответ

Как читать файлы ORC без метастазов в pyspark 2.0

Я хочу прочитать некоторые файлы ORC, используя pyspark 2.0 без метастазов. Теоретически это возможно, поскольку схема данных встроена в файл ORC. Но вот что я получил: [me @ hostname ~] $ / usr / local / spark-2.0.0-bin-hadoop2.6 / bin / pyspark Py…

apache-spark pyspark orc

21 авг '16 в 14:39

1 ответ

Перенос таблиц кустов, хранящихся в формате orc, из локальной HDFS в Google Cloud Storage

Мне нужно перенести очень большие таблицы, хранящиеся в локальной HDFS, в Google Cloud. Все таблицы в формате ORC. Каков наилучший способ перенести все мои столы?

hadoop google-cloud-storage hdfs orc

29 авг '18 в 13:19

1 ответ

ORC Format сканирует все таблицы в каждом запросе

Я создал свой первый стол орков в Афине. CREATE EXTERNAL TABLE `orc_test`( `hexid` string, `version` int, `ts` int, `campaignid` int, `sourceuid` string, `publisherid` string, `adslot` string, `share` double, `earn` double, `spent` double, `rebate` …

performance amazon-athena orc snappy

23 мар '18 в 15:05

2 ответа

Spark удалить файл Apache Orc

Я сохранил фрейм данных spark как файл orc, используя оболочку spark следующим образом: jdbcDF.write.format("orc").partitionBy("ID").save("applicationsPartitioned") Я обнаружил, что данные теперь живут в Windows\ System32\ ApplicationsPartitioned Ка…

apache-spark orc

12 июл '17 в 09:24

2 ответа

ORC с указанием сериализатора не работает

У меня есть некоторые данные в HDFS, которые были импортированы с помощью Sqoop. Данные были импортированы как ORC, а сжатие - Snappy. Я пытаюсь создать таблицу поверх этих данных с помощью следующего оператора DDL. Однако я получаю следующую ошибку…

hadoop hive hiveql cloudera orc

23 июн '17 в 17:56

2 ответа

Как прочитать таблицу улья транзакции орка в спарк?

как прочитать таблицу улья транзакции орка в спарк? Я столкнулся с проблемой при чтении таблицы транзакций ORC через спарк. Я получаю схему таблицы кустов, но не могу прочитать фактические данные. Смотрите полный сценарий: hive> создать таблицу defa…

apache-spark apache-spark-sql hive orc

09 май '18 в 13:26

0 ответов

В какой степени эволюция схемы доступна в файлах ORC в Hive 0.13?

Допускаются ли изменения в схеме, такие как добавление, удаление, переименование, изменение типа данных в столбцах, не нарушая ничего в файлах ORC в Hive 0.13.

hadoop hive database-schema orc

25 фев '18 в 19:39

1 ответ

Сериализация различных типов данных в формате ORC в Java

Я могу конвертировать данные CSV в формат ORC. Но в соответствии с новым требованием, мое приложение должно сериализовать входные данные, которые могут быть в любых форматах, таких как CSV, Avro и т. Д., В понятный для ORC писатель формат и записать…

java hadoop serialization apache-kafka orc

31 июл '18 в 13:56

0 ответов

Как установить orc.stripe.size в PySpark (а не в scala и)?

Я пробовал.options("orc.stripe.size","25634344") на уровне записи данных, но не дал желаемых результатов. Как изменить размер полосы по умолчанию для файла ORC в Zeppelin?

apache-spark pyspark size orc

12 окт '18 в 00:41

0 ответов

Невозможно загрузить инкрементные данные, используя MERGE в улье

У меня есть 2 таблицы - промежуточный стол - Внешний - AVRO хранилище финальный стол - управляемый Hive - хранилище ORC (16 блоков) У меня есть работа, которая выполняет все задачи в следующем порядке: Действие Sqoop извлекает данные из Teradata в к…

hive avro oozie hortonworks-data-platform orc

08 фев '18 в 17:05

3 ответа

NPE при чтении ORC-файла с использованием Spark 1.4 API

Привет! Я прочитал много файлов ORC в Spark и обработал их. Эти файлы в основном являются разделами Hive. В большинстве случаев обработка идет хорошо, но для нескольких файлов я получаю следующее исключение, не знаю почему? Эти файлы отлично работаю…

apache-spark apache-spark-sql hive orc

08 сен '15 в 15:26

1 ответ

Ошибка конфигурации Spark 2.0 DataSourceRegister при сохранении DataFrame в виде cvs

Я пытаюсь сохранить фрейм данных в cvs в Spark 2.0, Scala 2.11 (процесс переноса кода из Spark 1.6). sparkSession.sql("SELECT * FROM myTable"). coalesce(1). write. format("com.databricks.spark.csv"). option("header","true"). save(config.resultLayer)…

dataframe scala csv apache-spark orc

06 янв '17 в 23:44

1 ответ

Является ли определение разделителя в таблице ORC улья бесполезным?

Когда вы создаете таблицу ORC в кусте, вы меняете тип файла на orc. Это означает, что вы не можете смотреть на определенный файл за пределами таблицы orc. Вот пример оператора orc create table CREATE TABLE IF NOT EXISTS table_orc_v1 ( col1 int, col2…

hive delimiter orc

20 дек '18 в 15:29