Описание тега hive-serde

SerDe — это сокращение от Serializer/Deserializer, интерфейса, используемого Hive как для сериализации, так и для десериализации во время ввода-вывода, а также для интерпретации результатов сериализации как отдельных полей. SerDe позволяет Hive считывать данные из таблицы и записывать их обратно в HDFS в любом пользовательском формате. Любой может написать свой SerDe для своих форматов данных.
0 ответов

Что означает fieldID в интерфейсе Hive SerDe StructField?

Для реализации SerDe я использую реализацию StructField. Я обновил версию улья, и теперь в интерфейсе есть метод getFieldID. Что означает этот метод? Какие-то особые указания по его внедрению?
10 авг '17 в 13:58
1 ответ

Hive-XML-SerDe - пара ключ / значение - карта

<Search> <Country>USA</Country> <Region>West</Region> <Address> <Home> <Item> <id>Number</id> <value>135</value> </Item> <Item> <id>Street</id> <value…
08 сен '17 в 13:52
1 ответ

Необязательные поля при сопоставлении строк файла журнала с помощью регулярных выражений

Я пытаюсь проанализировать веб-журнал с регулярными выражениями, используя RegexSerDe. Он работает путем сопоставления каждой группы регулярных выражений со столбцом в таблице, и, если группа регулярных выражений пуста, этому столбцу присваивается н…
28 окт '16 в 01:01
1 ответ

Перенос данных из HDFS/S3 в локальную ФС и загрузка в Java

У меня есть задание Spark, работающее в кластере EMr, который записывает DataFrame в HDFS (который затем s3-dist-cpдолжен S3). Размер данных невелик (2 ГБ при сохранении как parquet). Эти данные в S3 затем копируются в локальную файловую систему (эк…
0 ответов

Включение сериализации Avro для определенных POJO в Apache Flink

Для моих требований я хотел бы явно зарегистрировать Avro Serializer для конкретных POJO. Например, в случае Apache Beam я могу аннотировать данный POJO с помощью @DefaultCoder(AvroCoder.class) и всякий раз, когда указанный POJO должен быть сериализ…
22 фев '19 в 10:28
1 ответ

Почему куст не выбирает SerDe JAR во время операций соединения?

Версия hadoop: Hadoop 2.6.0-cdh5.12.2 версия куста: Hive 1.1.0-cdh5.12.2 Рассмотрите две таблицы: продукты - хранит идентификатор продукта и другие подробности о деятельности продукта - хранит идентификатор_пользователя, идентификатор_продукта, кото…
11 окт '18 в 04:46
1 ответ

java.lang.ClassCastException: org.apache.hadoop.hive.ql.io.orc.OrcStruct не может быть приведен к org.apache.hadoop.io.Text. Ошибка с JSON Serde

Я новичок в работе с данными JSON на улей. Я работаю над приложением spark, которое получает данные json и сохраняет их в таблицах улья. У меня есть JSON, как это: который выглядит так, когда развернут: Я могу прочитать JSON в кадре данных и сохрани…
15 июл '17 в 22:55
2 ответа

Таблица кустов, разделенная запятой и несколькими пробелами

У меня есть похожий вопрос здесь: источник таблицы Hive, разделенный несколькими пробелами Мои данные выглядят так: AL, 01, 2016010700, , BEST, 0, 266N, 753W AL, 01, 2016010706, , BEST, 0, 276N, 747W AL, 01, 2016010712, , BEST, 0, 287N, 738W AL, 01,…
27 июл '17 в 08:33
0 ответов

Hive XML SerDe - добавить постоянное значение в столбец

У меня есть таблица Hive, как показано ниже. Я хотел бы, чтобы первый столбец был постоянным значением (его нет в файле XML). если я жестко закодировал значение, оно не отображается при выборе элемента в таблице... что я делаю неправильно? Я также п…
29 июн '17 в 22:33
1 ответ

Автоматический выбор разделителя при использовании csv-serde

Создали таблицу, используя: ) ROW FORMAT SERDE 'com.bizo.hive.serde.csv.CSVSerde' with serdeproperties( "field.delim"="|" ) Когда я попытался загрузить файл с разделителями-запятыми, он был загружен правильно. Как это возможно, если я настроил канал…
02 июл '18 в 12:49
1 ответ

Загрузка вложенных XML-данных в Hive с использованием SerDe

Я пытаюсь загрузить вложенные данные XML в Hive. Пример данных выглядит следующим образом... <CustomerOrders> <Customers> <CustID>ALFKI</CustID> <Orders> <OrderID>10643</OrderID> <CustomerID>ALFKI</…
25 май '17 в 12:47
1 ответ

Hive XML Serde - Разбор строк с переносами строк

Я использую hivexmlserde-1.0.5.3 проанализировать данные XML в таблицы Hive. Я сталкиваюсь с проблемой, когда пытаюсь проанализировать теги, в которых есть разрывы строк, что-то вроде этого: <item> <itemid>1</itemid> <contents s…
21 сен '17 в 05:59
0 ответов

Десериализация POJO в потоках Кафки

В моей теме Кафка есть сообщения этого формата user1,subject1,80|user1,subject2,90 user2,subject1,70|user2,subject2,100 and so on. Я создал пользователя POJO, как показано ниже. class User implements Serializable{ /** * */ private static final long …
0 ответов

Hive JSON Serde - Ключи с пробелами

Я сталкиваюсь с проблемой с пробелом в имени ключа в типе структуры при создании таблицы. Ниже приводится команда создания таблицы, которую я использую CREATE TABLE event_test ( android_id string, app string, app_ver string, at string, birth_date in…
25 янв '17 в 22:28
0 ответов

Ошибка чтения вложенного файла JSON в HIVE в EMR

Я пытаюсь создать таблицу улья в EMR для чтения сложного вложенного json. Я использую доступную банку SerDe, предоставленную AWS, которую я скопировал на локальный /usr/lib/hive/lib/ место нахождения. SerDe s3://elasticmapreduce/samples/hive-ads/lib…
21 июн '18 в 18:32
1 ответ

Попытка изменить тип cloumn в улье, запуск DDL, но выдает ошибку "

Попытка изменить тип cloumn в улье, запуск DDL, но выдает ошибку Запуск следующего DDL: ALTER TABLE INV.HTL_RATE_PLAN CHANGE RATE_PLAN_RSTRCT_STRT_DT RATE_PLAN_RSTRCT_STRT_DT DATE COMMENT 'Advance booking alternate days restriction rule applied to a…
13 янв '17 в 15:45
0 ответов

Сложная схема XML в схему Hive

Я пытаюсь загрузить файл XML в таблицу кустов. Я использую XML Serde [здесь][1]. Я могу загрузить простые плоские XML-файлы. Но когда в xml есть вложенные элементы, я использую кустовые сложные типы данных для их хранения (например, array<struct&…
12 июн '17 в 08:06
0 ответов

Ошибка куста: невозможно проверить serde: org.apache.hadoop.serde2.RegexSerde

Я очень новичок здесь, я пытаюсь запустить следующий код на моей виртуальной машине cloudera quickstart. CREATE TABLE apache_common_log ( host STRING, identity STRING, user STRING, time STRING, request STRING, status STRING, size STRING ) ROW FORMAT…
27 фев '17 в 21:29
1 ответ

Список свойств SerDe для AWS Athena (JSON)

Я тестирую продукт Афины от AWS, и пока он работает очень хорошо. Но я хочу знать список свойств SerDe. Я искал далеко и широко и не мог найти это. Я использую это например "ignore.malformed.json" = "true", но я почти уверен, что есть множество друг…
1 ответ

Файл json для размещения внешней таблицы

У меня есть данные в формате JSON. Правильный [{"Текст": "foo0", "номер": 123}, { "текст": "foo1", "номер":345},{"текст": "foo2", "номер":678},{"текст": "foo3", "номер":901}] некорректный {"text":"foo0","number":123}{"text":"foo1","number":345} {"te…
15 авг '17 в 11:34