Описание тега hive-serde
SerDe — это сокращение от Serializer/Deserializer, интерфейса, используемого Hive как для сериализации, так и для десериализации во время ввода-вывода, а также для интерпретации результатов сериализации как отдельных полей. SerDe позволяет Hive считывать данные из таблицы и записывать их обратно в HDFS в любом пользовательском формате. Любой может написать свой SerDe для своих форматов данных.
0
ответов
Что означает fieldID в интерфейсе Hive SerDe StructField?
Для реализации SerDe я использую реализацию StructField. Я обновил версию улья, и теперь в интерфейсе есть метод getFieldID. Что означает этот метод? Какие-то особые указания по его внедрению?
10 авг '17 в 13:58
1
ответ
Hive-XML-SerDe - пара ключ / значение - карта
<Search> <Country>USA</Country> <Region>West</Region> <Address> <Home> <Item> <id>Number</id> <value>135</value> </Item> <Item> <id>Street</id> <value…
08 сен '17 в 13:52
1
ответ
Необязательные поля при сопоставлении строк файла журнала с помощью регулярных выражений
Я пытаюсь проанализировать веб-журнал с регулярными выражениями, используя RegexSerDe. Он работает путем сопоставления каждой группы регулярных выражений со столбцом в таблице, и, если группа регулярных выражений пуста, этому столбцу присваивается н…
28 окт '16 в 01:01
1
ответ
Перенос данных из HDFS/S3 в локальную ФС и загрузка в Java
У меня есть задание Spark, работающее в кластере EMr, который записывает DataFrame в HDFS (который затем s3-dist-cpдолжен S3). Размер данных невелик (2 ГБ при сохранении как parquet). Эти данные в S3 затем копируются в локальную файловую систему (эк…
19 июл '18 в 23:49
0
ответов
Включение сериализации Avro для определенных POJO в Apache Flink
Для моих требований я хотел бы явно зарегистрировать Avro Serializer для конкретных POJO. Например, в случае Apache Beam я могу аннотировать данный POJO с помощью @DefaultCoder(AvroCoder.class) и всякий раз, когда указанный POJO должен быть сериализ…
22 фев '19 в 10:28
1
ответ
Почему куст не выбирает SerDe JAR во время операций соединения?
Версия hadoop: Hadoop 2.6.0-cdh5.12.2 версия куста: Hive 1.1.0-cdh5.12.2 Рассмотрите две таблицы: продукты - хранит идентификатор продукта и другие подробности о деятельности продукта - хранит идентификатор_пользователя, идентификатор_продукта, кото…
11 окт '18 в 04:46
1
ответ
java.lang.ClassCastException: org.apache.hadoop.hive.ql.io.orc.OrcStruct не может быть приведен к org.apache.hadoop.io.Text. Ошибка с JSON Serde
Я новичок в работе с данными JSON на улей. Я работаю над приложением spark, которое получает данные json и сохраняет их в таблицах улья. У меня есть JSON, как это: который выглядит так, когда развернут: Я могу прочитать JSON в кадре данных и сохрани…
15 июл '17 в 22:55
2
ответа
Таблица кустов, разделенная запятой и несколькими пробелами
У меня есть похожий вопрос здесь: источник таблицы Hive, разделенный несколькими пробелами Мои данные выглядят так: AL, 01, 2016010700, , BEST, 0, 266N, 753W AL, 01, 2016010706, , BEST, 0, 276N, 747W AL, 01, 2016010712, , BEST, 0, 287N, 738W AL, 01,…
27 июл '17 в 08:33
0
ответов
Hive XML SerDe - добавить постоянное значение в столбец
У меня есть таблица Hive, как показано ниже. Я хотел бы, чтобы первый столбец был постоянным значением (его нет в файле XML). если я жестко закодировал значение, оно не отображается при выборе элемента в таблице... что я делаю неправильно? Я также п…
29 июн '17 в 22:33
1
ответ
Автоматический выбор разделителя при использовании csv-serde
Создали таблицу, используя: ) ROW FORMAT SERDE 'com.bizo.hive.serde.csv.CSVSerde' with serdeproperties( "field.delim"="|" ) Когда я попытался загрузить файл с разделителями-запятыми, он был загружен правильно. Как это возможно, если я настроил канал…
02 июл '18 в 12:49
1
ответ
Загрузка вложенных XML-данных в Hive с использованием SerDe
Я пытаюсь загрузить вложенные данные XML в Hive. Пример данных выглядит следующим образом... <CustomerOrders> <Customers> <CustID>ALFKI</CustID> <Orders> <OrderID>10643</OrderID> <CustomerID>ALFKI</…
25 май '17 в 12:47
1
ответ
Hive XML Serde - Разбор строк с переносами строк
Я использую hivexmlserde-1.0.5.3 проанализировать данные XML в таблицы Hive. Я сталкиваюсь с проблемой, когда пытаюсь проанализировать теги, в которых есть разрывы строк, что-то вроде этого: <item> <itemid>1</itemid> <contents s…
21 сен '17 в 05:59
0
ответов
Десериализация POJO в потоках Кафки
В моей теме Кафка есть сообщения этого формата user1,subject1,80|user1,subject2,90 user2,subject1,70|user2,subject2,100 and so on. Я создал пользователя POJO, как показано ниже. class User implements Serializable{ /** * */ private static final long …
08 авг '18 в 09:21
0
ответов
Hive JSON Serde - Ключи с пробелами
Я сталкиваюсь с проблемой с пробелом в имени ключа в типе структуры при создании таблицы. Ниже приводится команда создания таблицы, которую я использую CREATE TABLE event_test ( android_id string, app string, app_ver string, at string, birth_date in…
25 янв '17 в 22:28
0
ответов
Ошибка чтения вложенного файла JSON в HIVE в EMR
Я пытаюсь создать таблицу улья в EMR для чтения сложного вложенного json. Я использую доступную банку SerDe, предоставленную AWS, которую я скопировал на локальный /usr/lib/hive/lib/ место нахождения. SerDe s3://elasticmapreduce/samples/hive-ads/lib…
21 июн '18 в 18:32
1
ответ
Попытка изменить тип cloumn в улье, запуск DDL, но выдает ошибку "
Попытка изменить тип cloumn в улье, запуск DDL, но выдает ошибку Запуск следующего DDL: ALTER TABLE INV.HTL_RATE_PLAN CHANGE RATE_PLAN_RSTRCT_STRT_DT RATE_PLAN_RSTRCT_STRT_DT DATE COMMENT 'Advance booking alternate days restriction rule applied to a…
13 янв '17 в 15:45
0
ответов
Сложная схема XML в схему Hive
Я пытаюсь загрузить файл XML в таблицу кустов. Я использую XML Serde [здесь][1]. Я могу загрузить простые плоские XML-файлы. Но когда в xml есть вложенные элементы, я использую кустовые сложные типы данных для их хранения (например, array<struct&…
12 июн '17 в 08:06
0
ответов
Ошибка куста: невозможно проверить serde: org.apache.hadoop.serde2.RegexSerde
Я очень новичок здесь, я пытаюсь запустить следующий код на моей виртуальной машине cloudera quickstart. CREATE TABLE apache_common_log ( host STRING, identity STRING, user STRING, time STRING, request STRING, status STRING, size STRING ) ROW FORMAT…
27 фев '17 в 21:29
1
ответ
Список свойств SerDe для AWS Athena (JSON)
Я тестирую продукт Афины от AWS, и пока он работает очень хорошо. Но я хочу знать список свойств SerDe. Я искал далеко и широко и не мог найти это. Я использую это например "ignore.malformed.json" = "true", но я почти уверен, что есть множество друг…
22 май '17 в 17:18
1
ответ
Файл json для размещения внешней таблицы
У меня есть данные в формате JSON. Правильный [{"Текст": "foo0", "номер": 123}, { "текст": "foo1", "номер":345},{"текст": "foo2", "номер":678},{"текст": "foo3", "номер":901}] некорректный {"text":"foo0","number":123}{"text":"foo1","number":345} {"te…
15 авг '17 в 11:34