Hive XML Serde - Разбор строк с переносами строк

Question

Hive XML Serde - Разбор строк с переносами строк

Я использую hivexmlserde-1.0.5.3 проанализировать данные XML в таблицы Hive. Я сталкиваюсь с проблемой, когда пытаюсь проанализировать теги, в которых есть разрывы строк, что-то вроде этого:

<item>
    <itemid>1</itemid>
    <contents subscript = "n">
        <name>Item1</name>
        <details>Line 1 with a line break. 
        Line 2 here, which is not being read.</details>
    </contents>
</item>

Это чтение только первой строки, когда я пытаюсь разобрать его с помощью следующего:

    DROP TABLE IF EXISTS db.tbl;
    CREATE EXTERNAL TABLE db.tbl  (
      ID STRING COMMENT '',
      CONTENTS ARRAY<STRUCT<
      subscript:STRING,
      contents:struct<Name:STRING,Details:STRING>>> COMMENT '') COMMENT ''
        ROW FORMAT SERDE 'com.ibm.spss.hive.serde2.xml.XmlSerDe'
        WITH SERDEPROPERTIES (
        "column.xpath.OB_CASE_ID"="/item/itemID/text()",
        "column.xpath.HISTORICAL_INTERACTION"= "/item/contents")
        STORED AS
        INPUTFORMAT 'com.ibm.spss.hive.serde2.xml.XmlInputFormat'
        OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
        LOCATION '${stagingFolderPath}'
        TBLPROPERTIES ("xmlinput.start"="<item>","xmlinput.end"="</item>");

Есть ли что-то, что я делаю не так или есть лучший способ сделать это? Любая помощь будет оценена.

ТИА

0

xml hadoop hive hiveql hive-serde

Источник

user2911509 21 сен '17 в 05:59

1 ответ

Другие вопросы по тегам xml hadoop hive hiveql hive-serde

user2911509 28 окт '17 в 16:41 2017-10-28 16:41 · Answer 1 · 2017-10-28 16:41

Я не мог найти способ для анализа данных с разрывами строк в них. Но я мог бы удалить разрывы строк из данных (или вы могли бы заменить его каким-нибудь собственным маркером). Таким образом, я смог проанализировать данные, как я и ожидал. Надеюсь это поможет. Приветствия.