Как использовать значение UDF или значение столбца в операторе раздела вставки куста, а не постоянное значение

У меня есть таблица данных, созданная как показано ниже:

CREATE EXTERNAL TABLE `DailyData`(
  `entity_id` string,
  `payload` string)
PARTITIONED BY 
  (`date_of_data` string)
ROW FORMAT DELIMITED
  FIELDS TERMINATED BY '\u0010'
STORED AS INPUTFORMAT
  'org.apache.hadoop.mapred.SequenceFileInputFormat'
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat'
LOCATION
  '/home/data/dailydata'

У меня есть ежедневная работа по вставке данных в daily_table

Может работать, используя следующее утверждение

INSERT INTO TABLE DailyData partition(date_of_data="20181126") 
SELECT id as entity_id, simpledata as payload from log_data;

Я ожидаю, что он может автоматически использовать текущий день вместо использования строки даты с жестким кодом (например, 20181126")

Я старался

INSERT INTO TABLE DailyData partition(date_of_data=from_unixtime(unix_timestamp(),'yyyyMMdd')) 
SELECT id as entity_id, simpledata as payload from log_data;

И получил следующее исключение

    NoViableAltException(26@[244:1: constant : ( Number | dateLiteral | timestampLiteral | intervalLiteral | StringLiteral | stringLiteralSequence | BigintLiteral | SmallintLiteral | TinyintLiteral | DecimalLiteral | charSetStringLiteral | booleanValue );])
            at org.antlr.runtime.DFA.noViableAlt(DFA.java:158)
            at org.antlr.runtime.DFA.predict(DFA.java:116)
            at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.constant(HiveParser_IdentifiersParser.java:4928)
            at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.partitionVal(HiveParser_IdentifiersParser.java:10726)
            at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.partitionSpec(HiveParser_IdentifiersParser.java:10560)
            at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.tableOrPartition(HiveParser_IdentifiersParser.java:10438)
            at org.apache.hadoop.hive.ql.parse.HiveParser.tableOrPartition(HiveParser.java:49929)
            at org.apache.hadoop.hive.ql.parse.HiveParser.insertClause(HiveParser.java:46629)
            at org.apache.hadoop.hive.ql.parse.HiveParser.regularBody(HiveParser.java:43233)
            at org.apache.hadoop.hive.ql.parse.HiveParser.queryStatementExpressionBody(HiveParser.java:42451)
            at org.apache.hadoop.hive.ql.parse.HiveParser.queryStatementExpression(HiveParser.java:42321)
            at org.apache.hadoop.hive.ql.parse.HiveParser.execStatement(HiveParser.java:1681)
            at org.apache.hadoop.hive.ql.parse.HiveParser.statement(HiveParser.java:1152)
            at org.apache.hadoop.hive.ql.parse.ParseDriver.parse(ParseDriver.java:211)
            at org.apache.hadoop.hive.ql.parse.ParseDriver.parse(ParseDriver.java:171)
            at org.apache.hadoop.hive.ql.Driver.compile(Driver.java:447)
            at org.apache.hadoop.hive.ql.Driver.compile(Driver.java:330)
            at org.apache.hadoop.hive.ql.Driver.compileInternal(Driver.java:1233)
            at org.apache.hadoop.hive.ql.Driver.runInternal(Driver.java:1274)
            at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1170)
            at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1160)
            at org.apache.hadoop.hive.cli.CliDriver.processLocalCmd(CliDriver.java:217)
            at org.apache.hadoop.hive.cli.CliDriver.processCmd(CliDriver.java:169)
            at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:380)
            at org.apache.hadoop.hive.cli.CliDriver.executeDriver(CliDriver.java:740)
            at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:685)
            at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:625)
            at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
            at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
            at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
            at java.lang.reflect.Method.invoke(Method.java:498)
            at org.apache.hadoop.util.RunJar.run(RunJar.java:233)
            at org.apache.hadoop.util.RunJar.main(RunJar.java:148)
    FAILED: ParseException line 1:65 cannot recognize input near 'from_unixtime' '(' 'unix_timestamp' in constant

И я попробовал

INSERT INTO TABLE DailyData partition(date_of_data=data_of_date) 
SELECT id as entity_id, simpledata as payload, from_unixtime(unix_timestamp(),'yyyyMMdd') as data_of_date from log_data;

Получил похожее исключение.

NoViableAltException(26@[244:1: constant : ( Number | dateLiteral | timestampLiteral | intervalLiteral | StringLiteral | stringLiteralSequence | BigintLiteral | SmallintLiteral | TinyintLiteral | DecimalLiteral | charSetStringLiteral | booleanValue );])
        at org.antlr.runtime.DFA.noViableAlt(DFA.java:158)
        at org.antlr.runtime.DFA.predict(DFA.java:116)
        at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.constant(HiveParser_IdentifiersParser.java:4928)
        at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.partitionVal(HiveParser_IdentifiersParser.java:10726)
        at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.partitionSpec(HiveParser_IdentifiersParser.java:10560)
        at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.tableOrPartition(HiveParser_IdentifiersParser.java:10438)
        at org.apache.hadoop.hive.ql.parse.HiveParser.tableOrPartition(HiveParser.java:49929)
        at org.apache.hadoop.hive.ql.parse.HiveParser.insertClause(HiveParser.java:46629)
        at org.apache.hadoop.hive.ql.parse.HiveParser.regularBody(HiveParser.java:43233)
        at org.apache.hadoop.hive.ql.parse.HiveParser.queryStatementExpressionBody(HiveParser.java:42451)
        at org.apache.hadoop.hive.ql.parse.HiveParser.queryStatementExpression(HiveParser.java:42321)
        at org.apache.hadoop.hive.ql.parse.HiveParser.execStatement(HiveParser.java:1681)
        at org.apache.hadoop.hive.ql.parse.HiveParser.statement(HiveParser.java:1152)
        at org.apache.hadoop.hive.ql.parse.ParseDriver.parse(ParseDriver.java:211)
        at org.apache.hadoop.hive.ql.parse.ParseDriver.parse(ParseDriver.java:171)
        at org.apache.hadoop.hive.ql.Driver.compile(Driver.java:447)
        at org.apache.hadoop.hive.ql.Driver.compile(Driver.java:330)
        at org.apache.hadoop.hive.ql.Driver.compileInternal(Driver.java:1233)
        at org.apache.hadoop.hive.ql.Driver.runInternal(Driver.java:1274)
        at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1170)
        at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1160)
        at org.apache.hadoop.hive.cli.CliDriver.processLocalCmd(CliDriver.java:217)
        at org.apache.hadoop.hive.cli.CliDriver.processCmd(CliDriver.java:169)
        at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:380)
        at org.apache.hadoop.hive.cli.CliDriver.executeDriver(CliDriver.java:740)
        at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:685)
        at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:625)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at org.apache.hadoop.util.RunJar.run(RunJar.java:233)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:148)
FAILED: ParseException line 1:51 cannot recognize input near 'date_of_data' ')' 'SELECT' in constant

Можно ли использовать значение в выражении раздела вместо константы?

1 ответ

Решение

Это может быть достигнуто путем установки hive.exec.dynamic.partition.mode=nonstrict; и предоставление значения раздела как части оператора выбора.
Обратите внимание на последний столбец в select пункт date_of_data и указав partition(date_of_data) этот столбец используется в качестве значения раздела.
предупреждение, если в разделе несколько значений, записи будут отправлены в соответствующий раздел. Используйте с осторожностью.

set hive.exec.dynamic.partition.mode=nonstrict;
INSERT INTO TABLE DailyData partition(date_of_data) 
SELECT id as entity_id, simpledata as payload, from_unixtime(unix_timestamp(),'yyyyMMdd') as date_of_data from log_data;

Ссылка: https://cwiki.apache.org/confluence/display/hive/languagemanual+dml

Другие вопросы по тегам