Создание таблицы HIVE, которая фильтрует данные из CSV-файла в HDFS на основе значения в столбце.

В настоящее время у меня есть файл, который содержит данные, которые должны заполнить 9 различных таблиц. Каждая из этих таблиц имеет различное количество столбцов и типов данных, поэтому мне нужно отфильтровать исходный файл (используя первый столбец, который определяет, в какую таблицу будет входить строка).

Мой текущий метод состоит в том, чтобы создать таблицу с именами столбцов col_1, col_2 и т. Д. До последнего заполненного столбца в файле, а затем создать 9 представлений, которые ссылаются на этот файл. У меня проблема в том, что в одних и тех же столбцах появляются разные типы данных, потому что все таблицы имеют разные структуры.

Есть ли возможность создать динамическую схему, которая фильтрует CSV, на который указывает таблица HIVE на основе первого столбца??

Спасибо

1 ответ

демонстрация

data.csv

1,1,Now,11,22,2016-12-12
1,2,I,33,44,2017-01-01
3,3,heard,55,66,2017-02-02
1,4,you,77,88,2017-03-03
2,5,know,99,1010,2017-04-04
1,6,that,1111,1212,2017-05-05
2,7,secret,1313,1414,2017-06-06

create external table mycsv
(
    rec_type    int
   ,id          int
   ,mystring    string
   ,myint1      int
   ,myint2      int
   ,mydate      date
)
row format delimited
fields terminated by ','
stored as textfile
;

select * from mycsv;

+----------+----+----------+--------+--------+------------+
| rec_type | id | mystring | myint1 | myint2 |   mydate   |
+----------+----+----------+--------+--------+------------+
|        1 |  1 | Now      | 11     | 22     | 2016-12-12 |
|        1 |  2 | I        | 33     | 44     | 2017-01-01 |
|        3 |  3 | heard    | 55     | 66     | 2017-02-02 |
|        1 |  4 | you      | 77     | 88     | 2017-03-03 |
|        2 |  5 | know     | 99     | 1010   | 2017-04-04 |
|        1 |  6 | that     | 1111   | 1212   | 2017-05-05 |
|        2 |  7 | secret   | 1313   | 1414   | 2017-06-06 |
+----------+----+----------+--------+--------+------------+

create table t1(id int,mystring string);
create table t2(id int,mystring string,mydate date);
create table t3(id int,mydate date,myint1 int,myint2 int);

from mycsv 
insert into t1 select id,mystring               where rec_type = 1
insert into t2 select id,mystring,mydate        where rec_type = 2
insert into t3 select id,mydate,myint1,myint2   where rec_type = 3

select * from t1;

+----+----------+
| id | mystring |
+----+----------+
|  1 | Now      |
|  2 | I        |
|  4 | you      |
|  6 | that     |
+----+----------+

select * from t2;

+----+----------+------------+
| id | mystring |   mydate   |
+----+----------+------------+
|  5 | know     | 2017-04-04 |
|  7 | secret   | 2017-06-06 |
+----+----------+------------+

select * from t3;

+----+------------+--------+--------+
| id |   mydate   | myint1 | myint2 |
+----+------------+--------+--------+
|  3 | 2017-02-02 |     55 |     66 |
+----+------------+--------+--------+
Другие вопросы по тегам