Запрос улья не возвращает данных
CREATE EXTERNAL TABLE invoiceitems (
InvoiceNo INT,
StockCode INT,
Description STRING,
Quantity INT,
InvoiceDate BIGINT,
UnitPrice DOUBLE,
CustomerID INT,
Country STRING,
LineNo INT,
InvoiceTime STRING,
StoreID INT,
TransactionID STRING
)
ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'
LOCATION 's3a://streamingdata/data/*';
Файлы данных были созданы с помощью искровой структурированной потоковой передачи:
...
data/part-00000-006fc42a-c6a1-42a2-af03-ae0c326b40bd-c000.json 7.1 KB 29/08/2018 10:27:32 PM
data/part-00000-0075634b-8513-47b3-b5f8-19df8269cf9d-c000.json 1.3 KB 30/08/2018 10:47:32 AM
data/part-00000-00b6b230-8bb3-49d1-a42e-ad768c1f9a94-c000.json 2.3 KB 30/08/2018 1:25:02 AM
...
Вот первые несколько строк первого файла:
{"InvoiceNo":5421462,"StockCode":22426,"Description":"ENAMEL WASH BOWL CREAM","Quantity":8,"InvoiceDate":1535578020000,"UnitPrice":3.75,"CustomerID":13405,"Country":"United Kingdom","LineNo":6,"InvoiceTime":"21:27:00","StoreID":0,"TransactionID":"542146260180829"}
{"InvoiceNo":5501932,"StockCode":22170,"Description":"PICTURE FRAME WOOD TRIPLE PORTRAIT","Quantity":4,"InvoiceDate":1535578020000,"UnitPrice":6.75,"CustomerID":13952,"Country":"United Kingdom","LineNo":26,"InvoiceTime":"21:27:00","StoreID":0,"TransactionID":"5501932260180829"}
Однако, если я выполню запрос, данные не будут возвращены:
hive> select * from invoiceitems limit 5;
OK
Time taken: 24.127 seconds
Файлы журнала для куста пусты:
$ ls /var/log/hive*
/var/log/hive:
/var/log/hive-hcatalog:
/var/log/hive2:
Как я могу отладить это дальше?
1 ответ
Я получил больше подсказки об ошибке при запуске:
select count(*) from invoiceitems;
Это вернуло следующую ошибку
...
DAG не удалось из-за VERTEX_FAILURE. failedVertices:1 killVertices:1 FAILED: Ошибка выполнения, код возврата 2 из org.apache.hadoop.hive.ql.exec.tez.TezTask. Vertex не удалось, vertexName= Карта 1, vertexId=vertex_1535521291031_0011_1_00, диагностика =[Vertex vertex_1535521291031_0011_1_00 [Карта 1] убит / провалились из-за:ROOT_INPUT_INIT_FAILURE, Vertex ввода: invoiceitems инициализатор не удалось, вершина =vertex_1535521291031_0011_1_00 [Карта 1], java.io.IOException: невозможно найти dir = s3a://streamingdata/data/part-00000-006fc42a-c6a1-42a2-af03-ae0c326b40bd-c000.json в pathToPartitionInfo: [s3a://streamingdata/data/*]
Я решил изменить определение создания таблицы:
LOCATION 's3a://streamingdata/data/*';
в
LOCATION 's3a://streamingdata/data/';
и это решило проблему.