Улей не собирает новые записи, добавленные в файл?
У меня есть внешняя таблица улья [1], указывающая на somepath
каталог в HDFS. Вот последовательность событий, с которыми я связан:
- Какой-то процесс (в данном случае Flume) создает новый файл
somefile
вsomepath
и записывает одну строку в этот файл. - Я запрашиваю таблицу из Hive. Выбор правильно возвращает строку, написанную на шаге 1.
- Flume добавляет еще один ряд к
somefile
, - Теперь вот проблема: я снова запрашиваю таблицу из Hive. SELECT не показывает строку, добавленную в шаге 3.
Может кто-нибудь предложить способ исправить это? Моя теория состоит в том, что Hive внутренне кэшировал содержимое somefile
и так не читает новый контент из HDFS.
[1] CREATE EXTERNAL TABLE metrics (timestamp STRING, workflow STRING, result STRING) ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' WITH SERDEPROPERTIES ( "input.regex" = ".*timestamp\":([0-9]+).*counters\":\\{\"\\.(.*?)\\.(.*?)\".*") LOCATION 'somepath';