Улей не собирает новые записи, добавленные в файл?

У меня есть внешняя таблица улья [1], указывающая на somepath каталог в HDFS. Вот последовательность событий, с которыми я связан:

  1. Какой-то процесс (в данном случае Flume) создает новый файл somefile в somepath и записывает одну строку в этот файл.
  2. Я запрашиваю таблицу из Hive. Выбор правильно возвращает строку, написанную на шаге 1.
  3. Flume добавляет еще один ряд к somefile,
  4. Теперь вот проблема: я снова запрашиваю таблицу из Hive. SELECT не показывает строку, добавленную в шаге 3.

Может кто-нибудь предложить способ исправить это? Моя теория состоит в том, что Hive внутренне кэшировал содержимое somefile и так не читает новый контент из HDFS.

[1] CREATE EXTERNAL TABLE metrics (timestamp STRING, workflow STRING, result STRING) ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' WITH SERDEPROPERTIES ( "input.regex" = ".*timestamp\":([0-9]+).*counters\":\\{\"\\.(.*?)\\.(.*?)\".*") LOCATION 'somepath';

0 ответов

Другие вопросы по тегам