Когда устанавливать параметры улья во время сеанса?

Я новичок в своей роли, и отчасти это требует создания / вставки данных как в управляемые, так и во внешние таблицы улья. У нас есть несколько строк "заданных" параметров, которые мы запускаем в начале сеанса куста, но я встречал несколько случаев, когда, например, файлы объединяются для некоторых разделов (небольшое количество файлов), но не другие (много файлов меньшего размера), по-видимому, в случайные дни.

У меня вопрос: когда нужно вводить все параметры набора моего Hive? Нужно ли это делать для каждой отдельной вставки / команды / оператора, который я выполняю? Или только один раз в начале сеанса Hive, когда я запустил Hive?

Это стандартные параметры, которые мы использовали:

SET mapred.job.queue.name=yometrics;
SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;
SET hive.exec.max.dynamic.partitions=2000;
SET hive.exec.max.dynamic.partitions.pernode=2000;
SET hive.merge.tezfiles=true;

1 ответ

Решение

Вы можете поместить конфигурацию в начало файла, она будет работать на протяжении всей сессии.

В качестве альтернативы вы можете поместить общие параметры в отдельный файл params.hql и в каждом вызове скрипта

source /local/path/to/the/file/params.hql в начале.

Также вы можете поместить их в hive-site.xml

Также вы можете использовать бутстрап для того же, если вы используете Qubole / AWS: https://docs.qubole.com/en/latest/user-guide/hive/bootstrap-script.html

Другие вопросы по тегам