Когда устанавливать параметры улья во время сеанса?
Я новичок в своей роли, и отчасти это требует создания / вставки данных как в управляемые, так и во внешние таблицы улья. У нас есть несколько строк "заданных" параметров, которые мы запускаем в начале сеанса куста, но я встречал несколько случаев, когда, например, файлы объединяются для некоторых разделов (небольшое количество файлов), но не другие (много файлов меньшего размера), по-видимому, в случайные дни.
У меня вопрос: когда нужно вводить все параметры набора моего Hive? Нужно ли это делать для каждой отдельной вставки / команды / оператора, который я выполняю? Или только один раз в начале сеанса Hive, когда я запустил Hive?
Это стандартные параметры, которые мы использовали:
SET mapred.job.queue.name=yometrics;
SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;
SET hive.exec.max.dynamic.partitions=2000;
SET hive.exec.max.dynamic.partitions.pernode=2000;
SET hive.merge.tezfiles=true;
1 ответ
Вы можете поместить конфигурацию в начало файла, она будет работать на протяжении всей сессии.
В качестве альтернативы вы можете поместить общие параметры в отдельный файл params.hql
и в каждом вызове скрипта
source /local/path/to/the/file/params.hql
в начале.
Также вы можете поместить их в hive-site.xml
Также вы можете использовать бутстрап для того же, если вы используете Qubole / AWS: https://docs.qubole.com/en/latest/user-guide/hive/bootstrap-script.html