Как распечатать размер выходного файла при использовании данных экспорта куста с помощью команды "вставить перезапись каталога"
Я использую beeline для экспорта данных в hdfs с помощью команды:
INSERT OVERWRITE DIRECTORY $export_tmp
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe'
select * from xxx_table_name;
Я хочу установить размер выходного файла эха, например 1024M.
1 ответ
Это может быть много файлов, если он работает на многих преобразователях или редукторах в последней вершине.
Самый простой способ - выполнить в оболочке
hadoop fs -ls <directory>
или же
hdfs dfs -ls <directory>
Вы также можете попробовать выполнить его внутри билайна, используя
!sh
!sh hdfs dfs -ls <directory>
Также, возможно, можно использовать счетчики, напечатанные в конце задания, например HDFS: количество записанных байтов (не уверен, верна эта цифра или нет)