Как распечатать размер выходного файла при использовании данных экспорта куста с помощью команды "вставить перезапись каталога"

Я использую beeline для экспорта данных в hdfs с помощью команды:

INSERT OVERWRITE  DIRECTORY $export_tmp
  ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe' 
   select * from xxx_table_name;

Я хочу установить размер выходного файла эха, например 1024M.

1 ответ

Это может быть много файлов, если он работает на многих преобразователях или редукторах в последней вершине.

Самый простой способ - выполнить в оболочке

hadoop fs -ls <directory> 

или же

hdfs dfs -ls <directory> 

Вы также можете попробовать выполнить его внутри билайна, используя !sh

!sh hdfs dfs -ls <directory> 

Также, возможно, можно использовать счетчики, напечатанные в конце задания, например HDFS: количество записанных байтов (не уверен, верна эта цифра или нет)

Другие вопросы по тегам