Как вы видите группы строк ваших файлов в hdfs
Я наткнулся на эту страницу в jira, и я хотел бы знать, как получить такое же представление о группах строк. Как это:
Есть ли в hdfs команда, которая может показать это мне?
2 ответа
Я сообщил, что JIRA. я использовал
parquet-tools meta /path/to/file.parquet | grep "row group"
а затем отредактировал вывод вручную, чтобы выровнять числа. Кроме того, вы можете добавить | column -t
для некоторого базового выравнивания. Хотя в этом случае числа будут выровнены по левому краю, а не выровнены по правому краю, по крайней мере, они будут выстроены один под другим.
parquet-tools
сам по себе является недокументированным вспомогательным скриптом, включенным в parquet-mr. Вместо того, чтобы использовать это, вы можете просто позвонить
hadoop jar /path/to/parquet-tools-<VERSION>.jar
на кластере Hadoop или
java -jar /path/to/parquet-tools-<VERSION>.jar
на местном уровне. Для последнего вы должны построить паркет, используя локальный профиль, т.е.
mvn package -Plocal
Это описано в инструкции по сборке.
Я думаю, это вывод parquet-tools
просеянный grep
, лайк
$ parquet-tools meta --debug <file-name> | grep "row group"