Как вы видите группы строк ваших файлов в hdfs

Я наткнулся на эту страницу в jira, и я хотел бы знать, как получить такое же представление о группах строк. Как это:

введите описание изображения здесь

Есть ли в hdfs команда, которая может показать это мне?

2 ответа

Решение

Я сообщил, что JIRA. я использовал

parquet-tools meta /path/to/file.parquet | grep "row group"

а затем отредактировал вывод вручную, чтобы выровнять числа. Кроме того, вы можете добавить | column -t для некоторого базового выравнивания. Хотя в этом случае числа будут выровнены по левому краю, а не выровнены по правому краю, по крайней мере, они будут выстроены один под другим.

parquet-tools сам по себе является недокументированным вспомогательным скриптом, включенным в parquet-mr. Вместо того, чтобы использовать это, вы можете просто позвонить

hadoop jar /path/to/parquet-tools-<VERSION>.jar

на кластере Hadoop или

java -jar /path/to/parquet-tools-<VERSION>.jar

на местном уровне. Для последнего вы должны построить паркет, используя локальный профиль, т.е.

mvn package -Plocal

Это описано в инструкции по сборке.

Я думаю, это вывод parquet-tools просеянный grep, лайк

  $ parquet-tools meta --debug <file-name> | grep "row group"
Другие вопросы по тегам