Как вы видите группы строк ваших файлов в hdfs

Question

Как вы видите группы строк ваших файлов в hdfs

Я наткнулся на эту страницу в jira, и я хотел бы знать, как получить такое же представление о группах строк. Как это:

Есть ли в hdfs команда, которая может показать это мне?

1

apache-spark hadoop hdfs parquet

Источник

user3685285 13 ноя '18 в 17:30

2 ответа

Решение

Я думаю, это вывод parquet-tools просеянный grep, лайк

  $ parquet-tools meta --debug <file-name> | grep "row group"

1

Источник

user638764 13 ноя '18 в 19:13

Другие вопросы по тегам apache-spark hadoop hdfs parquet

user5613485 14 ноя '18 в 16:56 2018-11-14 16:56 · Accepted Answer · 2018-11-14 16:56

Я сообщил, что JIRA. я использовал

parquet-tools meta /path/to/file.parquet | grep "row group"

а затем отредактировал вывод вручную, чтобы выровнять числа. Кроме того, вы можете добавить | column -t для некоторого базового выравнивания. Хотя в этом случае числа будут выровнены по левому краю, а не выровнены по правому краю, по крайней мере, они будут выстроены один под другим.

parquet-tools сам по себе является недокументированным вспомогательным скриптом, включенным в parquet-mr. Вместо того, чтобы использовать это, вы можете просто позвонить

hadoop jar /path/to/parquet-tools-<VERSION>.jar

на кластере Hadoop или

java -jar /path/to/parquet-tools-<VERSION>.jar

на местном уровне. Для последнего вы должны построить паркет, используя локальный профиль, т.е.

mvn package -Plocal

Это описано в инструкции по сборке.