Как найти файлы с менее частым доступом в HDFS
Помимо использования Cloudera Navigator, как мне найти менее часто используемые файлы в HDFS.
1 ответ
Я предполагаю, что вы ищете время последнего доступа к файлу (открытия, чтения и т. Д.), Потому что чем дольше в прошлом, тем меньше доступ к файлу.
При этом вы можете сделать это в Linux довольно просто с помощью ls -l -someMoreOptions, в HDFS требуется дополнительная работа.
Может быть, вы могли бы следить за /hdfs-audit.log
за cmd=open
упомянутого файла. Или вы можете реализовать небольшую функцию для чтенияFileStatus.getAccessTime()
и как указано в разделе Есть ли способ узнать время последнего доступа к файлам HDFS? или Как узнать время последнего доступа к любым файлам в HDFS? в сообществе Cloudera.
Другими словами, необходимо будет создать небольшую программу, которая сканирует все файлы, считывает свойства
...
status = fs.getFileStatus(new Path(line));
...
long lastAccessTimeLong = status.getAccessTime();
Date lastAccessTimeDate = new Date(lastAccessTimeLong);
...
и закажи это. Это то, что вы сможете найти файлы, к которым не обращались долгое время.