Hadoop FileSystem 获取目录所占磁盘空间大小
By:Roy.LiuLast updated:2020-07-22
在Hadoop的监控中,查看hdfs 所占用磁盘空间大小,一般来说有两种方式:1.命令行模式,2. API模式。
如果是命令行模式,一般人都会用。
hadoop fs -du /mypath
但这种方式必须在登录到主机,在命令行下执行,很不方便。所以在很多情况下,用API来实现,这个时候需要引入pom依赖
<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.2.1</version> <exclusions> <exclusion> <groupId>org.eclipse.jetty</groupId> <artifactId>jetty-servlet</artifactId> </exclusion> <exclusion> <groupId>org.eclipse.jetty</groupId> <artifactId>jetty-webapp</artifactId> </exclusion> <exclusion> <groupId>org.eclipse.jetty</groupId> <artifactId>jetty-util</artifactId> </exclusion> </exclusions> </dependency>
我这里排除了一些不需要的jar, 看情况自己选择。
获取HDFS所占磁盘空间大小,主要用到里面的FileSystem类。
FileSystem fileSystem = null;
boolean flag = true;
try {
fileSystem = FileSystem.get(new URI(hadoop), configuration, "tomcat");
} catch (Exception e) {
flag = false;
logger.error("==>cannot get hadoop hdfs file system, {}", e.getMessage());
}
Path p = new Path("/");
ContentSummary contentSummary = fileSystem.getContentSummary(p);
//集群占用空间, 一般来说是实际占用空间的几倍, 具体与配置的副本数相关.
long clusterSpace = contentSummary.getSpaceConsumed();
//实际占用空间
long actualSpace = contentSummary.getLength();From:一号门

COMMENTS