Hadoop FileSystem 获取目录所占磁盘空间大小

By：Roy.LiuLast updated：2020-07-22

在Hadoop的监控中，查看hdfs 所占用磁盘空间大小，一般来说有两种方式：1.命令行模式，2. API模式。

如果是命令行模式，一般人都会用。

hadoop fs -du /mypath

但这种方式必须在登录到主机，在命令行下执行，很不方便。所以在很多情况下，用API来实现，这个时候需要引入pom依赖

<dependency>
	<groupId>org.apache.hadoop</groupId>
	<artifactId>hadoop-client</artifactId>
	<version>3.2.1</version>
	<exclusions>
		<exclusion>
			<groupId>org.eclipse.jetty</groupId>
			<artifactId>jetty-servlet</artifactId>
		</exclusion>
		<exclusion>
			<groupId>org.eclipse.jetty</groupId>
			<artifactId>jetty-webapp</artifactId>
		</exclusion>
		<exclusion>
			<groupId>org.eclipse.jetty</groupId>
			<artifactId>jetty-util</artifactId>
		</exclusion>
	</exclusions>
</dependency>

我这里排除了一些不需要的jar, 看情况自己选择。

获取HDFS所占磁盘空间大小，主要用到里面的FileSystem类。

FileSystem fileSystem = null;
boolean flag = true;
try {
	fileSystem = FileSystem.get(new URI(hadoop), configuration, "tomcat");
} catch (Exception e) {
	flag = false;
	logger.error("==>cannot get hadoop hdfs file system, {}", e.getMessage());
}
Path p = new Path("/");
ContentSummary contentSummary = fileSystem.getContentSummary(p);
//集群占用空间, 一般来说是实际占用空间的几倍, 具体与配置的副本数相关.
long clusterSpace = contentSummary.getSpaceConsumed();
//实际占用空间
long actualSpace = contentSummary.getLength();

From：一号门

Tags: hadoop hdfs

Previous:简单写了一个基于spring boot mosquitto 的starter

Next:利用Ansible自动化部署zookeeper集群

COMMENTS

Hadoop FileSystem 获取目录所占磁盘空间大小

RELATED ARTICLES

COMMENTS