日期:2014-05-16  浏览次数:20502 次

Hive使用一段时间后Hadoop集群占用空间暴增的原因

我使用的是hive。

所有的数据也是在hive中 load data inpath 导入的

导入的数据时保存到虚拟路径 hdfs:////user/hive/warehouse

以一个表一个文件夹的形式

两天来一直面对着一个困惑

从hive中load进去的数据只有600G但是页面显示的DFS Used却为4.2T

这个数据时很不正常的

因为简单地算一下 600G dfs.replication = 3 那么也在1.4T左右的空间。

通过查看 browse the file system 看到三个文件夹

/data ? 对应于 dfs.data.dir

/system

/user 对应于 hive.metastore.warehouse.dir


问题已经解决,空间容量已经下降到正常值了,可以正常使用运算了。

原因是:

运算过程产生的中间的数据并没有删除掉。因为有些操作产生的结果并没有放到warehouse中,那么这部分数据就放到了/data目录下,系统没能够自动删除这部分数据,所以导致空间上涨很快。

例如;

create table test( ip string );

insert overwrite table test select ip from blog;

这样结果是保存到hive中的;

但如果直接

select ip from blog;

那么结果是临时放在/data目录下的,但是最终却没有释放。

这个dfs.data.dir 默认目录本为/tmp由liunx系统定期自动删除,路径被覆盖为/data/hadoop-0.19.1/dfsdata后系统就找不到了,所以无法自动删除。


不可以直接删除这个目录,否则会导致全部数据块丢失。

必须进入hdfs删除

方法如下

hadoop fs -rmr hdfs:////data/


hive中的操作并不是 实时执行的,会有一定的延迟,所以有时执行操作,并不会立即看的到。