Hive应用一段时间后Hadoop集群占用空间暴增的原因-数据库教程-爱易网页

日期：2014-05-16　浏览次数：20539 次

Hive使用一段时间后Hadoop集群占用空间暴增的原因

我使用的是hive。

所有的数据也是在hive中 load data inpath 导入的

导入的数据时保存到虚拟路径 hdfs:////user/hive/warehouse

以一个表一个文件夹的形式

两天来一直面对着一个困惑

从hive中load进去的数据只有600G但是页面显示的DFS Used却为4.2T

这个数据时很不正常的

因为简单地算一下 600G dfs.replication = 3 那么也在1.4T左右的空间。

通过查看 browse the file system 看到三个文件夹

/data ? 对应于 dfs.data.dir

/system

/user 对应于 hive.metastore.warehouse.dir

问题已经解决，空间容量已经下降到正常值了,可以正常使用运算了。

原因是：

运算过程产生的中间的数据并没有删除掉。因为有些操作产生的结果并没有放到warehouse中，那么这部分数据就放到了/data目录下，系统没能够自动删除这部分数据，所以导致空间上涨很快。

例如;

create table test( ip string );

insert overwrite table test select ip from blog;

这样结果是保存到hive中的；

但如果直接

select ip from blog;

那么结果是临时放在/data目录下的，但是最终却没有释放。

这个dfs.data.dir 默认目录本为/tmp由liunx系统定期自动删除，路径被覆盖为/data/hadoop-0.19.1/dfsdata后系统就找不到了，所以无法自动删除。

不可以直接删除这个目录，否则会导致全部数据块丢失。

必须进入hdfs删除

方法如下

hadoop fs -rmr hdfs:////data/

hive中的操作并不是实时执行的，会有一定的延迟，所以有时执行操作，并不会立即看的到。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。