日期:2014-05-16  浏览次数:20427 次

hive bucket产生的小文件问题

Hive bucket主要作用:
1. 数据sampling
2. 提升某些查询操作效率,例如mapside join


与此同时,在数据不均匀的情况下,bucket产生大量小文件,会带来很大麻烦,具体表现为:
1. 文件数目过多,给namenode带来压力
2. 在对查询条件不加限制时,启动大量map任务
3. 数据入库慢

结论:
bucket,慎用!