转载推荐阅读:HBase数据入库
?
针对HBase在单column family单column qualifier和单column family多column qualifier两种场景下,分别批量Put写入时的性能对比情况,下面是结合HBase的源码来简单分析解释这一现象。
1. 测试结果
在客户端批量写入时,单列族单列模式和单列族多列模式的TPS和RPC次数相差很大,以客户端10个线程,开启WAL的两种模式下的测试数据为例,
- 单列族单列模式下,TPS能够达到12403.87,实际RPC次数为53次;
- 单列族多列模式下,TPS只有1730.68,实际RPC次数为478次。
二者TPS相差约7倍,RPC次数相差约9倍。详细的测试环境这里不再罗列,我们这里关心的只是在两种条件下的性能差别情况。
2. 粗略分析
下面我们先从HBase存储原理层面“粗略”分析下为什么出现这个现象:
HBase 的KeyValue类中自带的字段占用大小约为50~60 bytes左右(参考HBase源码org/apache/hadoop/hbase/KeyValue.java),那么客户端Put一行数据时(53 个字段,row key为64 bytes,value为751 bytes):
1)? 开WAL,单column family单column qualifier,批量Put:(50~60) + 64 + 751 = 865~875 bytes;
2)? 开WAL,单column family多column qualifier,批量Put:((50~60) + 64) * 53 + 751 = 6793~7323 bytes。
因 此,总体来看,后者实际传输的数据量是前者的:(6793~7323 bytes) / (865~875 bytes) = 7.85~8.36倍,与测试结果478 / 53 = 9.0倍基本相符(由于客户端write buffer大小一样,实际请求数的比例关系即代表了实际传输的数据量的比例关系)。
3. 源码分析
接下来我们通过对HBase的源码分析来进一步验证以上理论估算值:
HBase客户端执行put操作后,会调用put.heapSize()累加当前客户端buffer中的数据,满足以下条件则调用flushCommits()将客户端数据提交到服务端:
1)每次put方法调用时可能传入的是一个List<Put>,此时每隔DOPUT_WB_CHECK条(默认为10条),检查当前缓存数据是否超过writeBufferSize(测试中被设置为5MB),超过则强制执行刷新;