HBase下关于CMS、GC碎片、大缓存的一种解决方案：Bucket Cache-数据库教程-爱易网页

HBase下关于CMS、GC碎片、大缓存的一种解决方案：Bucket Cache

日期：2014-05-16　浏览次数：20630 次

HBase上关于CMS、GC碎片、大缓存的一种解决方案：Bucket Cache

介绍BucketCache前，先对HBase的Cache做个介绍：
一.HBase在读取时，会以Block为单位进行cache，用来提升读的性能；

二.Block可以分类为DataBlock(默认大小64K,存储KV)、BloomBlock(默认大小128K,存储BloomFilter数据)、IndexBlock(默认大小128K,索引数据，用来加快Row所在DataBlock的定位)

三.对于一次随机读，Block的访问顺序为BloomBlock、IndexBlock、DataBlock，如果Region下面的StoreFile数目为2个，那么一次随机读至少访问2次BloomBlock+1次IndexBlock+1次DataBlock

四.我们通常将BloomBlock和IndexBlock统称为MetaBlock，MetaBlock线上系统中基本命中率都是100%

五.Block的cache命中率对HBase的读性能影响十分大，所以DataBlockEncoding将KV在内存中进行压缩，对于单行多列和Row相似的场景，可以提高内存使用率，增加读性能

六.HBase中管理缓存的Block的类为BlockCache，其实现目前主要是下面三种：

6.1 LruBlockCache，默认的BlockCache实现，也是目前使用的BlockCache，使用一个HashMap维护Block Key到Block的映射，采用严格的LRU算法来淘汰Block，初始化时会指定容量大小，当使用量达到85%的时候开始淘汰block至75%的比例。
优点：直接采用jvm提供的HashMap来管理Cache，简单可依赖；内存用多少占多少，JVM会帮你回收淘汰的BlOCK占用的内存
缺点：
1.一个Block从被缓存至被淘汰，基本就伴随着Heap中的位置从New区晋升到Old区
2.晋升在Old区的Block被淘汰后，最终由CMS进行垃圾回收，随之带来的是Heap碎片
3.因为碎片问题，随之而来的是GC时晋升失败的FullGC，我们的线上系统根据不同的业务特点，因为这个而发生FullGC的频率，有1天的，1周的，1月半年的都有。对于高频率的，

在运维上通过在半夜手工触发FullGC来缓解
4.如果缓存的速度比淘汰的速度快，很不幸，现在的代码有OOM的风险(这个可以修改下代码避免)

6.2 SlabCache,针对LruBlockCache的碎片问题一种解决方案，使用堆外内存，处于实验性质，真实测试后，我们定位为不可用。说下它的原理：它由多个SingleSizeCache组成(所谓SingleSizeCache，就是只缓存固定大小的block，其内部维护一个ByteBuffer List，每个ByteBuffer的空间都是一样的，比如64K的SingleSizeCache，ByteBuffer的空间都是64K，cache Block时把Block的内容复制到ByteBuffer中，所以block的大小必须小于等于64K才能被这个SingleSizeCache缓存；淘汰block的时候只需要将相应的ByteBuffer标记为

空闲，下次cache的时候对其上的内存直接进行覆盖就行了)，cache Block的时候，选择一个小于且最接近的SingleSizeCache进行缓存，淘汰block亦此。由于SingleSize的局限性，其使用上和LruBlockCache搭配使用，叫做DoubleBlockCache，cache block的时候LruBlockCache和SlabCache都缓存一份，get block的时候顺序为LruBlockCache、SlabCache，如果只有SlabCache命中，那么再将block缓存到LruBlockCache中(本人觉得它的这个设计很费，你觉得呢)

优点：其思想：申请固定内存空间，Block的读写都在这片区域中进行
缺点：
1.cache block和 get block的时候，需要内存复制
2.SingleSizeCache的设计，导致内存使用率很低
3.与LruBlockCache搭配使用不合理，导致所有的block都会去LruBlockCache中逗留一下，结果是CMS和碎片都不能有所改善

6.3 BucketCache，可以看成是对SlabCache思想在实现上的一种改进及功能扩展，其优点是解决LruBlockCache的缺点及支持面向高性能读的大缓存空间.

1.何谓大缓存？缓存Block的存储介质不再仅仅依赖在内存上，而是可以选择为Fusion-io、SSD等高速磁盘，我们称之为二级缓存

2.何谓Bucket？我们将缓存空间划分为一个个的Bucket，每个Bucket都贴上一个size标签，将Block缓存在最接近且小于size的bucket中(和SingleSizeCache很相似)

3.怎么解决CMS 碎片问题？Block存储在Bucket中，而每个Bucket的物理存储是不变的，也就是说系统刚启动的时候，我们就申请了一堆Bucket内存空间，而这些内存空间是一直在Old区，block的Get/Cache动作只是对这片空间的访问/覆写，CMS/碎片自然大大减少

4.怎么使用？上面的描述指出BucketCache可以有两种用法：
4.1 与LruBlockCache搭配,作为主要的内存cache方案使用

?

4.2 作为二级缓存使用，将Block缓存在我们的高速盘(Fusion-IO)中

?

5.BucketCache中的Cache/Get Block逻辑?

?

?

简单地描述下：
CacheBlock的时候，将Block放在一个RAMMap和一个Queue中，然后WriterThread异步从Queue中remove Block写入到IOEngine（内存或高速盘）中，并将BlockKey及其位置、长度等信息记录在backingMap
GetBlock的时候，先访问RAMMap，然后访问backingMap获取block的位置及长度，从IOEngine读取数据

6.Block在IOEngine中的位置是怎么分配的？

?

我们将物理空间划分为一堆等大

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

HBase下关于CMS、GC碎片、大缓存的一种解决方案：Bucket Cache

相关资料更多>

推荐阅读更多>