内存总是不够？HBase&GeoMesa配置优化了解一下

阅读原文时间：2023年07月13日阅读：2

生产环境HBase集群内存经常处于高位（90%），而且GC之后也是内存依然处于高位，经分析内存全部由集群的regionserver进程所持有，，经常重启之后，大概3-4天就会保持在高位。由上述症状，可以判断集群内存有泄露的嫌疑。

1、先熟悉一下HBase的内存模型

HBase系统中有两块大的内存管理模块，一块是MemStore ，一块是BlockCache，前置是用于集群写入所属内存，而后者用于缓存热数据，提供查询速度。这两者均可以通过配置文件进行配置。当前集群均配置了0.4和0.4的比例。而考虑到HBase集群是多写少读的情景，为此而引入了MSLAB机制来优化HBase的MemStore 负担。内存的使用率会呈现很优美的锯齿图形。

2、分析内存使用率和业务关系

起初认为是读写业务量已经超过了集群负载能力，但集群业务也不大，写和读的TPS，带宽吞吐量均未达到集群限定的能力，而且CPU利用率大多半都被GC占用，但内存就是持高不下，即使业务了停了一天，内存还是不怎么下降，很明显和业务量无关。

那么和compaction有关？经观察的确可以看compact时特别消耗时间。此时感觉看到了希望，调整各个参数，把compact操作提升了10+倍之后，内存还是持高不下。剩下最根治的办法就是分析内存，看一下内存数据都是什么？有无内存泄露问题。

3、分析dunp文件

节点dump下regionserver的内存，分析发现内存中有50个RpcServer.FifoRWQ.default.read.handler线程，每个线程持有了1.2%左右的总内存，那么所有的线程持有的内存占有量大于为50*1.2%=60%。随着查询次数增多，线程持续的内存还会持续增加，如下图。