hbase优化之旅（二）regionserver的G1 GC优化探索

优化的最终目的是保障用户体验的同时，减少机器，节约成本。

为了更好的编写本文，花费20美金。欢迎赞赏支持。

g1介绍

g1特点

g1原理见附录官方文档，本文假设读者对jvm gc和g1原理有基本的了解。

g1特点是内存分片（一般1024片），支持动态调整young区大小，old区使用mixed gc方式分成多次小gc，尽量减少单次gc STW(stop the world)暂停时间，让gc对应用延迟的影响在预期范围内。

g1适用场景

对平均响应时间，最大响应时间有严格要求的应用系统，如hbase regionserver。

优化原则

先优化业务层和应用层

系统调优是从业务到实现，从整体到局部，从架构到具体组件的。在进行gc调优之前，我们应该确保业务层和应用层已经评估优化过。业务层和应用层的优化一般来说更容易有收益，我们不能指望一个架构设计有缺陷，应用层代码有很多已知问题的系统，通过gc调优一劳永逸。

gc调优3选2原则

先来看一下衡量gc的指标有哪些。对应用吞吐量的影响（一般是gc对cpu的消耗），对延迟的影响，总内存占用（gc触发时留有内存业务可以继续，留有内存做对象拷贝碎片整理等操作，不能oom）。

GC调优3选2原则: 在吞吐量、延迟、内存占用上，我们只能选择其中两个进行调优，无法三者兼得。

hbase已有业务regionserver的调优目标

在调优之前，必须要有明确的性能优化目标，然后找到未达到该目标的性能瓶颈。再针对瓶颈做优化。通过各种监控和统计工具，确认调优后的应用是否已经达到相关目标。

hbase集群启用了group分组，重要业务有独立的regionserver分组。

重要业务regionserver的调优目标是，在满足业务延迟要求的基础上，用尽量低的成本，满足业务吞吐量的峰值需求。

也就是说，总吞吐量固定，延迟要求固定，单机cpu和内存固定，求最小机器数。

再转换一下，对单机来说，延迟指标确定，将单机吞吐在单机cpu和内存允许的范围内调整到最大。

需要说明的是，单机能承担多少吞吐，跟业务访问模型，region数，读写缓存参数，网路IO，磁碟IO都有关系。业务和hbase参数的调整应该在gc优化之前进行，网路和磁碟IO一般是应用层优化的。所以下文假设业务层和应用层已优化完毕，网路和磁碟都不是瓶颈，只聚焦在gc参数调优。

本文假设我们换算后的延迟目标是平均gc暂停时间100ms，最大暂停时间2s，gc时间占比3%以内。实际达到这个目标后，还要通过regionserver监控确定请求的延时要是否在用户用户的要求范围内。

影响延迟的因素

gc的时间占比。平均stw gc时间，频率。毛刺stw gc时间，频率。峰值stw gc时间，频率。

一般来说，regionserver应该避免full gc。

新生代越大，单次young gc时间越长，频率越低。

mixed gc受gc触发时机，gc并发线程数，预期迭代次数，每个迭代回收分片比例等多个参数影响，详见附录官方文档。

关于JVM版本

目前生产环境用1.8.0_77，小米hbase环境用1.8.0_111， Oracle jdk的8最新版本是8u201。

intel性能测试见附录，jdk7不同版本间g1性能差距很大。Jdk7u21升级到jdk7u60，gc以及stw gc的平均时间，最大时间，时间分布都有大幅优化。

所以应该尽量用最新版本的JDK。

优化步骤

需要有方法论判断当前是否应该继续优化。

根据业务对延迟的需求，比较现在的请求延迟和gc情况，预估能接受的平均gc暂停时间，最大gc 暂停时间范围。

关掉自动balance，给一台regionserver少量增加region从而增加单机吞吐。当请求延迟超过用户要求的警戒线后，分析gc日志，找到瓶颈，优化降低gc延迟从而降低请求延迟，以便继续增加region。

当单机region数过多（可以考虑合并region），cpu负载过高，请求延迟无法降下来，任意一个条件满足，单机优化结束。稳定运行一段时间后，尝试将优化推广到整个业务分组。

增加日志

要分析gc情况一定要有gc日志。之前的日志参数如下

-XX:+PrintGCDetails gc细节 -XX:+PrintGCDateStamps 时间戳 -Xloggc:${HBASE_LOG_DIR}/gc-`date +%Y%m%d%H%M` gc文件格式 -XX:+UseGCLogFileRotation gc文件循环 -XX:NumberOfGCLogFiles=10 文件数 -XX:GCLogFileSize=512M 文件大小 -XX:+HeapDumpOnOutOfMemoryError oom时堆dump -XX:HeapDumpPath=${HBASE_LOG_DIR}/hbase.heapdump dump目录 -XX:ErrorFile=${HBASE_LOG_DIR}/hs_err_pid%p.log -XX:+PrintAdaptiveSizePolicy 列印自适应收集的大小 -XX:+PrintFlagsFinal 列印参数值

参考其他优化的文章，增加列印参数

-XX:+PrintGCApplicationStoppedTime 列印垃圾回收期间程序暂停的时间 -XX:+PrintTenuringDistribution https://www.jianshu.com/p/e634955f3bbb survivor分布情况 -XX:+PrintHeapAtGC gc前后列印堆信息 -XX:+PrintSafepointStatistics https://blog.csdn.net/u011918260/article/details/70047159 分析安全点统计信息，优化gc参考 -XX:PrintSafepointStatisticsCount=1 -XX:PrintFLSStatistics=1 列印每次GC前后内存碎片的统计信息，统计信息主要包括3个维度：Free Space、Max Chunk Size和Num Chunks。似乎cms更有用

gc日志太多可能会影响性能，目前没有日志对性能影响的数据，暂不考虑日志对性能的影响。

可视化

有很多gc可视化的工具。比如在线的gceasy https://gceasy.io/index.jsp#banner，上传gc日志可以进行分析。免费功能有各种图表展示。20美金一个月可以使用高级功能。

本文用gceasy做例子，其他可视化工具介绍见附录。

下面从前文优化过的节点开始，分析gc日志。

hbase优化之旅（二）regionserver的G1 GC优化探索

g1介绍

g1特点

g1适用场景

优化原则

先优化业务层和应用层

gc调优3选2原则

hbase已有业务regionserver的调优目标

影响延迟的因素

关于JVM版本

优化步骤

增加日志

可视化

问题分析

gceasy优化建议

修改参数

设置其他必要参数

优化结果

遗留问题

附录

g1官方介绍

其他可视化工具介绍

gceasy优化建议

优化参考

之前的优化探索

热门新闻

周热门

hbase优化之旅（二）regionserver的G1 GC优化探索

g1介绍

g1特点

g1适用场景

优化原则

先优化业务层和应用层

gc调优3选2原则

hbase已有业务regionserver的调优目标

影响延迟的因素

关于JVM版本

优化步骤

增加日志

可视化

问题分析

gceasy优化建议

修改参数

设置其他必要参数

优化结果

遗留问题

附录

g1官方介绍

其他可视化工具介绍

gceasy优化建议

优化参考

之前的优化探索

常见系统的数据结构应用 —— MySQL、Redis、HBase

HBase Schema 设计

Hbase的数据读写流程

HBase的RowKey设计

HBase的数据模型是什么样的？

第三章 - HBase 基本操作

HBase在滴滴出行的应用场景和最佳实践

HBase高可用原理与实践

hbase优化之旅（一）探索regionserver参数优化

弥补MySQL和Redis短板：看HBase怎么确保高可用

HBase原理深入解析（一）----HBase架构总览

HBase 2.0 协处理器实现 ES 数据同步

（1.3版)hbase优化之旅(三)-regionserver g1 执行细节和参数调优方法论详解

查询亿级数据毫秒级返回！牛逼哄哄的ElasticSearch是如何做到的？

知乎 HBase 实践

热门新闻

周热门