hbase優化之旅（二）regionserver的G1 GC優化探索

優化的最終目的是保障用戶體驗的同時，減少機器，節約成本。

為了更好的編寫本文，花費20美金。歡迎讚賞支持。

g1介紹

g1特點

g1原理見附錄官方文檔，本文假設讀者對jvm gc和g1原理有基本的了解。

g1特點是內存分片（一般1024片），支持動態調整young區大小，old區使用mixed gc方式分成多次小gc，盡量減少單次gc STW(stop the world)暫停時間，讓gc對應用延遲的影響在預期範圍內。

g1適用場景

對平均響應時間，最大響應時間有嚴格要求的應用系統，如hbase regionserver。

優化原則

先優化業務層和應用層

系統調優是從業務到實現，從整體到局部，從架構到具體組件的。在進行gc調優之前，我們應該確保業務層和應用層已經評估優化過。業務層和應用層的優化一般來說更容易有收益，我們不能指望一個架構設計有缺陷，應用層代碼有很多已知問題的系統，通過gc調優一勞永逸。

gc調優3選2原則

先來看一下衡量gc的指標有哪些。對應用吞吐量的影響（一般是gc對cpu的消耗），對延遲的影響，總內存佔用（gc觸發時留有內存業務可以繼續，留有內存做對象拷貝碎片整理等操作，不能oom）。

GC調優3選2原則: 在吞吐量、延遲、內存佔用上，我們只能選擇其中兩個進行調優，無法三者兼得。

hbase已有業務regionserver的調優目標

在調優之前，必須要有明確的性能優化目標，然後找到未達到該目標的性能瓶頸。再針對瓶頸做優化。通過各種監控和統計工具，確認調優後的應用是否已經達到相關目標。

hbase集群啟用了group分組，重要業務有獨立的regionserver分組。

重要業務regionserver的調優目標是，在滿足業務延遲要求的基礎上，用盡量低的成本，滿足業務吞吐量的峰值需求。

也就是說，總吞吐量固定，延遲要求固定，單機cpu和內存固定，求最小機器數。

再轉換一下，對單機來說，延遲指標確定，將單機吞吐在單機cpu和內存允許的範圍內調整到最大。

需要說明的是，單機能承擔多少吞吐，跟業務訪問模型，region數，讀寫緩存參數，網路IO，磁碟IO都有關係。業務和hbase參數的調整應該在gc優化之前進行，網路和磁碟IO一般是應用層優化的。所以下文假設業務層和應用層已優化完畢，網路和磁碟都不是瓶頸，只聚焦在gc參數調優。

本文假設我們換算後的延遲目標是平均gc暫停時間100ms，最大暫停時間2s，gc時間佔比3%以內。實際達到這個目標後，還要通過regionserver監控確定請求的延時要是否在用戶用戶的要求範圍內。

影響延遲的因素

gc的時間佔比。平均stw gc時間，頻率。毛刺stw gc時間，頻率。峰值stw gc時間，頻率。

一般來說，regionserver應該避免full gc。

新生代越大，單次young gc時間越長，頻率越低。

mixed gc受gc觸發時機，gc並發線程數，預期迭代次數，每個迭代回收分片比例等多個參數影響，詳見附錄官方文檔。

關於JVM版本

目前生產環境用1.8.0_77，小米hbase環境用1.8.0_111， Oracle jdk的8最新版本是8u201。

intel性能測試見附錄，jdk7不同版本間g1性能差距很大。Jdk7u21升級到jdk7u60，gc以及stw gc的平均時間，最大時間，時間分布都有大幅優化。

所以應該盡量用最新版本的JDK。

優化步驟

需要有方法論判斷當前是否應該繼續優化。

根據業務對延遲的需求，比較現在的請求延遲和gc情況，預估能接受的平均gc暫停時間，最大gc 暫停時間範圍。

關掉自動balance，給一台regionserver少量增加region從而增加單機吞吐。當請求延遲超過用戶要求的警戒線後，分析gc日誌，找到瓶頸，優化降低gc延遲從而降低請求延遲，以便繼續增加region。

當單機region數過多（可以考慮合併region），cpu負載過高，請求延遲無法降下來，任意一個條件滿足，單機優化結束。穩定運行一段時間後，嘗試將優化推廣到整個業務分組。

增加日誌

要分析gc情況一定要有gc日誌。之前的日誌參數如下

-XX:+PrintGCDetails gc細節 -XX:+PrintGCDateStamps 時間戳 -Xloggc:${HBASE_LOG_DIR}/gc-`date +%Y%m%d%H%M` gc文件格式 -XX:+UseGCLogFileRotation gc文件循環 -XX:NumberOfGCLogFiles=10 文件數 -XX:GCLogFileSize=512M 文件大小 -XX:+HeapDumpOnOutOfMemoryError oom時堆dump -XX:HeapDumpPath=${HBASE_LOG_DIR}/hbase.heapdump dump目錄 -XX:ErrorFile=${HBASE_LOG_DIR}/hs_err_pid%p.log -XX:+PrintAdaptiveSizePolicy 列印自適應收集的大小 -XX:+PrintFlagsFinal 列印參數值

參考其他優化的文章，增加列印參數

-XX:+PrintGCApplicationStoppedTime 列印垃圾回收期間程序暫停的時間 -XX:+PrintTenuringDistribution https://www.jianshu.com/p/e634955f3bbb survivor分布情況 -XX:+PrintHeapAtGC gc前後列印堆信息 -XX:+PrintSafepointStatistics https://blog.csdn.net/u011918260/article/details/70047159 分析安全點統計信息，優化gc參考 -XX:PrintSafepointStatisticsCount=1 -XX:PrintFLSStatistics=1 列印每次GC前後內存碎片的統計信息，統計信息主要包括3個維度：Free Space、Max Chunk Size和Num Chunks。似乎cms更有用

gc日誌太多可能會影響性能，目前沒有日誌對性能影響的數據，暫不考慮日誌對性能的影響。

可視化

有很多gc可視化的工具。比如在線的gceasy https://gceasy.io/index.jsp#banner，上傳gc日誌可以進行分析。免費功能有各種圖表展示。20美金一個月可以使用高級功能。

本文用gceasy做例子，其他可視化工具介紹見附錄。

下面從前文優化過的節點開始，分析gc日誌。

hbase優化之旅（二）regionserver的G1 GC優化探索

g1介紹

g1特點

g1適用場景

優化原則

先優化業務層和應用層

gc調優3選2原則

hbase已有業務regionserver的調優目標

影響延遲的因素

關於JVM版本

優化步驟

增加日誌

可視化

問題分析

gceasy優化建議

修改參數

設置其他必要參數

優化結果

遺留問題

附錄

g1官方介紹

其他可視化工具介紹

gceasy優化建議

優化參考

之前的優化探索

热门新闻

周热门

hbase優化之旅（二）regionserver的G1 GC優化探索

g1介紹

g1特點

g1適用場景

優化原則

先優化業務層和應用層

gc調優3選2原則

hbase已有業務regionserver的調優目標

影響延遲的因素

關於JVM版本

優化步驟

增加日誌

可視化

問題分析

gceasy優化建議

修改參數

設置其他必要參數

優化結果

遺留問題

附錄

g1官方介紹

其他可視化工具介紹

gceasy優化建議

優化參考

之前的優化探索

常見系統的數據結構應用 —— MySQL、Redis、HBase

HBase Schema 設計

Hbase的數據讀寫流程

HBase的RowKey設計

HBase的數據模型是什麼樣的？

第三章 - HBase 基本操作

HBase在滴滴出行的應用場景和最佳實踐

HBase高可用原理與實踐

hbase優化之旅（一）探索regionserver參數優化

彌補MySQL和Redis短板：看HBase怎麼確保高可用

HBase原理深入解析（一）----HBase架構總覽

HBase 2.0 協處理器實現 ES 數據同步

（1.3版)hbase優化之旅(三)-regionserver g1 執行細節和參數調優方法論詳解

查詢億級數據毫秒級返回！牛逼哄哄的ElasticSearch是如何做到的？

知乎 HBase 實踐

热门新闻

周热门