MySQL Group Replication Paxos層不足和優化

本文由原作者授權網易雲發布，未經許可，謝絕轉載！

作者：溫正湖，網易資料庫專家

來源：資料庫內核

本文是MySQL Group Replication（MGR）不足和優化系列文章的延續。在之前的文章中講了事務認證機制/衝突檢測資料庫不足和優化。其中的優化點在我們的InnoSQL 5.7.20-v3b版本上實現，其優化效果也得到了初步驗證。本篇文章主要分析作為MGR最底層的節點間網路通信層（Paxos）存在的問題及其優化。

前言

從InnoSQL 5.7.20 GA到InnoSQL 5.7.20-v3b版本，我們持續對MGR進行著優化。截止目前，MGR已經在多個業務場景上得到了驗證，應該說在絕大部分業務場景下MGR都能夠運行良好。但在測試過程中，我們也發現在一些特別的場景下仍存在問題，典型的場景是在批量導數據時，比如使用NDC在不同MySQL實例間遷移數據。或者使用sqoop工具將數據從大數據系統遷移到MySQL實例上。為了提高遷移效率，常常會將多條記錄batch成一個事務進行批量插入，同時增加並發度。一般來說，如果待遷移的表中每條記錄的大小較小時，並不會有什麼問題。但若記錄本身較大，或batch個數較多，再加上並發度較大時。往往會導致遷移過程中mysqld佔用的內存不斷增漲。若mysqld增漲的內存超過了系統可用內存，則會引發OOM。