Golang Failpoint 的設計與實現

作者：龍恆

對於一個大型複雜的系統來說，通常包含多個模塊或多個組件構成，模擬各個子系統的故障是測試中必不可少的環節，並且這些故障模擬必須做到無侵入地集成到自動化測試系統中，通過在自動化測試中自動激活這些故障點來模擬故障，並觀測最終結果是否符合預期結果來判斷系統的正確性和穩定性。如果在一個分散式系統中需要專門請一位同事來插拔網線來模擬網路異常，一個存儲系統中需要通過破壞硬碟來模擬磁碟損壞，昂貴的測試成本會讓測試成為一場災難，並且難以模擬一些需要精細化控制的的測試。所以我們需要一些自動化的方式來進行確定性的故障測試。

Failpoint 項目 就是為此而生，它是 FreeBSD failpoints 的 Golang 實現，允許在代碼中注入錯誤或異常行為，並由環境變數或代碼動態激活來觸發這些異常行為。Failpoint 能用於各種複雜系統中模擬錯誤處理來提高系統的容錯性、正確性和穩定性，比如：

微服務中某個服務出現隨機延遲、某個服務不可用。
存儲系統磁碟 IO 延遲增加、IO 吞吐量過低、落盤時間長。
調度系統中出現熱點，某個調度指令失敗。
充值系統中模擬第三方重複請求充值成功回調介面。
遊戲開發中模擬玩家網路不穩定、掉幀、延遲過大等，以及各種異常輸入（外掛請求）情況下系統是否正確工作。
……

為什麼要重複造輪子？

Etcd 團隊在 2016 年開發了 gofail 極大地簡化了錯誤注入，為 Golang 生態做出了巨大貢獻。我們在 2018 年已經引入了 gofail 進行錯誤注入測試，但是我們在使用中發現了一些功能性以及便利性的問題，所以我們決定造一個更好的「輪子」。

如何使用 gofail

使用注釋在程序中注入一個 failpoint： // gofail: var FailIfImportedChunk int // if merger, ok := scp.merger.(*ChunkCheckpointMerger); ok && merger.Checksum.SumKVS() >= uint64(FailIfImportedChunk) { // rc.checkpointsWg.Done() // rc.checkpointsWg.Wait() // panic("forcing failure due to FailIfImportedChunk") // } // goto RETURN1

// gofail: RETURN1:

// gofail: var FailIfStatusBecomes int
// if merger, ok := scp.merger.(*StatusCheckpointMerger); ok && merger.EngineID >= 0 && int(merger.Status) == FailIfStatusBecomes {
// rc.checkpointsWg.Done()
// rc.checkpointsWg.Wait()
// panic("forcing failure due to FailIfStatusBecomes")
// }
// goto RETURN2

// gofail: RETURN2:

使用 gofail enable 轉換後的代碼：

if vFailIfImportedChunk, __fpErr := __fp_FailIfImportedChunk.Acquire(); __fpErr == nil { defer __fp_FailIfImportedChunk.Release(); FailIfImportedChunk, __fpTypeOK := vFailIfImportedChunk.(int); if !__fpTypeOK { goto __badTypeFailIfImportedChunk} if merger, ok := scp.merger.(*ChunkCheckpointMerger); ok && merger.Checksum.SumKVS() >= uint64(FailIfImportedChunk) { rc.checkpointsWg.Done() rc.checkpointsWg.Wait() panic("forcing failure due to FailIfImportedChunk") } goto RETURN1; __badTypeFailIfImportedChunk: __fp_FailIfImportedChunk.BadType(vFailIfImportedChunk, "int"); };

/* gofail-label */ RETURN1:

if vFailIfStatusBecomes, __fpErr := __fp_FailIfStatusBecomes.Acquire(); __fpErr == nil { defer __fp_FailIfStatusBecomes.Release(); FailIfStatusBecomes, __fpTypeOK := vFailIfStatusBecomes.(int); if !__fpTypeOK { goto __badTypeFailIfStatusBecomes}
if merger, ok := scp.merger.(*StatusCheckpointMerger); ok && merger.EngineID >= 0 && int(merger.Status) == FailIfStatusBecomes {
rc.checkpointsWg.Done()
rc.checkpointsWg.Wait()
panic("forcing failure due to FailIfStatusBecomes")
}
goto RETURN2; __badTypeFailIfStatusBecomes: __fp_FailIfStatusBecomes.BadType(vFailIfStatusBecomes, "int"); };

/* gofail-label */ RETURN2:

gofail 使用中遇到的問題

使用注釋的方式在代碼中注入 failpoint，代碼容易出錯，並且沒有編譯器檢測。
只能全局生效，大型項目為了縮短自動化測試的時間會引入並行測試，不同並行任務之間會存在干擾。
需要寫一些 hack 代碼來避免一些不必要的錯誤日誌，比如如上代碼，必須要寫 // goto RETURN2 和 // gofail: RETURN2:，並且中間必須添加一個空行，至於原因可以看 generated code 邏輯。

我們要設計一個什麼樣子的 failpoint？

理想的 failpoint 實現應該是什麼樣子？

理想中的 failpoint 應該是使用代碼定義並且對業務邏輯無侵入，如果在一個支持宏的語言中 (比如 Rust)，我們可以定義一個 fail_point 宏來定義 failpoint：

fail_point!("transport_on_send_store", |sid| if let Some(sid) = sid { let sid: u64 = sid.parse().unwrap(); if sid == store_id { self.raft_client.wl().addrs.remove(&store_id); } })

但是我們遇到了一些問題：