PingCAP 唐劉：如何利用混沌工程打造健壯的分散式系統？

作者：趙鈺瑩

本文轉載於 InfoQ。

原文鏈接：https://www.infoq.cn/article/EEKM947YbboGtD_zQuLw

作為混沌工程的重要推動者，Netflix 在混沌工程手冊（https://www.infoq.cn/article/AsN34J2T9QDXB0s-t9JN）中談到，在生產環境進行軟體驗證的想法通常會被嘲笑。過去，這句話基本都被翻譯為「我們在發布之前不打算完善地驗證這些代碼」。在經典的測試鏈路中，尋找軟體缺陷的普遍信條是離生產環境越遠越好。例如，在單元測試中發現缺陷要比在集成測試中發現更好，這裡的邏輯是：離生產環境越遠，或者是離發布越遠的時候，發現的缺陷就越容易被找到根本原因並徹底修復。
對於混沌工程而言，整個鏈路剛好反過來：在離生產環境越近的地方進行實驗越好，理想的實踐就是直接在生產環境中執行。對於軟體工程師來說，最難的莫過於，系統用戶永遠不會如預期那樣與系統進行交互，混沌工程是解決這一問題的理想方法，可以讓開發者瞭解除代碼之外，整個系統其他方面的情況，特別是狀態、輸入、以及第三方系統導致的難以預見的行為。

據瞭解，在 TiDB 的研發初期，PingCAP 就引入了混沌工程，以此保證 TiDB 在各種極端情況下的穩定性。在 ArchSummit 全球架構師峯會（深圳站）2019 大會期間，InfoQ 就混沌工程理念及實踐這一話題採訪了 PingCAP 首席架構師 @唐劉 ，以此瞭解 PingCAP 的實踐歷程。