Zookeeper系列（3）--Paxos演算法的原理及過程透徹理解

從上一篇我們了解了2PC和3PC之後，我們可以發現，無論是二階段提交還是三階段提交都無法徹底解決分散式的一致性問題以及無法解決太過保守及容錯性不好。Google Chubby的作者Mike Burrows說過，世上只有一種一致性演算法，那就是Paxos，所有其他一致性演算法都是Paxos演算法的不完整版。Paxos演算法是公認的晦澀，很難可能能將清楚，但是工程上也很難實現，所以有很多Paxos演算法的工程實現，如Raft，ZAB，微信的PhxPaxos等。這一篇會介紹這個公認為難於理解但是行之有效的Paxos演算法。Paxos演算法是萊斯利·蘭伯特(Leslie Lamport)1990年提出的一種基於消息傳遞的一致性演算法，它曾就此發表了《The Part-Time Parliament》，《Paxos Made Simple》，由於採用故事的方式來解釋此演算法，感覺還是很難理解。

Paxos演算法產生的背景

Paxos演算法是基於消息傳遞且具有高度容錯特性的一致性演算法，是目前公認的解決分散式一致性問題最有效的演算法之一，其解決的問題就是在分散式系統中如何就某個值（決議）達成一致。

我自己的理解是：不要把這個Paxos演算法達到的目的和分散式事務聯繫起來，而是針對Zookeeper這樣的master-slave集群對某個決議達成一致，也就是副本之間寫或者leader選舉達成一致。我覺得這個演算法和狹義的分散式事務不是一樣的。

在常見的分散式系統中，總會發生諸如機器宕機或網路異常（包括消息的延遲、丟失、重複、亂序，還有網路分區）(也就是會發生異常的分散式系統)等情況。Paxos演算法需要解決的問題就是如何在一個可能發生上述異常的分散式系統中，快速且正確地在集群內部對某個數據的值達成一致。也可以理解成分散式系統中達成狀態的一致性。

註：這裡某個數據的值並不只是狹義上的某個數，它可以是一條日誌，也可以是一條命令（command）。。。根據應用場景不同，某個數據的值有不同的含義。

對Paxos保證一致性換一種理解：

Paxos 演算法是分散式一致性演算法用來解決一個分散式系統如何就某個值(決議)達成一致的問題。一個典型的場景是，在一個分散式資料庫系統中，如果各節點的初始狀態一致，每個節點都執行相同的操作序列，那麼他們最後能得到一個一致的狀態。為保證每個節點執行相同的命令序列，需要在每一條指令上執行一個」一致性演算法」以保證每個節點看到的指令一致。

分散式系統中一般是通過多副本來保證可靠性，而多個副本之間會存在數據不一致的情況。所以必須有一個一致性演算法來保證數據的一致，描述如下：

假如在分散式系統中初始是各個節點的數據是一致的，每個節點都順序執行系列操作，然後每個節點最終的數據還是一致的。

Paxos演算法就是解決這種分散式場景中的一致性問題。對於一般的開發人員來說，只需要知道paxos是一個分散式選舉演算法即可。多個節點之間存在兩種通訊模型：共享內存（Shared memory）、消息傳遞（Messages passing），Paxos是基於消息傳遞的通訊模型的。