ZooKeeper靈魂----paxos小島

近期拜讀了Leslie Lamport的1998年發表的大作《The Part-Time Parliament》，對分散式有所瞭解的人，應該聽說過這篇論文。我在之前看過多個版本的個人理解的文章，自己一直沒有看過原文，看完以後才知道，這篇論文是對考古發掘的倫理做了描述，同時加上作者的一些推理，遺憾的是考古發掘並沒有展示出完整的Paxos協議，缺失很多細節，所以這不是一個完善的分散式資料庫解決方案，更像是一個待完善的系統原型。

論文中有很多數學推理過程難度很高，因個人能力有限，只能根據自己的理解大概描述一下，希望沒有誤解和曲解作者原意，也歡迎大家指正。

先講故事

故事發生在一個商業繁榮、政治精明的小島(Paxos)，這裡建立了政府國會取代了之前的神權政治。小島上所有法令(Decress)都由議會的議員(Legislator)表決通過，然後由議員記錄在各自手中的律薄(Ledger)上。但是由於這裡商業繁榮，沒有人願意做專職的議員，都是由小島居民兼職的。由於平時工作很忙，所以兼職議員們會經常進出國會大廳，甚至中途去出海捕魚，半年後再回到國會大廳。

好在兼職議員們相互高度信任，所有提議都會被通過，不會有人反對(關於這點，不太明白當時小島就是這樣，還是作者有意這樣描述)。並且，兼職議員們只要待著議會大廳，總會積極的完成工作。

小島上的Paxos演算法經歷了幾個階段的發展。下面分階段介紹：

階段一：早期神會

由於所有議員可以隨時離開議會大廳，所以，一個法令如果要獲得多數議員的通過，就需要對一個法令發起多輪投票，為了保證法令有序通過，數學家們制定了3條規則：

B1(β): 每一輪投票都有一個唯一的編號(假設是遞增的)。

B2(β): 任意兩輪投票的法定人數集合(指：在大廳中但是不一定完成投票的議員)中，至少有一個重合的議員。

B3(β): 投票集合β中的任意一輪投票V，如果本輪法定人數集合的議員參與了以前的投票(並完成投票)，那麼這些以前的投票中最近一次投票(最大編號)的法令，和本次投票的法令的編號相同。

註解：

1.原文解釋B1~B3規則時使用的是「牧師」(神會階段叫牧師，國會階段叫議員)，為了避免大家混淆和誤解，本文全部使用議員。

2.這3條規則還不能指導神會的正常運轉，我們先理解規則，不考慮尚未提及的問題。

3.B1(β)就不用解釋了。B2(β)的意思就是參與投票的議員需要過半數，以保證投票的一致性。

3.B3(β)是比較難以理解的，原文中有推導過程，但是本人能力有限，沒看懂，呵呵。這裡說一下我的理解：如果法令是按順序通過的，並且每一個通過的法令必須經過大多數議員投票通過，那麼，如果本輪投票有效，就意味著本輪有大多數議員投票，並且投票的法令就是上一次待通過的發法令(因為更早的法令已經投票通過了)或者無待投票的法令(那就可以發起新的投票了)。這些猜測在後面的文章中會慢慢打開來講。

階段二：初級協議

在神會階段的基礎上，發展出了初級協議。原文中用6個步驟描述了初級協議的投票過程。但是我個人不習慣於他的描述方法，所以這裡嘗試使用比較大眾化的語言解釋一遍。

首先，假設每一位議員的律簿的正面用於按照順序記錄已經通過的法令，比較正式，不可更改。律薄的背面(便簽的作用，可以擦寫)用於記錄不連續的法令，以後再謄抄到正面。另外，律薄的背面還要記錄幾個關於投票過程的重要信息：

v: 議員自己上次完成投票的投票編號

b: 新一輪投票中接收到的新投票編號

下面就講解這6個步驟：

1.議員p根據自己律薄的記錄，選擇一個新的投票編號b(b>v)。然後給大廳的其他議員，發送通知消息NextBallot=b。

2.議員q收到p發送的消息以後，找到自己在b之前參與的投票編號v(b>v)，並返回v；如果不存在v就返回null。返回消息LastVote(b)=v 。注意，此時q會鎖定v~b之間的投票，即：議員q只會對b進行投票。

3.議員p收到大廳內所有議員的step2響應匯總成一個集合V，根據B3法則，選擇出本輪投票的法令d，然後，給大廳內所有議員發送開始投票的消息BeginBallot (b, d)。

4.議員q開始表決(投票就表示贊同)，修改自己律薄上記錄的上次投票編號v=b。如果不表決可是因為：收到另一個議員p1發起的新投票編號b1(b1>b)，這樣在step2中鎖定範圍包括了b，所以，此時不能完成b輪投票；或者因為睡著了而沒有投票等等。

5.議員p收到大廳所有議員的投票，那麼法令d表決通過，在律薄上記錄法令d，然後發送Success(d)消息。

6.議員q在律薄上記錄法令d。

ZooKeeper靈魂----paxos小島

熱門新聞

週熱門

ZooKeeper靈魂----paxos小島

淺談Zookeeper

第四十九章：Zookeeper 中的重要概念（一）

如何用Zookeeper實現分散式鎖？

Zookeeper系列（3）--Paxos演算法的原理及過程透徹理解

Redis實現分散式鎖與Zookeeper實現分散式鎖區別

構建高可用ZooKeeper集羣

Zookeeper筆記

Zookeeper內幕篇

Zookeeper 總結

Megastore中的paxos

phxpaxos源碼分析5. init network (下)

Paxos的應用場景

分散式一致性演算法：Paxos——近乎原汁原味的論文分析

分散式存儲--paxos

paxosstore 源碼學習系列五：Certain代碼結構與入口

熱門新聞

週熱門