如何保障集群高可用

保障集群高可用,要具備如下能力:

  • 能監測伺服器的狀態,當主伺服器不可用時,能及時發現
  • 當主伺服器不可用時,選擇一台最合適的從伺服器替代原有主伺服器
  • 存儲相同數據的主伺服器同一時刻只有一台

要實現上述功能,最直觀的做法就是,使用一台監控伺服器來監視Redis

伺服器的狀態。

監控伺服器和主從伺服器間維護一個心跳連接,當超出一定時間沒有收到主伺服器心跳時,主伺服器就會被標記為下線,然後通知從伺服器上線成為主伺服器。

當原來的主伺服器上線後,監控伺服器會將其轉換為從伺服器。

按照上述流程似乎解決了集群高可用的問題,但似乎有哪裡不對:如果監控伺服器出了問題怎麼辦?我們可以在加上一個從監控伺服器,當主伺服器不可用的時候頂上。

但問題是誰來監控』監控伺服器』呢?子子孫孫無窮盡也。。

先把疑問放在一旁,先來看下Redis Sentinel集群的實現

Sentinel

和上一小節的想法一樣,Redis通過增加額外的Sentinel伺服器來監控數據伺服器,Sentinel會與所有的主伺服器和從伺服器保存連接,用以監聽伺服器狀態以及向伺服器下達命令。

Sentinel本身是一個特殊狀態的Redis伺服器,啟動命令:

redis-server /xxx/sentinel.conf --sentinel,sentinel模式下的啟動流程與普通redis server是不一樣的,比如說不會去載入RDB文件以及AOF文件,本身也不會存儲業務數據。

與主伺服器建立連接

Sentinel啟動後,會與配置文件中提供的所有主伺服器建立兩個連接,一個是命令連接,一個是訂閱連接。

命令連接用於向伺服器發送命令。

訂閱連接則是用於訂閱伺服器的_sentinel_:hello頻道,用於獲取其他Sentinel信息,下文會詳細說。

獲取主伺服器信息

Sentinel會以一定頻率向主伺服器發送Info命令獲取信息,包括主伺服器自身的信息比如說伺服器id等,以及對應的從伺服器信息,包括ip和port。Sentinel會根據info命令返回的信息更新自己保存的伺服器信息,並會與從伺服器建立連接。

獲取從伺服器信息

與和主伺服器的交互相似,Sentinel也會以一定頻率通過Info命令獲取從伺服器信息,包括:從伺服器ID,從伺服器與主伺服器的連接狀態,從伺服器的優先順序,從伺服器的複製偏移等等。

向伺服器訂閱和發布消息

如何保障集群高可用小節留下了一個疑問:用如何保證監視伺服器的高可用? 在這裡我們可以先給出簡單回答:用一個監視伺服器集群(也就是Sentinel集群)。如何實現,如何保證監視伺服器的一致性暫且先不說,我們只要記住需要用若干台Sentinel來保障高可用,那一個Sentinel是如何感知其他的Sentinel的呢?

前面說過,Sentinel在與伺服器建立連接時,會建立兩個連接,其中一個是訂閱連接。Sentinel會定時的通過訂閱連接向_sentinel_:hello頻道頻道發送消息(對Redis發布訂閱功能不太了解的同學可以去去了解下),其中包括:

  • Sentinel本身的信息,如ip地址、埠號、配置紀元(見下文)等
  • Sentinel監視的主伺服器的信息,包括ip、埠、配置紀元(見下文)等

同時,Sentinel也會訂閱_sentinel_:hello頻道的消息,也就是說Sentinel即向該頻道發布消息,又從該頻道訂閱消息。

Sentinel有一個字典對象sentinels,保存著監視同一主伺服器的其他所有Sentinel伺服器,當一個Sentinel接收到來自_sentinel_:hello頻道的消息時,會先比較發送該消息的是不是自己,如果是則忽略,否則將更新sentinels中的內容,並對新的Sentinel建立連接。

主觀下線

Sentinel默認會以每秒一次的頻率向所有建立連接的伺服器(主伺服器,從伺服器,Sentinel伺服器)發送PING命令,如果在down-after-milliseconds內都沒有收到有效回復,Sentinel會將該伺服器標記為主觀下線,代表該Sentinel認為這台伺服器已經下線了。需要注意的是不同Sentinel的down-after-milliseconds是可以不同的。

客觀下線

為了確保伺服器真的已經下線,當Sentinel將某個伺服器標記為主觀下線後,它會向其他的Sentinel實例發送Sentinel is-master-down-by-addr命令,接收到該命令的Sentinel實例會回復主伺服器的狀態,代表該Sentinel對該主伺服器的連接情況。

Sentinel會統計發出的所有Sentinel is-master-down-by-addr命令的回復,並統計同意將主伺服器下線的數量,如果該數量超出了某個閾值,就會將該主伺服器標記為客觀下線。

選舉領頭Sentinel

當Sentinel將一個主伺服器標記為客觀下線後,監視該伺服器的各個Sentinel會通過Raft演算法進行協商,選舉出一個領頭的Sentinel。

建議你先看Raft演算法的基礎知識,再來看下文。

規則:

  • 所有的Sentinel都有可能成為領頭Sentinel的資格
  • 每次選舉後,無論有沒有選出領頭Sentinel,配置紀元都會+1
  • 在某個紀元里,每個Sentinel都有為投票的機會
  • 我們稱要求其他人選舉自己的Sentinel稱為源Sentinel,將被要求投票的Sentinel稱為目標Sentinel
  • 每個發現主伺服器被標記為客觀下線且還沒有被其他Sentinel要求投票的Sentinel都會要求其他Sentinel將自己設置為頭
  • 目標Sentinel在一個配置紀元里,一旦為某個Sentinel(也可能是它自己)投票後,對於之後收到的要求投票的命令,將拒絕
  • 目標Sentinel對於要求投票的命令將回復自己選舉的Sentinel的id以及當前配置紀元
  • 源Sentinel在接收到要求投票的回復後:如果回復的配置紀元與自己的相同,則再檢測目標Sentinel選舉的頭Sentinel是不是自己
  • 如果某個Sentinel被半數以上的Sentinel設置成了領頭Sentinel,那它將稱為領頭Sentinel
  • 一個配置紀元只會選出一個頭(因為一個頭需要半數以上的支持)
  • 如果在給定時間內,還沒有選出頭,則過段時間再次選舉(配置紀元會+1)

還記得我們在文章開頭提出的如何保證Redis伺服器高可用的問題嗎?

答案就是使用若干台Sentinel伺服器,通過Raft一致性演算法來保障集群的高可用,只要Sentinel伺服器有一半以上的節點都正常,那集群就是可用的。

故障轉移

領頭Sentinel將會進行以下3個步驟進行故障轉移:

1.在已下線主伺服器的所有從伺服器中,挑選出一個作為新的主伺服器

2.將其他從伺服器的主伺服器設置成新的

3.將已下線的主伺服器的role改成從伺服器,並將其主伺服器設置成新的,當該伺服器重新上線後,就會一個從伺服器的角色繼續工作

第一步中挑選新的主伺服器的規則如下:

1.過濾掉所有已下線的從伺服器

2.過濾掉最近5秒沒有回復過Sentinel命令的從伺服器

3.過濾掉與原主伺服器斷開時間超過down-after-milliseconds*10的從伺服器

4.根據從伺服器的優先順序進行排序,選擇優先順序最高的那個

5.如果有多個從伺服器優先順序相同,則選取複製偏移量最大的那個

6.如果上一步的伺服器還有多個,則選取id最小的那個

竟然都看到最後了,給小編點個關注吧,小編還會持續更新的,只收藏不點關注的都是在耍流氓!

推薦閱讀:

相关文章