保障集群高可用,要具備如下能力:
要實現上述功能,最直觀的做法就是,使用一台監控伺服器來監視Redis
伺服器的狀態。
監控伺服器和主從伺服器間維護一個心跳連接,當超出一定時間沒有收到主伺服器心跳時,主伺服器就會被標記為下線,然後通知從伺服器上線成為主伺服器。
當原來的主伺服器上線後,監控伺服器會將其轉換為從伺服器。
按照上述流程似乎解決了集群高可用的問題,但似乎有哪裡不對:如果監控伺服器出了問題怎麼辦?我們可以在加上一個從監控伺服器,當主伺服器不可用的時候頂上。
但問題是誰來監控』監控伺服器』呢?子子孫孫無窮盡也。。
先把疑問放在一旁,先來看下Redis Sentinel集群的實現
Sentinel
和上一小節的想法一樣,Redis通過增加額外的Sentinel伺服器來監控數據伺服器,Sentinel會與所有的主伺服器和從伺服器保存連接,用以監聽伺服器狀態以及向伺服器下達命令。
Sentinel本身是一個特殊狀態的Redis伺服器,啟動命令:
redis-server /xxx/sentinel.conf --sentinel,sentinel模式下的啟動流程與普通redis server是不一樣的,比如說不會去載入RDB文件以及AOF文件,本身也不會存儲業務數據。
與主伺服器建立連接
Sentinel啟動後,會與配置文件中提供的所有主伺服器建立兩個連接,一個是命令連接,一個是訂閱連接。
命令連接用於向伺服器發送命令。
訂閱連接則是用於訂閱伺服器的_sentinel_:hello頻道,用於獲取其他Sentinel信息,下文會詳細說。
獲取主伺服器信息
Sentinel會以一定頻率向主伺服器發送Info命令獲取信息,包括主伺服器自身的信息比如說伺服器id等,以及對應的從伺服器信息,包括ip和port。Sentinel會根據info命令返回的信息更新自己保存的伺服器信息,並會與從伺服器建立連接。
獲取從伺服器信息
與和主伺服器的交互相似,Sentinel也會以一定頻率通過Info命令獲取從伺服器信息,包括:從伺服器ID,從伺服器與主伺服器的連接狀態,從伺服器的優先順序,從伺服器的複製偏移等等。
向伺服器訂閱和發布消息
在如何保障集群高可用小節留下了一個疑問:用如何保證監視伺服器的高可用? 在這裡我們可以先給出簡單回答:用一個監視伺服器集群(也就是Sentinel集群)。如何實現,如何保證監視伺服器的一致性暫且先不說,我們只要記住需要用若干台Sentinel來保障高可用,那一個Sentinel是如何感知其他的Sentinel的呢?
前面說過,Sentinel在與伺服器建立連接時,會建立兩個連接,其中一個是訂閱連接。Sentinel會定時的通過訂閱連接向_sentinel_:hello頻道頻道發送消息(對Redis發布訂閱功能不太了解的同學可以去去了解下),其中包括:
同時,Sentinel也會訂閱_sentinel_:hello頻道的消息,也就是說Sentinel即向該頻道發布消息,又從該頻道訂閱消息。
Sentinel有一個字典對象sentinels,保存著監視同一主伺服器的其他所有Sentinel伺服器,當一個Sentinel接收到來自_sentinel_:hello頻道的消息時,會先比較發送該消息的是不是自己,如果是則忽略,否則將更新sentinels中的內容,並對新的Sentinel建立連接。
主觀下線
Sentinel默認會以每秒一次的頻率向所有建立連接的伺服器(主伺服器,從伺服器,Sentinel伺服器)發送PING命令,如果在down-after-milliseconds內都沒有收到有效回復,Sentinel會將該伺服器標記為主觀下線,代表該Sentinel認為這台伺服器已經下線了。需要注意的是不同Sentinel的down-after-milliseconds是可以不同的。
客觀下線
為了確保伺服器真的已經下線,當Sentinel將某個伺服器標記為主觀下線後,它會向其他的Sentinel實例發送Sentinel is-master-down-by-addr命令,接收到該命令的Sentinel實例會回復主伺服器的狀態,代表該Sentinel對該主伺服器的連接情況。
Sentinel會統計發出的所有Sentinel is-master-down-by-addr命令的回復,並統計同意將主伺服器下線的數量,如果該數量超出了某個閾值,就會將該主伺服器標記為客觀下線。
選舉領頭Sentinel
當Sentinel將一個主伺服器標記為客觀下線後,監視該伺服器的各個Sentinel會通過Raft演算法進行協商,選舉出一個領頭的Sentinel。
建議你先看Raft演算法的基礎知識,再來看下文。
規則:
還記得我們在文章開頭提出的如何保證Redis伺服器高可用的問題嗎?
答案就是使用若干台Sentinel伺服器,通過Raft一致性演算法來保障集群的高可用,只要Sentinel伺服器有一半以上的節點都正常,那集群就是可用的。
故障轉移
領頭Sentinel將會進行以下3個步驟進行故障轉移:
1.在已下線主伺服器的所有從伺服器中,挑選出一個作為新的主伺服器
2.將其他從伺服器的主伺服器設置成新的
3.將已下線的主伺服器的role改成從伺服器,並將其主伺服器設置成新的,當該伺服器重新上線後,就會一個從伺服器的角色繼續工作
第一步中挑選新的主伺服器的規則如下:
1.過濾掉所有已下線的從伺服器
2.過濾掉最近5秒沒有回復過Sentinel命令的從伺服器
3.過濾掉與原主伺服器斷開時間超過down-after-milliseconds*10的從伺服器
4.根據從伺服器的優先順序進行排序,選擇優先順序最高的那個
5.如果有多個從伺服器優先順序相同,則選取複製偏移量最大的那個
6.如果上一步的伺服器還有多個,則選取id最小的那個
竟然都看到最後了,給小編點個關注吧,小編還會持續更新的,只收藏不點關注的都是在耍流氓!
推薦閱讀: