腦裂產生以及解決辦法

科技 12-25

原標題：腦裂產生以及解決辦法

在高可用（HA）系統中，當聯繫2個節點的「心跳線」斷開時，本來為一整體、動作協調的HA系統，就分裂成為2個獨立的個體。由於相互失去了聯繫，都以為是對方出了故障。兩個節點上的HA軟體像「裂腦人」一樣，爭搶「共享資源」、爭起「應用服務」，就會發生嚴重後果——或者共享資源被瓜分、2邊「服務」都起不來了；或者2邊「服務」都起來了，但同時讀寫「共享存儲」，導致數據損壞（常見如資料庫輪詢著的聯機日誌出錯）。

對付HA系統「裂腦」的對策，目前達成共識的的大概有以下幾條：

1）添加冗餘的心跳線，例如：雙線條線（心跳線也HA），盡量減少「裂腦」發生幾率；

2）啟用磁碟鎖。正在服務一方鎖住共享磁碟，「裂腦」發生時，讓對方完全「搶不走」共享磁碟資源。但使用鎖磁碟也會有一個不小的問題，如果佔用共享盤的一方不主動「解鎖」，另一方就永遠得不到共享磁碟。現實中假如服務節點突然死機或崩潰，就不可能執行解鎖命令。後備節點也就接管不了共享資源和應用服務。於是有人在HA中設計了「智能」鎖。即：正在服務的一方只在發現心跳線全部斷開（察覺不到對端）時才啟用磁碟鎖。平時就不上鎖了。

3）設置仲裁機制。例如設置參考IP（如網關IP），當心跳線完全斷開時，2個節點都各自ping一下參考IP，不通則表明斷點就出在本端。不僅「心跳」、還兼對外「服務」的本端網路鏈路斷了，即使啟動（或繼續）應用服務也沒有用了，那就主動放棄競爭，讓能夠ping通參考IP的一端去起服務。更保險一些，ping不通參考IP的一方乾脆就自我重啟，以徹底釋放有可能還佔用著的那些共享資源。

腦裂產生的原因

一般來說，裂腦的發生，有以下幾種原因：

高可用伺服器對之間心跳線鏈路發生故障，導致無法正常通信。

因心跳線壞了（包括斷了，老化）。

因網卡及相關驅動壞了，ip配置及衝突問題（網卡直連）。

因心跳線間連接的設備故障（網卡及交換機）。

因仲裁的機器出問題（採用仲裁的方案）。

高可用伺服器上開啟了 iptables防火牆阻擋了心跳消息傳輸。

高可用伺服器上心跳網卡地址等信息配置不正確，導致發送心跳失敗。

其他服務配置不當等原因，如心跳方式不同，心跳廣插衝突、軟體Bug等。

提示：Keepalived配置里同一 VRRP實例如果 virtual_router_id兩端參數配置不一致也會導致裂腦問題發生。

常見的解決方案

在實際生產環境中，我們可以從以下幾個方面來防止裂腦問題的發生：

同時使用串列電纜和乙太網電纜連接，同時用兩條心跳線路，這樣一條線路壞了，另一個還是好的，依然能傳送心跳消息。

當檢測到裂腦時強行關閉一個心跳節點（這個功能需特殊設備支持，如Stonith、feyce）。相當於備節點接收不到心跳消患，通過單獨的線路發送關機命令關閉主節點的電源。

做好對裂腦的監控報警（如郵件及手機簡訊等或值班）.在問題發生時人為第一時間介入仲裁，降低損失。例如，百度的監控報警短倍就有上行和下行的區別。報警消息發送到管理員手機上，管理員可以通過手機回復對應數字或簡單的字元串操作返回給伺服器.讓伺服器根據指令自動處理相應故障，這樣解決故障的時間更短.

當然，在實施高可用方案時，要根據業務實際需求確定是否能容忍這樣的損失。對於一般的網站常規業務.這個損失是可容忍的。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 java一日一條 的精彩文章:

TAG:java一日一條 |