這或許是最通俗易懂的數據一致性問題解讀

知識 11-12

本文從普遍認為的分散式系統中最最重要的數據一致性開始。內容適合經驗>=0年技術相關經驗的人群。

一、對數據一致性問題的剖析

1為什麼需要分散式系統?

任何事物能夠被持續的運用和發展，必然有其價值，分散式系統也是一樣。分散式系統的產生我認為主要的目的就是「快」和「海量」。這個「快」可以分為兩個方面：

系統的處理速度快
開發的速度快(歷時短)

這2點本質都是相同的，把一個動作或者一件事情拆成兩部分或者多個部分去同時進行，使得整體的耗時縮短。比如：原本一件事情要一個人做的話要兩分鐘。那麼我僱傭兩個人幫我各自做一部分，那麼最理想情況下一分鐘就可以完成了。

當然這兩個方面中第二項從某種意義上來說是可以克服的，但是第一項是無法克服的。因為沒有一個程序或計算機的性能是無窮大的，如果有，那分散式系統也不會像現在這麼普遍了(很多時候用錢能解決的問題都不是問題)。

「海量」則是由於不存在無窮大的硬碟，所以我們需要把數據分別存儲到不同的硬碟上，才能滿足需求。這些硬碟可能在不同主機、不同機房、不同地域(未來或許還可能會在不同的星球)。

2分散式系統的副作用

所謂每個事物都是矛盾統一的結合體，都具有兩面性。分散式系統再帶來了前面提到的好處的同時，也帶來了業界普遍認為最大的問題——數據一致性問題。

系統是給人用的，構成使用場景的概念叫業務。業務是核心，對一個系統來說，業務的發展歸根到底是建立在數據之上的。我可以慢，可以宕機，可以搞得很複雜，這些都能忍。但唯獨不能忍的就是數據問題——數據錯誤、數據不一致等等。

分散式就意味著分治與協作，一件事一個人只負責一部分。

生活中這樣的例子也無處不在，就拿舉辦一個Party來說：一部分人去準備吃的，一部分人去準備喝的，一部分人去準備場地布置。這些事情大家都可以同時進行，但是任一環節掉鏈子了，或者說不符合Party主題的話，都是失敗的。(不知道為什麼，腦子裡浮現的是一場發布會，大家喊著cheers，一口乾了高腳杯里的二鍋頭。。。)。

再舉個電商場景中的程序案例：

這或許是最通俗易懂的數據一致性問題解讀

打開今日頭條，查看更多精彩圖片

這裡的4個操作以目標來看，其實先後順序並不重要，重要的是要麼都成功，要麼都失敗，其中任意一個程序不一致那麼就會出問題。這個問題本質上和人與人之間的溝通問題是類似的，與溝通唯一的不同在於，對程序來說，不一定都要得到響應，都沒響應也是一致。當一個事情分成100個部分去做的時候，很可怕，從概率的角度來看，達到一致的概率是2/5050。

這裡舉的程序例子並不是嚴謹，因為實際的分散式系統中因為除了「write」操作還有「read」操作，所以一致性問題比這個更複雜，後面會有更詳細的說明。

3產生數據不一致的原因

那麼是什麼原因導致了數據不一致的產生呢?

有一種原因是程序設計問題(代碼寫錯了)。這點很好理解，也很容易想到解決方案——多做測試，驗證是否符合預期咯。常見的單元測試、介面測試、自動化測試、集成測試等都是為了更具性價比地將BUG降低到無限接近於0，也造就了「測試工程師」這個崗位更大的作用。

但是，假設真的沒有BUG，卻還是會產生數據不一致。因為軟體是運行在硬體之上的，所以還有硬體的因素存在。對我們這裡的大部分人來說，我們對硬體的掌控力相比對軟體，更弱。

這其中，最嚴重的屬網路問題。網路相比其它而言是一個更大、更複雜的組織，未知性會隨著區域網、廣域網這樣範圍越大越嚴重。想像一下，每一台主機僅僅是一張大網中的一個渺小的連接點，它所承載的鏈接越多越容易出現問題。

可能有的小夥伴會有疑問，其它像硬碟、電源斷電什麼的，也有出現問題的可能性，為什麼網路問題最為嚴重呢?

其實硬碟、電源好比是你身體的一部分，如手和腳。而網路是人與人之間溝通的渠道，比如手機通話，雖然你沒有主動掛斷電話，但是整個通話過程是有很多可能性導致中斷的，對方的主觀意願也好、信號不好也罷，甚至被第三者給攔截了。相信大家也能認可，打電話出現異常的概率相比自己的手腳不聽使喚是高很多的吧。

現實中網路的特點，常遇到的問題如：延遲、丟包、亂序等問題。為了解決這些問題，從互聯網第一次出現的1969年(當年美軍在ARPA制定的協定下用網路連接了4所大學)到現在，幾十年間出了很多的理論和解決方案，這些會在後續的文章中給大家一一做梳理。本部分先和大家具體剖析下什麼是一致性。

4詳解一致性

什麼叫達成一致了?說起來很簡單——在任意時間、任意位置看到的同一個事物是完全一致的。

比如一場足球賽，不管我們在現場還是在電視機前，看到足球從球員A傳給球員B，這個信息都是一樣的。但是嚴格意義上來說，這個並稱不上真正的一致，因為電視機接收到這個信息需要經過衛星信號、網路等的傳輸，我們看到的時候相比現場的人肯定要晚。哪怕在現場的人，根據他所處的位置，理論上看到的信息也存在延遲差，只是因為光速非常快，使得在相差幾百米之內，這個延遲小到完全感受不到而已。

能得出的結論是：在考慮時間維度的情況下，不存在真正意義上的一致。

況且我們在分散式系統中，也沒有必要去達到真正的意義上的一致。因為越趨近於一致，系統相當於又歸一成一個單體了，在某一個時刻，只能做一件事，完全喪失了分散式系統的兩個目的之一「快」的優勢。也因此衍生出多種一致性的變種，分別適用於不同的場景。為了便於理解，我們從嚴格程度的低到高來說。

大多數情況下，為了儘可能的「快」，系統中使用的大部分方案都是所謂的最終一致性，也就容忍一定條件下的不一致，優先保證局部一致，然後再通過一系列複雜的狀態同步達到全局的一致。最終一致性很多可實現的分支，列出幾種常見的，拋磚引玉一下：

因果一致性：僅要求有因果關係的操作順序得到保證。比如朋友圈的回復功能。問「飯吃了嗎?」肯定得在回答「吃了」之前。
讀你所寫一致性：文字看著彆扭，但很好解釋。比如你在朋友圈下面回復一句話，其它好友可以不用馬上看到你的回復，但是你自己必須得馬上看到，要不然回復到哪去了?
會話一致性：與人的一次聊天可以理解為一次會話。聊天雖然也有一定的因果關係，但是大部分場景下更多的是邏輯上的先後關係。比如你闡述一個事情，分為3條信息：首先...，然後...，最後...。如果這裡的一致性得不到保證那麼可能會變成：最後...，首先...，然後...。

比局部一致更嚴格一些的就是全局的順序一致性[1]，保證所有進程看到的全局執行順序一致，並且每個進程自身的執行順序和實際發生順序一致。

註：文中[1-6]標註皆可於文末找到對應參考資料

像上面提到的足球賽，比如實際發生的事情是①梅西把球傳給了C羅，②C羅又把球回傳給了梅西，那麼每個人看到順序都應該是這樣。哪怕現場觀眾已經看到②了，電視機前的我們還沒看到①，但是沒關係，這個事情發生的順序，對全世界來說都是一樣的。

再嚴格一些，就是在全局的順序一致性基礎上再增加一個相對時間的一致性要求，業界稱之為線性一致性[2]。還是用上面梅西和C羅相互傳球的例子來做個比喻，相當於梅西傳出球給C羅之後，整個球場「暫停」了，要等所有在觀看這場球賽的人都接收到這個傳球信息之後，C羅才能做下一個回傳。這裡需要一個上帝(全局時鐘)來「暫停」。這是我們實際可以做到的極限了，滿足這類要求的系統中，名氣最大的就屬Google的Spanner了。

對不同級別的一致性匯總概述如下：

這或許是最通俗易懂的數據一致性問題解讀

二、通過共識達成數據一致性

第一部分我們已經對數據一致性問題做了一次剖析，那麼怎麼解決由於故障導致的不一致問題呢?通過共識來達成。所以，本部分會圍繞「共識」這個點展開。

1「共識」是什麼?為什麼會產生?

一致性問題其實是一個「結果」，本質是由於數據冗餘導致的，如果沒有冗餘，也就不會有一致性問題了。

分散式系統里的各個子系統之間之所以能夠相互協作，就是因為其之間冗餘了相同的數據作為「信物」。要不然我都不認識你的話，為什麼要配合你幹活呢?所以這個「信物」變了，你得通知我，要不然我又不認識你了。這個「信物」變更達成一致性的過程稱作達成「共識」。所以：

一致性問題是結果，共識是為達到這個結果所要經過的過程，或者說一種手段。

在分散式系統中，冗餘數據的場景不限於此，因為規模越大的系統，越不能容忍某一個子系統出問題後產生蝴蝶效應，所以往往會做高可用。小明1號倒下了還有千千萬萬個小明X號在堅守崗位，理想中的全天候24小時提供服務。

高可用的本質是通過相同數據存儲多個副本，並都可對外提供服務。比如每個小明X號都有一本《按摩指法白皮書》，誰請假了都可以由其它小明X號提供相同的按摩服務。但是這個本《按摩指法白皮書》改了，就得通知到每個人，因為這是服務的全部和來源，所以在做了高可用的集群中數據冗餘的問題更為突出。

實際上，如果分散式系統中各個節點都能保證瞬時響應、無故障運行，則達成共識很容易。就好像我們人一樣，在一定範圍內只要吼一嗓子，通過穩定的空氣傳播，相關人是否接收到這個消息，並且給出響應幾乎可以是「瞬時」的。

但是正如前文提到，這樣的系統只停留在想像中，響應請求往往存在延時，網路會發生中斷，節點發生故障，甚至存在惡意節點故意要破壞系統。這就衍生出了經典的「拜占庭將軍問題」[3]。

2拜占庭將軍問題

我們一般把「拜占庭將軍問題」分為2種情況來看待：

拜占庭錯誤。表示通過偽造信息進行惡意響應產生的錯誤。
非拜占庭錯誤。沒有進行響應產生的錯誤。

這個問題的核心在於：

如何解決某個變更在分散式網路中得到一致的執行結果是被參與多方都承認的，同時這個信息是被確定的，不可推翻的。

好比如何讓所有的小明X號收到的都是《按摩指法白皮書Ⅱ》，而不是其它的，並且把原來的那本銷毀掉。

這個問題衍生出了很多「共識」演算法，解決「拜占庭錯誤」的稱作Byzantine Fault Tolerance(BFT)類演算法，解決「非拜占庭錯誤」的稱作Crash Fault Tolerance(CFT)類演算法。從這個2個名字中也可以看出，本質的工作就是「容錯」。

有的小夥伴在平時的工作中可能對「容錯」的重要性感知沒那麼強烈——不就產生一個BUG或者異常數據么?但是在航天領域，一個小錯誤可能導致整個發射的失敗，代價非常巨大。

對「拜占庭將軍問題」想深入的了解的，可以自行查閱相關資料，這裡就不展開了，文末附上剛才我們標註的論文。

我們常見的軟體開發中一般不會考慮「拜占庭錯誤」，但它是區塊鏈項目的必需品。不過在主流的分散式資料庫中，皆能看到「非拜占庭錯誤」的身影，諸如TiDB的Paxos演算法，CockroachDB的Raft演算法。雖然我們大家在日常的coding中，對資料庫底層原理的了解並不是必須項。但是只要當我們涉及到應用程序級別的高可用時，那麼至少「非拜占庭錯誤」是必須要面臨的一道坎。

BFT類演算法

BFT類型演算法又有2個分支。「基於確定性的」和「基於概率的」。

先聊聊「基於確定性的」：

此類演算法表示一旦對某個結果達成共識就不可逆轉，即共識是最終結果。它的代表作是PBFT(Practical Byzantine Fault Tolerance)演算法[4]，自從有了央行背書(區塊鏈數字票據交易平台)，名聲更大了。演算法的原理，如下圖：

這或許是最通俗易懂的數據一致性問題解讀

▲圖片來源於網路，版權歸原作者所有

拿軍隊來比喻，這裡的直線C可以認為是「總司令」，直線0是「軍長」，直線1、直線2、直線3都是「師長」，值得注意的是3號師長叛變了。整個過程這樣解釋：

「request」：總司令給軍長下了一個命令，「干!」。
「pre-prepare」：軍長把命令又廣播給3個師長。
「prepare」：每個師長收到並同意之後將發送「收到」給軍長和其他兩個師長。
「commit」：每個師長收到2f個師長(軍長不做prepare)的「收到」請求後發送「隨時開干」給軍長和其他兩個師長。(f為可容忍的拜占庭節點數)
「reply」：每個師長收到2f+1條「隨時開干」消息之後，就能認為總司令的命令在相關的師長中都到達了「隨時開干」的狀態，那麼他就直接開炮了!

真正想深入了解PBFT的話還有很多內容，這裡就不繼續展開了，有興趣的小夥伴可以在文末參考處自行查閱論文。

再聊聊「基於概率的」：

此類演算法的共識結果則是臨時的，隨著時間推移或某種強化，共識結果被推翻的概率越來越小，成為事實上的最終結果。它的代表作是PoW(Proof of Work)演算法，曾經高達2W美元/個的比特幣就是基於這個演算法來實現的。演算法的原理拿「修仙」來做個簡單的比喻(實際比特中的演算法比這更複雜)：

自己努力修鍊，並讓神仙中大於一半的人認可你的修為，同意你成仙。
隨之你就成為了神仙。並且參與到評判後續其他人是否可以成為「神仙」的事情中去。
這個事情如果想通過賄賂來達到的話，隨著這個團隊的人數越多，賄賂的成本越大，就可以認為去做賄賂的人越少，那麼導致被誤判的概率就越低，最終就越可信。

被誤判的概率公式是：0.5^個數，如果個數=6的話，誤判的概率是1.5625%。如果個數=10的話，就已經是0.09765625%了，指數級下降。

值得注意的是，「基於確定性的」和「基於概率的」對於不合作節點的標準是不同的，前者至多能容忍1/3，後者是小於1/2。

4CFT類演算法

正如上面所說CFT類演算法解決的是分散式系統中存在故障，但不存在惡意節點的場景(即可能消息丟失或重複，但無錯誤消息)下的共識達成問題。「拜占庭將軍問題」的提出者Leslie Lamport也在他另外的論文[5]中提出過「Paxos問題」，與這相似。在論文中通過一個故事類比了這個問題，如下：

希臘島嶼Paxon 上的「執法者」在「議會大廳」中表決通過『法律』，並通過「服務員」傳遞紙條的方式交流信息，每個「執法者」會將通過的『法律』記錄在自己的「賬目」上。問題在於「執法者」和「服務員」都不可靠，他們隨時會因為各種事情離開「議會大廳」，並隨時可能有新的「執法者」進入「議會大廳」進行法律表決。
使用何種方式能夠使得這個表決過程正常進行，且通過的『法律』不發生矛盾。

—— 百度百科

這裡的關鍵對象在我們的系統中，可以類比為：

議會大廳=分散式系統
執法者=某個程序
服務員=RPC通道
賬目=資料庫
法律=一次變更操作

Leslie Lamport自己也提出了解決這個問題的演算法——Paxos演算法[6]。這個演算法的關鍵由以下3個定義來體現：

每次「變更」都有個唯一的序號，並且能夠通過它識別新舊;
「執法者」只能接受比已知的「變更」更新的變更;
任意兩次「變更」必須有相同的「執法者」參與。

這3點僅僅是保證一致性的最關鍵部分，全部內容還有很多。有興趣的小夥伴可以在文末參考處自行查閱論文。

「Paxos」演算法是一種無領導人(Leaderless)演算法，實現比較複雜，所以產生了很多變種來簡化它，其中名氣最大的應該是「Raft」，2013年才問世。「Raft」演算法是一種領導人(Leadership)的演算法。由以下2個過程保證達成共識：

只會存在一個活著的領導人，領導人負責跟隨者的數據同步;
如果領導人「失聯」了，那麼每個跟隨者都可成為候選人，最終比較誰的term最新，誰就是新的領導人。這個term是每個節點內部維護的一個自增數。

雖然跟隨者的投票秉承先到先得，但是還是會遇到多個term相同的候選人獲得了相同票數(簡稱「分割投票問題」)，那麼進行新一輪投票，直到決出勝負為止。由於Raft用隨機定時器來自增term，加上網路是不穩定的，所以再次遇到相同票數的概率就大大降低了。

完整的過程更複雜一些，有一個Raft演算法的動畫推薦給大家，有興趣的可以了解一下：http://thesecretlivesofdata.com/raft/。

題外話，大家經常用的Zookeeper里的「ZAB」(ZooKeeper Atomic Broadcast)演算法也是CFT類演算法，是以Fast Paxos演算法為基礎實現的。

5結語

回過頭來看，我們發現，想要更嚴謹的一致性，那麼就需要增加相互通訊確認的次數，但是這會導致性能低下，正如PBFT和Paxos一樣。但是分散式系統就是這樣，到處都需要Balance，找到最適合的才是最重要的。

聊完了數據層面的「共識」問題，我們下回再聊聊「分散式事務」的問題，將會圍繞著常見的CAP、BASE理論展開。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 程序員小新人學習 的精彩文章:

※類名、抽象類名、介面作為形式參數
※jsx遇到template-directive

TAG:程序員小新人學習 |