傳說中的貝葉斯統計到底有什麼來頭？

知識 11-26

傳說中的貝葉斯統計到底有什麼來頭？點擊播放 GIF/602K

貝葉斯統計在機器學習中佔有一個什麼樣的地位，它的原理以及實現過程又是如何的？本文對相關概念以及原理進行了介紹。

引言：在很多分析學者看來，貝葉斯統計仍然是難以理解的。受機器學習這股熱潮的影響，我們中很多人都對統計學失去了信心。我們的關注焦點已經縮小到只探索機器學習了，難道不是嗎？

機器學習難道真的是解決真實問題的唯一方法？在很多情況下，它並不能幫助我們解決問題，即便在這些問題中存在著大量數據。從最起碼來說，你應該要懂得一定的統計學知識。這將讓你能夠著手複雜的數據分析問題，不管數據的大小。

在18世界70年代，Thomas Bayes提出了「貝葉斯理論」，即便在幾個世紀後，貝葉斯統計的重要性也沒有減弱。事實上，世界上那些最優秀的大學都在教授有關這個話題的深度課程。

傳說中的貝葉斯統計到底有什麼來頭？

在真正介紹貝葉斯統計之前，首先來了解下頻率統計這個概念。

1. 頻率統計

有關頻率統計和貝葉斯統計的爭論以及持續了好幾個世紀，因此對於初學者來說理解這兩者的區別，以及如何劃分這兩者十分重要。

它是統計領域中應用最為廣泛的推理技術。事實上，它是初學者進入統計學世界中的第一所學校。頻率統計檢測一個事件（或者假設）是否發生，它通過長時間的試驗計算某個事件發生的可能性（試驗是在同等條件下進行的）。

在此處，使用固定大小的採樣分布作為例子。然後該實驗理論上無限次重複的，但實際上是帶著停止的意圖的。例如當我腦海中帶著停止的意圖時，它重複1000次或者在擲硬幣過程中我看到最少300詞頭在上的話，我將停止進行實驗。現在讓我們進一步了解：

通過擲硬幣的例子我們就會明白頻率統計，目的是估計拋硬幣的公平性，下表是代表拋硬幣過程中頭在上的次數：

傳說中的貝葉斯統計到底有什麼來頭？

我們知道在公平的擲硬幣過程中得到一個頭在上的那概率為0.5。我們使用No. of heads表示所得頭在上的實際數量。Difference表示0.5*(No. of tosses) 與 no. of heads之間的差別。

要注意的是，雖然投擲的數量增加時，頭在上的實際數量和頭在上的預期數（拋擲數目的50％）之間的差異會逐漸增大。但是以拋擲的總數來說，頭在上出現的比例接近0.5（一個公平的硬幣）。

該實驗中我們在頻率方法中發現了一個很常見的缺陷：實驗結果的獨立性與實驗次數是重複的。

2. 頻率統計的內在缺陷

到這裡，我們開始來探討頻率統計的缺陷：

在20世紀有大量的頻率統計被應用到許多模型中來檢測樣本之間是否不同，一個參數要放在模型和假設檢驗的多種表現中足夠重要。但是頻率統計在設計和實現過程存在一些重大缺陷，這些在現實中的問題引起相當大的關注。例如：

1. p-values 對固定大小的樣本進行檢測。如果兩個人對相同的數據工作，並有不同的制動意向，他們可能會得到兩種不同的p- values。

2. 置信區間（CI）和p-value一樣，在很大程度上取決於樣本的大小。因為無論多少人如何執行相同的數據測試，其結果應該是一致的。

3. 置信區間（CI）不是概率分布，因此它們不提供最可能的值以及其參數。

這三個理由足以讓你對於頻率統計的缺陷進行思考，以及對為什麼需要貝葉斯方法進行考慮。

有關貝葉斯統計的基礎知識就先了解到這裡。

3.貝葉斯統計

「貝葉斯統計是將概率運用到統計問題中的數學過程。它提供給人們工具來更新數據中的證據。」要更好的理解這個問題，我們需要對於一些概念要有所認識。此外，也需要有一定的前提：

線性代數

概率論與數基本統計

3.1條件概率

條件概率被定義為：事件A中給定事件B的概率等於B和A一起發生的概率再除以B的概率

例如：如下圖所示設兩部分相交集A和B

傳說中的貝葉斯統計到底有什麼來頭？

集合A代表一組事件，集合B代表了另一組。我們希望計算給定B的概率已經發生了的概率，讓我們用紅色代表事件B的發生。

現在，因為B已經發生了，現在重要的A的部分是在藍色陰影部分。如此，一個給定的B的概率是：

因此，事件B的公式是：

要麼

現在，第二方程可以改寫為：

這就是所謂的條件概率。

假設，B是James Hunt的中獎事件，A是一個下雨的事件。因此，

P（A）= 1/2，由於每倆天都會下一次雨。

P（B）為1/4，因為詹姆斯每四次比賽只贏一次。

P（A | B）= 1，因為每次下雨James都贏。

條件概率公式中代入數值，我們得到的概率在50％左右，這幾乎是25％的兩倍（下雨的情況不考慮）。

也許，你已經猜到了，它看起來像貝葉斯定理。

貝葉斯定理建立在條件概率的頂部，位於貝葉斯推理的心臟地區。

3.2 貝葉斯定理

下圖可以幫助理解貝葉斯定理：

現在，B可被寫為

因此，B的概率可以表示為，

但

因此，我們得到

這就是貝葉斯定理方程。

4.貝葉斯推理

讓我們從拋硬幣的例子來理解貝葉斯推理背後的過程：

貝葉斯推理中一個重要的部分是建立參數和模型。

模型觀察到的事件的數學公式，參數是在模型中影響觀察到數據的因素。例如在擲硬幣過程中，硬幣的公平性可以被定義為θ——表示硬幣的參數。事件的結果可以用D表示

4個硬幣頭朝上的概率即給定硬幣（θ）的公平性，即P(D|θ)

讓我們用貝葉斯定理表示：

P(θ|D)=(P(D|θ) X P(θ))/P(D)

P(D|θ) 是考慮到我們給定分布θ時，我們結果的可能性。如果我們知道硬幣是公平的，這就是觀測到的頭朝上的概率。

P(D)就是證據，這是因為通過在θ的所有可能的值，是θ的那些特定值加權求和（或積分）確定的數據的概率。

如果我們的硬幣的公正性是多個視圖（但不知道是肯定的），那麼這告訴我們看到翻轉的一定順序為我們在硬幣的公平信念所有可能性的概率。

P(θ|D) 是觀察，即頭在上數目之後我們的參數。

4.1 伯努利近似函數

回顧讓我們了解了似然函數。所以，我們得知：

它是觀察翻轉為硬幣的一個給定的公平的特定數目的磁頭的特定數目的概率。這意味著我們的觀察頭概率/萬尾取決於硬幣（θ）的公平性。

P(y=1|θ)=

[如果硬幣是公平的θ= 0.5，觀察到頭的概率（Y = 1）為0.5]

P(y=0|θ)=

[如果硬幣是公平的θ= 0.5，觀察到尾部的概率（Y = 0）為0.5]

值得注意的是，1為頭和0為尾是一個數學符號制定的典範。我們可以將上述數學定義結合成一個單一的定義來表示兩者的結果的概率。

P（Y |θ）=

這就是所謂的伯努利近似函數，拋硬幣的任務被稱為伯努利試驗。

y=,θ=(0,1)

而且，當我們想看到一系列的頭或翻轉，它的概率為：

此外，如果我們感興趣的是頭的數目的概率?在捲起?數翻轉下的情況，則概率如下所示：

4.2 前置信度分布

這個分布用於表示關於基於以往的經驗，我們的參數分布情況。

但是，如果一個人沒有之前的經驗呢？

不用擔心，數學家們想出了方法來緩解這一問題。它被認為是uninformative priors。

那麼，用來表示先驗數學函數稱為beta distribution，它有一些非常漂亮的數學特性，使我們對建模有關二項分布有所了解。

Beta分布的概率密度函數的形式為：

在這裡，我們的焦點停留在分子上，分母那裡只是為了確保整合後的總概率密度函數的計算結果為1。

α和 β被稱為形狀決定密度函數的參數。這裡α類似於試驗中出現頭的數量，β對應於實驗中尾的數量。下圖將幫助您想像不同值中 α和 β的測試分布

傳說中的貝葉斯統計到底有什麼來頭？

你也可以使用R中的代碼繪製自己的Beta分布：

> library(stats)

> par(mfrow=c(3,2))

> x=seq(0,1,by=o.1)

> alpha=c(0,2,10,20,50,500)

> beta=c(0,2,8,11,27,232)

> for(i in 1:length(alpha)){

plot(x,y,type=」l」)

}

註： α和β是直觀的理解，因為它們可以通過已知的平均值（μ）和分布的標準偏差（σ）來計算。實際上，它們是相關的：

如果分發的平均值和標準偏差是已知的，那麼有形狀參數可以容易地計算出來。

從上面的圖表可以推理出：

當沒有拋擲的時候，我們認為硬幣的公平性可以通過一條平滑的線來描繪。

當頭比尾部出現的更多時，圖中顯示的峰值向右一側移動，表明頭出現的可能性較大，以及硬幣是不公平的。

隨著越來越多的拋擲動作完成後，頭所佔比重較大的峰值變窄，增加了我們對硬幣拋擲公正性的信心。

4.3 後置信度分布

我們選擇之前所相信的原因是為了獲得一個β分布，這是因為當我們用一個近似函數相乘，後驗分布產生類似於現有分配，這是很容易涉及到和理解的形式。

使用貝葉斯定理進行計算

之間的公式變為

只要知道的平均值和我們的參數標準發布 θ，並通過觀察頭的N翻轉，可以更新我們對模型參數的（θ）。

讓我們用一個簡單的例子來理解這一點：

假設，你認為一個硬幣有失偏頗。它具有為0.1的標準偏差，約0.6的平均（μ）偏差。

然後，α= 13.8 ， β=9.2

假設你觀察到80次頭在上（z=80在100翻轉中）（ N=100）。則

prior = P(θ|α,β)=P(θ|13.8,9.2)

Posterior = P(θ|z+α,N-z+β)=P(θ|93.8,29.2)

將其圖像化：

傳說中的貝葉斯統計到底有什麼來頭？

上述圖中的R代碼實現過程是：

> library(stats)

> x=seq(0,1,by=0.1)

> alpha=c(13.8,93.8)

> beta=c(9.2,29.2)

> for(i in 1:length(alpha)){

plot(x,y,type=」l」,xlab = 「theta」,ylab = 「density」)

}

隨著越來越多的翻轉被執行，以及新的數據觀察到，我們能進一步得到更新，這是貝葉斯推理的真正力量。

5. 測試意義——頻率論VS貝葉斯

無需使用到嚴格的數學結構，這部分將提供不同的頻率論和貝葉斯方法預覽。相關的簡要概述，以及測試組哪種方法最可靠，和它們的顯著性和差異性。

5.1 p值

針對特定樣本的t分和固定大小樣本中的分布是計算好的，然後p值也被預測到了。我們可以這樣解釋p值：（以p值的一例0.02均值100的分布）：有2％的可能性的樣品將具有等於100的平均值。

這種解釋說明從取樣不同尺寸的分布，人們勢必會得到不同的T值，因此不同的p值的缺陷受到影響。p值小於5％並不能保證零假設是錯誤的，也沒有p值大於5％確保零假設是正確的。

5.2 置信區間

置信區間也有同樣的缺陷，此外因CI不是一個概率分布，沒有辦法知道哪些值是最有可能的。

5.3 貝葉斯因子

貝葉斯因子是p值在貝葉斯框架等價量。

零假設在貝葉斯框架：僅在一個參數的特定值（例如θ= 0.5）和其他地方零概率假定∞概率分布。（M1）

另一種假設是θ的所有值都是可能的，因此代表分布曲線是平坦的。（M2）

現在，新數據的後驗分布如下圖所示。

傳說中的貝葉斯統計到底有什麼來頭？

θ的各種值代表貝葉斯統計調整可信度（概率）。可以很容易地看出，概率分布已經轉向M2具有更高的值M1，即M2更可能發生。

貝葉斯因子不依賴於θ的實際分配值，但在M1和M2的值幅度間移位。

在面板A（上圖所示）：左邊欄是零假設的先驗概率。

在圖B（上圖所示），左邊欄是零假設的後驗概率。

貝葉斯因子被定義為後驗概率的對現有的進行對比：

要拒絕零假設，BF

我們可以看到使用貝葉斯因子代替p值的好處，它們具有獨立的意圖和樣本量。

5.4 高密度間隔（HDI）

HDI由後驗分布觀察新數據形成，由於HDI是一個概率，95％的HDI給出95％的最可信的值。它也保證了95％的值將處於不同的CI區間。

請注意，前95％的HDI比95％後驗分布更廣泛，這是因為我們在HDI中增加了對新數據的觀察。

傳說中的貝葉斯統計到底有什麼來頭？

總結：貝葉斯統計作為一個基礎演算法，在機器學習中佔據重要的一席之地。特別是在數據處理方面，針對事件發生的概率以及事件可信度分析上具有良好的分類效果。

-----這裡是數學怪才會關注的號------

「超級數學建模」（微信號supermodeling），每天學一點數學知識，輕鬆數學科普，了解最新數學應用，做個好玩的理性派。20萬數學精英都在關注！

有事沒事點點下方廣告，據說等於打賞，么么噠！

TAG:超級數學建模 |

您可能感興趣

※傳曼聯中場引援瞄準英格蘭天才！魯尼接班人現身？莫拉塔轉會費大統計，皇馬賺了還是虧了？
※統計顯示威脅情報並沒有想像中那麼好，原因在哪兒？
※權威統計：當年彭德懷帶多少軍隊到朝鮮？還剩多少兵馬回來？
※最新統計出來的中國孩子「頭號殺手」，讓家長意想不到！
※阿里巴巴又改了統計口徑，最大的這幾個互聯網公司都是怎麼用數字說故事的？
※笑抽真烏龍老鷹穆斯卡拉明明進了一球數據統計亮了
※大數據來了，統計學徹底完了？
※「統計人說」暑假來了，和孩子一起學統計！
※遷入德州的人口是如何的「兇猛」，看看統計數據就知道了！
※最科學的失眠統計來了，看看你中招了沒
※不小心查了下專業統計，發現戈麥斯來巴薩前就已經這樣了，巴薩球探算不算很業餘？
※玻色—愛因斯坦統計理論，開始被認為是錯誤！世界人民欠玻色一個諾貝爾獎！
※葡萄數統計顯示：還是小姨子最能幹
※趣味統計：這80年來，大家都如何認識另一半？
※讓我來統計一下現在還有多少人洗臉會用毛巾？
※網友統計：王者榮耀一共有5種玩家，第3種大家都喜歡，是你嗎？
※趣味統計：近百年來大家都如何認識另一半？
※我們統計了七項奧斯卡「風向標」的情況，為明天的頒獎來個預測
※圖片統計，這些年王思聰身邊有多少美女圍著他