文藝地解讀貝葉斯定理
「
了解點條件概率和先驗概率的知識,別被小概率事情綁架了。
」
小李年方二八,身強力壯。參加單位組織的體檢時,被檢出 HIV 呈陽性。這驚雷轟得小李不省人事:自己明明生活檢點,從沒做過可能感染 HIV 的不良行為,這鬧的是哪出啊!
假設整個人群感染 HIV 的概率是0.08%。這家醫院使用的檢測方法對已經確診攜帶 HIV 病毒的病人檢測出陽性的概率是99%(true positive rate),對沒有攜帶 HIV 病毒的人檢測呈陰性的概率是99%(true negative rate)。聰明如你,幫小李算算他確實攜帶 HIV 病毒的概率是多少?
不著急,再想 5 分鐘 ......
答案是 7.34%。
一個簡單而自然的演算法是假設總共有10000人,由於 HIV 發病率是0.08%,所以總共有8個人攜帶 HIV 病毒。由於沒有攜帶 HIV 病毒的人檢測呈陰性的概率是99%,所以這家醫院使用的檢測方法有1%的概率會導致沒有攜帶 HIV 病毒的人被檢測呈陽性,即10000人中總共會有(10000 - 8) x 1% = 99.92人實際上沒有攜帶 HIV 病毒,但檢測出了陽性。針對己確診患病的8人中,會有8 x 99% = 7.92人檢測呈陽性。所以,小李攜帶 HIV 病毒的概率是7.92 / (99.92 7.92) = 7.34%。嗯,雖如晴天驚雷,但其實概率也沒那麼高嘛,特別是小李生活檢點,不吸毒的前提下,誤診的概率極大。
wikipedia上有個專門的條目討論這種忽視基礎概率問題的頁面。
貝葉斯定理
貝葉斯定理是關於條件概率的定理,其公式如下:
P(A|B) = P(A) P(B|A) / P(B)
解釋一下公式:
P(A), P(B) 表示事件 A 和事件 B 的獨立發生概率
P(A|B) 是個條件概率,表示當事件 B 發生的情況下,事件 A 發生的概率
P(B|A) 也是個條件概率,表示當事件 A 發生的情況下,事件 B 發生的概率
我們用貝葉斯定理再算一下小李的患病概率,假設 A 表示攜帶 HIV 病毒事件,B表示檢測結果呈陽性事件,那麼我們要求解的就是在檢測結果呈陽性的情況下的真實患病概率,即P(A|B)。P(A)表示患病概率,在我們的例子里是0.08%。P(B|A)表示如果一個人己確診患病,檢測呈陽性的概率是多少,從例子里知道P(B|A) = 99%。P(B)表示隨機一個人被檢測呈陽性的概率是多少,這包括兩部分的數據,一部分是患病且被檢測呈陽性的概率,它的數值是0.08% x 99%,另一部分沒患病但被檢測呈陽性的概率,它的數值是(1 - 0.08%) x (1 - 99%)。根據貝葉斯定理:
P(A|B) = P(A) P(B|A) / P(B) = 0.08% x 99% / ((0.08% x 99%) (1 - 0.08%) x (1 - 99%)) = 7.34%
看來和我們的土辦法算出來的數值是相同的。
解讀貝葉斯定理
就象解讀這個千瘡百孔的世界一樣,很多人選擇把眼睛閉起來,選擇對它視而不見。而一些人選擇熱愛這個千瘡百孔的世界,努力前行,讓這個世界變得美好一點點。
文藝地解讀貝葉斯定理是可能的。P(A)是基礎概率,每個人剛來到這個世界上時,對這個世界的美好感受都有一個初始值,隨著他的不斷成長,碰到了事件B,而B剛好是這個世界美好的一面,比如一個學渣被女神鼓勵,然後奮發圖強,變成學霸,那麼事件B的發生無疑會增加這個人對這個世界的美好程度的感知,所以P(A|B)增加了。身體髮膚,受之父母。有些人的顏值就是比較高,高顏值的你如果是學渣的話,被女神鼓勵的概率應該也是會比較高的,不知不覺,你的先天優勢讓P(B|A)更高。
這是對貝葉斯定理最文藝的解讀,沒有之一。
然並卵。除了看完感覺有道理之外,你還是不理解貝葉斯定理定理的本質。一個事物的本質往往是樸素的,樸素到沒有女神,顏值也處在正態分布的正中間。
維基百科上的這張圖包含了簡易的推導貝葉斯定理的過程,簡潔,樸素。
而從事件發生頻率角度解讀貝葉斯定理的的另外一張圖片,讓我們和貝葉斯走得更近。
學點概率,用更樸素的視角去看世界。
來源:簡書
※機器人成精了,竟然可以自主生長了!
※人工智慧秘史(二):美國第一台計算機背後的女程序員
TAG:大數據實驗室 |