當前位置:
首頁 > 科技 > 數學家的相親模式,你或許可以用到 | 張天蓉專欄

數學家的相親模式,你或許可以用到 | 張天蓉專欄


?

相親犯難?





編者按:


蘇格拉底和柏拉圖的愛情觀被世人廣為流傳,但其中的哲學意味卻總會讓人有些摸不著頭腦,畢竟,並不是每一位平凡的下里巴人都能欣賞哲學家們的陽春白雪……


此次,我們奉上一則相親實用寶典,借「傻(數學)博士」相親的故事告訴你,如何從概率與統計的角度去相親!


嗯,首先你要找到100位相親對象……






撰文 | 張天蓉

 (美國德州大學奧斯汀分校理論物理博士)



責編 | 呂浩然





  • 概率論專欄



2017-03-16 上帝教人擲骰子——「神童」帕斯卡與概率論


2017-03-31  似是而非的答案:概率論悖論


2017-04-18  別相信直覺:概率論幫助偵破「財務造假」


2017-05-15  賭徒謬誤:賭博與大數定律


2017-06-24  無所不在的概率分布鍾型曲線 


2017-07-26  概率之本質—從主觀概率到量子貝葉斯


2017-08-14  酒鬼漫步的數學——隨機過程 


2017-09-20 

 

喝醉的酒鬼會漫無目的地遊盪,花粉也會



 

 




蘇格拉底和他的學生柏拉圖都是古希臘著名的哲學家。



一天,柏拉圖問蘇格拉底:什麼是愛情?蘇格拉底讓他到麥田走一趟,目標是要摘回一棵最大最好的麥穗,但只可以摘一次,並且不許回頭,路徑不能重複。柏拉圖本以為很容易,但最後卻空手而歸,原因是他在途中雖然看到很不錯的麥穗,卻總希望後面有更好的,最終致使他錯失所有的良機。蘇格拉底告訴他:這就是愛情!




之後又有一天,柏拉圖問蘇格拉底:什麼是婚姻?蘇格拉底讓他到樹林走一次,爭取帶回一根最好的樹材,照樣只採一次不許回頭。最後柏拉圖拖了一棵中等材質的樹枝回來——他接受了上次的教訓,走了半途之後看到「差不多」的樹就做決定了!蘇格拉底說:這就是婚姻。




兩位哲學家用麥穗問題來形象地比喻愛情與婚姻之間的不同:前者是錯過了的美好,後者是人生旅途中權衡之後的決擇。人文學者及公眾都為這段頗富哲理的名人小故事津津樂道,而數學家們卻從完全不同的、概率及統計的角度來解讀它。





數學家的「浪漫」

Romance







麥穗問題雖然很通俗,但卻與「隨機過程」有關:每棵麥穗的大小都可以看作是隨機的,因此,當柏拉圖在麥田中走一圈時,碰到一個又一個排成序列的隨機變數,這不就是一個隨機過程嗎?



加以數學抽象之後的麥穗問題,等效於概率及博弈論中著名的秘書問題

[1]

,它還有多種變換版本。下面我們用「傻博士相親」的故事來敘述它,並介紹如何將微積分的基本概念用於分析隨機過程。




且說幾年前留學人員中有一位外號「傻博士」的學者,他精通數學、小有成就,唯有一老大難問題尚未解決:已近40歲還沒有交上女朋友。於是,那年他奉母命回國相親,據說半個月之內來了100名佳麗應召。後來,這位傻博士經過嚴格的數學論證,採用了一種「最佳策略」,終於百里挑一,贏得美人歸!如今的他已是兒女一雙,全家其樂融融,在矽谷傳為佳話。




人們常說,有其父必有其子。對傻博士而言則可稱得上是「有其子必有其母」。在相親的過程中,傻博士母親開出的條件也頗為有趣:要求他在這15天之內,要對這100位佳麗一個一個地相親,每位佳麗只能見一次面,見面之後立即給出「不喜歡」或「喜歡」的答案。如果「不喜歡」,則以後再無機會與該女子相親;如果答案是「喜歡」,則意味著傻博士選中了這位女子,相親過程便到此結束。




看到這兒,你也許已經領會到這個「傻博士相親」與「麥穗問題」本質上是一致的。那麼,對於母親這種「見好就收,一錘定音」的要求,傻博士的「最佳策略」又是怎樣的呢?




既然說到「最佳」,應該用得上數學微積分中的最優化、求極值的技巧。我們首先看看,傻博士是如何建造這個問題的數學模型的。



首先,這看起來是個概率的問題。假設按照傻博士對女孩的標準,將100個女孩作了一個排行榜,從1到100編上號,「#1」是最好的,然後,「#2」、「#3」……當然,傻博士並不知道當時每一次相親的女孩是多少號。這些號碼隨機地分布在傻博士安排的另一個相親序列

(1、2、3、…r…i…n)

中,見圖1。傻博士的目的就是要尋找一種策略,使得這「一錘定音」定在「#1」的幾率最高。




設想一下,傻博士可以有好多種方法做這件事。比如說,他可以想得簡單一點:預先隨意認定一個數字r

(比如將r固定為20)

,當他面試到第r個人的時候,就定下來算了。這時候,因為r是100中挑出來的任意一個,所以,這個人是「#1」的幾率應該是1/100。這種簡單策略的幾率很小,傻博士覺得太吃虧。




再比如說,當他面試到第20個人時,如果看到的是個醜八怪

(或者瘋女子)

也就這麼定下來嗎?顯然這不是一個好辦法。那麼,將上面的方法做點修正吧:仍然選擇一個數字

(比如r=20)

,但這次的策略是:他從第20個人開始認真考察,將後面的面試者與前面面試過的所有人加以比較。這樣,如果傻博士覺得這第20個面試者比前面19個人都好,那便可以「見好就收」,否則,他將繼續面試第21個,將她與前面20人相比較;如果不如前面的,繼續面試第22個,將她與前面21人相比較……如此繼續下去,直到面試到比前面的面試者都要更好的人為止。





?

圖1:傻博士相親的最佳策略




根據圖1所示可以總結出傻博士「最佳策略」的基本思想:對開始的

(r-1)

個面試者,答覆都是「不喜歡」,等於是「忽略」掉了這些佳麗;直到第r位佳麗開始,才認真考慮和比較,如果從r開始面試到第i個人的時候,覺得這是一個比前面的人都要更中意的,便答覆說「喜歡」,從而停止這場相親。




圖1中還標出了一個「臨時最佳者」,這和實際上隱藏著的排行榜中的「#1」可能是不同的。「臨時最佳者」指的是傻博士一個一個相親之後到達某個時刻所看到的最好的佳麗,是隨著傻博士已經面試過的人數的增加而變化的。





被「忽略」的選項

Ignore






這個「最佳策略」當中其實還有一個問題:對100位佳麗而言,到底前面應該「忽略」掉多少個人,才是最佳的呢?也就是說,對n個相親對象而言,r應該等於多少,才能使得最終被選定的那位佳麗是「#1」的幾率最大?




r太小了當然不好。如果令r=2,也就是只忽略第一個,如果第二個比第一個好的話,就定下了第二個,當然也可能繼續下去,但很有可能使你的決定下得太快了,似乎還沒有真正開始相親,就草草結束了;r太大顯然也不行。如果令r=99,則忽略的人數將會太多,「#1」 被忽略掉的可能性也非常大。結果是相了這麼多人,傻博士累得半死,選中「#1」的幾率只是大約2/100而已。




也許,應該忽略掉一半,從中點開始考察?也許,r應符合黃金分割原則:0.618?也許與另外某個知名的數學常數

(π或e)

有關?然而,這都是一些缺乏論據的主觀猜測,傻博士是數學家,還是讓數學來說話吧。




我們首先粗糙地考察一下,如果使用這種方法,對某個給定的r,應該如何估算最後選中「#1」的幾率P(r)。




對於給定的r,忽略了前面的r-1位佳麗之後,從第r個到第n個佳麗都有被選中的可能性。因此,在圖1下方的公式中,這個總概率P(r)被表示成所有的P(i)之和。其中,i是在r到n之間逐一變化的,而P(i)則是選中第i位佳麗的可能性

(概率)

乘以這個佳麗是「#1」的可能性。




選中第i位佳麗的可能性是多少?取決於第i位佳麗被選中的條件,即當且僅當第i位佳麗比前面i-1位都要更好,而且前面的人尚未被選中的情形下才會發生。也可以說,第i位佳麗被選中即表示當且僅當第i位佳麗比之前的「臨時最佳者」更好,並且這個臨時最佳者是在最開始被忽略的r-1位佳麗之中。因為如果這個臨時最佳者是在從r到i之間的話,她面試後就應該被選中了,然後就停止了整個相親過程,不會進行到第i位佳麗。




此外,第i位佳麗是「#1」的可能性又是多少?實際上,按照等概率原理,每位佳麗是「#1」的可能性是一樣的,都是1/n。因此根據上面的分析,我們便得到了圖1所示的選中「#1」的概率公式。




從公式可知,傻博士選中「#1」的概率是對「忽略點」r的函數。讀者不妨試試在公式中代入不同的n及不同r的數值,可以得到相應情況下的Pn(r)。比如說,我們前面所舉的當n=100時候的兩種情形:P100(2)大約等於6/100;P100 (99)大約等於2/100。





應該「卡」住多少位佳麗?

How many






下面問題就是要解決:r取什麼數值,才能使得Pn (r)最大?如果我們按照圖1的公式可以計算出當n=100時,不同r所對應的概率數值,比如令r分別為2、8、12、22……等等,將計算結果畫在Pn (r)圖上,如圖2a所示。我們可以將這些離散點連接起來成為一條連續曲線,然後估計出最大值出現在哪一個r點。這是求得P(r)最大值的一種實驗方法。





?

圖2:相親問題中n=100時的概率曲線




然而,我們更感興趣從理論上分析更為一般的問題,那就要用到微積分了。在普通微積分里,最基本的理論基礎是「收斂」和「極限」的概念,所有其它的概念都是基於這兩個基本概念的。對於隨機過程的微積分,在數學家們建立了基於實分析和測度論的概率論體系之後,就可以像當初發展普通微積分那樣先建立「收斂」和「極限」這兩個概念。




與普通數學分析不同的是,現在我們打交道的是隨機變數,比之前普通的變數要複雜得多,相應建立起來的「收斂」和「極限」的概念也要複雜得多。




在隨機微積分中的積分變數是隨機過程(比如說無規行走)。無規行走是針對時間的一個函數,但是卻有一個特殊的性質:處處連續但處處不可導。正是這個特殊的性質使得隨機微積分與普通微積分大不相同。




隨機微積分一般都既牽涉到普通變數時間t,又牽涉到隨機變數W(t)。所以,進行隨機微積分時,如果碰到跟t有關的部分就用普通微積分的法則,而碰到跟W(t)有關的部分時就使用隨機微積分的法則。




落實到傻博士相親問題上,首先,我們需要想辦法將Pn (r)變成r的連續函數,因為只有對連續函數,才能應用微積分。為了達到這個目的,我們分別用連續變數x=r/n、t=i/n來替代原來公式中的離散變數r和i。此外,最好使研究的問題與n無關。因此,我們考慮n比較大的情形。n趨近於無窮大時,1/n是無窮小量,可用微分量dt表示,而公式中的求和則用積分代替。如此一來,圖1中P(r)的表達式對應於連續函數P(x):





?

公式(1)




圖2b顯示的是連續函數P(x) = - x ln x的曲線,此處的log和ln都表示自然對數,即以歐拉常數e

(約為0.5772)

為基底的對數函數。圖中可見,函數在位於x等於0.4左右的地方,有一個極大值。




從微積分學的角度看,極大值所在的點,是函數的導數為零的點,函數在這個點具有水平的切線。但是導數為零,不一定對應的都是函數的極大值,而是有三種不同的情況:極大、極小及駐點。用該點二階導數的符號,可以區別這三種情形,見圖3。





?

圖3:函數的極值處導數為零




所以,令公式(1)對x的導數為零,便能得到函數的極值點:x =1/e = 0.36。這個點概率函數P(x)的值也等於1/e,大約為0.36。




將上面的數值用於傻博士的相親問題。當n=100的時候,得到r=36。也就是說,在傻博士的相親過程中,他首先應忽略前面的35位佳麗。然後,從第36位佳麗開始,便要開始認真比較啦,只要看見第一個優於前面所有人的面試者,便選定她!利用這樣的策略,傻博士選到「#1」的可能性是36%,大於三分之一。這個幾率比起前面所舉的幾種情況的概率:1/100、6/100等要大的多。





換一種思路

Two choices






相親問題的策略還可以因不同情況有不同的修改。比如說,也許傻博士會換另一種思路考慮這個問題:為什麼一定只考慮「#1」的概率呢?實際上,「#2」也不一定比「#1」差多少啊!於是,他便將他原來的方法進行了一點點修改。




他一開始的策略和原來一樣,首先忽略掉r-1個應試者。然後從第r個應試者開始考察、比較、挑選,等候出現比之前應試者都好的「臨時第一名」。不過,在第r個人之後,如果這個「臨時第一名」久不露面的話,傻博士便設置了另外一個數字s,即從第s個應試者開始,既考慮「#1」,也考慮「#2」。




我們仍然可以使用與選擇第一佳麗的策略時所用的類似的分析方法,首先推導出用此策略選出「#1」或「#2」的離散形式的概率P(r,s) 

[2]

。這時候的概率是兩個變數r和s的函數。然後,再利用之前的方法,將這個概率函數寫成一個兩個變數的連續函數。為此,我們假設從離散變數r、s到連續變數x、y的變換公式為:





?

公式(2)




然後,考慮n趨近於無窮大的情形,可以得到相應的連續概率函數為:





?

公式(3,上)與公式(4)




公式(3)是一個兩個變數的函數,其函數隨x和y的變化可用一個3維空間中的2維曲面表示,如圖4所示。這個函數的極值可以令P(x,y)對x和y的偏導數為0,見公式(4)。解出上面的方程便能得到這種新策略下相親問題的解:當x = 0.347,y = 0.667時,概率函數P(x,y)有極大值,等於0.574。





?

圖4:2維概率分布函數




將上面的數值應用到傻博士相親的具體情況,即n=100時,可以得到r=35,s=67,以上的r和s是四捨五入的結果,因為它們必須是整數。因此,傻博士如果採取這種「選擇#1或#2」的策略,他成功的幾率大約是57%,比「僅選擇#1」的成功的幾率

(36%)

又高出了許多。




這個結果也充分體現了數學的威力!




參考文獻:


[1] Freeman, P.R. (1983). "The secretary problem and its extensions: A review".[J],  International Statistical Review / Revue Internationale de Statistique. 51 (2): 189–206.


[2] S. M. Gusein-Zade, 「The problem of choice and the optimal stopping rule for a sequence of random trials」,  [J], Teor. Veroyatnost. i Primenen., 11:3 (1966), 534–537




製版編輯:呂浩然




本頁刊發內容未經書面許可禁止轉載及使用


公眾號、報刊等轉載請聯繫授權


copyright@zhishifenzi.com


歡迎轉發至朋友圈



▼點擊查看相關文章


非虛構寫作

|馬丁之死|蘭花進化謎團

|天問專欄


青蒿素

|可燃冰|P值爭論|許晨陽

|博士後

|潘建偉


張毅|王曉東

|張啟發

|崔維成

|

張鋒

|

楊振寧

|

李佩


盧煜明

|

王小凡

|吳文俊

|袁鈞瑛

|

張純如

|劉若川



知識分子

為更好的智趣生活

ID:

The-Intellectual

投稿:

zizaifenxiang@163.com

授權:

copyright@zhishifenzi.com

長按二維碼,關注知識分子











購買課程


請點擊下方「閱讀原文」




▼▼▼

點擊「閱讀原文」,了解課程詳情,立享限時特惠!

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 知識分子 的精彩文章:

上海交大師詠勇等人發現中國人精神分裂症的新基因 | 前沿
三評雙一流:數據透視、遴選標準和人才貢獻 | 教育觀察
快訊:2017麥克阿瑟天才獎出爐,華人落空
下崗諾獎得主的吐槽:美國明星科學家真的太多了嗎?
他未能兌現「扛個諾獎回來」,卻成為三位諾獎得主的投資人

TAG:知識分子 |