當前位置:
首頁 > 最新 > 聰明人的對策及納什均衡

聰明人的對策及納什均衡

有一個激發學生智力的測試題目可能大家都知道。

老師拿了5頂帽子——3頂白帽子、2頂黑帽子——給3個聰明的學生看,然後讓學生閉上眼睛,在每人頭上戴上一頂白帽子,並將2頂黑帽子藏起來,每個學生只能看到另外兩個學生頭上的帽子,看不到自己頭上的帽子。問學生們能否猜出自己頭上帽子的顏色?

據說,這個問題是華羅庚先生在愛因斯坦提出的問題的基礎上經過改進後提出的,也稱為「華羅庚帽子問題」。

初一看問題似乎無解,每個學生看到另外兩個學生戴的是白帽子,那麼自己戴的可能是剩下的1個白帽子和2個黑帽子中的一個,無法確定自己頭上帽子的顏色,因此他們都猶豫了。但這是三個非常聰明的學生,不一會兒,他們不約而同地舉手告訴老師猜到了自己頭上所戴帽子的顏色。他們是怎麼做到的呢?假設三位學生是甲、乙、丙,學生甲假想自己頭上戴的是黑帽子,那麼學生乙將看到1黑1白兩個帽子,在這種情況下乙就會很快知道自己戴的不可能是黑帽子,否則,學生丙將不假思索地立刻猜出自己戴的是白帽子。現在乙和丙都在猶豫,不能馬上猜出,說明他們看到甲戴的不是黑帽子,從而甲就能猜出自己戴的必定是白帽子。同樣,乙和丙也能猜出自己戴的是白帽子。非常神奇把?看來聰明的學生能得出一般人認為不可能的結論。

上面的問題只是小學生奧數水平的問題,下面這個「海盜分金問題」稍微複雜些。這個問題首先出現在1999年《科學美國人》雜誌上。

傳說有5個聰明的海盜,一同搶得了100個金幣,要進行分贓。這些海盜有嚴格的等級,按等級高低分別稱他們為老大、老二、老三、老四和老五,他們的分配規則還算民主:先由等級最高的海盜提出一個分配方案,然後全體海盜投票決定是否接受方案,如果半數或半數以上的海盜同意,那麼就按這個方案分配,否則就將提出方案的海盜扔到海里,由下一個等級最高的海盜重新提出分配方案,並繼續投票,依此類推。海盜們以下面的原則作出自己的決定:首先要保命,這當然是最重要的;其次要保證自己的利益最大化,即得到盡量多的金幣;最後,在不損害自己利益的情況下,能夠害人絕不會仁慈。還要對海盜的特性做一下交代,這是一批非常聰明而理性的海盜,他們一定會作出對自己最有利的決定。海盜們還是極端自私的,互不相信他人,不會結成同盟。那麼問題來了,老大現在該作出怎樣的分配方案?

直覺上,老大為保命,大概不能拿得太多,以保證其他海盜通過他的提議。但意外的是,老大提出的分配方案和直覺大相徑庭:他給老三、老五各一個金幣,老二、老四一個不給,剩下98個金幣都留給了自己。難道他不怕其他幾個海盜都投反對票然後把他扔到海里嗎?不會的,老大自信這樣的方案可讓老三、老五投贊成票,加上自己一票,有超過半數的三票來通過他的方案。

為什麼呢?要想作出最優的決策,不妨倒過來想一想最後剩下的海盜會作出怎樣的決策。假設只剩下老四、老五二個海盜,老四會怎麼分配?很明顯,老四自己的一票就能保證他的方案會通過,他可以完全忽略老五的存在,把100個金幣全部留給自己,老五一個金幣都得不到。現在把老三考慮進來。老三要想自己方案獲得通過,自己的一票不夠,他還需要拉攏一個海盜。老四是無論如何也不會投贊成票的,將老三扔進海里他可以獲得最大收益100個金幣,因此,老三拉攏的只能是老五。給老五多少呢?一個金幣足夠了,一個金幣總比一無所獲強,老五一定會投贊成票。這樣,老三的最佳方案就出來了:就是自己拿99個金幣,老四一個不給,老五一個金幣,即按海盜等級從高到低排列,他的方案是(99,0,1)。接下來,考慮老二參與,老二也只要拉攏一個海盜就行,同樣的考慮可知老二隻要給老四一個金幣即可,即他的方案是(99,0,1,0)。回到一開始的情形,老大的方案就顯而易見了,他需要拉攏二個海盜,這隻要給老三、老五各一個金幣即可,即老大的最佳方案是(98,0,1,0,1),這就是一開始給出的方案。這樣,老大既能保命,又獲得了最大的利益,看來做老大還是好啊。只是做老大好是好,風險還是很大的。不但要自己聰明,還要手下也個個聰明,要是有一個傻瓜,比如老三傻傻地認為一個金幣太少,那老大的性命就很危險了。

要是讓老大直接在所有可能的方案中找出最佳方案這是一件十分困難的事。上面這種從一個最簡單情形出發逆向遞歸尋找最優方案是一個非常有效的方法,事實上前面的「帽子問題」的解決也可以使用逆向遞歸。由此,我們不難將上述「帽子問題」和「海盜分金問題」推廣到更多帽子、更多海盜的情形,對「帽子問題」可推廣到n個學生n頂帽子情形;對「海盜問題」則是:當6個海盜時,老大的最佳分配方案是(98,0,1,0,1,0),7個海盜時是(97,0,1,0,1,0,1),依此類推。不過當超過200個海盜時,這個方案需要修改了,因為老大用於賄賂其他海盜的金幣不夠了,這時,老大是否只有被扔進海里的命了呢?聰明的讀者,你能幫老大找到保命方案嗎?

上面的問題是在有限多個方案中選出一個最佳方案,如果有無窮多個可選方案,有沒有找到最佳方案的可能呢?我們來看看下面的「約會問題」。

有兩位聰明的經理人,在一個酒吧偶遇,卻一見如故,聊得非常投機,相約第二天再在同一間酒吧見面。可能是有點喝高了,他們只約定在0點到1點之間見面,沒有講定具體時間。更糟糕的是,他們只顧聊天,都忘了問對方的聯繫方式,並且他們知道,經理人都很高傲,先到的人只會等10分鐘,10分鐘過後等不到人就會離開。那麼,這兩位經理人能在第二天見到面嗎?

顯然,兩人第二天有可能見上面(兩人到達酒吧的時間間隔不超過10分鐘),也有可能見不到(兩人到達酒吧的時間間隔超過了10分鐘),這是一個概率問題。事實上,這個問題是大學概率論教科書中的一個例題或者習題,要求計算兩人能夠碰面的概率。通常是這樣計算的:將經理人甲到達酒吧的時間記為x,經理人乙到達酒吧的時間為y,均以分鐘為單位,則0 ≤ x, y ≤ 60。以x為橫坐標、y為縱坐標建立坐標系,則甲乙的到達時間 (x, y) 就落在如圖 [0, 60] × [0, 60] 的正方形中。而甲乙能夠在酒吧見上面等價於他們到達的時間間隔不超過10分鐘,即滿足 | x -y | ≤ 10,而滿足 | x -y | ≤ 10 的點 (x, y) 落在正方形中兩條直線 y = x + 10和 y = x - 10之間的陰影部分。如果兩人到達的時間是隨機的,則他們能夠碰面的概率就是陰影部分的面積和整個正方形的面積之比,計算得到這個概率是11/36。也就是說他們只有不到1/3的機會見上面。

難道說能否再見只能聽天由命了?要知道這兩個經理人很聰明,他們也相互知道對方很聰明。他們可不會隨機地在0點和1點之間的某個時間到酒吧赴約,他們會選擇一個他們認為最合適的時間到達酒吧。顯然,這個時間不會是0點整,如果經理人甲在0點整到達,那麼只有乙在0:00到0:10這10分鐘內到達才能碰上,他們見上面的概率只有1/6。往後延一點,比如在0:01到達,則乙在0:00到0:11這11分鐘內到達他們都能碰上,見面的機會增加了。甲到達的時間繼續向後延,他們見面的機會還會繼續增加,直到甲在0:10到達,此時乙只要在0:00到0:20之間到達,他們就能碰上,見面的概率上升到1/3。因此,既然在 [0:00, 0:10) 這個時間區間內到達酒吧,見面的概率不是最大,那麼在該時間區間內到達就不是最佳選擇,聰明的甲是不會選擇在這個時間區間內到達酒吧的,對稱地,他也不會選擇在時間區間 (0:50, 1:00] 內到達,這樣甲的最佳選擇應該出現在 [0:10, 0:50] 的某一刻。可是,不管甲在此時間區間內何時到達酒吧,都是當乙在甲到達的前後10分鐘內到達才能碰面,見面的概率都是1/3。這似乎在 [0:10, 0:50] 中隨機選一個時間到達都一樣,無法確定一個最佳時間。

但是,在沒有選出一個最佳方案前,甲是不會就此停止思考的。他知道乙和他一樣聰明,同樣不可能在 [0:00, 0:10) 和 (0:50, 1:00] 內到達酒吧。因此,他們兩人都只會在 [0:10, 0:50]之間到達酒吧,這等於將原來約定的時間區間縮短為一個新的時間區間 [0:10, 0:50]。當然,時間區間縮短了,他們見上面的機會就會增加。更為重要的是,他們可以對新的時間區間做和前面一樣的思考,結果是可以將到達的時間區間進一步縮短為 [0:20, 0:40]。好了,現在可以明白了,這個區間還可以進一步縮短,最佳的時間也就出來了,那就是0:30。毫無疑問,甲和乙都會選擇0:30到達酒吧,這是對雙方來說都是最佳的選擇,他們百分之百能再次見面,而且根本就不用等。怎麼樣,是不是很佩服?讀者如果遇到類似的情況,而你的約會對象也比較聰明,不妨試一試這個策略。

上面的例子來自於博弈論,是一個關於時間的博弈,而雙方選擇的時間0:30被稱作一個納什均衡點,這是一個最佳選擇,見面機會100%,等待時間是0。在上面的例子中,博弈的參與者之間無法進行溝通合作,只按自己利益的最大化作出選擇,稱為非合作博弈,這是著名數學家、經濟學家、諾貝爾經濟學獎獲得者約翰·納什考慮的問題,就是美國電影《美麗心靈》中的天才約翰·納什。而所謂「納什均衡」是非合作博弈中的這樣一個策略組合,博弈的參與者都選定了一個策略,在其他參與者都不改變自己策略的情形下,任何參與者單獨改變策略將不會獲得更大的利益。因此,納什均衡是一個穩定的狀態,在這個狀態下,對每個參與者而言是不得不選擇的最優策略。

不過,納什均衡對博弈的全體參與者來說未必是全局最優的。著名的「囚徒困境」就能說明這個問題。

警察抓住了兩個竊賊,控告他們犯有搶劫罪。警察將兩人分別帶到兩個隔離的審訊室審訊,並告知他們:如果兩人都認罪,將各判5年監禁;如果兩人都不認罪,則各判1年監禁;如果一人認罪,另一人不認罪,則認罪者將被釋放,不認罪者將被判10年監禁。那麼,兩個竊賊是選擇認罪還是不認罪呢?

考慮其中一個竊賊,如果他選擇認罪,那麼可能的結果是判5年(另一個竊賊也認罪)或者0年(另一個竊賊不認罪);如果他選擇不認罪,那麼可能的結果是判10年(另一個竊賊認罪)或者1年(另一個竊賊不認罪)。顯然,選擇認罪遠遠好於不認罪,如果兩個竊賊都是理性的,他們就都會選擇認罪,這樣兩人各判5年。

兩人都選擇認罪就是一個納什均衡,但這對兩個竊賊來說顯然不是最佳的選擇,因為他們還有一個更好的選擇,就是兩人都不認罪,此時他們只各判1年。但是這個最佳方案是不穩定的,他們無法選到這個最好的方案,即使他們在被捕前商量好拒不認罪,在隔離審訊時他們也不敢不認罪:誰能保證對方不會因為那個有可能被釋放的誘惑而背叛自己?選擇認罪儘管不是最優的,至少還是次優的。

但是,納什均衡也有可能產生兩敗俱傷的情況。

假設一個小鎮上有唯一一家鴨脖店,不妨稱其為A記鴨脖店。鴨脖的成本是2元,售價10元。由於小店的鴨脖做得味道十分鮮美,價格對小鎮上的人來說完全能夠接受,所以一直生意很好。有一天鎮上突然新開了一家鴨脖店,稱其為B記鴨脖店,B記的鴨脖做得和A記一樣美味,成本售價也完全相同。這樣,小鎮上的買鴨脖的顧客有差不多一半流向了B記。A記顯然不能接受這種情況,祭出一招降價到9元銷售。這樣顧客就全都迴流到A記了,A記的生意依然很好。但B記也不傻,立馬降價到8元。

這樣你來我往,激烈的競爭導致兩家最終都以成本價2元銷售,這就是一個納什均衡點。每一家都不能再降價,否則將是虧本銷售;也不能單獨提價,否則意味著沒有銷量。可見,儘管A記、B記兩家店每一步都是為了自己利益最大化,可最終的結果是兩家都受損,真是兩敗俱傷。這種情況在市場上惡性競爭中經常出現。

納什均衡理論是對市場經濟中亞當·斯密「看不見的手」原理的挑戰:按照斯密的理論,在市場經濟中,每一個人都從利己的目的出發,而最終全社會能達到利他的效果。但是我們可以從納什均衡中看到,從利己目的出發,結果損人不利己,既不利己也不利他。可見,市場經濟也不是萬能的。

來源:本文摘自《數學之外與數學之內》,復旦大學出版社2015年出版

*量化投資與對沖基金*第十二期實戰班

全面了解FOF組合基金

從入門到精通程序化交易

運用阿爾法套利與統計套利實戰

MATLAB在量化投資中的具體應用

CTA多因子策略分析與資金管理方案探討

如何打造實戰性量化投資策略

波動率量化交易

組合課程,一網打盡

2017.10.20—2017.10.22 上海


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大數據實驗室 的精彩文章:

科學調查:數學不好是種病
6位偉大的「數學學渣」科學家
北上廣的逃離遷徙之路
2017年諾貝爾生理學或醫學獎揭曉,發現控制「晝夜節律」分子機制的三位美國科學家獲獎
可怕,40行代碼的人臉識別實踐

TAG:大數據實驗室 |