當前位置:
首頁 > 最新 > 法律經濟學第三課:博弈的奧秘

法律經濟學第三課:博弈的奧秘

【財新網】(專欄作家 陳永偉)上一次課我們已經介紹了微觀經濟學研究的一種方法(或者在法學院叫「進路」會更好)——價格理論,今天我們接著介紹另一種方法——博弈論。和價格理論中所有人只對價格信號作出反映不同,在博弈論中,每個人都要針對對手的行動做出反應,這種處理方式的不同是兩套理論的根本區別。

目前,博弈論對整個社會科學的影響是非常大的,無論是經濟學、政治學,還是社會學,都大量使用了博弈論作為工具。在法律經濟學中,博弈論的應用也非常頻繁。我們在後面介紹財產法、侵權法、合同法、刑法,以及規制、反壟斷等各類問題時,都會涉及到博弈論。事實上,在很多研究中應用博弈論也成了一種風潮。曾經有一個博士找我吐槽說「陳老師,我寫不出論文怎麼辦?」我瞥了他一眼說「飽食終日,無所用心,難矣哉!不有博弈者乎,為之猶賢乎?」這位博士大惑不解,沉吟片刻後說:「陳老師,說人話!」我解釋說:「用人話講就是『你個吃貨,整天吃飽了撐著沒事幹,讀書不用心,想要畢業找到工作,真是很困難啊。你不是學過博弈論嗎?沒事用一點,不也能讓你顯得高端大氣上檔次嗎?』」這個例子當然是用來搞笑的,但我想用它來說明博弈論的應用,恐怕也是合適的。

(一)博弈論簡史

1、納什之前

博弈論的體系非常複雜,我們從哪兒說起呢?我想,還是從八卦,或者說學科史開始吧。數學家們經常揶揄經濟學家,「你們整天鼓搗博弈論,這玩意兒不就是數學的一個分支嗎?」是的,如果嚴格地按照學科劃分,博弈論屬於運籌學的一個子學科,屬於應用數學的範疇。不過,經濟學家也不必自卑,因為如果細細地查問一下這門學問的淵源,就會發現其實它的產生源於經濟學家的倡議,並且最早的初衷也是為了解決經濟學問題。

故事可以追溯到上世紀20年代,一位奧地利經濟學家奧斯卡·摩根斯坦(Oskar Mogenstein)不滿於傳統價格理論中對行為主體互動的忽視,希望能夠在門格爾和龐巴維克提出的交換經濟基礎上建立一套嚴格的理論,用以分析經濟中人們的互動決策。為了這個目的,他找到了匈牙利裔科學家約翰·馮·諾依曼(John von Neumann)。此時,這位科學史上的天才碰巧也正對經濟問題著迷,在通讀了包括瓦爾拉斯的《純粹經濟學原理》、帕累托的《數學心理學》在內的大量經濟學著作後,他也有了和摩根斯坦相同的不滿,認為經濟學不考慮人們的互動是不合適的。於是,兩人一拍即合,決定一起創立一門新的理論。不過,由於種種原因,這一偉大的構想在提出不久後就擱置了。直到十多年後兩人在普林斯頓再次重逢,這一工作才重新被提上了日程。在兩人的合作下,巨著《博弈論與經濟行為》於1944年橫空出世,博弈論這門學科從此誕生。據說,這部長達一千多頁,充斥了數學公式的「天書」主要是由馮·諾依曼獨立完成的,而摩根斯坦則主要負責提供思想,以及最後緒論的寫作。

在《博弈論與經濟行為》中,馮·諾依曼和摩根斯坦開創了合作博弈這一領域,對零和博弈(也就是一人所輸即為另一人所得的博弈)進行了詳細的分析,提出了「最大最小原理」。這些成果中很多都富有洞見,但總體來說,它們並不像兩位作者最初設想的那樣,可以被用來作為分析經濟現象的利器。事實上,在全書中,兩位作者也很少以經濟現象為分析對象,而是主要用紙牌或國際象棋等遊戲來作為研究案例——或許是由於這個原因,這一理論才以Game Theory命名。更令人遺憾的是,這些理論即使被用來指導紙牌實踐,其效果也不佳。馮·諾依曼很喜歡打牌。有一次他和一位朋友打牌,朋友建議以5美元為賭注,試試馮·諾依曼的新理論究竟能否幫他提高牌技。結果,馮·諾依曼輸了,只好願賭服輸,乖乖交出5美元。朋友一把拿過錢,一把把錢貼在了一本《博弈論與經濟行為》的封面上,然後笑著說「你這個理論啊,也就值5美元!」當然,也有人說馮·諾依曼牌技臭並不意味著他的理論真的不能指導打牌。據說後來有個賭徒仔細琢磨了書上的理論,終於悟出了一套絕學,最後在一次紙牌大賽中獲得了冠軍——這些都是後話了。在當時,《博弈論與經濟行為》確實沒有如願掀起經濟學革命的浪潮。時任芝加哥大學經濟系主任的雅各布·維納(Jacob Viner)教授就嘲諷說:「這套理論連國際象棋問題都解決不了,又怎麼可能解決現實生活中的複雜問題呢?」 維納的學生、後來的諾貝爾經濟學獎得主保羅·薩繆爾森(Paul Samuelson)則評價得更有藝術性:「這套理論,非常有開創性。它確實能解決很多問題——除了經濟問題!」

為什麼馮·諾依曼和摩根斯坦並沒有達到他們的目的呢?原因在於他們走錯了路子——他們希望研究市場中人的互動行為,但卻選擇了社會視角的合作博弈作為切入點,這顯然無異於緣木求魚。不過,這種嘗試也不是沒有意義,後來合作博弈在沙普利(Lloyd Shapley)——就是在電影《美麗心靈》中和納什一起追女孩的那位——等人的發展下茁壯成長,應用範圍很廣——在器官配型、婚戀匹配等市場設計實踐中起到了關鍵作用。如果有學習知識產權的同學,應該知道標準必要專利的「公平、合理、無差別」許可費(FRAND Royalty,FRAND許可費)是很難確定的,而一種比較新的計算FRAND的方法就應用了合作博弈中的Shapley值。除了對後來學科的影響外,馮·諾依曼和摩根斯坦的工作還留下了一些重要的思想資源。例如,其中的「最大-最小原理」,就啟發了羅爾斯對其正義理論的構造——或許這就是所謂的無心插柳柳成蔭吧!

2、納什與納什均衡

對於博弈論的重大突破是從納什開始的。當時,納什是普林斯頓的學生,和很多其他學生一樣,他也是馮·諾依曼的「粉絲」。在馮·諾依曼和摩根斯坦的巨作出版後,他也懷著崇敬的心情閱讀了這部作品。在閱讀過程中,他發現了一個重大的問題:馮·諾依曼用「最大-最小原理」來求解博弈,但這種求解的方式僅對兩人的博弈有效。當多於兩人時,則需要把參與人分成不同的「聯盟」來進行思考,在確定了不同聯盟的獲益後再考慮聯盟內部的分配問題。很顯然,這樣的分析具有很大的局限性,因為在現實中博弈的參與人往往不止兩個,並且它們並不是通過聯盟來進行博弈。所以納什想要做的,就是要試圖找出一種更為普遍的「解」的概念,它不僅適用於零和博弈,也適用於一般博弈。

在有了這個想法後,納什十分興奮地跑去找馮·諾依曼談。當時,馮·諾依曼已經是名滿天下,而納什只是一個無名小輩,所以這一次見面註定會是不愉快的。在《美麗心靈-納什傳》中,記錄了納什在證明了「納什均衡」的存在性後去見馮·諾依曼的情形:

馮·諾依曼端坐在一張巨大的桌子旁邊,穿著昂貴的三件套西裝,打了絲質領帶,口袋裡露出精緻的手帕,整個人看上去與其說像個學者,倒不如說更像一個富有的銀行總裁。他也確實和公務繁忙的行政人員一樣心事重重.當時正擔任12個顧問職務,「沒完沒了地和奧本海默爭論」氫彈研製的問題,同時指導兩台計算機樣機的建造和程序編製工作。他做了一個手勢讓納什坐下。他當然知道納什是誰,只是對於他的來訪感到有點兒困惑。

他細心地聽著,微微抬頭,手指輕輕敲著桌面。納什開始描述自己已經想好的證明兩個以上局中人參加的博弈的均衡方法。不過,沒等他說完幾個互不相關的句子,馮·諾依曼突然打斷了他的話,在納什尚未說到這個證明的結論之前搶先說:「小菜一碟,你知道,這只不過是一個不動點定理。」

如果有人問什麼是「被碾壓」的感覺,我想當時的納什應該是最明白其中滋味的。值得慶幸的是,馮·諾依曼的冷水並沒有澆滅納什心中的激情之火。在蓋爾教授的指導下,納什嘗試用「角谷靜夫不動點定理」證明了納什均衡的存在性。這個定理說明了,他所希望的那個均衡,那個博弈的解的概念是普遍存在的,它可以被用到對所有問題的分析中。自從有了這個定理,整個博弈論的面貌煥然一新了。

很多年後,納什在回憶這次見面時曾說:「我當時其實正和馮·諾伊曼進行一個非合作博弈,而並非單純尋求加入他的聯盟。當然,從心理學的角度來看,他不能對一個競爭對手的理論方式感到十分高興也是很自然的事情。」細細品來,話中頗有一些「今天你對我愛搭不理,明天我讓你高攀不起」的感覺。

不過,這裡我倒想為老馮說幾句公道話。從他的角度看,看不起「納什均衡」到底有沒有道理呢?我想,其理由是很充分的。馮·諾依曼所提出的「最大-最小原理」雖然適用範圍很廣,但是它的預測性是很強的——至少作為一套理論,它具有被反駁的可能。而「納什均衡」的概念呢,在很大程度上依賴於局中人之間的信念。在一個博弈中,既可能有一個均衡,也可能有很多均衡。究竟哪個會出現?說不準。從這點上看,作為一個應用理論,「納什均衡」似乎是失敗的。我想,這可能是馮·諾依曼並不喜歡「納什均衡」的一個重要原因。但如果情況真的如此,那麼看走眼的就可能是馮·諾依曼,而不是納什。因為信念、多重均衡等問題的存在恰恰為博弈論的發展提供了重要動力。

3、納什之後

在「納什均衡」提出之後,非合作博弈取代合作博弈成為了博弈論研究的主流。納什研究的問題主要是一個靜態的、完全信息的博弈,因此此後博弈論的進展方向是很直觀的:

一個方向是把博弈論拓展到動態,也就是把博弈者行動的順序考慮進來。這個工作主要是由納什的同學庫恩(Harold W. Kuhn)開創的。我想如果同學們學過「非線性規劃」,那麼一定會知道這個名字,因為他和塔克(他和納什的老師)一起提出了著名的「庫恩-塔克條件」(Kuhn-Tucker Condition)。說到這兒,我們不得不感嘆普林斯頓對於博弈論發展的貢獻是多麼地重要,馮·諾依曼、納什、沙普利、庫恩,整個博弈論的奠基性工作竟然都由這一個大學的人承包了!

值得注意的是,當我們考慮動態博弈的時候,納什均衡就會產生很多的問題。為了克服這些問題,就必須對博弈進行「精鍊」(refine)。這一工作主要是塞爾頓(Reinhard Selten)完成的。在一篇著名論文中,他提出了「子博弈」,以及「子博弈精鍊均衡」的概念,並發展了求解動態博弈的逆向歸納法。當然,塞爾頓在博弈論方面的貢獻還不止如此,他的貢獻還包括提出「顫抖手均衡」、開拓實驗經濟學等。值得一提的是,他在愛情上的忠貞也是可圈可點。塞爾頓的夫人患有嚴重的糖尿病,下肢癱瘓並近乎失明。但儘管如此,塞爾頓每次演講都會帶上他的太太,並不時投去會心的微笑。我想,兩位老人相濡以沫,一起變老,或許就是傳說中「最浪漫的事」吧!

另一個方向是把博弈論拓展到不完全信息。在這個方向,海薩尼的貢獻是最大的。海薩尼的一生非常傳奇。「二戰」期間,他曾被德軍抓去做苦力,歷盡艱險才逃脫。戰後,他在布達佩斯大學得到了博士學位,本以為苦盡甘來,但卻因為和當局政見不合而被迫流亡澳大利亞。由於澳大利亞不承認奧地利學位,因此滿腹經綸的海薩尼就成了「低學歷者」而不得不在工廠充當普通工人。在工作間隙,他進修了經濟學碩士學位,並開始在經濟學期刊上發表論文。在幾年後他離開澳大利亞遠赴美國時,他已經是聲名遠播。但為了謀得一個教職,他還是需要一個博士學位,於是就投入了經濟學泰斗阿羅門下,並在阿羅指導下完成了一篇博士論文。作為博士論文,這可能是最輕率的,因為包括導師在內的人都知道這篇論文除了作為一塊敲門磚外,什麼也不是。於是,阿羅甚至都沒有仔細看論文,只在答辯時提了一句「加個例子」的建議後,論文就順利通過了!

海薩尼在理論上的貢獻主要是所謂的「海薩尼轉換」。納什等人創立的博弈論主要是在「完全信息」條件下展開的,它假設所有的參與人要知道自己對手的一切,這顯然不可能!但如果我們都不知道對手是怎麼樣的人,我們又怎麼可能進行博弈呢?用學術的語言講,我們根本沒有辦法處理「不確定性」!海薩尼對這一問題的解決很巧妙,就是引入一個上帝,假設上帝以一定概率對對手的類型進行選擇,然後我們再分別和各個類型的對手進行博弈。這樣一來,一個「不完全信息博弈」就變成了一個「不完美信息博弈」,後面的處理就容易多了。我不知道海薩尼是怎麼想到這個奇妙的觀點的。或許在生活中經歷了太多,所以才想到冥冥之中自有天定,才想起了那個上帝吧!

說到這兒,我們已經對博弈論的大體結構,以及發展脈絡有了一個簡單的了解。我希望這樣的介紹可以給同學們一個大致的地圖,知道博弈論從哪兒來,也可以知道博弈論能夠用到哪兒。

(二)靜態博弈

1、博弈的基本要素

下面,我們正式開始對博弈論進行介紹。首先我們要介紹一下博弈的幾個要素。一般來說,一個博弈包括七個要素:參與人、行動、策略、信息、支付、均衡和結果。

所謂參與人(player)就是到底誰參加了這個博弈。這一點看似無聊,但其實很重要。毛主席曾說過:「誰是我們的朋友,誰是我們的敵人,這是革命的首要問題」。在分析博弈時,搞明白誰是博弈的參與人非常重要,但這一點其實並不容易。很多時候,不少博弈是相互嵌套的,一個大博弈套著很多小博弈,如果你只看到小博弈,沒有看到大博弈,那麼碰了鼻子就只有干著急。

所謂行動(action),就是參與人到底可以做什麼;而所謂策略(strategy),指的是參與人在什麼時候、什麼情況下會做什麼。對於初學者而言,這是兩個很容易搞混的概念——事實上,在靜態博弈中,它們是一致的,只有在動態博弈中,它們才有區別。關於這點,我們在後面的會通過例子進行介紹。

所謂信息(information),指的是參與人對於對手了解的程度。在博弈論中,這用信息集的概念來表示。例如,在下棋時,我們的對手可能是高手,也可能是臭棋簍子。如果我們確切知道他到底是什麼類型的人,那麼我們的信息集就只包含一種類型;而如果我們分不清他到底是什麼人,那麼信息集就有兩個元素了,因為你無法在集合中進一步做區分。

在博弈論中,有兩個經常提到的概念——「完美信息」(perfect information)和「完全信息」(complete information)。其中,完美信息是我們可以確知在整個博弈中已經發生了生么,知道你和你的對手已經做了什麼。例如,如果你的記憶力足夠好,那麼象棋就是一個完美信息的博弈。而「完全信息」指的則是你確切知道對手的類型,到底是高手還是臭棋簍子。與這兩個概念對應的,我們可以十分容易地定義「不完美信息」(imperfect information)和「不完全信息」(incomplete information)。其中,不完美信息指的是參與人並不能對博弈過程完美會意——例如對於一個患有健忘症或老年痴呆症的人,象棋對你來說就成了不完美信息博弈。而不完全信息指的則是你不確切知道對手的類型。顯然,當你和一個陌生人打牌、下棋,或者開黑「王者農藥」時,你就在進行一場不完全信息博弈。前面我們講到了海薩尼的貢獻,其實就是用一個trick把「不完全信息」轉變成了「不完美信息」——或許這樣的代價是從「無神論」轉入了「有神論」。

所謂支付(payoff),指的是在不同策略組合下,每個參與人到底得到了多少。在分析真實的博弈時,有一點是特別需要注意的,就是你必須知道博弈參與人的真實支付究竟是什麼。例如,在分析企業行為時,我們經常把企業的利潤作為支付。但事實上,背後決定策略選擇的是具體的人,他們的目標可能並不是利潤最大化,所以在博弈中用利潤來作為他們的支付就會有問題。

所謂均衡(equilibrium),指的是所有的參與人都選擇了自己認為最好的策略時所構成的戰略組合。由於所有人都已經最優化了自己的行為,所以大家都沒有激勵去偏離。在博弈論中,均衡的概念有很多,我們後續會一一介紹。

所謂結果(outcome),是指在均衡時,誰得到了什麼,支付到底怎麼樣。

2、佔優均衡和(純策略)納什均衡:概念及其應用舉例

我想,這樣的介紹對於大家來講,一定是過於枯燥了。下面我們通過幾個例子來對此進行說明。

第一個例子是「囚徒困境」(prisoners』 dilemma)。作為博弈論中最著名的模型,「囚徒困境」是由蘭德公司的兩位研究人員Flood和Dresher於1950年最早提出。後來,塔克教授——對,就是那位納什的老師——在某次接受訪談時被問及能否用一個例子來概括博弈論的精髓,於是就靈光一現介紹了這個例子。自此,「囚徒困境」名滿天下。那麼,這究竟是一個怎樣的例子呢?它講述的是一個虛構的故事:警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人入罪。於是警方對兩名嫌疑犯進行隔離審查,並向雙方提供以下相同的選擇:若一人坦白,而另一方抵賴,則前者將立即獲釋,後者將入獄10年;若兩人都抵賴,則二人各獲刑1年;若兩人都坦白,則兩人各獲刑8年。

在這個博弈中,參與人是很明確的,就是兩個囚徒。由於是一個靜態的博弈,因此博弈的行動和戰略也是一致的,都是兩個「坦白」和「不坦白」。至於信息,在本例下是完全的,因為每個人都確知對方的類型,以及支付結構。

那麼,均衡應該如何考慮呢?我們可以這樣思考:對任何一名囚徒來說,無論對手的選擇如何,他選擇坦白總是更好的——給定另一名囚徒不坦白,當他選擇了坦白,就可以立即釋放,而如果不坦白,則要獲刑1年;給定另一名囚徒坦白,當他也坦白了,就只要入獄8年,而如果不坦白,則要蹲10年大牢!總而言之,無論另一個囚徒坦白還是不坦白,自己選擇坦白總是有利的!這個博弈的均衡非常有趣——每個參與人的最優策略選擇都和其他人的選擇無關,這種最優策略叫做佔優策略(dominate strategy)。由佔優均衡構成的均衡,稱為佔優均衡。

但是,當我們仔細觀察一下這個博弈後,就會發現,這個博弈實際上十分奇怪。如果兩人都不坦白,那兩人的刑期加起來不過就是2年,也就是說,兩個人都選擇不坦白,對於這個由兩名囚徒組成的「社會」是最好的。而當兩人都挖空信息,選擇了自認為對自己最好的策略,結果卻是兩人總共獲刑16年,這是所有均衡結果中總刑期最長的——換言之,這導致了「社會」福利的最差化!

從廣義上講,「囚徒困境」一詞被用來形容一類博弈。在這類博弈中,雖然從集體理性看,參與人之間都選擇合作能帶來最大收益,但對單個參與人而言,選擇不合作卻是佔優戰略。因此,在所有參與人都追求自身利益的動機會讓大家都陷入最壞的境地,每個人的利益都會因此受損。在現實中有很多問題最終都可以歸結為「囚徒困境」。

例如,在大學中,老師對學生的成績評判通常是根據學生的相對表現給出的。在這種情況下,如果所有學生都不刻苦學習,則大家都可以很輕鬆地拿到高分。但現實呢?學生們總希望自己比別人的成績高,因此都會單方面更努力,偷偷「刷題」較勁。這樣的結果是,雖然大家都努力了,但最終大家的成績卻和都不努力相差無幾,其情形是和「囚徒困境」十分相似的。

又如,在現實中我們經常看到商家之間進行殘酷的「價格戰」。低廉的價格雖然能讓消費者獲利,但卻會讓競爭的商家都無利可圖。那麼商家為什麼不相互協商,共同商定一個更能盈利的價格呢?答案的邏輯還是和「囚徒困境」一樣的。對於任何一個商家,如果其對手都遵循了協議,那麼它單方面降價就能把所有的消費者都吸引過來,從而獲得暴利。考慮到這點,所有的商家就都難以遵守協議,價格同盟就會不攻自破。

再如,著名的「公地的悲劇」,其實也是「囚徒困境」的表現。儘管所有人可以制定一個令集體經濟效益最大化的土地使用方案,但對於任何一個人來講,單方面多使用一些土地總很可能是更有利的。因此所有人都會有過度使用土地的動機,最終土地也必然會濫用。和「囚徒困境」一樣,此時所有人的收益都會低於最優值。

由於從集體理性的角度看,囚徒困境會帶來嚴重損失,因此在現實中人們採用了各種方法來避免陷入這種境地。克服囚徒困境的一種方法是,通過制定製度、規範,改變博弈的支付結構。而我們的法律經濟學,在很大程度上要做的就是這樣的工作。所以,在後面的介紹中,我們將不斷重新提及這個例子。

第二個例子是交通博弈。這個博弈很簡單:相向而行的兩輛車都可以選擇向左行,或者向右行。如果兩個車都向左行,那麼車輛都正常通行,兩輛車都得到1單位支付。而如果其中一輛向左,另一輛向右,則兩輛車相撞,都得-1單位支付。

這個例子的參與人,就是相向而行的兩輛車上的司機。行動/戰略有兩種:向左行或者向右行。對應的,我們可以定義各種戰略組合下兩個參與人的支付。

但這個例子似乎和囚徒困境不同,參與人沒有可以以不變應萬變的「佔優策略」,因此也不存在所謂的「佔優均衡」。為了求解這樣的博弈,我們需要定義一種新的均衡,也就是大名鼎鼎的「納什均衡」。

定義納什均衡,我們需要首先定義最優反應策略。我們前面已經說過,佔優策略是以不變應萬變,但現實中,這種情況很少存在。更為現實的現象,是一種見招拆招式的策略應對。例如,在本例中,如果一方司機預見到對方會向左行,那麼向左行對他來說就是最好的;而如果他預見到對方會向右行,那麼他的最優選擇就應該是向右行。這種見招拆招式的應對,就是所謂的最優反應策略。如果所有的參與人都採取了最優反應策略,那麼由此組成的策略組合就是所謂的納什均衡。

在定義了納什均衡後,我們可以用它來重新考慮交通博弈。容易發現,在這個博弈中,有兩個納什均衡(或者更確切說純策略均衡,因為還有一個混合策略均衡),分別是都向左行和都向右行。可以驗證,當一方給定了自己的行動時,另一方就沒有偏離的動機——從這個意義上講,這兩個組合確實都可以被稱為是均衡。

交通博弈反應的也是一類重要的問題——協調問題。這個博弈中,如果大家都是左行,也可以;都是右行,也可以,社會福利(用兩個參與人的支付之和表示)都是最大的。但在於每個參與人做決策時,並不知道對方做了什麼,因此就可能出現「協調失靈」(Coordination Failure)的問題。現實中,「協調失靈」問題是很常見的。例如,在經濟發展過程中,最好的狀態就是有企業進入產業上游,有企業進入下游,這樣一條完整的產業鏈就能很快建立起來。但現實中,誰來進入哪個領域,大家是不知道的。但在分散決策過程中,很可能會出現企業一窩蜂進入某個領域,而其他領域沒人進入的情形,這時經濟發展就會停滯。面對這種情況,其實不需要額外的資金投入,只要設法引導資源從一些領域轉移到另一些領域,就可以實現經濟發展。

第三個例子是「性別大戰」(sex battle)博弈。有人說,女人就像火車,就喜歡逛、吃、逛、吃……偶爾還會嗚嗚嗚。現在考慮,有兩個女人——不妨就叫小明和小紅吧,她們都愛逛街吃飯。做為閨蜜,她們只有在一起逛街或吃飯才能獲得效用,如果單獨逛街或吃飯,效用就是0。所不同的是,小明更愛吃飯,小紅更愛逛街,所以如果兩個人一起吃飯,小明的效用是2,小紅的效用是1,而如果兩人一起逛街,小明的效用是1,小紅的效用是2。

我想,通過前面例子的訓練,同學們已經可以很快說出這個博弈的主要元素是什麼了。我們看看這個博弈,它和交通博弈其實很類似——從社會的角度看,兩人共同選擇相同的戰略時,福利達到最大值。所不同的是,這個博弈還涉及到分配問題,因為在兩套「好」方案——一起逛街或一起吃飯中,某一個人會獲得更多一些的利益。同學們可以想一下,這種博弈對應的是什麼現實情況。是不是很像由不同小組主導的兩套工作方案?

這個博弈的納什均衡呢?也很容易找。注意,如果給定了小明選擇逛街,那麼小紅的最優反應就是逛街;如果給定了小明選擇吃飯,那麼小紅的最優反應就是吃飯。反之,也可以定義小明的最優反應。因此,這裡的納什均衡(確切說,純戰略均衡)有兩個:一起逛街和一起吃飯。

第四個是懦夫博弈(Chicken Game)。這個博弈的英文名叫Chicken Game,有些書上把它叫做「鬥雞博弈」。其實這是不確切的。其實在英文中,chicken有「懦夫、膽小鬼」的意思,所以把它翻譯為懦夫博弈是最恰當的。這個博弈說了什麼呢?說的是兩個壯漢在一條路上狹路相逢。由於路太狹了,只容一個人通過,所以兩個人都執意要先過去,就誰也過不去。必須打一架定勝負,結果是兩敗俱傷,都得到-3單位的效用。而如果一方退讓,讓另一方先過去,那麼退讓的一方得到0單位效用,先過去的一方得到2單位效用。如果兩方都退讓,那麼都得0單位效用。

同學們可以自己分析這個博弈的各個元素,以及均衡。顯然,在這個博弈中有兩個(純戰略)納什均衡,都是由一方前進,而另一方退讓構成的。

這個博弈的象徵意義是很明確的,它體現了參與人之間激烈的利益衝突。現實中什麼博弈是懦夫博弈呢?我想現在就有個很現成的例子,就是朝鮮半島危機。現在朝鮮和美國就好像是這個博弈中的那兩個彪形大漢。如果誰都不退讓,那麼就會走向戰爭,最終兩敗俱傷。而如果一方退讓,另一方不退讓,那麼其中一方就會失掉面子。那麼,朝鮮半島的局勢會怎麼發展呢?不好說。根據我們的博弈,這應該有兩個均衡。最可能的結果應該是有一方選擇退讓。但誰會退讓呢?還真不好說。作為吃瓜群眾,我們能做的,或許只是《基督山伯爵》最後那句「等待和希望」吧!

第五個博弈是「智豬博弈」(Boxed Pigs Game)。這個博弈說的是,一個豬圈裡生活著 一 頭大豬與一頭小豬。有一天,豬圈裡安裝了一個進食的按鈕,按一下就會出現10個單位的豬食。但去按按鈕,需要付出相當於2單位豬食卡路里的體力作為代價。並且誰去按按鈕,就會成為後進食者。如果大豬先進食,能吃9單位豬食,而小豬只能吃到1單位豬食;如果同時到,則大豬吃到7單位,小豬吃到3單位;如果小豬先到,則大豬吃到6單位,小豬吃到4單位。

很奇怪!這個博弈的參與人竟然不是人,而是豬!而雙方可能選擇的行動(或者說策略)都是兩個——「按按鈕」和「等待」。讓我們來看一下支付狀況。如果大豬小豬都去按,那麼大豬吃到7單位,小豬吃到3單位,兩「豬」分別扣除2單位成本,最終的支付分別為5和1。如果大豬按,小豬等待,那麼大豬吃到6單位,扣除2單位成本,凈得4單位,而小豬則凈得4單位。如果大豬等待,小豬按,那麼大豬凈得9單位,小豬吃到1單位豬食,卻付出2單位體力成本做代價,凈得-1單位。如果大家都不按,那麼都沒得吃,都得0。

在這個博弈中,要害在於對小豬行為的分析。我們看到,給定大豬按按鈕,小豬如果按按鈕,得1單位,等待,則得4單位。給定大豬等待,小豬如果按按鈕,則得-1,等待,則得0。也就是說,對於小豬來說,等待就是它的最優反應。或者說,對於小豬來說,等待其實是一種佔有策略——無論你大豬按或者不按,我都在這裡,就在這兒靜靜地用一雙含情脈脈的眼睛看著你。而大豬卻沒有佔優策略。它的最優反應取決於小豬的行動。如果小豬等待,它的最優反應就是按;如果小豬按,它的最優反應就是等待。

那麼,這個博弈最後會出現什麼納什均衡呢?很簡單,就是大豬去按,而小豬等待。因為大豬通過按按鈕得到豬食的利益太大了,儘管小豬撿漏摘桃子會讓它很不高興,但是一想到豬食的誘惑,這些就都不是問題了。

「智豬博弈」所體現的,是一種「弱者的優勢」。例如,在國際社會中,恐怖襲擊問題是一個公害,但誰去管呢?對於美國這樣的超級大國,恐怖襲擊的危害是很大的,所以打擊恐怖活動的激勵也很大。而對於一些落後效果——什麼?讓我去管恐怖襲擊?反正我們國家已經落後得像炸過一遍了,再炸一遍也沒什麼損失,為什麼要勞師動眾去打擊恐怖活動呢?所以這種光榮而艱巨的任務,往往會落在美國這樣的國家身上。又如,宿舍的衛生。在宿舍裡面都是誰打掃衛生呢?一般來說,就是那個最愛乾淨的同學。而不太愛乾淨的同學,只要學著小豬那樣靜靜地躺著,用含情脈脈的眼光看著搞衛生的同學,就可以享受到乾淨、舒適的生活環境了。

「智豬博弈」是一個有意思的智力構建,但更有意思的是,竟然有人因為這個例子的主角是豬而不是人來否認這個例子。他們認為,豬是不會像人那樣思考的,所以這個例子以豬喻人就很沒意思。但是,豬真的不會博弈嗎?天下怕就怕認真二字!有老外為了驗證豬究竟會不會像故事裡說的那樣博弈,真找了一大一小兩頭豬放在豬圈裡,並設計了和故事中相同的場景。結果呢?在經過一段時期的學習後,兩頭豬之間竟然出現了和「智豬博弈」預言一致的結果。看來,故事有時候比現實還真實,而豬可能也遠比人想像得聰明!

3、混合策略納什均衡

好,我們已經看了那麼多的具體例子。我想同學們應該已經對博弈的元素,以及均衡的求解方法有所了解了。我這裡想重申一下,我們已經說了兩種均衡的概念——「佔優均衡」和「納什均衡」。其中,佔優均衡是由「以不變應萬變」的佔優策略組成的,而納什均衡則是由「見招拆招」的最優反應策略組成的。顯然,佔優策略也是最優反應策略,因此佔優均衡一定是納什均衡,而反之則不然。

並不是所有的博弈都會有佔優均衡,但是幾乎在所有的博弈中都會存在著納什均衡。這一點,納什已經在他的論文中給出了證明。說到這兒,恐怕馬上有同學要準備對我實力打臉了,因為他們恐怕已經找到了這個命題的反例。

是的,這樣的反例很容易構造。例如,考慮一個簡單的硬幣配對問題。甲乙兩人都可以選擇硬幣朝上或者朝下。如果兩人的硬幣都朝上或者都朝下,那麼甲得2單位支付,乙得到0單位。如果兩人的硬幣朝向不同,那麼甲得0單位,乙得2單位。

這個博弈就很奇怪了。因為按照我們前面講的用最優反應法,根本求不出一個均衡!但是,這並不意味著這個博弈沒有納什均衡,而是意味著前面的納什均衡定義需要拓展。

事實上,前面我們定義的納什均衡叫做純策略納什均衡,它是由參與人分別選擇確定的策略構成的。但是,在很多時候,參與人的策略其實是以一種概率的形式表達出來的。一般來說,如果不存在純策略的最優反應,那麼最優反應就通常是一個概率。由混合策略的最優反應所構成的均衡,就是所謂的均和策略納什均衡。

那麼,怎麼求混合策略的納什均衡?或者更基本的,怎麼求解混合策略的最優反應呢?這個問題的要害在於,如果一個參與人運用了混合策略,那麼組成這個混合策略的所有純策略一定會給他帶來同樣的期望支付。為什麼呢?試想,如果甲以一個概率組合選擇了朝上和朝下,但他發現其實選擇朝上可以帶給自己更高的期望效用,那麼她為什麼不幹脆就選擇朝上這個確定的策略呢?

在明白了這點之後,我們就可以對問題進行求解了。假設甲、乙分別以概率p、q選朝上,以概率1-p、1-q選擇朝下。那麼,如果甲選擇朝上,他的期望支付有多大呢?如果他選擇朝上,那麼有q的概率遇到乙也選朝上,得2單位支付,有1-q概率遇到乙選朝下,得0單位支付。此時,其期望支付為2q。同理,如果他選擇朝下,那麼其期望支付就是2(1-q)。令兩者相等,就可以得到q=1/2。應用同樣的流程,可以求得p=1/2。

我想,應該有同學很快發現了問題:咦,為什麼我們這裡考慮的是甲的決策,求出的卻是乙的最優反應?是的,博弈論就是如此,它考慮的是人們之間的互動,所以每個人的行動都是別人的條件,反之亦然。對於這種邏輯,大家要注意理解。

或許還有同學覺得,混合策略是很奇怪的。為什麼要定義這樣的策略呢?它僅僅是為了保證納什均衡的存在而編出的理論產物嗎?答案當然不是這樣。在很多博弈中,選擇純策略會讓人吃虧,只有選擇混合策略才能讓人看不透,才能取得先機。《孫子兵法》上提倡用兵要講究「奇正相兼」,其實就是「混合戰略」思想的一個應用。假設一個將軍有「奇」、「正」兩種戰術可供選擇,那麼如果他總是固定採用其中的某一種戰術,那麼他的敵人就很容易找到克制他的戰略;而如果他有時用「正」,而有時出「奇」,那麼敵人對他的戰術就很難猜透,從而也更難應對。

實際上,混合策略的應用也遠比人們想像的來得真實。賽場是博弈論的天然試驗場,有不少學者曾利用各類比賽曾利用體育比賽為背景,對混合策略的使用進行過考察。例如,Walker和Wooders(2001)曾計算過世界網球名將的發球方向比例及其得分情況。容易發現,那些頂級網球運動員基本都是採用混合戰略選擇自己的發球方向。但在混合戰略中,純策略「左」和「右」的得分率都是非常相似的。

4、均衡的多重性及均衡的選擇

到目前為止,我們已經對納什均衡有了一定了解。我們看到,在很多博弈中,納什均衡都不是唯一的。從社會福利的角度看,這些均衡有的好,有的壞,那麼在現實中,究竟哪些均衡會實現呢?我們又可以通過什麼方法去實現好均衡、避免壞均衡呢?答案是,在現實中,均衡的實現要依賴於具體的文化、法律和制度背景。要進行均衡選擇,就要從這幾個方面入手。

先看文化。這裡要向大家介紹一個「聚點」(focal point)的概念。這個概念是諾貝爾經濟學獎得主托馬斯·謝林提出的。謝林是一個戰略專家,作為博弈論專家,謝林在學者圈裡的名氣並不算特別大——事實上他自己也不認為自己是個博弈論專家——但我認為從重要性來說,他可能更大。為什麼呢?因為他拯救過世界,而且是兩次!在古巴導彈危機和柏林牆危機的時候,人類已經走到了核戰爭的邊緣,而謝林提供的戰略分析則幫助美國政府在關鍵時刻保持了冷靜,從而幫人們避免了戰爭。由此可見其重要性。

言歸正傳,還是回來說「聚點」。這個概念最早源於謝林和老同學的一次見面之約。當時謝林通知老通知要去他的城市看他,但是卻忘了告訴他在哪兒見面。這就麻煩了,當時沒有電話,聯繫不便,總不能到處亂逛,期待著「你會不會突然出現,在街角的咖啡店」吧?當時,謝林想起自己在念書時曾和老同學一起去旅行,旅行中他們曾說過,在一個城市,最好的見面地點是郵局,並說以後如果大家走散了,就在郵局見。想到了這個約定,謝林就來到了郵局。果然,他的老朋友早已在那兒等他。兩人相視一笑,「嗨,好久不見!」

考察這個見面博弈,其實在城市的任何一個角落見面都是納什均衡。為什麼在這樣無窮多個的納什均衡中,謝林和他的老同學會選擇了在郵局見面這個均衡呢?原因就在於他們有共同的生活經歷、共同的文化體驗。這些對於我們分析博弈,是很重要的。這告訴我們,在具體考慮博弈問題時,不能只關心冷冰冰的支付,而要把文化因素考慮進來。

另一種解決多重均衡的方法是提供信號。在博弈論中,有一個「相關均衡」的概念,它是由諾獎得主羅伯特·奧曼提出的。關於它的具體定義我不想作太多的介紹。但大體來說,它是通過一個信號裝置來協調參與人的行為。例如,通過紅綠燈來指揮走或者停。通過這種信號,就可以得到一個具體的均衡。

最為常用的選擇均衡的方式就是通過法律和制度來進行規範。法律和制度對於博弈的作用是多方面的。首先,它會改變均衡的支付狀況。例如,我們前面說過公地的悲劇是囚徒困境的一種體現。如何避免這種悲劇呢?一個最簡單的方法就是對過度放牧進行處罰。在進行了處罰後,每個人的支付狀況變了,就不會選擇多放牧了。這是改變支付狀況來影響均衡。其次,有一些法律並不用改變支付就可以選擇出均衡。例如,在交通博弈中,如果政府規定了向左行或者向右行,那麼這一規定就會成為博弈的聚點。最後的均衡就會在這個聚點上實現。

當然,在法律缺失的環境下,還有一種人們自發的力量來進行博弈均衡的選擇。這種選擇力量就是重複博弈。關於這個,我想在後面幾周談到關係型合同的時候再和大家詳細介紹,現在先保持一些神秘感。

5、策略空間無限的靜態博弈

前面我們說的,都是有限多個策略選擇的博弈。但現實中,很多博弈的可選擇策略有無窮多個。例如,在分析反壟斷問題時,我們經常用到兩個產業組織中的模型:古諾模型(Cournot Model)和伯川德模型(Bertrand Model)。其中,古諾模型是產量競爭模型,也就是兩個企業在市場上分別選擇自己的產量進行競爭;伯川德模型是價格競爭模型,是兩個企業在市場上分別選擇價格進行競爭。從理論上講,博弈中的參與人可以選擇的策略都是無窮多個的,那麼,我們應該如何進行分析呢?具體的分析需要一些數學技巧。但是大致的思路還是和我們前面講的一致的。

以古諾均衡為例。當給定了對手企業的產量後,一個企業面臨的需求就是整個市場的需求減去它自己的產量。而市場上的價格是由它們兩家的共同產量決定的,因此在面對「剩餘需求曲線」後,企業事實上可以通過選擇自己的產量來影響市場上的價格。有了價格,有了產量,有了成本,企業就可以得到自己的利潤。通過求解利潤最大化問題,企業可以得到自己的最優產量,它是對手產量的一個函數。或者說,在這個博弈中,每個企業的最優反應,就是對手戰略的函數,這點和我們前面看到的博弈完全是一致的。聯立所有企業的最優反應函數,就可以得到這個博弈的均衡。具體的數學分析,我在這兒就不多做介紹了,但是大家記住,類似古諾模型這種具體問題,分析的思路並沒有擺脫博弈論的一般框架。求解最優反應,聯立最優反應得到均衡,還是求解納什均衡的一般思路。

(三)完全信息動態博弈

1、動態博弈的基本概念

到此為止,我們分析的都是靜態的博弈,下面我們要進入對動態博弈的分析。這裡我們先要對博弈論中動態和靜態博弈的區分進行一下說明。所謂靜態博弈,指的是所有參與人同時行動,而動態則指參與人的行動有先後。注意,這裡指的同時和先後,不是一個時間上的概念,而是一個信息上的概念。只要參與人在行動時不知道對方的行動,我們就認為他的行動是與對手同時的。例如,現在我和一個木星上玩博弈,他進行了一個行動,但哪怕是光傳到這兒,也要一些時間。所以即使他已經行動了,但是我也沒看到。此時我的行動就應該被視為是和他同時進行的。而如果是看到了對方的行動再進行,那就是個動態博弈了。

在考慮動態博弈時,行動和策略的區別就變得很關鍵了。因為在動態環境下,不光「做什麼」很重要,「在什麼條件下做」也是非常重要的。舉個例子來區分行動和戰略。毛主席在論述游擊戰的策略時說過「敵進我退,敵退我進」。這裡,紅軍可以選擇的行動是兩個,進和退。但是簡單的進和退並不構成一個戰略,只有說明什麼時候進,什麼時候退才是。這裡,「敵進我退,敵退我進」就是一個戰略,而根據敵方的策略,我們至少還能排出其他三種戰略:「敵進我進,敵退我退」、「敵進我進,敵退我進」 ,以及「敵進我退,敵退我腿」。這裡要注意,在考慮策略時,要把每一種可能的情況下的對策都寫出來,這才叫做策略。

在動態博弈中,由於行動有先後,所以用「博弈樹」來刻畫是十分方便的。值得一提的是,這裡涉及到一個信息集的概念。所謂信息集,是指參與人面對的可能歷史的集合。也就是說,當參與人處在一個信息集上時,他知道該輪到自己行動了,但卻不知道當前的具體情況究竟是什麼,而此時他所面對的所有可能情況就構成了其所處的信息集。更為直觀地說,如果用「博弈樹」刻畫動態博弈,則信息集就是這棵「樹」上若干個結點的構成的一片片「葉子」(當然,單獨的結點也可能構成一片葉子)。由於在博弈過程中,參與人只能知道自己在哪片葉子上,而不能確切知道在哪個結點上,因此他們只能根據這些「葉子」 而不是結點制定戰略。

2、子博弈納什均衡和逆向歸納法

那麼,怎麼分析動態博弈呢?我們仍然可以用納什均衡的概念。事實上,根據策略,我們可以寫出博弈的標準形式,然後用前面介紹的方法去進行處理。我們可以用如下一個例子來進行說明。這個例子說的是一個和大家息息相關的事:考試和給分。在一次考試中,老師可以選擇是否讓學生及格。而學生針對老師的行動,可以採取兩個行動,接受,或者報復。如果老師讓學生及格了,且學生接受了,那麼老師支付是-1,學生支付是1;如果老師讓學生及格了,且學生報復了,那麼老師和學生的支付都是-10;如果老師讓學生不及格,且學生接受了,那麼老師支付是1,學生支付是-1;如果老師讓學生不及格,且學生接受了,那麼老師和學生的支付都是-10。

在這個博弈中,有兩個參與人,老師和學生。老師是先行動的,對於他來講,他只有一個信息集,在這個信息集上,他可以選擇兩個行動,及格和不及格——這也是他的策略。而對於學生來講,他可能面臨的信息集有兩個:自己及格了,或者自己不及格。在這兩個信息集上,他分別可以選擇兩個行動,接受和報復。因此,對於學生來講,其策略就有四個:「如果老師給及格就接受,如果老師給不及格就報復」、「如果老師給及格就報復,如果老師給不及格就接受」、「無論老師是否給及格都接受」,以及「無論老師是否給及格都報復」。

同學們可以自己把這個博弈寫一下,然後你就會發現這個博弈存在著三個純策略納什均衡:第一個是老師給及格,同學選「如果老師給及格就接受,如果老師給不及格就報復」;第二個是老師給不及格,同學選「如果老師給及格就報復,如果老師給不及格就接受」;第三個是老師給不及格,同學選「無論老師是否給及格都接受」。顯然,這個博弈的均衡太多了,而且總給人一種摸不著頭腦的怪怪的感覺。

那麼,怎麼可以讓博弈的結果看起來靠譜些呢?這兒就要涉及到子博弈精鍊均衡的定義了。前面我們已經說了,這是塞爾頓提出來的。這個概念是什麼意思呢?要說清楚,我們首先要介紹一下子博弈的概念。什麼是子博弈呢?通俗地說,它就是博弈樹上某個結點之後,可以構成獨立一串的博弈。我們知道,動態博弈是參與人序貫決策的,參與人1進行了後參與人2來。整個博弈是一個博弈,而當參與人1行動完了,輪到參與人2時,從他的角度看,後面的博弈又是一個新的博弈。這樣後面的一串博弈就是原來博弈的子博弈。這裡要注意的是,我說的是獨立成串的,也就是說在後續的博弈中,人們的信息集不會和其他子博弈之間發生糾連。用這個概念,我們就可以知道在前面說的老師和學生的博弈中,就有三個子博弈。一個是原博弈自身,一個是學生知道自己及格後的子博弈,一個是學生知道自己不及格之後的子博弈。

子博弈精鍊均衡的要求是,策略在所有的子博弈上都構成納什均衡。也就是說不光要考慮到最後實現結果的那個分支,還要考慮很多「if模式」。用這個方法,我們就可以對這個博弈進行精鍊。先看老師給及格,同學選「如果老師給及格就接受,如果老師給不及格就報復」這個均衡。這是不是一個子博弈精鍊均衡?答案是,不是。原因是,同學的戰略在老師給了不及格時,不構成納什均衡。因為即使老師真掛了他,進行報復對他來說也不是最優反應。再看老師給不及格,同學選「如果老師給及格就報復,如果老師給不及格就接受」這個均衡,它是不是精鍊均衡呢?顯然它也不是,因為如果老師真給了及格,那麼同學就不應該選擇不接受。這樣一圈下來,只有一個均衡可以在所有子博弈上都構成精鍊均衡,那就是老師給不及格,同學選「無論老師是否給及格都接受」——這點我希望同學們記住了。所以如果我期末給了大家不及格,大家一定不要報復我!

以上分析動態博弈的例子,可以總結為「逆向歸納法」。也就是說,看博弈的時候,我們先從最後一期看起,看此時參與人的最優選擇。把不是最優的劃掉,然後把這個對應的策略組合所對應的支付代入前一階段,重新分析前一階段參與人的最優選擇。如此往複,直到倒推到博弈開始的階段。丹麥哲人戈爾凱戈爾曾有名言說,「Life can only be understood backwards,but it must be lived forwards」,我想,用這句話來形容動態博弈的分析可能是最合適不過的吧。

說到這兒,恐怕有些同學會比較迷糊。為什麼我們在進行均衡的精鍊時,還要考慮非均衡路徑上的事情呢?這是不是多此一舉?答案當然是否定的,事實上非均衡路徑上的結果對於均衡的達成非常重要。打個比方,有句笑話說「致富的秘訣都寫在刑法上」,但為什麼現實中我們並沒有按照這些方法去致富呢?答案就是刑法告訴了你如果採用這些非均衡路徑上的策略,你會有什麼後果。所以你也就只能乖乖選擇你的均衡策略了。

3、完全信息動態博弈舉例

下面我們可以來看幾個例子。第一個例子是寵壞孩子。這個故事說的是一對父子之間的事情。在這場博弈中,孩子可以選擇淘氣或者不淘氣。如果孩子不淘氣,則兩人相安無事,各得效用1。如果孩子淘氣,那麼父親可以選擇是否對其進行懲罰。如果不懲罰,則孩子得逞,得效用2,而父親則得效用0;如果懲罰,那麼「打在兒身,痛在父心」,兩人各得效用-1。

同學們可以試著畫一下這個博弈的博弈樹,找一下這個博弈中兩個參與人的策略。需要注意的是,這裡父親只有一個信息集,因為他只有在看到孩子淘氣時,才需要選擇是否懲罰兒子,而看到孩子乖巧的樣子,他不必要進行這樣的選擇。這樣,孩子和家長的策略其實都是兩個。通過簡單的分析,我們可以發現博弈有兩個均衡:「孩子不淘氣,父親懲罰孩子」,以及「孩子淘氣,父親不懲罰孩子」。運用子博弈精鍊納什均衡,很容易知道,只有後一個均衡是精鍊的,而前一個均衡在父親開始的子博弈中並不構成納什均衡。

寵壞孩子博弈的結論雖然很簡單,但其含義卻是發人深省的。正是父親的慈愛,最終會寵壞了孩子。而在現實中,我們也會遭遇很多類似的例子。例如著名轉型經濟學家科爾奈(Kornai)曾提出過一個「預算軟約束」理論來分析社會主義國家的政企關係。他指出,由於社會主義國家的企業多數是國有的,因此政府普遍存在著一種「父愛主義」。當企業虧損時,政府往往不會讓其破產清算,而會採用信貸、補貼等方法,對其進行援助。由於這種「預算軟約束」的存在,導致社會主義國家的國有企業沒有積極性努力經營,因此效益低下。其實從博弈論的角度看,「預算軟約束」本質上就是父愛性的政府寵壞了國有企業這個孩子的故事。如果一旦國有企業出現虧損,政府就進行托底,那麼國有企業就不會有激勵改善經營績效,實現扭虧為盈,這就是國有企業效益長期低下的原因。針對這點,要讓國有企業的績效實現根本的改善,就必須從根本上實現政企分開,讓企業切實變成自負盈虧的市場主體。

另一個例子是三國里的「郭嘉遺計定遼東」。前幾年有一句流行語,叫做「感謝郭嘉」。我想,對於我們來說,這不過是一句調侃,但對於曹操來說,這句話卻是十分有深意的。自從二十六歲追隨曹操開始,郭嘉在平呂布、滅袁術、戰官渡等一系列鬥爭中都充分顯示出了其卓越的才華。公元207年,被曹操逼得走投無路的袁紹之子袁熙和袁尚遠投遼東,希望勾結遼東的公孫康共同抵抗曹操。要不要遠涉遼東,徹底掃平袁氏,成為了曹軍當中爭論的焦點。此事的郭嘉,由於長年從征過度操勞,生命已經即將走到了盡頭。臨死之前,他用密信告訴曹操不要出征遼東就能不戰而勝。曹操聽從了郭嘉,在許昌按兵不動。果然,不久後遼東的公孫康就殺了二袁,並向曹操臣服。這就是著名的「郭嘉遺計定遼東」。

對於三國迷來說,「郭嘉遺計定遼東」是一個奇計,但其實如果你熟悉博弈論,那就會發現它也不是那麼神秘。這個博弈中,其實有三個參與人:曹操、二袁,以及公孫康。曹操是先行動的,他可以決定是否征討遼東。看到了曹操的行動後,二袁和公孫康要進行的就是一場同時的靜態博弈了,他們要各自決定是否與對方聯合,一致抗曹。而是否抗曹的收益,取決於曹操是否來犯。如果曹操真的打來了,那麼雙方聯合的收益就高於不合作。而如果曹操不打來,那麼雙方其實就會陷入一個囚徒困境,無論對方如何,先動手,把對方幹掉,完全掌控遼東,都是對自己有利的。根據這一分析,我們就可以得到結論,如果曹操來犯,那二袁和公孫康就會聯合;而如果曹操不來犯,他們就會內訌。給定這個結論,我們再反推到曹操的決定,就可以看到,曹操選擇按兵不動是最好的。郭嘉勸曹操按兵不動,其中的奧秘就在這兒。

值得玩味的是,後來曹操在赤壁鎩羽而歸後,曾大哭道:「若奉孝在,決不使吾有此大失也!」不少人都認為曹操的這一行為顯得很虛偽。但如果我們分析赤壁大戰前後的局勢,並把他與「郭嘉遺計定遼東」時的情形進行對比,就會意識到曹操此舉其實並非完全虛偽。當時劉備和孫權貌合神離,如果曹操按兵不動,採取觀望態度,那麼很可能孫劉之間會先發生內訌。此時曹操再趁火打劫,恐怕三國的歷史就要改寫了。

(四)不完全信息博弈

1、海薩尼轉換和貝葉斯更新

到目前為止,我們考慮的博弈都是完全信息的。但現實中,很多博弈的信息是不完全的。針對這一問題,我們如何考慮呢?關於不完全信息的博弈問題,處理起來真是比較難的,作為一節介紹性的課,我不能作太多的展開。我只希望通過一些例子,來幫助大家建立一些概念,等以後遇到了具體的問題,大家再去找相關的參考書進行學習。

我們在介紹博弈論發展史的時候,已經說到過,真正的不完全信息博弈要處理的是不確定性,是很難實現的。傳奇般的海薩尼用了一個trick,在引入了「上帝」後,把不完全信息博弈變成了不完美信息博弈,才讓這類博弈變成了可處理的。那麼,現在這類博弈的問題就在於,如何鑒別出上帝究竟給每個參與人選擇了什麼樣的類型。

在博弈中,參與人是如何做的呢?不外乎就是「聽其言、觀其行」,根據對方已經採取的行動來進行判斷,或者用時髦的語言,叫做「貝葉斯更新」(Bayesian updating)。例如,我們班裡來了一個很文靜的女生,你的第一判斷會是什麼呢?這一定是一個淑女!用統計學的語言講,你對她是淑女的判斷有一個先驗概率,例如80%。而有一天,你看到她吃相很難看,那麼你對她的好印象就會降低了。略微用些數學計算。假設你認為一個淑女,吃相很難看的概率只有10%;而一個女漢子吃相很難看的概率有90%,那你現在認為她是淑女的概率就驟降到了31%。為什麼呢?因為吃相難看,無非兩種可能:一種是她真是淑女,偶爾吃相難看了一把,這種可能總共為80%×10%=0.08;另一種是她就是個女漢子,這種可能為20%×90%=0.18。總體來說,發生吃相難看這件事的概率就是0.08+0.18=0.26。而在發生吃相難看這件事後,反推她是淑女的概率呢?就是0.08在0.26里占的比例,就是31%。

在不完全信息博弈中,參與人都是通過對手的各種行動,不斷更新這對於對手類型的判斷。有時候,可以形成對對方的完整判斷,例如如果我們假設好人不做壞事,那麼看到一個人做了一件壞事,就馬上可以斷定他不是好人;而有些時候,我們只能做出一個概率判斷,我們把它叫信念(belief)。在不同的信念下,參與人會做出不同的策略選擇。在均衡時,所有的策略選擇應該是與其對應的信念判斷相一致的,在這個時候,就得到了所謂的「貝葉斯均衡」。

關於不完全信息博弈,我們可以舉很多例子。例如,寓言中的黔驢技窮,就是一個不完全信息博弈的例子。由於貴州本來沒有驢,所以老虎看到個頭巨大的驢開始也會嚇一跳,這說明在老虎的先驗判斷中是很害怕驢子的。但隨著不斷觀察,老虎對於驢子的判斷在不斷進行貝葉斯更新。最後,它發現驢子不過如此,就選擇了一個與信念相一致的策略:吃掉它!又如,所謂的「周公恐懼流言日,王莽謙恭未篡時」,就是說人們對周公的先驗概率很糟,而對王莽的先驗概率則很好。但是隨著後來事情的發展,貝葉斯更新告訴我們,周公其實是個好同志,而王莽則是個野心家。這說明,了解一個人其實不是那麼簡單的,所謂「畫龍畫虎難畫骨,知人知面不知心」,要看透一個人,還是要長期地看,長期地進行貝葉斯更新。

2、信號傳遞和信息甄別

由於在現實中我們經常遇到不完全信息博弈,所以就有人開發了很多方法來對其進行處理。在現實中,有兩個常用的方法來處理不完全信息問題,一個是信號傳遞(Signaling),一個是信息甄別(Screening)。

先看信號傳遞。這是有諾貝爾經濟學獎得主邁克爾·斯賓塞(Michael Spence)提出來的。與很多諾獎得主相比,斯賓塞的作品其實並不多。事實上,他的興趣點似乎也不在純粹的經濟研究,而在於政策研究和社會活動。他曾一直相當哈佛校長,但沒有成功。現在他的興趣是為中國發展提供建議。最近,他和林重庚教授一起做的一項研究剛剛獲得了中國經濟學的最高獎——孫冶方獎。一個外國人,不遠萬里來到中國,得到了中國經濟學的最高獎,這是什麼精神啊!

言歸正傳,說信號模型。這是個什麼東西呢?一言蔽之,就是教育其實是一種信號。斯賓塞指出,在學校教育中學到的知識,有很多是沒有用的,那為什麼人們還要花心思去上很多學呢?他的理由是,這是為了把高能力者和低能力者區分開。我們知道,讀書是很痛苦的。但是對於高能力者來說,這種痛苦要小一些,而對低能力者來說,痛苦要大一些。這種差別就為通過教育對人的能力進行區分提供了機會。用人單位沒有辦法直接判斷人的能力,但是可以通過看人的教育來判斷能力——只有高能力的人才會為了獲得好工作而去多接受教育,而對低能力者來說,儘管也可以通過混學歷來騙得一份好工作,但這種「混」對他們來說就已經是得不償失、生不如死。所以,在一個分離均衡下,高能力者就多上學,拿高工資;低能力者就少上學,拿低工資。

信號博弈的例子是很多的,我們可以舉一個歷史的例子。在西漢初年,劉邦平定了天下。作為西漢的開國功臣,蕭和是個廉潔的官員,十分勤政愛民。但劉邦卻對此很不高興,經常找他的麻煩。蕭和對此表示不解,他手下的人就對他說「皇上這是擔心你作亂,看你勤政愛民,不貪不佔,他就更擔心了!為了讓皇上放心,你還是要貪一點啊。」於是蕭和就聽從了這個建議,開始貪污,劉邦也從此不再找他麻煩了。在這個故事中,劉邦和蕭和其實在進行一場不完全信息博弈。劉邦不知道蕭和的志向,但他知道一般想得天下的人都會愛惜自己的名聲,所以蕭和越清廉、越勤政,他就越不放心。而當蕭和用貪污來自黑後,就相當於向劉邦發送了一個自己沒有異心的信號。劉邦接受到這個信號後,進行了貝葉斯更新,確認其沒有異心,於是也就放過他了。

再看信息甄別。這是信息少的一方獲取信息的一個辦法。例如,我們在就業市場上經常看到,去投某地的簡歷都要求985、211、「雙一流」畢業。為什麼要這樣呢?為什麼不能按照投簡歷者的能力來錄用呢?答案是,用人單位沒有這麼多時間和精力來識別。因此他們就設立一個標杆。用和前面信號博弈一樣的分析,我們可以看到985、211、「雙一流」畢業更容易可能是高能力者,因此他們被錄用的可能也就更大。

信息甄別的例子也很多。例如,中國古代有個告御狀的制度。如果老百姓遇到了重大冤屈,可以直接到皇帝這兒告狀。但是如果所有人都去皇帝那兒告狀,那麼皇帝肯定要忙死了,所以必須對來告狀的人進行甄別。怎麼甄別呢?一個辦法叫「滾釘板」,告狀的人必須從釘板上滾過去。顯然,一般人是不能忍受這樣的痛苦的。而如果能夠忍受這種巨大的痛苦,那就說明肯定有天大的冤枉,皇帝就要親自來審理。通過這種機制,皇帝就可以把真正有冤的人甄別出來。在「清末四大奇案」的「楊乃武與小白菜」案中,就是楊乃武的姐姐滾釘板,感動了慈禧太后親自審理案件,才最後讓已成了鐵案的案子翻了盤。

滾釘板的例子看似殘忍,但其實其中的思路是頗為值得借鑒的。例如,現在很多電商平台都在為惡意投訴太多而煩惱。怎麼甄別惡意投訴與正常投訴呢?其中就可以借鑒「滾釘板」的設計。例如,想投訴的話,要付一萬塊,那麼估計就沒有惡意投訴了。當然,如果只是這樣同時提高所有人的成本,可能真想投訴的人也不來投訴了,這就要求我們設計成本返還機制。這些後話,我們以後具體再講。

3、略論FRAND費率定價的「事後仲裁法」

最後,我想舉一個標準必要專利的FRAND費率定價中的例子作為結束。在涉及標準必要專利的案件中,確定專利費用的價值是很困難的。針對這一問題,Lemley和Shapiro在2013年的論文中提出了一種「事後仲裁」的觀點。

「事後仲裁法」的思路很簡單:標準制定組織成立一個由熟悉行業和技術狀況,以及相關法律的專業人士組成的仲裁處。專利持有人和專利使用人事先承諾,當發生有關許可費的糾紛時,雙方不訴諸於法庭,而是向仲裁處尋求仲裁。具體來說,糾紛雙方各自向仲裁處提交一個自己認為符合FRAND原則的許可費率。仲裁處在收到雙方提交的許可費水平後,從中選擇一個許可費率作為相關SEP的FRAND許可費。

在現實中,產生許可費糾紛的癥結在於專利持有人會傾向於抬高許可費率,而專利使用人則會傾向於壓低許可費率,由於信息的不完全,我們很難判斷雙方報價行為的合理性。而「事後仲裁法」很巧妙地以一種機制設計的思路克服了這一問題。由於仲裁人一般會十分反感糾紛的一方提出的極端報價,因此當專利持有人提出的報價過高時,他更有可能傾向於支持專利使用人的報價,考慮到這點,專利持有人就會避免報價過高。同樣的,當專利使用人報價過低時,仲裁員更有可能傾向於支持專利持有人的報價,考慮到這點,專利使用人就會避免報價過低。通過這種機制,「事後仲裁法」很好地起到了誘使糾紛雙方都儘可能說實話的作用,從而為確定雙方公認的FRAND許可費率創造了條件。

(五)結語

今天已經向大家介紹了很多博弈論的知識,以及例子,其中有一些內容對大家而言可能有一些難度。我希望大家可以先記住我們思考這些問題的邏輯,而對於一些技術細節則可以慢慢學習。當然,如果你希望正規學習一下博弈論,我還是建議大家認真去修一門課,或者讀幾本教科書。我想,從長遠來看,這樣的投資對於大家來說一定會是十分有利的。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 財新智庫 的精彩文章:

梁建章:世界人口日,該關注哪些人口問題

TAG:財新智庫 |