當前位置:
首頁 > 健康 > 人工智慧與行為經濟學

人工智慧與行為經濟學

人工智慧與行為經濟學

打開今日頭條,查看更多圖片

行為經濟學家Colin Camerer 2017年在Economics of ArtificialIntelligence上的一篇工作論文《Artificialintelligence and behavioral economics》。

他主要從事經濟學與認知心理學的交叉研究,這一研究旨在從心理學和神經生物學層面更好地理解個體決策制定的基礎,以此來提升經濟行為模型的真實性。他研究中大量使用了實驗方法(有時也使用現場實驗),以此來考察人們在博弈及市場環境下究竟是如何行為的。2017年9月,因對行為經濟學和神經經濟學進行了開創性研究,榮獲經濟學領域2017年度「引文桂冠獎」。這個自2002年以來,每年發布的引文桂冠獎已成功預測了39位諾貝爾獎得主。

人工智慧與行為經濟學

I:引言

本文描述了人工智慧(AI)和行為經濟學如何相互作用的三種觀點,特別是在未來經濟發展和研究前沿方面。注意,文中交替使用術語人工智慧(AI)和機器學習(ML)(雖然AI更廣泛)。


機器學習(Machine Learning)是人工智慧的一個分支學科,是實現人工智慧的一種方法。它使用演算法來解析數據,從中學習,然後對真實世界中的事件做出決策和預測。和傳統的為解決特定任務而專門進行編程的思路不同,機器學習「讓計算機擁有在沒有明確編程的條件下擁有學習的能力」,並通過對大量數據的學習找出完成任務的方法。

第一個觀點是ML可以用於搜索更多的影響選擇的行為變數。第二個觀點是人類預測的一些常見局限可以被理解為機器學習的執行效果不佳所產生的錯誤。第三個觀點是,研究如何在公司和其他機構中使用AI技術來克服和利用人類限制非常重要。

II:機器學習以找到行為變數

行為經濟學可以定義為對計算,意志力和自身利益的自然限制的研究,以及這些限制對經濟分析的影響(如市場均衡,公共財政等)。也可以更廣泛地定義行為經濟學為一種觀察哪些變數可能影響經濟選擇的開放性觀點。

這種開放性觀點表示,可能的解釋變數可以通過最豐富來源的鄰近社會科學來定義。包括心理學,社會學(例如,規範),人類學(認知中的文化變異),神經科學,政治科學等。這種觀點也可以看做「行為經濟學與其鄰居交易」。

而且,開放性觀點也可以更具體地表徵為機器學習的誘因,即如何從最大可能的特徵集預測經濟結果。在「與鄰居交易」的觀點中,特徵變數是由不同的鄰近科學的貢獻而建立,可能是損失厭惡,身份,道德規範,群體偏好等。

因為在一般的ML方法中,預測特徵可以是任何預測的變數。比如,選擇的可測量性、可供性和運動性的相互作用、注意力的度量、心理生理學生物狀態的測量,社會影響,個人性質(財富,情緒,個性,基因)等等。變數越多越好。行為經濟學的ML方法指定了很長的候選變數列表。如果更長的特徵列表比理論指定特徵的簡短列表更好地預測,則說明還有潛在的可預測性有待挖掘。

人工智慧與行為經濟學

簡單來說,人工智慧可以為行為經濟學的研究提供一種思路。相對於傳統的經濟學,行為經濟學的研究方法是十分開放的,它試圖通過納入其他學科(例如心理學、社會學)的理論,來解釋傳統經濟學所不能解釋的人類行為。可能解釋人的行為的變數很多,究竟哪些變數真正有用就成為了問題,此時機器學習的方法就可以幫助研究者選出那些真正有價值的變數。

目前,已有一些行為經濟學的文獻借用了機器學習的方法。例如,Camerer,Nave and Smith(2017)在分析「非結構化談判」(unstructuredbargaining)問題時採用了機器學習的方法(例如用醫學儀器記錄反應、激素水平),用其來幫助尋找影響談判結果的行為要素。Peysakhovich and Naecker(2017)則利用機器學習的方法對人們在金融市場中的風險選擇問題進行了研究。

III:人類預測為不完美的機器學習

當簡單理性原則受到挑戰時,行為經濟學開始蓬勃發展。在當時甚至現在,在許多判斷和決策領域(JDM)都有積極的研究。因為它尊重簡單的數學模型和嚴謹的測試,這使得規律性能夠被累積,並給出理由來消除微弱的結果,因此實驗室結果的普遍性總是被保留地解決。

從20世紀70年代開始,JDM面臨的主要爭議是關於實際決策中涉及的認知過程以及這些預測的質量。最開始提出質疑的是Paul Meehl(1954)。Meehl是一位對統計學很感興趣的臨床精神病學家,母親在他16歲時去世的時候,他開始懷疑醫生究竟是否知道如何讓病人康復。

他收集了所有他能找到的研究,將一組社會臨床判斷與實際結果進行比較,並構建帶有可觀察的預測變數的簡單線性模型。Meehl認為,這些統計模型可以作為評估臨床醫生的基準。

後來的研究顯示,只有少數臨床醫生比統計模型更準確(例如,Goldberg,1970)。從那之後,有關臨床判斷不完善的證據開始增多。大家普遍認為是臨床醫生擅長測量特定的變數,或者建議包括哪些客觀變數,卻沒有很好地將它們一致地組合(例如,Sawyer 1966)。但實際上,統計預測的方法需要大量高質量結果數據樣本,此類數據是當時很少可用的。

早期研究發現人類判斷確實比統計模型更差之後,便著力於如何使少量的變數能夠很好地擬合現實。比如,用一個簡單雙變數模型:性生活和爭吵的頻率,預測婚姻幸福;Dawes(1971)用加權標準化後的GRE成績、本科GPA成績和本科學校的質量構建三變數模型預測教授對學生的成功評價。

這樣的舉措主要因為一些事實的限制:在任何情況下,都沒有具有真正大量變數的巨大特徵集(所以在那個時候,你不可能知道「大量變數比小量變數更適合」)。

人類的思想反對正規化和由此產生的稀疏性。每個AI研究人員都知道包含較少的變數是預防過度擬合訓練集的通用措施。但是,在我們的日常判斷中,同樣的過程似乎不太可能。大腦雖然是為了對感官信息進行大量過濾而構建的,但人們不喜歡明確地丟棄信息。特別是當信息已經擺在我們面前的時候。

但是,反對稀疏性或者提倡多量性或許也會存在誤導性。比如招聘中面試訪談。有大量證據表明,如果訪談未經過培訓並且沒有採用結構化的面試形式,即使獲得了很多信息,這種訪談也不能預測後期工作績效(Dana et al., 2013)。

比如,在ASSA會議的酒店套房中與應屆博士面試教師候選人。假設這些訪談的目的是預測哪些新博士將在幾年後能夠做出極好的研究,良好的教學以及其他類型的服務和公共價值。但未經訓練的面試官的大腦在其腦海中有更多基本的東西。這個人穿著得體嗎?如果有危險,他們可以保護我嗎?他們是朋友還是敵人? 他們的口音和單詞選擇聽起來像我的嗎? 為什麼他們會打哈欠?進行這些訪談的人說,我們正試圖探討候選人對他們主題的理解深度,新計劃研究的前景如何,等等。但我們真正評估的可能更像是「他們是否屬於我的部落?」

雖然這樣面試是浪費時間,但可以想像,它們的確產生了有效的信息。問題是,面試官可能會對錯誤的信息進行加權。如果想獲得有關於長期任職前景的有效信息,最佳方法是錄製面試錄像,將其與更接近於工作表現的其他任務(例如,讓他們審閱一篇難懂的論文)相結合,然後機器從龐大的資料庫中提取有效的信息。

所以作者提出假設:人類的判斷就像過度擬合的機器學習。

日常人類判斷的一些方面可以被理解為由糟糕的機器學習導致的錯誤類型。作者著重介紹於兩個方面:過度自信及有限糾錯

過度自信:在JDM早期的經典研究中,Oskamp(1965)招募8位經驗豐富的臨床心理學家,以及24名研究生和本科生,分四個階段閱讀關於真實人物的資料。第一階段僅僅是三個句子,給出基本的人口統計、教育和職業。接下來的三個階段分別是關於童年、學校教育以及在軍隊時間的經歷,分別有1.5-2頁。總共有五頁材料。

四個階段之後,被試必須回答25個問題,每個問題有五個選擇。所有這些問題都有正確的答案。

結果發現:第一,經驗豐富的臨床醫生和學生之間的準確性沒有差別。第二,所有被試在第一階段之後的準確性沒有提高。第一階段,它們的準確率為26%;在閱讀了後三個階段的所有五個附加頁之後,準確率為28%(與26%相比無顯著差異)。然而,被試對其準確性的主觀信心幾乎是線性上升的,從33%到53%。

這種信心的增加,再加上準確性沒有提高,使人想起人工智慧中訓練集和測試集精度之間的差異。隨著越來越多的變數被包含在訓練集中,精度將總是增加。然而,由於過度擬合,當包括太多的變數時,測試集精度會下降。Oskamp研究中被試者的過度自信隨著更多「變數」的等價物(閱讀材料)增加就好比是機器學習過度擬合的現象。


訓練集(Training Set):幫助我們訓練模型,簡單的說就是通過訓練集的數據讓我們確定擬合曲線的參數。

測試集(Test Set): 測試已經訓練好的模型的精確度,但並不能保證模型的正確性,只是說相似的數據用此模型會得出相似的結果。因為在訓練模型的時候,參數全是根據現有訓練集里的數據進行修正、擬合,有可能會出現過擬合的情況。

有限糾錯:在一些ML程序中,訓練是在試驗中進行的。例如,最早的神經網路是通過基於一組節點權重進行輸出預測,然後反向傳輸預測誤差以調整權重來訓練。這與人類學習過程相似——兒童學習識別自然物體的類別或學習語言屬性,可以詢問大人的判斷進而糾正。當然,神經網路訓練的假設是,輸出錯誤可以被識別。但是,如果人類不能識別錯誤或對其做出不適當的反應呢?

對預測誤差的一種適應不良反應是添加特徵,特別是交互效應。例如,假設一個大學招生主管有一個預測模型,認為演奏樂器的學生有良好的學習習慣,並將在大學取得成功。但是,一名在朋克樂隊中演奏打鼓的學生被錄取,後來在大學裡掙扎並退學了。

招生主管可以傳輸預測誤差來調整演奏樂器特徵的權重。或者她可以通過將演奏樂器分成演奏鼓和演奏非鼓來創建新特性,並忽略錯誤。此過程將產生太多的特徵,並且不會有效地使用錯誤校正。此外,請注意,不同的招生主管可能會創建兩個不同的子特徵,「玩朋克音樂」和「玩非朋克音樂」。儘管兩個人都確信他們已經改進了模型,並對未來預測保持高度信心。但是他們的評分可靠性將會下降,因為他們用不同的方式「改進」了他們的模型。

過度自信、有限糾錯等行為缺陷在某種意義上可以被認為是機器學習中的「過度擬合」問題。從這個角度出發,作者認為人工智慧的發展將會有助於人類更有效地進行決策。

IV:AI技術作為仿生補丁或惡意軟體,用於人類局限

行為經濟學可以幫助人們做出好的選擇。AI通過創建更好的工具來推斷一個人想要什麼和一個人會做什麼。有時這些工具會傷害,有時它們會有所幫助。

AI幫助的例子——推薦系統。

推薦系統使用關於目標人物的選擇和事後質量評級的先前數據,以及關於許多其他人的數據,可能的選擇和評級,以預測目標人員將喜歡他們之前沒有做出的選擇(並且可能甚至不知道存在,例如他們沒有聽說過的電影或書籍)。推薦系統是一種行為修復,用於彌補人類對注意力和記憶力的限制以及由此產生的偏好不完整性。並且推薦系統還會根據你的反饋對推薦內容進行誤差修正。

AI不利的例子——價格歧視。

如果ML對他們想要的東西了解很多,並且有精確的支付意願(WTP),那麼公司也會迅速發展個性化價格的能力。行為經濟學此時可以通過使用關於人們如何判斷價格公平性的證據發揮作用(例如,Kahneman,Knetsch和Thaler,1986),如何公平規範是否適應「個性化定價」,以及公平判斷如何影響行為。

作者的直覺(與Kahneman相呼應)是:人們可以接受基本上相同的產品的價格的高度變化,只要有(1)非常小的產品差異或(2)公司可以闡明為什麼不同的價格是公平的。例如,價格歧視可能被視為交叉補貼,以幫助那些負擔不起高價的人。個性化定價也可能會損害不精明購物的消費者,但會幫助能夠利用個性化演算法的精明消費者,使其看起來像低WTP消費者並節省資金。

V:結論

本文討論了AI,特別是機器學習與行為經濟學相關的三個方面。

第一方面是ML可以用來挖掘行為經濟學家認為可以改善預測選擇的大量特徵。

第二方面是人類的決策可以被認為是一種不完美的機器學習。例如,如果沒有對過度擬合進行校正,那麼如果使用更多特徵,訓練集精度和測試集精度之間的差距將會增大。

第三個方面是人工智慧方法可以幫助人們對不熟悉的產品的進行組合式的偏好預測(例如通過推薦系統),並且還可以通過提取比以往更多的剩餘(通過更好的價格歧視類型)來傷害消費者。

人工智慧與行為經濟學

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 顧建文教授醫學科普 的精彩文章:

「血庫」到「血療」,輸血醫學的角色在轉換
主動降噪耳機是怎麼降噪的?

TAG:顧建文教授醫學科普 |