「AI比人更擅長妥協」Nature子刊全新機器學習演算法探討人機合作

新聞 01-21

【新智元導讀】BYU計算機科學教授Jacob Crandall和Michael Goodrich以及麻省理工學院和其他大學的同事創造了一種新演算法，這個演算法可以和人、其他演算法一起，在各種雙人重複的隨機博弈中，達到人類合作的水平。

「AI比人更擅長妥協」Nature子刊全新機器學習演算法探討人機合作

電腦可以輕鬆在國際象棋中取勝，並能夠很快在其他零和遊戲中成為人們的對手。因為教它們競爭很容易，但教它們合作和妥協就不一定了。

BYU計算機科學教授Jacob Crandall和Michael Goodrich以及麻省理工學院和其他大學的同事創造了一種新演算法，讓機器的妥協和合作不僅變成可能，而且有時甚至比人類更有效。

研究人員使用S#演算法對機器進行編程，並通過各種雙人遊戲運行它們，以了解它們在某些關係中的合作程度。該團隊測試了機器之間、人機之間和人與人之間的相互作用。在大多數情況下，使用S＃編程的機器在尋找讓雙方都受益的妥協方面勝過了人類。

Crandall說：「最終的目標是我們了解與人合作背後的數學，人工智慧需要用什麼來培養社交技能。」他的研究是關注人工智慧需要能夠對我們做出回應並闡明它在做什麼，它必須能夠與其他人進行互動。

這項研究最近發表在Nature Communications上，以下是對研究的要點介紹。

研究概述：開發能夠與人合作的機器學習演算法

自從圖靈提出人工智慧開始，技術進步往往是通過在零和博弈（例如，象棋、撲克或圍棋）中，機器擊敗人類的能力來衡量。較少有人關注人機合作這一有利且重要的情景，例如人類與機器的利益偏好既不完全一致，但也不完全衝突的情景。要進行合作，需要的不是純粹的計算力，而是由直覺、文化習俗、情緒、信號等等。

在這裡，我們開發了一種將最先進的強化學習演算法與信號傳輸機制相結合的演算法。我們證明，這個演算法可以和人、其他演算法一起，在各種雙人重複的隨機博弈中，達到人類合作的水平。這些結果表明，通過使用一種重要但十分簡單的演算法機制，一般的人機合作是可以實現的。

演算法與人合作的三大難點：通用性、靈活性和短時間內學習

開發出能夠與人和其他機器長期合作的演算法十分重要，但是難度也很高。一個成功的演算法需要具備以下幾個屬性。

首先，不能僅針對特定領域，這種演算法必須在各種情況下具有優越的性能（通用性）。

其次，這種演算法必須學會在事先不了解人的行為的情況下，學會與人和機器建立有效的關係（靈活性）。而要做到這一點，它必須能夠阻止其合作夥伴出現的潛在剝削行為，並在有利的時候決定如何從可能不願合作的（可能不信任的）合作夥伴那裡尋求合作。

第三，當與人交互時，演算法必須在非常短的時間內學習有效的行為，你可以考慮自動駕駛的場景。這也帶來了許多技術上的挑戰，包括需要處理合作夥伴也在學習的情況，以及快速在重複遊戲固有的大型戰略空間中，對可能無限個均衡解決方案進行推理。

這些挑戰加起來，往往導致人工智慧演算法不能與人或其他機器合作，儘管我們都知道合作會對演算法的長期收益有利。

由於人在合作時通常靠的是「談話」，研究人員便考慮也從這個角度入手，讓機器能夠在玩遊戲的時候與人溝通。

他們事先確定好了一套語句（speech act），讓機器在遊戲的不同階段，從這個資料庫中選題合適的語句發送給人類對手，與對手建立關係，從而影響對手的行為。

他們的機器學習演算法S++，內部有一個演算法動態策略的高級表示，而其動態策略能用底層專家的動態來描述。由於每個專家都能編碼一個高層概念，S++就能產生描述其意向性的信號（也即遊戲中的閑聊）。S++還將把合作夥伴的言語行為與其內部的專家的概念相比較，從而改善對專家的選擇機制。通過這種方式，研究人員就增強了S++的通信框架，讓系統能夠在遊戲過程中生成閑聊，並且回應對手的閑聊。

新生成的演算法S#架構示意圖見下：

為了確定S＃與人建立合作關係的能力，研究人員進行了一系列用戶研究，調查了220個參與者，共計進行了472次重複遊戲。

結果發現，S#確實能夠與人合作。

「AI比人更擅長妥協」Nature子刊全新機器學習演算法探討人機合作

該總結給出了每個演算法相對於我們考慮的每個遊戲長度的六個性能度量中的每一個的相對等級。較低的等級表示較高的性能。對於每個度量標準，演算法分別排在100輪，1000輪和50000輪比賽中。例如，三元組3，2,1表示演算法分別在100,1000和50,000輪遊戲中分別排名第三，第二和第一。

研究意義

這項工作主要有三方面的貢獻。首先，對現有的重複遊戲演算法進行了深入的比較。其次，開發並分析了一種學習演算法，該演算法將最先進的機器學習演算法與特定的機制相結合，這些機制能夠讓演算法在特定階段產生響應，而這些響應能夠被人類解讀，有助於促使人類產生合作意願。

最後，通過大量的模擬和用戶調查，研究人員發現，這種學習演算法學習能夠與人類和其他機器在各種RSG中建立和維持有效的關係，這些關係與人類合作的水平相當，這是現有演算法所不能達到的。

論文地址：

https://www.nature.com/articles/s41467-017-02597-8

新智元AI技術+產業社群招募中，歡迎對AI技術+產業落地感興趣的同學，加小助手微信號: aiera2015_1 入群；通過審核後我們將邀請進群，加入社群後務必修改群備註（姓名-公司-職位；專業群審核較嚴，敬請諒解）。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

TAG:新智元 |