當前位置:
首頁 > 最新 > 無師自通的遊戲大師,人工智慧的輝煌與困境

無師自通的遊戲大師,人工智慧的輝煌與困境

海歸學者發起的公益學術平台

分享信息,整合資源

交流學術,偶爾風月

就在最近,人工智慧系統再次取得光輝成就。在一款電子遊戲中,AI玩家從一無所知到媲美世界一流的人類玩家,僅僅只花了數小時。雖然人工智慧風頭正勁,在遊戲世界所向披靡,但應該意識到——遊戲是簡化的真實世界,若是缺乏對社會的認知、對人文的思考,將人工智慧在遊戲中習得的知識與經驗,直接應用於實際生活,可能會與預期的結果相差甚遠。

1997年,為了在國際象棋比賽中擊敗Garry Kasparov,IBM的工程師充分參考了數百年來人類的象棋智慧。 2016年,Google旗下的DeepMind研發了AlphaGo,它在圍棋比賽中以壓倒性優勢戰勝棋手李世石,而這次勝利的基礎在於,它仔細研究了近萬名人類選手的棋局。

但是,這些都正在成為過去式。人工智慧的研究者們正在整理一個新的思路,這個思路可以形象地稱之為,「無師自通。」

團隊接著研發了AlphaGo家族中的又一位宗師級玩家,並直接取名叫AlphaZero。在預印本網站arxiv.org12月發布的一篇論文中,DeepMind的研究人員透露,經過訓練的AlphaZero表現比AlphaGo Zero更加優秀——換一個更拗口的說法,AlphaZero完虐它的前代AlphaGo Zero,而AlphaGo Zero完虐它的前代AlphaGo,而最菜的AlphaGo則已打遍人類無敵手。當AlphaZero學會國際象棋和日本將棋的規則時,它很快就制定出了獲取勝利的頂級演算法。專家們為這種兇狠,陌生的進攻風格而感到驚嘆。丹麥棋聖Peter Heine Nielsen接受BBC記者採訪時說:「我以前經常想像,如果一個先進智慧的外來物種降落在地球上,並向我們展示他們的高超棋藝,那將會是怎樣的一幅畫面,我想我現在明白了。」

在過去的一年裡,還有其他的自主學習人工智慧嶄露頭角,例如在無限制撲克和Dota 2這兩款遊戲中。後者是一款非常受歡迎的多人在線對戰遊戲,玩家在其中操控神奇的英雄角色為控制世界而戰。

當然,投資研發這一系列人工智慧的公司,他們的雄心壯志絕不僅僅是主宰遊戲比賽。像DeepMind這樣的研究團隊,他們企圖將類似的方法應用於室溫超導、藥物結構等現實問題中來。顯而易見,許多從業人員希望最終能夠建立起普適的人工智慧,讓它們可以像人一樣思索那些混沌而迷人的目標,並且具有多種能力來攻克不同類型的難題。

然而,儘管在這些系統上進行了大量投資,但這些技術未來可以走多遠,目前尚不清楚。華盛頓大學計算機科學家Pedro Domingos說:「我不確定AlphaZero的理念是否能夠如願以償地得到推廣,遊戲里的成功僅僅只是一個特例。」

信息不完全的現實世界

許多遊戲,包括國際象棋和圍棋,它們的共同特點是,玩家可以看到雙方的所有棋子。每個玩家都擁有關於遊戲狀態的所有信息,無論遊戲如何複雜,你只需要從目前的情況進行思考然後下判斷即可。然而,大量的實際情況並非如此理想。想像一下,如果要求人工智慧診斷疾病或進行商業談判,情形就完全不同了。卡內基梅隆大學計算機科學博士生Noam Brown說:「大多數現實世界的戰略互動都涉及隱藏信息,我覺得大多數的人工智慧研發都忽視了這一點。」

德州撲克,這正是Brown擅長的,這項遊戲為人工智慧提供了一個不同的挑戰——看不到對手的牌。但是,通過與自己的對抗學習,人工智慧在德州撲克上的水平已經超過了人類。 2017年1月,Brown及其顧問Tuomas Sandholm發起了Libratus計劃。他們用人工智慧在德州撲克比賽中戰勝了四名職業撲克玩家,為期20天的比賽結束後,人工智慧的比分領先人類競爭者170萬。

還有一款難度極高的遊戲,叫做星際爭霸2,也包含了不完全信息的博弈。這同樣是一款十分火爆的多人在線對戰遊戲。玩家需要選擇隊伍,然後在科幻世界建立軍隊並發動戰爭。但是,遊戲場景都籠罩在戰爭迷霧中,玩家只能看到他們駐有士兵或設有建築物的地方,這就讓整個遊戲過程充滿了不確定性。每個玩家,無論對電腦還是對人而言,每下達一個指令,都必須考慮到隨之可能引發的一大堆狀況。這是人工智慧至今仍未稱霸的一個遊戲。就目前而言,想要在這個舞台上與人類選手爭鋒,對於人工智慧來說還不太現實,但這已經成為了它打算攻克的目標。 2017年8月,DeepMind與星際爭霸2的製作公司暴雪展開合作,發布了可以幫助推進人工智慧研究的開放遊戲工具。

儘管還存在諸多挑戰,星際爭霸2還是有一個簡單明了的勝利目標:消滅你的敵人。這在國際象棋、圍棋、撲克、Dota 2乃至其他更多的遊戲中都是共通的。既是遊戲,總有輸贏。從演算法的角度來看,這些問題都會歸結為一個「目標函數」,一個需要追求的目標。當AlphaZero下棋時,對它來說,問題其實極其簡單:失敗比分減一,勝利比分加一,平局比分則為0,AlphaZero的目標就是將這個比分最大化。而在撲克遊戲中的人工智慧亦是如此,它只需要想著贏得更多的資金即可。

但真實情況卻往往更加複雜。例如,一輛自動駕駛車輛則需要更複雜精細的目標功能, 例如:儘快將乘客送到正確地點,並且遵守所有法律及交通準則,甚至在意外或危險情況下,還要要求它精準地衡量取捨人身價值。Domingos說:「能否制定出精妙的目標函數,這是鑒定AI研究員優秀與否的標準。「微軟曾在2016年3月上線過一款Twitter聊天機器人,取名Tay。它的目標是提升用戶黏度,它也的確做到了。

Domingos介紹道:「然而,Tay在它的工作中有了一個頗為不幸的發現——提升用戶黏度的最佳方式是鼓吹種族侮辱言論。」於是,不到一天它就被下架了。

最大的敵人是自己

但是,陽光底下沒有新鮮事。現今主流遊戲AI 採用的學習方法,其依賴的技術策略早在幾十年前就已制定。多倫多大學的計算機科學家David Duvenaud說:「這實際上是過去技術爆炸的一次餘波,只是現在投入了更多的預算而已。」這些策略主要築基於強化學習技術,這種技術獨立自主、對外界依賴性較低。工程師不再按部就班地對演算法進行繁瑣的調試,相反,他們讓人工智慧自己獨立地探索環境內部,並且通過高頻次的試驗來接近目標。早在2013年,AlphaGo及子代系列還未發布,DeepMind團隊就已經取得了令人矚目的成就——他們依靠強化學習技術製作了一款可以同時玩7個遊戲的AI,而其中的3個遊戲都達到了專家水平。

隨著技術的發展, 同年2月DeepMind發布了IMPALA。這個AI系統能夠學習57個遊戲,還包括由DeepMind搭建的30個額外關卡。這類遊戲屬於冒險解迷遊戲,玩家需要在不同的場景中巡遊,解鎖密室的門、收割蘑菇。他們發現,IMPALA似乎可以將該遊戲的知識調整應用在另一個遊戲上。這意味著,在這一款遊戲上花費的時間也將有助於增進它在其他遊戲里的水平。

但更強大的強化學習技術允許採用一種更加特殊的方法。在這種方法里,學習探索可以通過「左右互搏」的形式展開——人工智慧通過不斷地與自己切磋對抗來學習優勢戰略。這個創想可追溯到幾十年前。在二十世紀五十年代,IBM工程師Arthur Samuel研發了一個跳棋遊戲程序,該程序分出α方和β方,然後通過觀察他們的對抗比試來提升棋藝。而在二十世紀九十年代,同樣是來自IBM的一位工程師GeraldTesauro,他研發了一個關於西洋雙陸棋的程序,也是設計演算法與自身對抗。這個西洋雙陸棋程序達到了人類的專家水平,為這一技術奠定了基礎。

在遊戲中,自我對抗的AI系統面對著與自己完全對等的敵人。這意味著,每一個決策的變化都會產生極其不同的後果,並且得到即時的反饋。 OpenAI研究總監Ilya Sutskever說:「每當你學到一點新東西,或是發現一些新的致勝竅門,你的對手也會同時知曉同樣的知識,並會反過來對付你。」在自我對抗的學習里,Sutskever這麼評論道: 「永遠不存在休息一說,只有不斷的完善。」 這種自我對抗的方法已經投入運用,並且取得了一些成績。2017年8月,OpenAI發布了一款Dota 2的遊戲AI,它控制遊戲角色「死靈法師」 在一對一的戰鬥中擊敗了人類世界冠軍。在OpenAI的另一個項目中,AI被用來模擬相撲比賽中的互相搏擊,以期讓它學會拆招與佯攻。

GIF

但自我對抗這個古老的想法,僅僅只是現今主流人工智慧技術的一部分。事實上,它同樣需要某種方式將對抗過程中獲得的經驗轉化為更深入的理解。像國際象棋,圍棋以及諸如Dota 2一類的電子遊戲,它們的變化比宇宙中的原子排列還要多。想要遍歷每一種情況,並且將其統統記錄在表格文件里,以便再次遇到相同情況時進行查閱,這種想法是不切實際的。正因為這樣,要是沒有合適的方式總結概括經驗,即便把所有的時間都消耗在浩渺無垠的虛擬電子舞台上,亦是徒勞。

加州大學伯克利分校計算機科學家Pieter Abbeel說:「你需要概括現象,捕捉本質。」 IBM的Deep Blue通過搭建內置的國際象棋公式實現了這一點。這個程序有能力對其以前從未見過的棋局做出估測判斷,並採取相應策略來接近勝利。但近年的一項新技術已經完全超越了這個公式。Abbeel說:「好像突然之間,『深度神經網路』就解決了一切。」

深度神經網路在過去幾年十分火爆,它們是一種像煎餅一樣層層堆疊的「人造神經元」結構。當某一層中的神經元被刺激時,它們會將信號傳遞到下一層,下一層則繼續往下傳遞,以此類推。通過調整層與層之間的連接方式,這些網路結構在將輸入變換為輸出的方面能夠達到神奇效果。例如:給出一個英語短語,它們可以自行訓練,將其翻譯成土耳其語;提供一些來自動物收容所的照片,它們可以辨認出哪些圖片里包含有貓。但通常情況下,這些技能的培養,需要事先提供大量的範例供其練習。因此,我們就找到了自我對抗和深度神經網路得以完美結合的原因——自我對抗進行的一系列實踐活動,理論上為深度神經網路提供了無限的學習範例,而深層神經網路則為自我對抗提供了概括升華經驗的方式。

但還有另一個問題:自我對抗需要現實環境來完成模擬訓練。「前述所有的遊戲、成果,都是在可以完美模擬的環境中進行的。」伯克利博士生Chelsea Finn說。目前他正致力於研究控制機器人手臂的AI系統。舉個例子:自動駕駛汽車在遭遇惡劣天氣或騎自行車的人時,應付起來十分困難,因為它難以處理真實情況中出現的各種奇怪可能——比如碰巧撞向汽車攝像頭的小鳥。 Finn說,對機器人手臂而言,雖然提供了物理學配置使其能夠完成最基本的學習操作,但由於缺乏對錶面觸摸等相關細節的捕捉,它不能完成諸如擰瓶蓋或者執行外科手術等任務。而這些任務需要的正是來自於真實世界的經驗。

對於不能模擬的問題,自我對抗就英雄無用武之地了。蒙特利爾大學的Yoshua Bengio是深度學習的先驅者之一,他在一封電子郵件中寫道:「學習使用的估計模型與現實之間依然存在著巨大差異,尤其是現實情況很複雜的時候。」因此,人工智慧的進步之途依然漫長。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 知社學術圈 的精彩文章:

中國團隊設計出高超音速飛機——北京到紐約僅需2小時
遺傳學家許田:當生物醫學遇到AI

TAG:知社學術圈 |