當前位置:
首頁 > 知識 > AlphaGo遙指通用AI:一個演算法攻陷三大棋類遊戲,成為棋類遊戲終結者

AlphaGo遙指通用AI:一個演算法攻陷三大棋類遊戲,成為棋類遊戲終結者

圖片來源:science

撰文 | 李曉慧

AlphaGo之父、Deepmind創始人兼CEO 哈薩比斯(Demis Hassabis)曾經提出一個遠期目標:打造通用的人工智慧,它將是一套靈活的自適應演算法,能夠從頭自學掌握各種任務。在去年年底的NIPS大會上,哈薩比斯首次公開解讀了AlphaZero:在AplhaGo Zero的基礎上,AlphaZero又學會了國際象棋和日本將棋,分別擊敗了當時最好的國際象棋引擎Stockfish和日本將棋程序Shogi,以及此前創下佳績的圍棋程序AphaGo Zero,AlphaZero儼然成為了一個更通用的人工智慧演算法。

不過人們很好奇,為什麼這樣一個看似重大的突破,卻這樣草草的發布,不僅沒有像此前一樣首先發表於頂級科學期刊,也沒有投會議論文,只是在預印本網站發布了論文。

有人稱讚AlphaZero是又一次突破,但也有人對其科學有效性提出了質疑。比如,精通國際象棋的AI專家Jose Camacho Collados 撰文指出,AlphaZero的代碼沒有開源,從科學角度看,其方法無法被其它專家驗證。

時隔一年,今天,AlphaZero的論文登上科學期刊Science的封面,用嚴格的同行評審證明了新演算法取得的突破。

本周Science封面

更通用的遊戲系統

從計算機時代的早期開始,遊戲就被認為是人工智慧研究的重要載體。遊戲簡化了現實世界中的問題,同時保留了足夠的複雜性挑戰人類與機器。

曾經,大多數棋類遊戲的程序是人工設計的。利用先進的搜索方法、複雜的評估功能以及各種技巧,很多程序已經能夠超越最優秀的人類玩家。

早在1997年,IBM的計算機「深藍」擊敗了俄籍世界國際象棋冠軍,近20年後,2015年10月,AlphaGo在難度超高的圍棋比賽中,終於在無需讓子的情況下,歷史性地擊敗了圍棋職業棋手,登上科學期刊Nature。此後,AlphaGo的發展進入快車道,2017年10月,AlphaGo的升級版AlphaGo Zero登上Nature,這是一個沒有用到人類數據的版本,它通過與自己對戰,超越了世界上最強的棋手與程序。

2017年12月,Alpha Zero發布,它使用與AlphaGo Zero類似的方法,但是更加通用,不僅自學了圍棋,還學會了國際象棋和日本將棋,成為掌握了三種世界上最難棋類遊戲的人工智慧,彼時發布在網上預印本系統arXiv上。經過了嚴格的評審過程後,2018年12月7日的Science雜誌作為封面內容報道了AlphaZero。

AlphaZero依然使用AlphaGo Zero的框架:深度強化學習加蒙特卡洛樹搜索。利用5064個TPU的強大計算資源,在24小時內,自我對弈,總體擊敗了在單項領域中的最強程序。

在學習每個棋種的時候,系統在自我對弈的勝負中學習,以調整神經網路的參數,使其更可能在未來選擇有利的動作。訓練量大小取決於比賽的風格和複雜程度,對於AlphaZero來說,國際象棋的訓練大約需要9小時,日本將棋的訓練需要12天,圍棋則需要13天。

在國際象棋比賽中,AlphaZero在4小時後第一次擊敗了國際象棋最強程序Stockfish;在日本將棋比賽中,2小時後擊敗了日本將棋的最強程序Elmo;在圍棋比賽中,30小時後首次戰勝了與李世石對戰的AlphaGo v18。

針對AlphaZero這一成果,曾經參與構建了IBM「深藍」系統的IBM研究院研究員Murray Campbell發表了評論文章,他指出,相比此前的AlphaGo和AlphaGo Zero,AlphaZero更加具有通用性,僅根據規則,通過自我對弈就能在較短的時間內,在多種棋類達到頂級水平。

同時,他認為AlphaZero算是棋類AI的終結者,未來研究人員需要挑戰的是新一代遊戲。

質疑與褒獎

在AlphaZero最早出現的時候,褒獎與質疑同時出現。有人質疑AlphaZero在與國際象棋和日本將棋的對戰中,處於不公平的比賽環境。因為國際象棋程序Stockfish和日本將棋程序Elmo都無法利用AlphaZero設計使用的TPU硬體。

Deepmind對比賽環境進行了解釋,在其今日發表的博客中,寫道:每一個程序都在為其設計的硬體上運行,Stockfish和Elmo使用44個CPU,而AlphaZero和AlphaGo Zero使用了4個一代TPU和44個CPU。

棋手們對AlphaZero多有讚揚,前國際象棋世界冠軍Garry Kasparov稱:「飛機不會像鳥一樣拍打翅膀,機器也不像人類一樣下棋……這些自學成才的專家機器不僅僅有出色的表現,而且我們可以從它們所產生的知識中學到更多。」

AlphaZero能夠同時精通三種棋類(圖片來源:Science)

被認為是日本將棋最優秀棋士的Yoshiharu Habu認為:「AlphaZero的很多下法違背了人類眼中的將棋理論,比如它會將國王移到棋盤中心,這看上去會使AlphaZero處於危險的地位。但令人難以置信的是,它仍然能夠掌控整個棋局,其獨特的遊戲風格讓我們看到了新的可能性。」

終結棋類AI,阿爾法的下一步

就像Murray Campbell所說,AlphaZero似乎代表著棋類AI走到了盡頭,遊戲類AI的下一步需要挑戰新的類型。他在文章中表示,國際象棋、日本將棋以及圍棋都非常複雜,但同時它們相比其它種類的遊戲更容易被計算機解決。例如,棋類遊戲中只有兩名棋手,具有確定性、靜態、離散的特點,這些特點讓蒙特卡羅樹搜索有了用武之地。

多人視頻遊戲,如星際爭霸、Dota2已經被提議作為下一個遊戲挑戰對象,它們部分可見、是不完全信息的博弈、具有非常大的搜索空間和大量的動作集。

不過哈薩比斯的目光絕不僅放在遊戲這一領域,就在前幾日,Alpha系列將眼光放在了科學研究領域,Deepmind的最新人工智慧程序AlphaFold進入生命科學領域,首次參加了全球蛋白質結構預測競賽,一出手就擊敗了其它所有對手,在98個參賽隊伍中排名第一,在預測的43種蛋白質結構中,有25種最為準確。從遊戲到解決科學問題,哈薩比斯認為,這對於Deepmind來說,是一個非常關鍵的時刻,這是其在人力和資源方面的第一個重大投資,也是非常重要的、現實世界的科學問題。

哈薩比斯曾經在接受《衛報》採訪時說出了對未來的展望,他認為超級智能的機器將與人類專家合作解決任何問題,包括癌症、氣候變化、能源、基因組學、宏觀經濟學、金融系統、物理學。他說:「我們需要掌握的許多系統都變得愈加複雜,信息超載使得最聰明的人也很難再一生中掌握它。」他認為未來通用人工智慧將有所幫助,雖然也許這個時間還需要幾十年。

原始論文:

http://science.sciencemag.org/content/362/6419/1140

《環球科學》2019全年訂閱開啟


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 環球科學 的精彩文章:

抗艾滋病30年:從致命絕症到可控的慢性疾病
本周不能錯過的13篇論文:好伴侶讓你活更久、吃橘子皮預防腫瘤?、越怕苦越愛喝咖啡、新一代蛋白質測序方法 等

TAG:環球科學 |