AlphaGo遙指通用AI：一個演算法攻陷三大棋類遊戲，成為棋類遊戲終結者

知識 12-07

圖片來源：science

撰文 | 李曉慧

AlphaGo之父、Deepmind創始人兼CEO 哈薩比斯（Demis Hassabis）曾經提出一個遠期目標：打造通用的人工智慧，它將是一套靈活的自適應演算法，能夠從頭自學掌握各種任務。在去年年底的NIPS大會上，哈薩比斯首次公開解讀了AlphaZero：在AplhaGo Zero的基礎上，AlphaZero又學會了國際象棋和日本將棋，分別擊敗了當時最好的國際象棋引擎Stockfish和日本將棋程序Shogi，以及此前創下佳績的圍棋程序AphaGo Zero，AlphaZero儼然成為了一個更通用的人工智慧演算法。

不過人們很好奇，為什麼這樣一個看似重大的突破，卻這樣草草的發布，不僅沒有像此前一樣首先發表於頂級科學期刊，也沒有投會議論文，只是在預印本網站發布了論文。

有人稱讚AlphaZero是又一次突破，但也有人對其科學有效性提出了質疑。比如，精通國際象棋的AI專家Jose Camacho Collados 撰文指出，AlphaZero的代碼沒有開源，從科學角度看，其方法無法被其它專家驗證。

時隔一年，今天，AlphaZero的論文登上科學期刊Science的封面，用嚴格的同行評審證明了新演算法取得的突破。

本周Science封面

更通用的遊戲系統

從計算機時代的早期開始，遊戲就被認為是人工智慧研究的重要載體。遊戲簡化了現實世界中的問題，同時保留了足夠的複雜性挑戰人類與機器。

曾經，大多數棋類遊戲的程序是人工設計的。利用先進的搜索方法、複雜的評估功能以及各種技巧，很多程序已經能夠超越最優秀的人類玩家。

早在1997年，IBM的計算機「深藍」擊敗了俄籍世界國際象棋冠軍，近20年後，2015年10月，AlphaGo在難度超高的圍棋比賽中，終於在無需讓子的情況下，歷史性地擊敗了圍棋職業棋手，登上科學期刊Nature。此後，AlphaGo的發展進入快車道，2017年10月，AlphaGo的升級版AlphaGo Zero登上Nature，這是一個沒有用到人類數據的版本，它通過與自己對戰，超越了世界上最強的棋手與程序。

2017年12月，Alpha Zero發布，它使用與AlphaGo Zero類似的方法，但是更加通用，不僅自學了圍棋，還學會了國際象棋和日本將棋，成為掌握了三種世界上最難棋類遊戲的人工智慧，彼時發布在網上預印本系統arXiv上。經過了嚴格的評審過程後，2018年12月7日的Science雜誌作為封面內容報道了AlphaZero。

AlphaZero依然使用AlphaGo Zero的框架：深度強化學習加蒙特卡洛樹搜索。利用5064個TPU的強大計算資源，在24小時內，自我對弈，總體擊敗了在單項領域中的最強程序。

在學習每個棋種的時候，系統在自我對弈的勝負中學習，以調整神經網路的參數，使其更可能在未來選擇有利的動作。訓練量大小取決於比賽的風格和複雜程度，對於AlphaZero來說，國際象棋的訓練大約需要9小時，日本將棋的訓練需要12天，圍棋則需要13天。

在國際象棋比賽中，AlphaZero在4小時後第一次擊敗了國際象棋最強程序Stockfish；在日本將棋比賽中，2小時後擊敗了日本將棋的最強程序Elmo；在圍棋比賽中，30小時後首次戰勝了與李世石對戰的AlphaGo v18。

針對AlphaZero這一成果，曾經參與構建了IBM「深藍」系統的IBM研究院研究員Murray Campbell發表了評論文章，他指出，相比此前的AlphaGo和AlphaGo Zero，AlphaZero更加具有通用性，僅根據規則，通過自我對弈就能在較短的時間內，在多種棋類達到頂級水平。

同時，他認為AlphaZero算是棋類AI的終結者，未來研究人員需要挑戰的是新一代遊戲。

質疑與褒獎

在AlphaZero最早出現的時候，褒獎與質疑同時出現。有人質疑AlphaZero在與國際象棋和日本將棋的對戰中，處於不公平的比賽環境。因為國際象棋程序Stockfish和日本將棋程序Elmo都無法利用AlphaZero設計使用的TPU硬體。

Deepmind對比賽環境進行了解釋，在其今日發表的博客中，寫道：每一個程序都在為其設計的硬體上運行，Stockfish和Elmo使用44個CPU，而AlphaZero和AlphaGo Zero使用了4個一代TPU和44個CPU。

棋手們對AlphaZero多有讚揚，前國際象棋世界冠軍Garry Kasparov稱：「飛機不會像鳥一樣拍打翅膀，機器也不像人類一樣下棋……這些自學成才的專家機器不僅僅有出色的表現，而且我們可以從它們所產生的知識中學到更多。」

AlphaZero能夠同時精通三種棋類（圖片來源：Science）

被認為是日本將棋最優秀棋士的Yoshiharu Habu認為：「AlphaZero的很多下法違背了人類眼中的將棋理論，比如它會將國王移到棋盤中心，這看上去會使AlphaZero處於危險的地位。但令人難以置信的是，它仍然能夠掌控整個棋局，其獨特的遊戲風格讓我們看到了新的可能性。」

終結棋類AI，阿爾法的下一步

就像Murray Campbell所說，AlphaZero似乎代表著棋類AI走到了盡頭，遊戲類AI的下一步需要挑戰新的類型。他在文章中表示，國際象棋、日本將棋以及圍棋都非常複雜，但同時它們相比其它種類的遊戲更容易被計算機解決。例如，棋類遊戲中只有兩名棋手，具有確定性、靜態、離散的特點，這些特點讓蒙特卡羅樹搜索有了用武之地。

多人視頻遊戲，如星際爭霸、Dota2已經被提議作為下一個遊戲挑戰對象，它們部分可見、是不完全信息的博弈、具有非常大的搜索空間和大量的動作集。

不過哈薩比斯的目光絕不僅放在遊戲這一領域，就在前幾日，Alpha系列將眼光放在了科學研究領域，Deepmind的最新人工智慧程序AlphaFold進入生命科學領域，首次參加了全球蛋白質結構預測競賽，一出手就擊敗了其它所有對手，在98個參賽隊伍中排名第一，在預測的43種蛋白質結構中，有25種最為準確。從遊戲到解決科學問題，哈薩比斯認為，這對於Deepmind來說，是一個非常關鍵的時刻，這是其在人力和資源方面的第一個重大投資，也是非常重要的、現實世界的科學問題。

哈薩比斯曾經在接受《衛報》採訪時說出了對未來的展望，他認為超級智能的機器將與人類專家合作解決任何問題，包括癌症、氣候變化、能源、基因組學、宏觀經濟學、金融系統、物理學。他說：「我們需要掌握的許多系統都變得愈加複雜，信息超載使得最聰明的人也很難再一生中掌握它。」他認為未來通用人工智慧將有所幫助，雖然也許這個時間還需要幾十年。

原始論文：

http://science.sciencemag.org/content/362/6419/1140

《環球科學》2019全年訂閱開啟

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 環球科學 的精彩文章:

※抗艾滋病30年：從致命絕症到可控的慢性疾病
※本周不能錯過的13篇論文：好伴侶讓你活更久、吃橘子皮預防腫瘤？、越怕苦越愛喝咖啡、新一代蛋白質測序方法等

TAG:環球科學 |