谷歌論文詳解AlphaZero：為國際象棋、將棋與圍棋帶來新曙光

新聞 12-10

2017年年末，Google AI 子公司 DeepMind 的研究人員宣布他們的 AI 程序進化到了 AlphaZero，利用自對弈強化學習，在短時間內打敗了頂尖的國際象棋和將棋（日本版國際象棋）程序，也就是說，在只知道基本規則的情況下，AlphaZero 靠自對弈精通了圍棋、國際象棋和將棋。上周末，DeepMind 在《科學（Science）》期刊上發表了一篇通用強化學習演算法論文（預印本PDF），得到了評審編輯的初步確認與更新。論文描述了 AlphaZero 如何快速學習三種棋類遊戲成為史上最強的棋手，儘管它僅了解遊戲基本規則而沒有其它該領域的知識、且無需任何內置指導。

「I can』t disguise my satisfaction that it plays with a very dynamic style, much like my own!（它在對弈中表現出的活力與能量讓我感到莫名興奮，在這一點我們是共通的！）"——加里·卡斯帕羅夫（Garry Kasparov），前國際象棋世界冠軍

這種從零開始學習棋類技藝的能力不會受到人類思維方式的束縛，因此催生出一種獨特、不同於傳統且極具創造力及動態思考風格的對弈方法。國際象棋大師 Matthew Sadler 與女子國際象棋大師 Natasha Regan 在即將於明年1月出版的《Game Changer》一書中對 AlphaZero 的數千盤對弈進行了分析，發現其棋路完全不同於任何以往國際象棋引擎。Matthew表示，「它的出現，就像是帶來了古代象棋大師的秘傳一般。」

包括世界計算機國際象棋冠軍 Stockfish 與 IBM 公司打造的「深藍」在內的各種傳統國際象棋引擎，依賴於大量由頂尖人類棋手提供的規則與啟發式方法。這些信息用於解釋對弈中的每一種可能性。將棋也是如此，因此相關程序僅適用於一種棋類遊戲，只是採用彼此相近的搜索引擎與演算法。

AlphaZero的方法完全不同，它利用一套深層神經網路與大量通用型演算法取代了手工編寫的規則。更重要的是，除了基本規則之外，這些演算法中沒有預設任何固有方法。

谷歌論文詳解AlphaZero：為國際象棋、將棋與圍棋帶來新曙光

圖：在國際象棋中，AlphaZero用4小時成功擊敗Stockfish; 擊敗將棋世界冠軍Elmo只花了2個小時; 而在圍棋方面，AlphaZero用30個小時打敗了曾經將圍棋世界冠軍李世石斬於馬下的AlphaGo。（備註：每個訓練步驟代表著4096個盤面位置）

在學習棋藝的過程中，這套未訓練神經網路利用強化學習這一實驗與試錯流程進行數百萬輪自我對弈。最初，其基本就是隨意亂下，但隨著時間推移，系統會從勝利、失敗與平局當中汲取經驗，調整神經網路參數，確保自身在未來的選擇中做出更加有利的判斷。

「Some of its moves, such as moving the King to the centre of the board, go against shogi theory and - from a human perspective - seem to put AlphaZero in a perilous position. But incredibly it remains in control of the board. Its unique playing style shows us that there are new possibilities for the game.（它選擇的某些棋步，例如將王移動至棋盤中心，與原有將棋理論明顯衝突; 而且從人類的角度看，這可能導致其陷入不利局面。但難以置信的是，AlphaZero仍然牢牢把握著主動權，其獨特的棋路讓我們意識到將棋中還隱藏著新的可能性。）"——Yoshiharu Habu，職業九段，唯一一位斬獲七大將棋賽桂冠的大師

訓練完成之後，這套網路將指導蒙特卡洛樹搜索（Monte-Carlo Tree Search，簡稱MCTS）演算法選擇當前盤面中最有利的走法。在每一步棋中，AlphaZero進行的位置搜索量只相當於傳統棋類引擎的極小一部分。以國際象棋為例，AlphaZero每秒只需要搜索6萬個位置，Stockfish則需要搜索大約6000萬個位置。

谷歌論文詳解AlphaZero：為國際象棋、將棋與圍棋帶來新曙光

在訓練完成之後，這套系統開始與最強大的傳統國際象棋（Stockfish）與將其（Elmo）引擎對抗，甚至與其前代版本AlphaGo來了一場「同室操戈」。

各程序運行在專門設計的硬體上。Stockfish與Elmo需要44個CPU核心（與TCEC世界大賽時的硬體配置相同），AlphaZero與AlphaGo Zero則採用4個第一代TPU與44個CPU核心。第一代TPU的推理速度與英偉達Titan V GPU等商用硬體基本相當，不過二者架構差別很大，難以做出直接比較。
所有比賽時長均為3小時，每步棋額外增加15秒。

最終，AlphaZero在全部比拼中都以大比分勝出：

國際象棋中，AlphaZero打敗了206年第9屆TCEC世界錦標賽冠軍Stockfish——AlphaZero勝出155場，且幾率僅為千分之六。為了證明AlphaZero的發揮穩定性，我們還為雙方準備了人類常規開盤後的多種殘局。在各盤殘局中，AlphaZero仍能擊敗Stockfish。另外，我們也讓AlphaZero面對了2016年實際比賽中的真實開局，而其對手則換成近期剛剛進行升級的Stockfish版本以及另一個擁有強大開局走法儲備的變體版本。雖然壓力很大，但AlphaZero仍然獲得了全勝戰績。
將棋比賽中，AlphaZero擊敗了2017年CSA世界錦標賽冠軍Elmo，勝率為91.2%。
圍棋方面，AlphaZero擊敗了AlphaGo Zero，勝率為61%。

谷歌論文詳解AlphaZero：為國際象棋、將棋與圍棋帶來新曙光

除了勝負之外，更重要的是AlphaZero在對弈中展現出的風格。仍然以國際象棋為例，AlphaZero在自主學習與訓練中就自行發現了不少常見的傳統技巧，例如開口、保王以及列兵等。但由於完全不受傳統思維的束縛，AlphaZero也發展出了自己的直覺與策略。其提出的一系列極為新穎的想法，大大擴展了幾個世紀以來人類對於國際象棋策略的理解。

「Chess has been used as a Rosetta Stone of both human and machine cognition for over a century. AlphaZero renews the remarkable connection between an ancient board game and cutting-edge science by doing something extraordinary.（一個多世紀以來，國際象棋一直被視為區分人類與機器人認知能力的羅塞塔石碑。AlphaZero擁有卓越的表現，讓我們開始從新的角度審視古老棋類與前沿科學之間的緊密關聯。）」——Garry Kasparov，前國際象棋世界冠軍

AlphaZero的棋路給棋手們留下了深刻的印象。Matthew Sadler表示，「它的走法擁有強烈的目的性與攻擊性，且一直將矛頭指向對方的王。」在此基礎上，AlphaZero還在對抗中極具動態能力，包括儘可能提高我方棋子的靈活度與可移動性，同時最大程度限制對方棋子的靈活度與可移動性。同樣值得一提的是，現代棋藝理念中認為所有棋子具有價值，因此某一選手棋盤上棋子價值總高更高，則表明其在對弈中佔據優勢。與AlphaZero也並不太重視各種棋子的具體價值，而更傾向於在開局階段通過犧牲部分棋子獲得中遠期競爭優勢。

Matthew評論稱，「它在各種棋子類型及位置上都表現出這種強烈的價值取向，這無疑令人印象深刻。」他同時觀察到，AlphaZero會在開局階段非常刻意地選擇「與人類高度相似的棋步。」

Matthew還提到，「傳統引擎非常穩定，幾乎不會出現明顯的失誤。但在沒有可供參考的具體解決思路時，其往往有點無所適從。相比之下，AlphaZero能夠在這樣的情況下表現出「感覺」、「洞察」與「直觀」等傾向。」

「The implications go far beyond my beloved chessboard... Not only do these self-taught expert machines perform incredibly well, but we can actually learn from the new knowledge they produce.（這種影響絕不僅限於我最深愛的棋盤……這些自我學習的專業機器不僅棋藝超群，也能夠讓我們從其產生的新知識中得到啟發。）"——Garry Kasparov，前國際象棋世界冠軍

這種其它傳統棋類引擎所不具備的獨特能力，給眾多棋類愛好者們帶來了新的思路與啟發。Magnus Carlsen與Fabiano Caruana在最近的世界國際象棋錦標賽當中就採取了類似的戰略。Natasha Regan在《Game Changer》一書中提到，「對AlphaZero、各類頂級國際象棋引擎乃至頂級大師的棋路進行分析，確實是件令人著迷的事。AlphaZero有可能成為整個棋壇的重要學習工具。」

不止是AlphaZero，AphaGo在2016年與傳奇大師李世石對陣時同樣表現出類似的驚艷棋步。在這輪比賽中，AlphaGo拿出了不少極具創造力的表現，特別是在第二場比賽中僅用37步就快速勝出——這徹底顛覆了人類幾百年來對圍棋的理解。李世石本人在內的眾多棋手也開始進行深入研究。在對第37步棋進行評論時，李世石說道「我一直認為AlphaGo屬於一種以概率為基礎的計算工具，畢竟它終究只是一台機器。但在看到這一步後，我的看法發生了改變。必須承認，AlphaGo確實具有創造力。」

與圍棋類似，我們對AlphaZero在國際象棋中表現出的創造力同樣感到興奮。自計算機時代開始以來，國際象棋一直是人工智慧面臨的重要挑戰之一。巴貝奇、圖靈、香農以及馮-諾依曼等眾多先驅都在努力尋找能夠解決國際象棋難題的方案。AlphaZero的出色之處，在於它的用途不限於國際象棋、將棋或者圍棋。為了解決各種現實問題，我們要求智能系統擁有強大的靈活性並能夠適應不同新情況。雖然我們在這方面取得了一定進展，但問題在根本層面仍然沒有得到克服。現有智能系統雖然能夠以極高的標準學會特定技能，卻仍無法處理哪怕只是做出了略微調整的任務。

AlphaZero能夠掌握三種不同的複雜棋類項目——甚至有望搞定一切可提供完美信息的項目——這代表著我們在實現通用型智能系統方面邁出了重要一步。就此來看，單一演算法完全有可能在不同的規則束縛之下學習並發現新的知識。另外，尚處於早期發展階段的AlphaZero已經能夠帶來創造性的見解; 再加上我們在AlphaFold等其它項目中得出的激動人心的成果，如今我們對於建立通用學習系統開始充滿信心。總結來講，我們也許能夠發現更多新型解決方案，並最終克服那些最為重要、最為複雜的科學問題。

【注】谷歌論文「A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play」下載方式：關注科技行者微信公眾號（ID：techwalker）回復「圍棋」，即可獲取。本論文由David Silver、Thomas Hubert、Julian Schrittwieser、Ioannis Antonoglou、Matthew Lai、Arthur Guez、Marc Lanctot、Laurent Sifre、Dharshan Kumaran、Thore Graepel、Timothy Lillicrap、Karen Simonyan以及Demis Hassabis共同完成。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 科技行者 的精彩文章:

※華為加速城市進化：從「物理之城」到「生命體之城」
※意外的研究：EOS不是區塊鏈，而是一種經過美化的雲計算

TAG:科技行者 |