通過自我學習，新版AlphaGo如同屠殺般完勝老版

科技 10-21

credit 123RF

在AlphaGo橫掃人類頂級棋手幾個月後，人工智慧棋手如今再次打破瓶頸，將以往的困難險阻化作大道坦途：最新版本的AlphaGo完全靠自學來實現前所未有的圍棋策略。該項目的新一輪智能棋手被稱為AlphaGo Zero，在不需要人為的輸入任何有關圍棋招法的情況下，僅僅三天的時間裡，重新發明了人類棋手在數千年的下棋歷史中所掌握的定式，以及從未被人類發現的更先進的圍棋理念。通過將人工智慧從對人類知識的依賴中解放出來，實現了突破智能機器自主思考限制的可能性。

人類使用兩種方法教授早期版本的AlphaGo下棋。第一種被稱為監督學習，研究人員為程序提供了10萬盤業餘頂級高手的對局，並教會了它模仿它所看到的內容。第二個，被稱為強化學習，他們讓程序自我發揮並從結果中學習改進。

AlphaGo Zero跳過了第一步。程序開始是一個白板，只知道圍棋的基本規則，然後開始一個人和自己的對弈。起初，它將棋子隨機放到棋盤上。隨著時間的推移，它開始學會判斷局勢和利弊取捨。它還發現了圍棋策略里的的許多規範要素，並發現了前所未有的新定式。密西根大學計算機科學家Satinder Singh說：「模仿人類的最好方式就是模仿人類，」他沒有參與AlphaGo的開發，「在許多複雜的情況下，你也將永遠受限於人類。」

經過三天的學習和490萬次對局訓練，研究人員令AlphaGo Zero與早期的AlphaGo對弈。 AlphaGo Zero以100：0懸殊比分贏下比賽。

對於專家來說，老版本的潰敗十分驚人。純粹強化學習似乎與圍棋的計算複雜性格格不入，圍棋比國際象棋要複雜得多：可以預期AlphaGo Zero將永遠追求最正確的下一步，如此它應該花費大量時間用於計算。但實際情況相反，它迅速成長，如有神助。

高效的學習過程歸功於反饋循環。像其前代一樣，AlphaGo Zero通過稱為「樹搜索」的過程來確定要下一步走法。該程序從當前局面開始，並考慮後續可能的動作。並加入考慮其對手可以在未來棋路中施加的影響因素，最後找到可以應對的措施，……如此這般，創建一個分支樹形圖，模擬出不同組合的局面演化，從而導致不同的應對策略。

AlphaGo Zero無法遍歷樹的每一個分支，因為這將需要過多的計算能力。相反，它通過決定哪些路徑似乎最有希望獲勝來選擇性地修剪分支。它可以根據早期的學習內容，計算出修剪哪些路徑，以獲得有助於引導向勝利的局勢。

AlphaGo的早期版本也遵循這樣的思路設計的。AlphaGo Zero的新能力是它會記住選擇了某個搜索樹的分支會導致怎樣的遊戲結果，而不是僅僅運行樹搜索和照此運行結果移動。使用這些信息更新其對局面的評估，和選擇不同落子位置的獲勝概率。因此，下一次運行樹搜索時，可以使用修正過的估計值，反覆用以前的樹搜索結果進行訓練，一次次生成更好的估計值。到最後，它的每一步落子都會增加終盤時獲勝的可能性。

既然AlphaGo Zero的能力是從極其大量的可能性中找到實現最佳可能性的路徑，在發表在《自然》上的論文里，AlphaGo Zero的研發者表示，他們的系統可以在材料物理學中發揮作用——為了產生具有不同性質的材料，你需要弄清各種原子組合會產生什麼結果；以及研究摺疊蛋白質分子的性質——需要了解蛋白質精確的三維構架結構並確定其功能。

至於圍棋，AlphaGo Zero可能引發了一場地震。迄今為止，還沒有哪家遊戲公司開發出世界級的圍棋軟體。但是AlphaGo Zero可能會改變這一局面。美國圍棋協會執行副總裁Andrew Jackson認為，指導人類下棋的圍棋app不久就會出現在市場上。這將改變人類棋手訓練的方式。它也會使作弊變得容易。

對於AlphaGo來說，未來是開放的。圍棋是一項非常複雜的智力活動，誰也說不清這套自我學習的程序未來可以達到何種高度; 現在能確定的是它掌握了一套學習方法來應對它爆炸性增長的複雜度，這也本來就是AlphaGo的存在意義。

本文譯自 quantamagazine，由譯者 majer 基於創作共用協議(BY-NC)發布。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自煎蛋的精彩文章:

※Reddit：那些搞笑的歷史事件-6
※下次坐飛機，你可能不會再喝茶或咖啡了
※聖徒是怎樣煉成的
※等一下，宇宙在大爆炸之前是啥？
※《王牌特工2》的前世今生

TAG:煎蛋 |