Zero能解決圍棋史上最難問題

最新 10-20

【AI WORLD 2017世界人工智慧大會倒計時19天】

「AI達摩」齊聚世界人工智慧大會，AI WORLD 2017議程嘉賓重磅發布

大會早鳥票已經售罄，現正式進入全額票階段。還記得去年一票難求的AI WORLD 2016盛況嗎？今年，即將於2017年11月8日在北京國家會議中心舉辦的AI World 2017世界人工智慧大會上，我們請到了微軟全球資深副總裁、微軟（亞洲）互聯網工程院院長王永東、華為消費者業務首席戰略官邵洋和華為軟體工程部副總裁張寶峰。想現場了解華為與微軟在 AI 軟體的開發和交付進展？點擊文末閱讀原文，馬上參會！

搶票鏈接：http://www.huodongxing.com/event/2405852054900?td=4231978320026

大會官網：http://www.aiworld2017.com

新智元編譯

來源：reddit.com

編譯/作者：文強，劉小芹，胡祥傑

【新智元導讀】DeepMind首席研究員、AlphaGo項目負責人David Silver和Julian Schrittwieser（AlphaGo Zero論文的第一作者之一）在Reddit回答網友提問，新智元第一時間為你送上。同時，我們再回顧2007年，Silver等人催生了AlphaGo的研究。

Reddit在前天發布了預告，DeepMind的David Silver和Julian Schrittwieser（見頭圖）會舉行一場AMA——「Ask Me Anything」，回答網友提問。

David Silver和Julian Schrittwieser不是別人，正是DeepMind最新AlphaGo Zero論文的聯合第一作者（AlphaGo Zero論文一共有3位第一作者，另一個是Karen Simonyan）。

其中，David Silver是DeepMind首席研究員（lead researcher），帶領DeepMind強化學習研究小組，也是AlphaGo項目的負責人。可以說，Silver從AlphaGo誕生前起（這個後面會說），到現在的最強版本AlphaGo Zero，一直在用深度強化學習攻克圍棋，用「AlphaGo之父」來形容他一點也不為過。

David Silver 1997年畢業於劍橋大學，獲得了艾迪生威斯利獎（Addison-Wesley award）。隨後，Silver與人共同創立了視頻遊戲公司Elixir Studios，擔任CTO和首席程序員，也得了很多技術和創新獎。2004年，Silver重回學界，在阿爾伯塔大學攻讀強化學習博士學位，在那裡他與另一位同事合作，提出了第一個被用於9×9圍棋程序的演算法。2011年，Silver獲得了英國皇家學會大學研究獎學金，隨後成為倫敦大學學院的講師。從DeepMind成立之初，Silver就擔任顧問。2013年起，Silver全職加入DeepMind。

為什麼AlphaGo Zero訓練這麼穩定？為何能在如此短時間裡達到大師級水平？

問：為什麼 AlphaGo Zero 的訓練這麼穩定？這是如何做到的？當DeepMind宣布它在嘗試純self-play訓練時，這是每個人都想問的問題。因為深度強化學習是出了名的不穩定和容易遺忘，如果沒有一個好的（基於模擬的）初始設定和大量的歷史checkpoint，這兩點加在一起會是災難。但是如果我沒有理解錯的話，Zero 是從零開始的，你們沒有使用任何歷史checkpoint來作為防止遺忘或循環的對抗。但是這篇論文根本沒有討論這個問題，你們是怎麼做到的？

David Silver：AlphaGo Zero沒有使用典型的（model-free的）演算法，例如策略梯度或Q-learning，而是使用了一種完全不同的方法。通過使用 AlphaGo search，我們極大地改進了策略和自我對弈的結果，然後我們應用簡單的、基於梯度的更新來訓練下一個策略+價值網路（policy+value network）。這比漸進的、基於梯度的策略改進（policy improvement）更穩定，而那樣的策略改進可能會遺忘先前的改進。

問：你覺得AlphaGo能夠解決被稱為「史上最難死活題」的《圍棋發陽論》第120題嗎？（//igohatsuyoron120.de/2015/0039.htm）

David Silver：我問了Fan Hui這個問題，他說，AlphaGo能夠解決這個死活題，但更有趣的是問題，AlphaGo會找到書里的解決方法，還是得到沒有任何人想到過的另一種解決方法？在AlphaGo下過的棋局中，我們已經看到過許多這種沒有人想到過的新下法。

問：為什麼在40天時就停止了訓練呢？它的性能還可以更強，不是嗎？如果你讓它運行3個月，會發生什麼?

David Silver：我想這是一個事關人力、資源和優先事項的問題。如果我們跑了3個月，我猜你還是會問，訓練6個月的話會發生什麼？

問：不讀研也能在人工智慧領域裡取得成功嗎？

Julian Schrittwieser：絕對沒問題，我自己就只有計算機科學的學士學位。AI領域發展非常迅速，你能從讀論文、做實驗中學到很多。進入一家在機器學習領域有業務經驗的公司也有很大幫助。

問：鑒於你們（DeepMind）和Facebook幾乎在同一時間開始研究圍棋的問題，你認為是什麼優勢讓你們的系統能夠在如此短的時間內達到大師級的標準？

David Silver：Facebook更側重監督學習，他們的程序在當時是最強大的之一。我們選擇更多地關注強化學習，因為我們認為這最終能帶領我們超越人類的知識。我們最近的研究結果實際上表明，僅使用監督式的方法能夠獲得令人驚訝的高性能表現，但是，如果要遠超人類水平，強化學習絕對是關鍵。

問：AlphaGo有開源的計劃嗎？

David Silver：我們在過去已經開源了許多代碼，但這始終是一個複雜的過程。在AlphaGo情況下，不幸的是，它是一個非常非常複雜的代碼庫。

ICML 2017經典論文獎：催生了AlphaGo誕生的研究

為什麼剛剛說「從AlphaGo誕生前起」？

ICML 2017 Test-of-Time 獎頒發給了 Sylvain Gelly（現在是蘇黎世谷歌大腦團隊的研究員）和 David Silver在2007年的工作：Combining Online and Offline Knowledge in UCT，提出將離線學習或在線創建的知識納入搜索演算法以增加其有效性的新方法。

這篇文章提出將離線學習或在線創建的知識納入搜索演算法以增加其有效性的新方法。而這一方法促成了AlphaGo的成功。

在 AlphaGo 取得成功的10多年前，在國際象棋中取得成功的經典樹搜索（tree search）技術是計算機圍棋程序的主要方法，但是這樣的圍棋程序只能達到人類玩家的弱業餘水平。感謝蒙特卡羅樹搜索——基於對遊戲中一個位置的可能結果進行抽樣，並利用這些模擬的結果逐步改進搜索樹的一種新型搜索演算法——計算機能夠更深入地搜索遊戲。這是很重要的一點，因為它使得程序可以納入更少的人類知識，在程序中包含人類知識是一項很難正確地做到的任務。實際上，人類專家無法表達或沒有想到的任何缺失的知識（missing knowledge）都可能對計算機評估遊戲的位置時犯錯誤，最後導致滿盤皆輸。

2007年，Sylvain 和 David 通過探索將兩種類型的知識結合來增強蒙特卡羅樹搜索技術：（i）在線（online），下一步的決策取決於當前的位置，走下一步時使用當前的計算資源，（ii）離線（offline），學習過程完全發生在遊戲開始之前，並被概括為一個可應用於遊戲中所有可能位置的模型（儘管在學習過程中並未看到所有可能的位置）。這些方法最終做成了MoGo程序，其表現比以前的圍棋演算法有所提高。

對於online部分，他們調整了一些簡單的想法，即某些動作不一定相互依賴。例如，假如你預定去度假，酒店、航班和租車等的選擇顯然取決於你的目的地。但是，一旦決定了目的地，這些東西就（大部分）可以獨立進行。圍棋可以應用同樣的想法，即可以將某些動作部分獨立地估算出來，以獲得儘管不精確，但非常快速的估計。當然，當時間允許時，也會分析確切的依賴關係。

對於離線知識（offline knowledge）的併入，他們探索了使用強化學習使計算機自己和自己對弈，探索學習一個位置值的近似（approximation of the position value）的影響，並在樹搜索演算法中加上這些知識。他們還研究了如何以類似的方式使用基於人類知識的專業棋譜。這種離線知識有兩點幫助：首先，它有助於將程序集中在像在離線中學習到的好的下法；第二，當程序試圖估計給定的位置值時，它有助於模擬更逼真的遊戲。

這些改進在圍棋的一種較小版本（9x9）的遊戲中取得了很好的成果，甚至在一場展示比賽中打敗了一名職業玩家，並且在完整的圍棋比賽（19x19）中也達到了業餘水平中的更高水平。2007年以來，我們已經看到許多來自世界各地的研究的快速進步（幾乎每個月都有），這些研究使得圍棋演算法的進步達到高潮的是 AlphaGo（其本身也進行了許多創新）。

最重要的是，這些演算法和技術不僅局限於在遊戲中應用，還可以在許多領域中帶來進步。David和Sylvain在10年前合作的研究所做的貢獻，對於機器學習的許多進步來說都是非常重要的，它有助於我們每天的生活。這是他們當之無愧的獎項，我們向這兩位作者表達衷心的祝賀。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※21天完虐Master：AlphaGo Zero橫空出世，完全不依賴人類知識
※銀翼殺手2049與恐怖谷理論：機器人越像人，越可怕
※「機器學習爆款App技術解讀」如何用「攝像頭秒解數獨」
※「華為Mate10 AI技術全盤點」專訪華為軟體工程部副總裁張寶峰
※中國構建世界上最大人臉識別系統，3秒內識別13億人口中任何一人

TAG:新智元 |