經過一年的修鍊，AlphaGo的哪些能力突飛猛進了？

新聞 05-28

雷鋒網AI科技評論按：烏鎮圍棋峰會第一局已經結束了，歷時4個半小時，以柯潔九段執黑負於 AlphaGo，AlphaGo 贏四分之一子告終，這樣風平浪靜的結果想必很多人都預測到了，不過大家從一開始就知道關注的重點，不在於柯潔怎麼輸的，而是AlphaGo已經進化到什麼程度了，距離Deep Mind團隊出論文來詳解AlphaGo有多強還有一段時間，So我們其實可以從現場觀戰中來看出一些端倪。

棋速

第一局棋下到一半的時候，不少棋友群里的人沸騰了，發現AlphaGo落子速度非常快，每步棋落子速度在30S－40S之間波動，對此圍棋業餘5段趙老師對雷鋒網AI科技評論表示：「（這局棋）像安樂死，不知不覺就輸了，（相比去年）機器落子飛快但錯誤基本沒有」。

綜合整局，AlphaGo落子表現冷靜、果斷，而柯潔的落子狀況較多變。最終在比賽進行了四個多小時之後，AlphaGo贏四分之一子。

棋風

AlphaGo1.0的時候（去年3月跟李世石對戰的時候），它的棋風概括起來就是擅長記住棋譜+增強學習+計算能力，身上還能看到人類棋風的影子，等AlphaGo喬裝成Master60連勝的時候，許多圍棋大師包括聶衛平在內開始評價其棋風「很難揣測Master的風格……它永遠都沒有表情，永遠不受情緒影響，永遠一個節奏，就是要贏你。」而今天，第一局棋還沒結束的時候，搜狗王小川已在知乎上發文剖析AlphaGo2.0 棋風「完全脫離人類經驗」——「而AlphaGo2.0脫離了機器對人模仿，走棋風格也將完全脫離人的定式。在與柯潔的比賽中，會不斷出現我們意想不到的走棋，而且這些走棋在教科書中會被認為是低級錯誤或者完全不可理喻，但凡一個正常的棋手都不會這麼玩，但凡一個新手這麼玩都會被點撥這樣不對。而AlphaGo2.0會不斷製造這樣的局面，關鍵他還是對的。」

不過最後還是柯潔說了算，他在會後的採訪中用了一個很好的例子說明了AlphaGo的棋風莫測：（在回顧比賽時也對第54手的斷）時，他表示了肯定：「很震驚，這在人類的下法中是不能有的。在斷之後，它把自己的腳步實地化，變得更厚，一石二鳥。」。

演算法

AlphaGo1.0的時候（去年3月跟李世石對戰的時候）使用的演算法精髓，根據FB田淵棟看完Nature論文的解讀，由估值網路評估棋局，策略網路選擇落子，快速走子（Fast rollout）適當加速，再用蒙特卡羅樹搜索把以上這三個部分連起來，形成一個完整的系統。

這一次雖然知乎論壇等活躍地盤已經開始紛紛推測這次的AlphaGo2.0用了什麼牛叉的演算法，有了硬體的預測失誤，真相還是等Deep Mind後面來親自公布，目測演算法預測這個要根據它的單機版10個GPU＋TPU助力預測比較靠譜。

硬體需求降低

根據DeepMind員工發表在2016年1月Nature期刊的論文，分布式版本（AlphaGo Distributed）使用了1202個CPU和176個GPU。

不過這次比賽AlphaGo用的何種硬體配置，DeepMind在會後的新聞發布會中表示，這次比賽的AlphaGo是新版本，它改善了新的演算法，主要進步是計算量少了十倍，自我對弈更強。Hassabis稱，在比賽中程序是在一個單一的機器上運作的，這與去年不一樣，當時是分布式的。這次有更強大的演算法，運作起來更簡單也更好，獲得的速度更快。另外Hassabis表示，計算力可以「在Google雲中獲得，用的是TPU，十個處理單位，少了十倍的計算量」。簡單點說，這次的AlphaGo是單機版。

迭代速度

哈薩比在此鏈接中的劍橋大學的一次演講中提到，以前從零訓練一個AlphaGo要三個月，現在只需要一個星期（「We also optimized the performance. It used to take 3 month to train a new version of AlphaGo from scratch. Now we can do it in one week.」）。

如果稱對戰李世石期間的版本為V18迭代版本，喬裝成Master60連勝並宣布升級完成的時刻為V25版本，現在的AlphaGo又是V多少版本，訓練的時候會不會一周都不要了？這是我們明天要親自問DeepMind團隊的。

從單人對戰到團隊對戰

心細的朋友肯定注意到了，柯潔和AlphaGo對弈之外，5月26號上午還有一場配對賽，配對賽雙方－－－古力＋AlphaGoV連笑＋AlphaGo，即對弈雙方分別由一位棋手與AlphaGo組成，棋手與AlphaGo合作進行比賽。5月26號上午下午則是陳耀華，周睿羊，羋昱延，時越，唐韋星和AlphaGo的5對1團隊賽。

Google之所以敢這樣設置賽制，唯一的解釋就是，AlphaGo現在既懂人類下圍棋的那部分，又懂AI下圍棋的那部分，並可以做到融會貫通，所以它才敢挑戰配對賽這種跟另一個同伴高度配合的賽制，又敢挑戰測試自己「戰鬥力」極限的團體賽。AI最可怕的部分不是它單個力量有多強，而是它開始懂得和周遭「互動」，這樣的融匯是不是比去年3月的人機大戰可怕多了呢？

小結：

上次AlphaGo喬裝成Master測試的時候，柯潔已經落敗給Master過一次，他不是沒見識過AI圍棋的厲害，但結合柯潔今天在現場的冷靜表現，和他昨晚莫名其妙地深夜感慨，我們有理由相信，這不是一場比AI圍棋選手和人類圍棋選手哪個更厲害的選手，DeepMind團隊一定有些懸而未決的答案需要這場比賽給一個肯定的驗證，然後再往那個方向實現更深一步的探索。

雷鋒網AI科技評論現場報道，未經許可，拒絕轉載。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※工行副行長王敬東：工行如何應用區塊鏈破解扶貧金融難題？
※螞蟻金服遍求學術泰斗加入智囊團，意欲跨越基礎研究這座大山
※以後提起貴州的象徵，除了茅台就是區塊鏈
※平安3A論壇 | 一個金融機構辦的技術論壇是什麼樣的？
※網曝某銀行「串號」漏洞，登錄自己賬號卻看到別人的信息！

TAG:雷鋒網 |

您可能感興趣

※Armani Junior|不同未來，童樣的「超能力"!
※Juniper Network 並了Cyphort 之後，機器學習偵測惡意連線的能力變得更強大了
※Uzi驚現過目不忘的記憶能力，最後一波團Pray的水銀只差一秒？
※Joker談EDG被零封：RW擁有EDG式的後期能力，那個男人該回來了！
※Avengers不只是擁有特別的超能力，而且他們的顏值都很高呢！
※Google收購Cask Data，進一步強化大數據分析能力
※海賊王：bigmom沒有吃修女，她得到魂魂果實能力，是CP0幫了忙
※Huni：Khan是目前世界第一上單，小花生能力比Mlxg更強
※防彈少年團收入一千億！吸金能力堪稱泡菜TFboys，比Big Bang更強
※微軟收購Semantic Machines，Cortana對話式AI能力將進一步提升
※LOL：RNG戰隊Letme近期只打過一場訓練賽，支撐自己的是抗壓能力
※Adobe 近年最大併購併入 Magento Commerce，強化數字銷售能力
※20種Levi s x Air Jordan 4的創意改造，為他們的動手能力獻上膝蓋
※《About Time》預告曝光！擁有這個超能力，是不幸還是幸運？
※LOL：Letme和Khan在排位中提前相遇，Khan的發育能力非常驚人！
※ios 續航能力有ios 好嗎？
※bilibili四月新番，追番榜前五現黑馬，超能力女兒無壓力登頂
※DeepMind 重大突破：AI 進化出大腦級導航能力，像動物一樣會「抄小路」
※成績≠能力！拿著名校offer的留學生卻適應不了美國生活，why？
※Liang Talk Two：談談這個青年學人最需培養的能力