AlphaGo今年棋力已大大提高 可讓李世石版3子
北京時間5月24日消息,昨日AlphaGo以1/4子優勢戰勝柯潔後,由中國圍棋協會主辦的人工智慧論壇今天上午在浙江桐鄉召開,DeepMind公司AlphaGo團隊負責人大衛-席爾瓦(David Silver)在論壇上緊接公司CEO哈薩比斯的演講,進一步詳解了AlphaGo的原理。
AlphaGo團隊負責人大衛-席爾瓦
席爾瓦首先對比了圍棋和國際象棋的複雜度。國際象棋的每一步大約有30種可能性,而圍棋每一步大約有100種可能性,這導致圍棋的複雜度大大高於國際象棋,圍棋棋局所有出現的可能性甚至多於全宇宙的粒子數目。所以圍棋沒法像使用窮舉演算法來解決。
卷積神經網路
那麼DeepMind是如何使用AI解決圍棋問題的呢?他們正是使用卷積神經網路(CNN)破解了圍棋,AlphaGo可以從每一層的神經網路中對棋局進行理解,經過多代的發展,AlphaGo已經擁有了40層神經網路。
AlphaGo原理
AlphaGo利用兩種神經網路——策略網路和價值網路——大大減少了計算機搜索的空間:策略網路可以減少搜索的寬度,價值網路可以減少搜索的深度。即用策略網路忽略掉每一步中不合理的下法,而價值網路可以減少機器往後搜索的步數。
圍棋巨大的搜索空間,AlphaGo的目的就是減少搜索量
另外,關於本次外界關心的AlphaGo硬體問題,席爾瓦說,今年的AlphaGo相比去年的運算力大大增強。去年與李世石對戰的AlphaGo使用了50個TPU,可以向下搜索50步棋,運算速度達到了每秒可計算10000個位置。而今年由於AlphaGo程序的優化,昨天與柯潔隊長的AlphaGo Master僅使用了含4個TPU的伺服器。而且現在的AlphaGo能夠自己給自己「當老師」,它會從自己的搜索結果中去學習圍棋。
新版AlphaGo通過自我對弈進行強化學習
最後,席爾瓦用AlphaGo與其他競爭對手的圍棋AI程序做對比。初代AlphaGo,也就是當初戰勝歐洲圍棋冠軍樊麾的版本,已經比Zen、Crazy Stone等程序勝出4子,AlphaGo每進化一代,都比上一代要勝出3子,也就是說昨日與柯潔對戰的AlphaGo相比去年版本已經有了很大的進步。其實,早在去年年底,新版的AlphaGo就已經在圍棋網路快棋對戰中戰勝多國高手,取得了60連勝的不敗戰績。(邊策)
AlphaGo的棋力進步示意圖


※數萬蜜蜂「空襲」英國小鎮:爬滿玻璃不敢出門
※期刊任命狗為編輯
※比特幣8年暴漲300萬倍:從換披薩到單價近兩萬
TAG:cnbeta |
※鄧紫棋力壓張靚穎 李宇春入選BBC百大女性 她有啥過人之處?
※象棋棋力測試,共8關,全部闖過才算象棋高手
※同台比美,莫小棋力壓林心如顯高級范兒,連腳趾頭也在搶鏡!
※疑似人工智慧作弊者自辯:我有抑鬱症但棋力業餘6段