DeepMind團隊：發明AlphaGo不是為了戰勝人類

新聞 05-24

AlphaGo和柯潔的比賽還有兩場，機器圍棋的能力愈發得到肯定，「人機大戰」的噱頭也在慢慢退去，我們更關心的是，人工智慧何以達到這種水平？未來的人工智慧會如何發力？5月24日中國烏鎮圍棋論壇的人工智慧峰會上，DeepMind創始人兼CEO Demis Hassabis先生以及DeepMind資深研究員David Silver深入淺出講解AlphaGo的原理和未來。

DeepMind 2010年在於倫敦創立，2014被Google收購，目前已經招募約500名電腦科學家和研究員。

看完這篇文章，你會了解到：

為什麼挑戰計算機圍棋？

什麼是深度強化學習？

AlphaGo如何學習？

李世乭不是已經KO了嗎？為什麼還要再來？

戰勝了柯潔，阿老師的下一步是啥？

為什麼挑戰計算機圍棋？

一直以來，圍棋就被認為是傳統遊戲中對人工智慧最具挑戰性的項目。這不僅僅是因為圍棋包含了龐大的搜索空間，更是因為對於落子位置的評估難度已遠遠超過了簡單的啟發式演算法。自從上世紀IBM的深藍戰勝加里·卡斯帕羅夫之後，圍棋被看作是「人類智慧最後的遮羞布」。

1997年，深藍戰勝當時世界排名第一的國際象棋選手卡斯帕羅夫

計算機圍棋的難處在於，因為落子的可能性更多窮舉搜索的可能性幾乎不存在。對於純粹的計算機運算造成了兩項難題：第一是搜索空間過於龐大；其次，也是更為重要的一點，因為變數過多，難以寫出評估程序來決定輸贏。

國際象棋和圍棋的策略窮舉對比

相比於國際象棋，圍棋更靠直覺而非計算。如果你在復盤階段問一個棋手為什麼這麼下一步棋，他多半會告訴你「憑感覺」，反之國際象棋的職業棋手可能會告訴你他的一系列計算所得的判斷。因此，將圍棋的策略通過計算量化更為困難。

此外，圍棋中沒有等級關係，每一個棋子在結果計算中是平等的。而國際象棋中有不同的角色，對應不同的走法，每步棋的可選策略就大大減少。

和國際象棋不同，圍棋是一種築防關係，需要盤算未來關係，而國際象棋是棋子慢慢減少的過程。在棋子小於九個的時候，通過算數計算就可以判斷輸贏。因而，圍棋對於局勢的預估要求更高。

因為場景多變，在圍棋中，「一子可撼全局」的局面並不罕見，一舉「妙手」往往會對局勢產生至關重要的改變。

所有的這些圍棋的高度不確定性讓圍棋在之前的二十年一直成為計算機科學家希望攀登的高峰。

什麼是深度強化學習？

科學家將人工智慧進一步分為狹義的人工智慧和廣義的人工智慧。上世紀著名的深藍電腦就是狹義人工智慧的代表。深藍使用預設的國際象棋程序，通過直接輸入高手的策略，然後通過搜索來完成計算。在這裡，深藍其實是總結了歷史上的國際象棋棋手的所有知識，直接生搬硬套來做應用。這種方式獲得的機器知識，不能遷移到其他領域的學習中。

而Demis一直在思考的問題是：人腦是如何學會完成複雜任務的？電腦能否做到這一點？製造通用學習機器也正是DeepMind目前的工作目標。

不依賴於人類的原生知識而最終獲取知識的人工智慧就屬於廣義的人工智慧領域。機器直接從輸入和經驗中學習，沒有既定的程序或者規則可循，系統需要從原始數據自己進行學習。這種演算法注重於機器本身的知識習得過程，會產生屬於機器的「直覺」和「創造力」，科幻一點說，是機器本身的意識形成過程。因為沒有規則的限制，在更多的領域可以有所應用。

附：一些術語：

監督學習和無監督學習這兩者往往共同出現。監督學習需要人類知識的介入，在給機器輸入數據時打上標籤，機器通過學習標籤和數據的關係，輸出新數據的標籤預測。而無監督學習的數據輸入中不帶標籤，機器自行學習數據的特性。有無前置的標籤輸入是區分監督學習和無監督學習的標誌。

強化學習涉及到智能體和環境之間的互動。智能體（agent）通過觀察，建立有關環境的模型，繼而建立行動計劃，確定最好的行動。在行動改變環境之後，重複「觀察——行動」這一循環。因為在實際的操作環境中，智能體需要觀察的環境往往存在噪音，因此智能體的合理行為是在慢慢強化接近設定目標的過程。

神經網路學習：這是實現深度學習的一種演算法。它從信息處理角度對人腦神經元網路進行抽象，建立簡單模型，通過輸入、輸出、節點關係和權重來表達邏輯策略，用以解決問題。

深度學習：深度學習的概念源於人工神經網路的研究，通過組合低層特徵形成更加抽象的高層表示屬性類別或特徵，是實現人工智慧的一種方式。

AlphaGo如何學習？

AlphaGo的學習策略可以總結為深度強化學習，同時結合了深度學習和強化學習。

為了應對圍棋的巨大複雜性，AlphaGo的演算法結合了監督學習和強化學習的優勢。通過訓練形成一個策略網路（policy network），將棋盤上的局勢作為輸入信息，並對所有可行的落子位置生成一個概率分布。這一部分，初代的AlphaGo借鑒了幾百年的圍棋棋譜，也就是有人類原生知識的介入，因而屬於監督學習。

然後，AlphaGo通過強化學習訓練出一個價值網路（value network），對自我對弈進行預測，，預測所有可行落子位置的結果，以 -1（對手的絕對勝利）到1（AlphaGo的絕對勝利）來表示。至此，AlphaGo能夠在棋局中判斷每步棋局未來的取勝概率分布。

上述是AlphaGo的訓練過程，在實際的對弈過程中，獲取棋局信息後，AlphaGo 會根據策略網路探索哪個位置同時具備高潛在價值和高可能性，進而決定最佳落子位置。在分配的搜索時間結束時，模擬過程中被系統最頻繁考察的位置將成為 AlphaGo 的最終選擇。

這樣的計算量依然很大，AlphaGo通過兩種方法來減少整體的神經網路計算量。

第一是通過策略網路減少窮舉搜索的寬度。在每一次進行落子計算時，它只參考通過深度學習獲得的人類落子選項。換句話說，人類爸爸不幹，我也不幹。

其二是，用價值網路減少窮舉搜索的深度。它不追求那一子落步能夠達到100%的最優，而是通過建立打分體系，選擇風險更低而勝率更高的落子之處。

去年不是已經PK過李世乭了嗎？為什麼還要再來？

Demis在演講中明確了AlphaGo的三個版本：AlphaGo Fan（2015年10月與樊麾對弈的版本）、AlphaGo Lee（2016年3月與李世乭對弈的版本）、AlphaGo Master（2017年1月網上Master以及此次對弈柯潔的版本）。

從棋力的對比來說，目前版本的AlphaGo能讓李世石版本三個子，李世石版本的AlphaGo可以讓樊麾版本三個子，樊麾版AlphaGo則能讓zen/瘋石圍棋四個子。承讓三子在高手對決中已經是極大的優勢。

這是微博上柯潔對於「讓三子」的解讀

從演算法的角度來說，新版本的AlphaGo不再需要外在的棋譜輸入，在設定目標（AlphaGo的學習目標是取得儘可能大的獲勝幾率）之後，站在AlphaGo Lee版本的知識上，從自己的搜索中學習，依靠自我博弈來進行訓練。這種自我學習的能力，未來將會更多的自我迭代。

新一代AlphaGo演算法的優越性還體現在硬體配備方面，他在電能消耗和硬體調動的需求上都是李世乭版本AlphaGo的十分之一。2015年的AlphaGo Fan基於GPU運行，2016年的AlphaGo Lee是通過谷歌雲上的50個TPU同時運作，每秒搜索50個棋步10000個位置，而今年的AlphaGo Master在谷歌雲的單台機器4個TPU上運行，這一效率的提高十分驚人。不過David Silver很誠懇地表示，這是第一代TPU而不是上周在谷歌I／O大會上發布的第二代TPU（哎呀這發TPU的安利不夠到家啊）

戰勝了柯潔，阿老師的下一步是啥？

Demis把公司的願景稱為人工智慧的「阿波羅計劃」。他們希望為測試人工智慧演算法搭建一個有效的平台，最終目的是把這些演算法應用到更多的領域中，為社會所服務。這也是AlphaGo從棋譜學習進化為自我學習的動力所在。

當今學界和業界解決問題面臨的一個巨大挑戰就是信息過載，以至於難以找到其中的規律和結構，從疾病診斷到氣候變暖都是如此。

Demis認為人工智慧是解決這些問題的一個潛在方式。而事實上，DeepMind公司已經利用AlphaGo的部分演算法優化谷歌的數據中心，減少了50%的能源消耗。

至於機器的自我意識，Demis Hassabis表示，這種科幻片里的場景恐怕在幾十年內都不會出現，人工智慧還有很多的關鍵問題沒有攻克下來。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 cnbeta 的精彩文章:

※360回歸A股之路再進一步：上市輔導工作進展報告出爐
※動物保護組織使用AI和無人機來對抗大象和犀牛偷獵

TAG:cnbeta |

您可能感興趣

※Gal Gadot將主演Showtime全新迷你劇，飾演演員兼發明家Hedy Lamar
※HoloLens聯合發明人Bar-Zeev從蘋果離職
※SoundWear Companion 評測：Bose 發明了一款可穿戴「隨身聽」
※Gonz＆Hawk：究竟誰才是Stalefish動作發明者
※義大利的發明—摩卡咖啡壺 Le invenzioni italiane–La Moka
※可愛小朋友Surface Go測評：微軟重新發明Macbook Air
※潮藝術 | The Concealed Treasure 賴聲川發明的新劇種——斜角喜劇！
※現實版「鐵甲戰衣」？英國發明家Richard Browning試飛...
※Doug Engelbart 的發明，不止滑鼠這麼簡單
※經濟學家Tuur Demeester：區塊鏈是具有里程碑意義的發明
※關於Imagination的發明創造
※Rufus of Ephesus 發明了動脈瘤一詞
※Facebook發明新的時間單位：flick
※Chindogu: 非-無用發明的藝術
※AI先驅、A×演算法發明者Nils Nilsson去世
※AI先驅、A*演算法發明者Nils Nilsson去世
※他是積家表的傳人，也是石英錶的發明者！RenéLe Coultre 百歲仙逝
※他是積家表的傳人，也是石英錶的發明者！René Le Coultre 百歲仙逝
※Oculus為VR影視發明了新時間單位「flick」
※中國發明安卓iPhoneX！