AlphaGo?其實也沒什麼了不起
1997年,IBM的「深藍」打敗了世界國際象棋冠軍卡斯帕羅夫。彼時,這場勝利被傳頌為人工智慧的一個里程碑。然而後來事實證明,「深藍」的科技除了國際象棋,在其他地方並無用武之地。計算機科學也並未如預期一般迎來一場革命。
(圖片來自網路)
那麼,屢次打敗人類頂尖棋手的AlphaGo,又會有什麼不一樣嗎?
我相信答案是肯定的,但或許並不是出於你聽說的那些原因。許多文章都宣稱圍棋比國際象棋更難,從而使AlphaGo的勝利看起來更意義重大。儘管有些文章指出圍棋比國際象棋可落子的位置更多,這是事實沒錯,但並不能解釋為何這點會對電腦比對人類造成更大的困擾。
換言之,這些爭議都沒有觸及核心問題:使AlphaGo成功的技術進步會不會有更廣泛的用途?要回答這個問題,我們必須先理解為什麼AlphaGo的技術與「深藍」的技術截然不同且更為重要。
AlphaGo和IBM深藍(DeepBlue)區別是什麼?
在國際象棋中,初學者會學到每個棋子的價值。例如一個馬或象等於三個兵。活動範圍更大的車則等於五個兵。而活動範圍最大的後則等同於九個兵。王的價值無限大,因為失去王也就意味著丟掉了比賽。
玩家可以通過這些分值來評估可能的棋路。以自己的象吃掉對方的車?這通常是個好主意。一馬加一象換取對方的車?這可就是昏招了。
分值在計算機國際象棋中至關重要。大多數國際象棋程序工作時,都要在上億的棋路和對策中搜索。其目的就是為了讓程序在無論對手如何下的情況下都找到將最終分值最大化的一系列走子。
早期的國際象棋程序是用「一個象等於三個兵」這樣的簡單概念對棋局進行評估的。但後來的程序用到了更細緻的國際象棋知識。舉例來說,在「深藍」評估棋局的功能中,彙集了超過8000種不同的因素。「深藍」可不只知道一個車等於五個兵。如果相同顏色的兵在車之前,兵就會限制車的活動範圍,令車的分值下降。然而,如果這個兵可以吃掉對方的兵從而為車讓出路來,「深藍」就認為這個兵是半透明的,不會對車的分值造成很大影響。
諸如此類的思路取決於國際象棋的具體知識,也決定了「深藍」的勝利。在「深藍」團隊所著的技術論文中,這一半透明兵的概念為「深藍」在對陣卡斯帕羅夫的第二場比賽中得勝奠定了重要的基礎。
「深藍」的開發者們使用了兩套主要理念。一是建立一種功能來匯總大量國際象棋具體知識來評估任何一種棋局。二是利用強大的計算能力來評估眾多可能的局面,挑出可能促成最佳終局的走子。
如果把這些戰略運用到圍棋上,又會如何呢?
這樣的嘗試將陷你於困境之中。問題就在於如何評估棋局。頂級的圍棋選手在判斷某一特定局面時,會動用到大量的直覺。例如,他們會用聽起來模稜兩可的話語稱某一棋局「形勢不錯」。這種直覺很難用類似國際象棋棋子分值那樣簡單明確的系統表達出來。
你或許認為只要孜孜不倦,就終能找到評估棋局的好方法。遺憾的是,過了數十個年頭,傳統手段仍無法將國際象棋的搜索方法成功移植到圍棋上。直到2006年,隨著一種叫作蒙特卡洛樹的搜索演算法的引入,轉機才出現。然而圍棋程序的能力依舊遠不如人類。對棋局的強烈直覺似乎直接關係到輸贏,而這是機器所不具備的。
就AlphaGo而言,其創新和重要之處就在於其開發者找到了將類似直覺的東西注入其中的方法。
一開始,AlphaGo被灌輸了15萬個由人類圍棋高手所下過的比賽,然後利用一種人工神經網路來找到這些比賽中的模式。值得特別指出的是,它學會了在任何局面下準確預測人類棋手棋路的方法。在此之上,AlphaGo的設計者們通過一次次讓它和它自身的之前版本對弈來調整和改進神經網路,逐漸提高勝率。
那麼,這種有策略網路之稱的神經網路是如何學習預測落子的呢?
(圖片來自網路)
寬泛而言,神經網路是一種非常複雜的數學模型,有大量可以被修改的參數來改變模型的行為。網路所謂的「學習」,即指計算機持續微調模型中的參數,試圖找到一種方法在比賽中做出相應的微小改進。在學習的第一階段,網路試圖增加與人類棋手相同落子的概率。在第二階段,它試圖增加在與自己的對弈中獲勝的概率。這聽起來像是一個瘋狂的策略——反覆對一些非常複雜的功能進行細微的調整。但是如果這樣做的時間夠長,有足夠的計算能力,網路就會變得非常強大。這裡就有怪事出現了:沒有人真正理解神經網路變強背後的原因,因為這些改進是由數十億次自動微調造成的。
這兩個訓練階段過後,策略網路就可以正兒八經地下圍棋了,和人類業餘愛好者的水平不相上下,但跟專業水平還有很大差距。從某種意義上說,這是一種不通過搜索未下的棋子而評估最終棋局分值的方法。要想高於業餘水平,AlphaGo需要一種方法來估算這些局面的分值。
為了克服這一障礙,開發者們的核心思想是讓AlphaGo利用策略網路與自身對弈,從而估算棋局最終的勝算有多大。有可能給定板位置是正確的。獲勝的可能性為棋局提供了粗略的估值。隨後,AlphaGo通過下儘可能多的棋路將此估值方法與搜索相結合,使搜索向策略網路認為可行的棋路上傾斜,然後選擇最有效率的落子。
從這裡我們可以看出,與「深藍」學習國際象棋不同,AlphaGo不是通過先學習海量的圍棋知識來建立評估系統的。反之,通過分析眾多的現有棋局和自我對弈,AlphaGo憑藉無數的細微調整創造了一種策略網路,每個細微調整隻是為了做出漸進的微小改進。這就為AlphaGo建立起了一個估值系統,與優秀棋手評估不同局面時的直覺非常近似。
基於此,AlphaGo遠比「深藍」更激進。
從誕生之日起,計算機就被用來尋找優化已知功能的方法。深藍的搜索方法雖然很聰明,但和許多60年代的程序並無本質區別。AlphaGo的搜索方式雖然更聰明,但採用的也是搜索—優化這種思路。創新之處在於,前期它利用了神經網路來學到了辨識有利局面的「感覺」。前後階段的結合才讓AlphaGo如此神通廣大。
複製直覺模式識別的能力是一個大問題。這也是更廣泛趨勢的一部分。根據早先的一篇論文,AlphaGo的生身父母DeepMind建立了一個神經網路,令其學會了49個經典的雅達利2600視頻遊戲,並達到了許多人類專家難以望其項背的水平。用計算機解決這個問題的保守方法是「深藍」的那種方式:一個人類程序員會分析每一個遊戲,並想出詳細的控制策略來玩它。
與此形成對照的是,DeepMind的神經網路只是廣泛探索各種玩法。期初,它玩得非常糟,磕磕絆絆,正如人類的新手玩家一樣。但偶爾,網路也會碰巧聰明一把。它學會了辨識什麼才是好的遊戲形式——即能得高分的套路,這和AlphaGo學圍棋是一樣的。當這種情況出現時,網路便強化這種行為,逐漸提高遊戲能力。
這種神經網路對直覺和模式識別的能力在其他環境中也在被使用。2015年,Leon Gatys、Alexander Ecker和Matthias Bethge發布了一篇論文,描述神經網路學習某種藝術風格,再將其應用在其他圖像上的方法。思路非常簡單:該網路暴露在大量的圖像中,並獲得識別相似風格圖像的能力。然後,它可以將該風格信息應用到新的圖像中。例如,下面說明了將梵高的藝術風格應用在一張埃菲爾鐵塔照片上的情形。
成品算不上多麼偉大的藝術品,但仍不失為利用神經網路捕捉直覺並應用在別處的一個傑出範例。
在過去的幾年中,神經網路被用來捕捉直覺和識別許多領域中的模式。許多使用這些網路的項目都是視覺化的,涉及到識別藝術風格或開發好的視頻遊戲策略等任務。但在一些驚人的例子中,網路在一些非常不同的領域中模擬直覺,包括音頻和自然語言。
鑒於這種多樣性,我認為AlphaGo本身不是一個革命性的突破,而是代表了一種極其重要的發展的前沿:建立可以捕捉直覺和學會識別模式的系統的能力。幾十年來,計算機科學家一直試圖做到這一點,但沒有取得多大進展。但現在,神經網路的成功有可能極大地擴大我們可以使用計算機解決問題的範疇。
在這一點上,我們相當有理由歡呼慶祝,並宣布通用人工智慧一定會在近年內成為現實。但這裡有一處誤區:我們把許多不同的心理活動集中在一起,稱之為「直覺」。神經網路可以很好地捕捉到某些特定類型的直覺,但這並不意味著它們也可以勝任其他類型的工作。或許神經網路在我們目前認為需要直覺的某些任務中根本就起不到什麼好作用。
事實上,我們對神經網路現有的理解是很差的。例如,2014年的一篇論文描述了一些可以用來欺騙神經網路的「對抗性例子」。作者用一個極其擅長識別圖像的神經網路開始了他們的研究。這似乎是利用神經網路捕捉模式識別能力的經典之作。但他們所展現的卻是可以通過細微的方式改變圖像來愚弄神經網路。例如,下面的圖像中,網路分類左邊的圖是正確的,但如中間的圖所示,當研究人員添加了一些微小擾動形成右圖後,網路卻對明顯無法區分的右圖進行了錯誤的分類。
現有系統的另一個限制是,它們常常需要許多人類實例來學習。例如,AlphaGo從15萬場人類的比賽中進行學習。這是何等的天文數字!相比之下,人類可以從少得多的遊戲中學到很多東西。類似地,識別和操作圖像的網路通常需要數以百萬計的示例圖像來進行學習,每個圖像都帶有關於圖像類型的信息。因此,一個重要的挑戰是使系統更好地從較少的人為提供的數據和較少的輔助信息中學習。
話雖如此,AlphaGo這樣的系統仍然是的的確確激動人心的。我們已經學會使用計算機系統重現至少一部分人類直覺的形式。現在,我們面臨著許多挑戰:擴大我們能代表的直覺類型的範圍,使系統穩定,理解它們為什麼和如何工作,並通過更好的手段將它們與現有的計算機系統優勢結合起來。也許我們不久就能學會捕捉一些諸如數學證明或者故事創作的直覺判斷。對人工智慧而言,這是一個前景無限廣闊的時代。
文章來源:Quanta Magazine
文章作者:Michael Nielsen


TAG:未來論壇 |
※想當AlphaGo的 Open AI,玩刀塔時為何又慘敗給人類了?
※AlphaGo Zero代碼遲遲不開源,TF等不及自己推了一個
※實現通用人工智慧還要多久?Hinton與AlphaGo之父這樣回答
※詳解AlphaGo到AlphaGo Zero!
※人工智慧AlphaGo Zero是一個突破,那它呢?
※馬庫斯再談AlphaGo Zero不是從零開始,AGI可能需要這十大先天機制
※如何評價 AlphaGo Zero?
※與前輩Alphago相比,openAI現在還只是個弟弟
※AlphaGo在哪裡:如何看「史上最令人恐懼的思想實驗」?
※你比AlphaGo聰明不知多少倍
※為什麼AlphaGo會掀起AI浪潮
※AlphaGo之父DeepMind再出神作,PrediNet原理詳解
※AlphaGo「兄弟」AlphaFold出世,DeepMind再創記錄
※AlphaGo後再出神作!DeepMind打造AlphaFold擊敗人類,精度碾壓人類專家!
※Tomaso Poggio解析下個「AlphaGo」線索,再談「深度學習鍊金術」
※AlphaGo Zero又上《Science》封面!谷歌的人工智慧又干翻人類了!
※AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
※最小化類 AlphaGo Zero 引擎——Nochi
※遊戲 AI 進化史,能阻止 AlphaGo 的或許只有狼人殺了
※AlphaGo 們都應該玩玩《我的世界》