當前位置:
首頁 > 新聞 > 柯潔說:後兩場全力以赴,之後不再與AI對弈

柯潔說:後兩場全力以赴,之後不再與AI對弈

23日14點52分,一盤圍棋在烏鎮互聯網國際會展中心收官,黑子以四分之一子輸給白子。

這是AlphaGo和柯潔的第一場正式比賽,猜先後,柯潔先手執黑,AlphaGo執白,代AlphaGo執棋的人肉臂是DeepMind資深研究員黃士傑博士。

與之前AlphaGo在網上化身Master連續60場不敗的快棋不同,這一場比賽的採用的是傳統規則,每人有3小時的時間。

在這場比賽的終盤,柯潔的剩餘時間僅13分鐘,AlphaGo的剩餘時間卻是1小時29分鐘。但最終結束時柯潔僅以1/4子小負,並不像之前許多人悲觀預測的那樣「慘敗」。

對於一場被極度關注的賽事,柯潔在比賽剛開始時的表現卻顯得比較輕鬆。

他系一條天藍色領帶,正逢烏鎮梅雨時節,這條領帶讓他看起來有一點小清新。雖然還不到20歲,但是比賽中的柯潔總讓人感覺不到他其實還是個少年。

柯潔和Alpha Go其實有一些相似之處,就是他們都很擅長學習。在第八手棋的時候,柯潔就主動「點三三」。

「三三」是吳清源的名局,今年一月AlphaGo化名Master瘋狂對戰時常用這一招式開局,現場解說的華以剛描述這種下法的時候這麼說:太神奇了,也評論不出是好棋還是壞棋,因為根本就沒見有人這麼下過。柯潔很大膽的學了這招,並反用在了AlphaGo身上。

儘管最後以很小的差距輸給了AlphaGo,柯潔還是認為AlphaGo實在是個太厲害的棋手。這一次的AlphaGo跟上一次人機大戰版本顯得特別不一樣,上一次還像點人,但這一次就完全不像了。

如果有一件事是柯潔從AlphaGo身上學到的,那就是:沒什麼棋是不能下的。

第一場比賽結束後的柯潔稍顯落寞,甚至還苦笑了一下,其實在很早的時候就知道自己要輸了。但是他說後兩場仍會全力以赴,因為這將是他和人工智慧進行的最後兩場比賽了,此後,他只和人類對弈。

為什麼是今年,AlphaGo能在現在戰勝人類?

深藍在國際象棋領域戰勝卡斯帕羅夫已經過去了20年,為什麼AlphaGo在這麼多年之後才總算能有望戰勝人類。

其中一個重要的原因是,國際象棋的所有可能性只有 10 的 46 次方,而圍棋的可能性是 10 的 170 次方之外。

在深藍獲勝20年之後計算機領域幾乎沒有停滯過的摩爾定律為AlphaGo的出現提供了算力基礎。

另一方面,人工智慧的演算法在過去的20年中也出現了變化。最典型的是從雙層神經網路進化到了多層神經網路,而在反向傳播的基礎上多層神經網路的自主學習實現了可能。

簡單來說,即便是在1997年人類就已經製作出了AlphaGo所使用的蒙特卡洛搜索演算法,我們也不足以製造出足夠能運算這一演算法的計算機。

早在1952年,計算機專家艾倫·圖靈就編寫了世界上第一個可以下國際象棋的計算機程序。但當時的計算機算力不足以支撐這個程序,圖靈用紙和筆模擬驗算,半小時下一步與同事對弈。

算力的改進為AlphaGo提供了比之前的所有AI更快的思考速度,演算法的改進則為AlphaGo提供了比之前的任何AI都更先進的思考方式。

兩者共同實現的就是讓AlphaGo能夠在正常圍棋賽的時間內,計算出下一步落子的位置。這才是讓AlphaGo能夠在今天,在此刻有可能戰勝人類的原因。

AlphaGo在這一局比賽中,剩餘的時間很長,但贏得的目數不多。AlphaGo在現有的算力上,演算法依然有改進的空間。這也許是因為之前AlphaGo都在下快棋,還沒有習慣「多思考一會兒」。

賽後舉行的發布會上,柯潔在回答提問時表示:「要讓我自己當嘉賓來點評的話,我要說AlphaGo下得很好,有很多地方值得我們棋手去學習。我也深受AlphaGo的影響,沒有什麼其實是不可以下的,可以大量去創新,開拓自己的思維,是很值得我們去學習的。」

那麼,AlphaGo是如何贏得比賽的?

AlphaGo的基礎原理在很多地方已經講過了——既然圍棋的可能性有 10 的 170 次方之多,那麼就不可能通過窮舉的辦法來預測對手的每一步行動。

但是,現實中的圍棋對弈也不需要這樣預測所有的可能,只需要綜合圍棋的一般下法、經典的棋譜、對手的下棋風格,猜出「你此刻的對手打算怎麼走」就可以剋制對方了。

按照此前的介紹,AlphaGo獲取棋局信息後,會根據策略網路(policy network)探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。

在分配的搜索時間結束時,模擬過程中被系統最頻繁考察的位置將成為 AlphaGo 的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後,AlphaGo的搜索演算法就能在其計算能力之上加入近似人類的直覺判斷。

這套價值網路能夠近乎準確地判斷出一顆棋子對周圍環境的影響力。一個棋子的價值很難衡量,但是如果能把棋盤上所有的棋子當做一個整體來考慮時,就有擁有了把控大局、把局部影響力轉換為全局優勢的能力。

正是這種全局觀讓柯潔輸得特別「沒脾氣」,柯潔說這是一種「想發力卻無處發力的無力感」。

在圍棋這種人類發明的博弈遊戲中,人工智慧有兩個先天優勢是人類所不能比擬的:

1.人工智慧可以背下所有的棋譜和看完對手的所有比賽;

2.人工智慧沒有受到正統圍棋比賽的「套路」影響,可以在下法上更加出其不意。

但是隨著AlphaGo不斷進行公開比賽,第二點優勢會逐漸喪失。柯潔在這一場比賽中展現了針對人工智慧棋手慣用下法的一些策略,實際效果不俗,讓這場比賽看起來幾乎「勢均力敵」。

而很多人注意到,這一局比賽中「AlphaGo判斷自己勝定後,在小官子階段有退讓」這並不一定是AlphaGo變得人性化了。而是AlphaGo在「學習」的過程中,連人類的這種下棋的「禮儀」也學走了。

這有可能,反而是戰勝AlphaGo的一個突破點。

成為最頂尖的圍棋高手,然後呢?

柯潔在這次三番棋後不會再和AI對弈,那AI呢?

從第一次人機大戰到第二次,AlphaGo的變化很大。

最初是學習大量的棋譜,從中尋找規律和經驗,再進入更深度的學習後,新一代的AlphaGo則逐漸擺脫人類思維,通過無數次的自我博弈進行勝率優化。棋譜的數量有限,但是通過自我博弈,AlphaGo卻能得出更多新的策略,就是常被大家認為「什麼都敢下」的棋風。

這也是為什麼AlphaGo被柯潔形容「越來越不像人」。AlphaGo最初的學習的參數是以人類棋譜為基礎,而新一版AlphaGo則增加了強化學習的比重,也就是訓練的數據大多通過自我對弈產生。如此更新迭代、循環往複,在價值判斷上的就會越來越形成自己的風格。

可以說正是千萬次的戰勝了自己,AlphaGo才能在棋盤上戰勝了柯潔一次,而柯潔就是人工智慧在棋盤上能遇到的終極敵人。

在學習方式上越來越接近人腦,這確實達到了DeepMind當初想用演算法提煉智慧的目的。

除此之外,新版AlphaGo在計算能力方面上的提升也是巨大的。DeepMind的CEO Demis Hassabis在賽後的發布會上告訴大家,目前的AlphaGo通過雲端單TPU運行,TPU是專門為機器學習而設計的處理器。與去年3月與李世石的比賽時的版本相比,這一代AlphaGo的計算能耗僅為過去的十分之一。

如果真的贏得這場比賽,AlphaGo的下一個目標會是什麼,Demis稱要把懸念留在在不久後揭曉新一代AlphaGo的時候。

但是這場三番棋才剛剛開始,AlphaGo距離自己完勝人類還要經歷25日和27日兩場。雖然大多數預測都認為反轉局勢機會渺茫,但是如果能在比賽中摸索出AlphaGo的一些套路,也許可以剩下兩場「掙扎」絕處逢生。

棋手若還能穩坐,旁人又何必多言。加油呀,代表人類的最終Boss。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 pingwest中文網 的精彩文章:

陌陌越來越賺錢,但它還不是移動版YY
做平台、裝平板、放衛星,共享單車的錢都燒得沒邊兒了
金山軟體第一季度營收12.13億元 凈利潤同比增長78%
陌陌第一季度凈利潤9070萬美元,同比增長615%

TAG:pingwest中文網 |

您可能感興趣

【AI】柯潔坦承:AI計算和判斷全都在我之上 總是有無力感
於之瑩:不想對柯潔他氣場太強 柯潔:好勝負
柯潔興奮連勝兩AI夜不能寐 豪言要再次超越自我
AI又贏了!柯潔對弈國產AI「星陣」最後中盤認輸
柯潔:夢中才能戰勝AI 有時真不願醒來
剛敗給AI又輸日本小將,柯潔何時才能走出迷失
我比柯潔更勝一籌的地方在於:我下的圍棋會發光!
范蘊若:比賽結束的很突然 將要面對柯潔很興奮
柯潔夢醒發文:夢中才能戰勝AI 有時真不願醒來
圍棋世界冠軍柯潔,你們想知道他對未來一半的要求嗎?
柯潔深夜發文:AI是唯一一個在棋盤上把我殺哭的啊!
柯潔又一次輸了人機大戰:不敵國產AI 直言太無力
LG杯8強,柯潔向第8冠邁前一步,韓國前三威脅仍在
柯潔再負圍棋AI「星陣」:總是有無力感
他被譽為朴廷桓的接班人,領先柯潔,絕殺時越,卻始終不敵陳耀燁
可惜了,柯潔!
李世石:正考慮今年隱退 難贏柯潔這樣的後輩
柯潔再次敗給人工智慧,直言在它面前自己顯得蒼白無力
點評德韓大戰情緒過激被辱罵,柯潔:再也不談世界盃!
柯潔輸了。在冷冰冰的機器面前,人類再次證明了自己的渺小