柯潔說：後兩場全力以赴，之後不再與AI對弈

新聞 05-24

23日14點52分，一盤圍棋在烏鎮互聯網國際會展中心收官，黑子以四分之一子輸給白子。

這是AlphaGo和柯潔的第一場正式比賽，猜先後，柯潔先手執黑，AlphaGo執白，代AlphaGo執棋的人肉臂是DeepMind資深研究員黃士傑博士。

與之前AlphaGo在網上化身Master連續60場不敗的快棋不同，這一場比賽的採用的是傳統規則，每人有3小時的時間。

在這場比賽的終盤，柯潔的剩餘時間僅13分鐘，AlphaGo的剩餘時間卻是1小時29分鐘。但最終結束時柯潔僅以1/4子小負，並不像之前許多人悲觀預測的那樣「慘敗」。

對於一場被極度關注的賽事，柯潔在比賽剛開始時的表現卻顯得比較輕鬆。

他系一條天藍色領帶，正逢烏鎮梅雨時節，這條領帶讓他看起來有一點小清新。雖然還不到20歲，但是比賽中的柯潔總讓人感覺不到他其實還是個少年。

柯潔和Alpha Go其實有一些相似之處，就是他們都很擅長學習。在第八手棋的時候，柯潔就主動「點三三」。

「三三」是吳清源的名局，今年一月AlphaGo化名Master瘋狂對戰時常用這一招式開局，現場解說的華以剛描述這種下法的時候這麼說：太神奇了，也評論不出是好棋還是壞棋，因為根本就沒見有人這麼下過。柯潔很大膽的學了這招，並反用在了AlphaGo身上。

儘管最後以很小的差距輸給了AlphaGo，柯潔還是認為AlphaGo實在是個太厲害的棋手。這一次的AlphaGo跟上一次人機大戰版本顯得特別不一樣，上一次還像點人，但這一次就完全不像了。

如果有一件事是柯潔從AlphaGo身上學到的，那就是：沒什麼棋是不能下的。

第一場比賽結束後的柯潔稍顯落寞，甚至還苦笑了一下，其實在很早的時候就知道自己要輸了。但是他說後兩場仍會全力以赴，因為這將是他和人工智慧進行的最後兩場比賽了，此後，他只和人類對弈。

為什麼是今年，AlphaGo能在現在戰勝人類？

深藍在國際象棋領域戰勝卡斯帕羅夫已經過去了20年，為什麼AlphaGo在這麼多年之後才總算能有望戰勝人類。

其中一個重要的原因是，國際象棋的所有可能性只有 10 的 46 次方，而圍棋的可能性是 10 的 170 次方之外。

在深藍獲勝20年之後計算機領域幾乎沒有停滯過的摩爾定律為AlphaGo的出現提供了算力基礎。

另一方面，人工智慧的演算法在過去的20年中也出現了變化。最典型的是從雙層神經網路進化到了多層神經網路，而在反向傳播的基礎上多層神經網路的自主學習實現了可能。

簡單來說，即便是在1997年人類就已經製作出了AlphaGo所使用的蒙特卡洛搜索演算法，我們也不足以製造出足夠能運算這一演算法的計算機。

早在1952年，計算機專家艾倫·圖靈就編寫了世界上第一個可以下國際象棋的計算機程序。但當時的計算機算力不足以支撐這個程序，圖靈用紙和筆模擬驗算，半小時下一步與同事對弈。

算力的改進為AlphaGo提供了比之前的所有AI更快的思考速度，演算法的改進則為AlphaGo提供了比之前的任何AI都更先進的思考方式。

兩者共同實現的就是讓AlphaGo能夠在正常圍棋賽的時間內，計算出下一步落子的位置。這才是讓AlphaGo能夠在今天，在此刻有可能戰勝人類的原因。

AlphaGo在這一局比賽中，剩餘的時間很長，但贏得的目數不多。AlphaGo在現有的算力上，演算法依然有改進的空間。這也許是因為之前AlphaGo都在下快棋，還沒有習慣「多思考一會兒」。

賽後舉行的發布會上，柯潔在回答提問時表示：「要讓我自己當嘉賓來點評的話，我要說AlphaGo下得很好，有很多地方值得我們棋手去學習。我也深受AlphaGo的影響，沒有什麼其實是不可以下的，可以大量去創新，開拓自己的思維，是很值得我們去學習的。」

那麼，AlphaGo是如何贏得比賽的？

AlphaGo的基礎原理在很多地方已經講過了——既然圍棋的可能性有 10 的 170 次方之多，那麼就不可能通過窮舉的辦法來預測對手的每一步行動。

但是，現實中的圍棋對弈也不需要這樣預測所有的可能，只需要綜合圍棋的一般下法、經典的棋譜、對手的下棋風格，猜出「你此刻的對手打算怎麼走」就可以剋制對方了。

按照此前的介紹，AlphaGo獲取棋局信息後，會根據策略網路（policy network）探索哪個位置同時具備高潛在價值和高可能性，進而決定最佳落子位置。

在分配的搜索時間結束時，模擬過程中被系統最頻繁考察的位置將成為 AlphaGo 的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後，AlphaGo的搜索演算法就能在其計算能力之上加入近似人類的直覺判斷。

這套價值網路能夠近乎準確地判斷出一顆棋子對周圍環境的影響力。一個棋子的價值很難衡量，但是如果能把棋盤上所有的棋子當做一個整體來考慮時，就有擁有了把控大局、把局部影響力轉換為全局優勢的能力。

正是這種全局觀讓柯潔輸得特別「沒脾氣」，柯潔說這是一種「想發力卻無處發力的無力感」。

在圍棋這種人類發明的博弈遊戲中，人工智慧有兩個先天優勢是人類所不能比擬的：

1.人工智慧可以背下所有的棋譜和看完對手的所有比賽；

2.人工智慧沒有受到正統圍棋比賽的「套路」影響，可以在下法上更加出其不意。

但是隨著AlphaGo不斷進行公開比賽，第二點優勢會逐漸喪失。柯潔在這一場比賽中展現了針對人工智慧棋手慣用下法的一些策略，實際效果不俗，讓這場比賽看起來幾乎「勢均力敵」。

而很多人注意到，這一局比賽中「AlphaGo判斷自己勝定後，在小官子階段有退讓」這並不一定是AlphaGo變得人性化了。而是AlphaGo在「學習」的過程中，連人類的這種下棋的「禮儀」也學走了。

這有可能，反而是戰勝AlphaGo的一個突破點。

成為最頂尖的圍棋高手，然後呢？

柯潔在這次三番棋後不會再和AI對弈，那AI呢？

從第一次人機大戰到第二次，AlphaGo的變化很大。

最初是學習大量的棋譜，從中尋找規律和經驗，再進入更深度的學習後，新一代的AlphaGo則逐漸擺脫人類思維，通過無數次的自我博弈進行勝率優化。棋譜的數量有限，但是通過自我博弈，AlphaGo卻能得出更多新的策略，就是常被大家認為「什麼都敢下」的棋風。

這也是為什麼AlphaGo被柯潔形容「越來越不像人」。AlphaGo最初的學習的參數是以人類棋譜為基礎，而新一版AlphaGo則增加了強化學習的比重，也就是訓練的數據大多通過自我對弈產生。如此更新迭代、循環往複，在價值判斷上的就會越來越形成自己的風格。

可以說正是千萬次的戰勝了自己，AlphaGo才能在棋盤上戰勝了柯潔一次，而柯潔就是人工智慧在棋盤上能遇到的終極敵人。

在學習方式上越來越接近人腦，這確實達到了DeepMind當初想用演算法提煉智慧的目的。

除此之外，新版AlphaGo在計算能力方面上的提升也是巨大的。DeepMind的CEO Demis Hassabis在賽後的發布會上告訴大家，目前的AlphaGo通過雲端單TPU運行，TPU是專門為機器學習而設計的處理器。與去年3月與李世石的比賽時的版本相比，這一代AlphaGo的計算能耗僅為過去的十分之一。

如果真的贏得這場比賽，AlphaGo的下一個目標會是什麼，Demis稱要把懸念留在在不久後揭曉新一代AlphaGo的時候。

但是這場三番棋才剛剛開始，AlphaGo距離自己完勝人類還要經歷25日和27日兩場。雖然大多數預測都認為反轉局勢機會渺茫，但是如果能在比賽中摸索出AlphaGo的一些套路，也許可以剩下兩場「掙扎」絕處逢生。

棋手若還能穩坐，旁人又何必多言。加油呀，代表人類的最終Boss。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 pingwest中文網 的精彩文章:

※陌陌越來越賺錢，但它還不是移動版YY
※做平台、裝平板、放衛星，共享單車的錢都燒得沒邊兒了
※金山軟體第一季度營收12.13億元凈利潤同比增長78％
※陌陌第一季度凈利潤9070萬美元，同比增長615％

TAG:pingwest中文網 |

您可能感興趣

※【AI】柯潔坦承：AI計算和判斷全都在我之上總是有無力感
※於之瑩：不想對柯潔他氣場太強柯潔：好勝負
※柯潔興奮連勝兩AI夜不能寐豪言要再次超越自我
※AI又贏了！柯潔對弈國產AI「星陣」最後中盤認輸
※柯潔：夢中才能戰勝AI 有時真不願醒來
※剛敗給AI又輸日本小將，柯潔何時才能走出迷失
※我比柯潔更勝一籌的地方在於：我下的圍棋會發光！
※范蘊若：比賽結束的很突然將要面對柯潔很興奮
※柯潔夢醒發文：夢中才能戰勝AI 有時真不願醒來
※圍棋世界冠軍柯潔，你們想知道他對未來一半的要求嗎？
※柯潔深夜發文：AI是唯一一個在棋盤上把我殺哭的啊！
※柯潔又一次輸了人機大戰：不敵國產AI 直言太無力
※LG杯8強，柯潔向第8冠邁前一步，韓國前三威脅仍在
※柯潔再負圍棋AI「星陣」：總是有無力感
※他被譽為朴廷桓的接班人，領先柯潔，絕殺時越，卻始終不敵陳耀燁
※可惜了，柯潔！
※李世石：正考慮今年隱退難贏柯潔這樣的後輩
※柯潔再次敗給人工智慧，直言在它面前自己顯得蒼白無力
※點評德韓大戰情緒過激被辱罵，柯潔：再也不談世界盃！
※柯潔輸了。在冷冰冰的機器面前，人類再次證明了自己的渺小