當前位置:
首頁 > 科技 > 0:2!柯潔主動投子認輸,但這卻是至今最完美的一場比賽

0:2!柯潔主動投子認輸,但這卻是至今最完美的一場比賽

「我聽過AlphaGo很多傳聞哈,第一步棋黑子的勝率為45%,白子的勝率為55%。所以我想在最後一天的比賽中仍然執白棋。」

文 | 宇多田

在這場三番棋比賽第二局進行到下午1點37分時,柯潔主動投子認輸,台下觀眾一臉懵逼還沒有反應過來(因為提前昨天很多時間),AlphaGo提前昨天近一個小時在中盤戰勝柯潔。

這也基本意味著,這場三番棋大戰以柯潔的認輸而告終,不過27號將是柯潔有機會扳回一局的最後一戰。

比賽結果

在這次比賽中,圍棋國手古力、張璇(曾獲得過中國冠軍)、劉菁、周睿羊擔當開局時段的解說員。古力認為,在特別難判斷的盤面上,AlphaGo比我們要思考地更加準確,也就是說從一步看未來幾十步的「本事」。

從開局來看,柯潔想把時間多用在對布局的策略方面,而且在前十手時打的一直非常不錯,盤面很穩,而且被預測贏面很大。柯潔甚至預料到AlphaGo多步棋的下子位置。

而反觀AlphaGo,古力認為其開局表現跟人類無異,每一步下的都很平常,甚至很多步都被他預測到。

但是我們需要清楚,在前天進行的第一場比賽時,柯潔一開始的勝率其實也是非常高的,但越往後,AlphaGo的勝率就逐漸慢慢提高了。

比較有意思的是,從一開局柯潔二手點了三三後,AlphaGo又在左下角下了「三三」。這個位置很令人驚訝,因為古力解釋一般棋手為了遵循禮儀都會下在左上角。而哈克比斯在賽後這樣解釋:

「對於AlphaGo來說,它根本分不清什麼是左上角和右下角,在它眼裡這些都一樣。」

一開始,比賽的賽時也沒有像昨天那樣被拉開,對弈雙方的時間差也一直維持在十幾分鐘左右。但隨著戰局的推進,柯潔扯頭髮的次數越來越多(頭髮越來越亂),面部的表情也越來越焦慮。

最終,讓所有人都沒有想到的是,開局2個多小時後,局面出現反轉,柯潔變得力不從心,然後突然在下午1點37分主動投子認輸,AlohaGo在中盤執黑子贏得勝利!隨後進行了復盤。

在整個比賽過程中,古力曾著重分析了AlphaGo的厲害之處:

在判斷大局的方面真的非常厲害,也就是在所謂的「虛著」(類似於聲東擊西,在圍棋中很多時候都需要聲東擊西才能擺脫困境或者是翻盤)上更勝一籌。你看那些稀疏的地方我可能真的判斷不好。

通俗來講,就是在棋子比較密布的某一區塊上面,我們誰能猜到AlphaGo的落子結果;但在盤面比較虛的地方,例如棋子稀疏的下方(如圖),我們根本無法猜到。而AlphaGo就是在這種情況下,不知不覺地積累優勢。

右上角是密集處。而在下方稀疏的地方,虛著的盤面很難判斷

其實,早在AlphaGo與柯潔未開賽前,我們曾經提出一個腦洞大開的問題:AlphaGo會不會故意輸給柯潔?

這個命題可以設定為存在兩種情況:

根據柯潔的現場表現,譬如AlphaGo是否真的可以通過識別他的手速、手部動作、面部表情甚至情緒來決定是否輸給柯潔。

AlphaGo的運算能力已經強大到不僅單純追求「贏」,而是控制勝率的差距。譬如以微弱的優勢打敗柯潔,或者以半目之差輸給柯潔。

第一個猜測被DeepMind創始人Demis以一個玩笑否認了:

這個建議太好了,看來我們以後也應該為AlphaGo安裝一些感測器與攝像頭。你要知道,AlphaGo一定是會有弱點的。而柯潔據說也通過分析AlphaGo掌握了一些它的套路,兩位選手是勢均力敵的。

而第二個猜測,的確是DeepMind持續提升AlphaGo能力的一個方向,但從目前來說,AlphaGo還做不到。

在在昨天的人工智慧閉門大會上,DeepMind首席科學家Davis Silver已經非常清晰地解釋了這個新一代AlphaGo的過人之處:

第2代「深度強化學習系統」AlphaGo Fan(共4代)共有12層卷積神經網路,而第4代AlphaGo(也就是與柯潔比賽的這一代)通過進行「自我學習」(監督學習與強化學習)已經訓練出了40層神經網路(由策略網路與神經網路組成)。

在整個學習過程中,系統要對棋局進行圖像掃描,分成無數個小塊依次進行處理,最終構成整個全局觀。具體來說,它可以近乎準確地判斷棋盤上現有的棋子能給周圍區域帶來多大的影響力。

這個「全局觀」,就是AlphaGo與人類最不一樣的地方,也是古力在解說時特意強調的AlphaGo具備的一個能力:

策略網路,就是讓AlphaGo先自己跟自己比,下個幾萬場,目的就是要「走對子」,選擇最好的一步走,判斷哪個策略最有效。

而在這個步驟結束後,繼而形成價值網路,用來負責估算勝率。「策略網路」能夠對所有落子位置進行概率分布,然後再將這些估算出的信息投入到蒙特卡羅搜索樹中,推算出勝率最高的一些演算法。

換句話說,就是每走出一步,價值網路就是通過這樣的函數來預測未來的輸贏,而不是靜態地去考慮這步棋。

兩者一前一後,就形成了AlphaGo的殺手鐧——「在最後結果為『贏』的前提下,去選擇每一步最可行的路徑」。

這也能解釋為何AlphaGo在去年與李世石三番棋的第二局比賽中,狗的第37子被稱為「牽一髮而動全身」的一步棋。在賽後復盤後,人類棋手才發現這步棋完全決定了後面50步棋的下法。

照這樣來看,層數越來越多的神經網路決定了AlphaGo學習的深度正在越來越大,這就相當於AlphaGo不管是在思考每一步策略,還是在判斷勝率的精準度上都有了很大的提高。

但如果要故意「輸給柯潔」,不僅需要AlphaGo的自我學習能力,還需要獲得柯潔這位棋手足夠多的數據,因為獲得固定的勝率需要他去「揣摩」柯潔的直覺。

從理論上來說,如果AlphaGo能通過自我學習來掌握柯潔足夠多的數據,是有可能控制勝率的(幾率會更高)。

賽後發布會

而這個決定三番棋勝局的關鍵第二場比賽,柯潔的主動投子認輸,雖然讓我們再次見識到了AlphaGo的厲害之處,但柯潔的表現也十分驚艷。

在賽後的發布會上,DeepMind聯合創始人兼CEO哈克比斯先生給了柯潔的開局表現一個極高的評價。他認為柯潔與AlphaGo的前15手,甚至在前100手的對弈中幾乎是勢均力敵的。

在前100步棋之前,哈克比斯就興奮地發了一條Twitter稱讚柯潔的高水平打法:

在第一盤到達「官子」的時候,AlphaGo讓自己獲勝的概率達到最大化,因此它要放棄一些點,其主要目的就是贏得比賽。但在這一場中,特別是在前100手,兩者的差距非常小。因此,前半段雙方贏得比賽的機會都非常大。

而且,這是AlphaGo打了這麼多比賽以來,我覺得最勢均力敵的一場比賽,柯潔的前半段表現真的十分完美。我發的Twtter也是這個意思,非常敬佩柯潔先生,他真的非常了不起」

哈克比斯的Twitter

柯潔賽後的心情雖然看起來還不錯,他認為自己的對決很棒,甚至一度以為自己接近了勝利,能戰勝Alphago:

在中途時我以為自己離勝利很接近了,我難道快接近勝利了嗎? 因此我才有了按心的動作。因為太緊張,後面又下了一些不好的棋。這一點我覺得有點遺憾。

但我認為自己發揮的挺好,我不認為我布局有什麼差的地方。前半段很精彩,只是後半段有一個地方就突然鬆弛了下來。

我不喜歡安樂死,之後也會好好下,但這場真的很緊張。

柯潔也在最後幽默了一把,他覺得坐在對面的黃博士沒什麼人類感,就是一個AI機器人:

黃博士在我對面,就像一個AI一樣。我想黃博士是看著AlphaGo從小長大的,因為他可能更了解AlphaGo。你們知道我比賽喜歡亂動,撓頭髮什麼的。但黃博士卻一動不動,甚至不喝水,不吃東西,真的像個機器人……我還是挺適應黃博士坐在對面的。

兩位大神的簽名(昨邊的人為哈克比斯,右邊的人為柯潔)

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 36氪 的精彩文章:

扎克伯格每天都穿的灰色T恤,原來是2300元的奢侈品牌
直播的敵人 36氪評論
孫宏斌進入樂視後,賈躍亭更難的一百天
畢業季之前,我們跟西門子首席人才官聊了聊中國職場
從社保延伸到薪酬等服務,「社保通」獲數千萬元A+輪融資

TAG:36氪 |

您可能感興趣

曼聯主帥認輸!有兩人今夏或離隊,一個不願跑,一個跑不動?
她曾被吐槽最丑的紫薇,今33歲美的不可思議,林心如看了都認輸
10後的小朋友都開始健身了,瞧這明顯的8塊腹肌,還不趕緊認輸
和這幾位星座冷戰,從來只有你認輸的份
5個「小李子」中只有一個是真的,90%的人在圖4上面認輸了!
海賊王:卡普一輩子最想打敗的4個人,遇上最後2個,他只能認輸
世錦賽0:2不敵石宇奇出局,林丹球可輸人不認輸直言這不會是他的最後一屆
火箭最強一環,逼的杜蘭特4中0投降認輸:我從沒見過這麼強的防守
3分6板!戴維斯打累了,鵜鶘也認輸了,但這個錯卻是聯盟造成的
5個小李子中只有一個是本尊,90%的人看到圖4後說:我認輸!
「不老男神」何炅林志穎蘇有朋,今遇62歲的他,全都認輸了
決定減肥後,每一天都出現幺蛾子,算,我認輸
又一豪車主動認輸了!一口氣狂降40萬,比奧迪Q5有氣場,僅18萬被人遺忘
主人讓二哈張大嘴巴才可以吃零食,結果它比划了半天,最終選擇認輸
美國認輸了!被迫做出一重大決定,中國軍迷:殲20這一仗打的漂亮
28國突然倒戈投下反對票,俄羅斯措手不及,最終也只能認輸
每年都過的端午節,你真的了解嗎?還沒看到一半我就認輸了!
血戰2018:這一次優酷與愛奇藝都不認輸
人一輩子,再苦再累不可說四種話,一說,你就是低頭認輸了
孫怡換上這雙鞋子後,怎麼凹姿勢都是10頭身,連超模看了都認輸