人機大戰柯潔怎麼就輸了？幾分鐘看懂圍棋規則

科技 05-26

人機大戰火熱進行中。柯潔以「四分之一子」之差輸給了AlphaGo。很多人對此有點懵圈：「

這四分之一子」是什麼概念？

圍棋又是如何判定輸贏的呢？

圍棋當然不是五子棋，不過基本規則也並非天書。來看看知名微博博主「

@柴知道

」製作的一段4分鐘的科普視頻，看完就能明白個大概了。

原標題《4分鐘了解圍棋規則 | 柯潔輸給AlphaGo的「四分之一子」是什麼意思？》

視頻大小約8.9mb

前方預警，前方高能預警，前方核能預警，本文中可能出現各種各樣你看不懂其實我也不怎麼懂的專業名詞。

大家可以打開電腦，一邊百度一邊看。

昨天柯潔和阿爾法狗打完了第一局，不對，下完了第一局。最後結果以阿爾法狗獲勝收場，柯潔在下期期間也是貢獻了不少表情包。另外這位的名字是柯潔，不是何潔也不是柯藍也不是柯南。

按照Deepmind團隊的預測，與柯潔對戰的AlphaGo Master要比去年同李世石對戰的AlphaGo Lee強三個子。

三個子是什麼概念？引用柯潔的話說就是，武林高手在對決的時候，對手讓你先捅他三刀。有網友調侃說，這意味著柯潔比李世石強三個子。

李世石哭暈在廁所，躺著也中槍

無論是李世石還是柯潔，其實他們在下期的時候面對的都是幫阿爾法狗落子的黃士傑，也就是阿爾法狗的幕後推手。

為什麼不能把阿爾法狗做成一個機器人，能下棋，能和對手偶爾互動，是不是看起來更「正常」一點呢？對於機器來說，這其實一點都不簡單。

我們都知道圍棋棋盤是什麼樣子的，

棋盤上有縱橫各19條直線將棋盤分成361個交叉點，棋子走在交叉點上。這麼大的空間里，讓人類找最好的落子處需要大量的腦力和體力。但是人工智慧不需要，他們能發熱的只有CPU。人工智慧只需要用龐大的數據做製成就可以利用它飛快的運算速度來進行優化搜索。

在此我們要引出三個概念，就是

深度學習（DL）、強化學習（RL），和蒙特卡洛樹搜索（MCTS）。

深度學習，主要用來學習和建立兩個模型網路。一是評測現在的棋盤狀態如何。也就是說給當前的棋盤狀態打個分，評估一下贏的期望值，它就是價值網路（ValueNetwork）。輸入是棋盤19x19每個點的狀態，有子或無子，輸出是贏的期望值。

要是足夠聰明，那麼找一個數學家過來就可以在黑板上寫出一個公式來表達。但是人工智慧並沒有被教導這種「隨機應變」「融會貫通」的功能，所以它只能用多層的神經元網路來近似的表達這個高級函數。

二是根據現在的棋盤狀態，決定下一個棋子該如何走才能有最大的贏的概率，它就是AlphaGo的策略網路（PolicyNetwork）。也就是說，給一個19x19的棋盤狀態，所有空的落子處哪個是最佳的選擇，會有最大的贏率。

同樣我們也可以用一個函數來描述，比如輸入是當前棋盤狀態，輸出是每個落子處和它期望的贏的期望值。但這個函數還沒有一個高級的數學公式，所以，最後也求助於多層神經網路。

那麼所謂的深度學習網路是怎麼被人工智慧玩轉的呢？在這裡我們要提出另一個名詞，叫隨機梯度下降

（SGD）

。

圍棋沒有求解公式，或者說沒有一個相對簡單的求解公式，人工智慧只能求助於

迭代，隨機梯度下降迭代。簡單解釋一下，就是摸著石頭過河。人工智慧拚命的算，直到它算到一個它滿意的結果為止。這個過程周而復始，其實本身很簡單的。按我們的話來說，人工智慧用了最「笨」的方法。假設我們做選擇題時發現這個公式有四個選項，那麼最笨的方法就是把這四個選項都帶進去算一遍。這就是人工智慧風格的方法。