當前位置:
首頁 > 科技 > 人機大戰 柯潔怎麼就輸了?幾分鐘看懂圍棋規則

人機大戰 柯潔怎麼就輸了?幾分鐘看懂圍棋規則



人機大戰火熱進行中。柯潔以「四分之一子」之差輸給了AlphaGo。很多人對此有點懵圈:「


這四分之一子」是什麼概念?


圍棋又是如何判定輸贏的呢?


圍棋當然不是五子棋,不過基本規則也並非天書。來看看知名微博博主「

@柴知道

」製作的一段4分鐘的科普視頻,看完就能明白個大概了。




原標題《4分鐘了解圍棋規則 | 柯潔輸給AlphaGo的「四分之一子」是什麼意思?》


視頻大小約8.9mb






前方預警,前方高能預警,前方核能預警,本文中可能出現各種各樣你看不懂其實我也不怎麼懂的專業名詞。




大家可以打開電腦,一邊百度一邊看。


昨天柯潔和阿爾法狗打完了第一局,不對,下完了第一局。最後結果以阿爾法狗獲勝收場,柯潔在下期期間也是貢獻了不少表情包。另外這位的名字是柯潔,不是何潔也不是柯藍也不是柯南。



按照Deepmind團隊的預測,與柯潔對戰的AlphaGo Master要比去年同李世石對戰的AlphaGo Lee強三個子。


三個子是什麼概念?引用柯潔的話說就是,武林高手在對決的時候,對手讓你先捅他三刀。有網友調侃說,這意味著柯潔比李世石強三個子。



李世石哭暈在廁所,躺著也中槍



無論是李世石還是柯潔,其實他們在下期的時候面對的都是幫阿爾法狗落子的黃士傑,也就是阿爾法狗的幕後推手。


為什麼不能把阿爾法狗做成一個機器人,能下棋,能和對手偶爾互動,是不是看起來更「正常」一點呢?對於機器來說,這其實一點都不簡單。

我們都知道圍棋棋盤是什麼樣子的,

棋盤上有縱橫各19條直線將棋盤分成361個交叉點,棋子走在交叉點上。這麼大的空間里,讓人類找最好的落子處需要大量的腦力和體力。但是人工智慧不需要,他們能發熱的只有CPU。人工智慧只需要用龐大的數據做製成就可以利用它飛快的運算速度來進行優化搜索。




在此我們要引出三個概念,就是

深度學習(DL)、強化學習(RL),和蒙特卡洛樹搜索(MCTS)。


深度學習,主要用來學習和建立兩個模型網路。一是評測現在的棋盤狀態如何。也就是說給當前的棋盤狀態打個分,評估一下贏的期望值,它就是價值網路(ValueNetwork)。輸入是棋盤19x19每個點的狀態,有子或無子,輸出是贏的期望值。



要是足夠聰明,那麼找一個數學家過來就可以在黑板上寫出一個公式來表達。但是人工智慧並沒有被教導這種「隨機應變」「融會貫通」的功能,所以它只能用多層的神經元網路來近似的表達這個高級函數。


二是根據現在的棋盤狀態,決定下一個棋子該如何走才能有最大的贏的概率,它就是AlphaGo的策略網路(PolicyNetwork)。也就是說,給一個19x19的棋盤狀態,所有空的落子處哪個是最佳的選擇,會有最大的贏率。


同樣我們也可以用一個函數來描述,比如輸入是當前棋盤狀態,輸出是每個落子處和它期望的贏的期望值。但這個函數還沒有一個高級的數學公式,所以,最後也求助於多層神經網路。


那麼所謂的深度學習網路是怎麼被人工智慧玩轉的呢?在這裡我們要提出另一個名詞,叫隨機梯度下降

(SGD)



圍棋沒有求解公式,或者說沒有一個相對簡單的求解公式,人工智慧只能求助於

迭代,隨機梯度下降迭代。簡單解釋一下,就是摸著石頭過河。人工智慧拚命的算,直到它算到一個它滿意的結果為止。這個過程周而復始,其實本身很簡單的。按我們的話來說,人工智慧用了最「笨」的方法。假設我們做選擇題時發現這個公式有四個選項,那麼最笨的方法就是把這四個選項都帶進去算一遍。這就是人工智慧風格的方法。




當然,基礎數據都已經被前輩們輸入進阿爾法狗的伺服器里了,那麼龐大的數據量阿爾法狗是不可能現場進行計算的。這樣阿爾法狗在下棋的時候就可以大大減少搜索空間,把不好的落子處全部剔除掉。

那麼如果阿爾法狗當時認為不好的落子處並不一定不好的話,怎麼辦呢?這裡就是強化學習的領域,也就是

self-play。拿武俠小說的套路來說,這個叫左右手互博。說的形象點,兩台阿爾法狗對著下棋,通過深度學習的網路模型記錄下來,提高前面兩個模型網路的效果。

在強化學習的演算法中,也需要大量的迭代計算,以求得到最優的期望值,也就是達到收斂。



到這一步的時候,阿爾法狗已經可以算得上普通玩家了。但是在很多選擇沒有被選擇過的情況下,阿爾法狗如果不能保證模型預測的每一步都是最好的該怎麼辦?


最後一個名詞來了,就是

蒙特卡洛樹搜索。這是

通過隨機的對遊戲進行推演來逐漸建立一棵不對稱的搜索樹的過程。

大概可以被分成四步。選擇(Selection),拓展(Expansion),模擬(Simulation),反向傳播(Backpropagation)。



簡單的說,就是簡單粗暴的一個一個試。大家都知道挑麥穗的那個故事吧?從一塊田地的開始走到結束,挑出你認為最大的麥穗。有的版本是挑蘋果,不過差不多。

蒙特卡洛樹搜索就是從最開始拿出一束麥穗或一個蘋果,一個一個的比較到最後。那麼你挑選的次數一定是特別多的,不然你無法知道你是不是挑出了最大的那個。只是人力有限,你並不知道你挑到最後的那個是不是最大的,但是你可以保證這個絕對是相對來說很大的一個。


聽著都累吧?



但是阿爾法狗就是如此的「不知變通」,或者說無法「觸類旁通」。人類把最笨的方法教給了阿爾法狗,如果不是它算的快並且有龐大的數據做基礎,它是無法做到像今天這樣和柯潔對戰的。


這樣的阿爾法狗也許可以戰勝柯潔,也許可以問鼎星際,但是它註定寫不出

E=mc2這種公式。人類擅長的是學習遷移,而現在的人工智慧還無法做到這一點。




在比賽結束後,有網友發現王思聰居然跑到柯潔的微博上冷嘲熱諷,留下了「

喲,當時李和alphago下的時候你那囂張勁兒哪兒去了

?」這麼一句話。


一般來說,王思聰的很多觀點都會被網友們強烈支持。

但這次情況有點不太一樣了,王思聰遭到了網友的怒懟。








近期文章精選:


僅3.9萬元!微軟五大硬體國行版發布


人機大戰首盤結果出爐,AlphaGo果然還是贏了


國產世界最大兩棲飛機低速滑跑,首飛在即




商務合作 kejimeixue@163.com



喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 科技美學 的精彩文章:

網傳杭州ofo車座被插艾滋病針頭?官方回應
又一台驍龍835旗艦到來,比三星小米索尼支持更完整
魅族要和諾基亞搞在一起了?聯合發布會即將來臨
18:9超薄顯示屏?華為榮耀9 意外曝光

TAG:科技美學 |

您可能感興趣

宇宙的八大基本規則,這些規則你們都聽過嗎?
是誰這麼叛逆,帶頭打破規則?
娛樂圈真的存在「潛規則」?看完這幾張圖你就明白了范冰冰有多不容易
紋綉潛規則:看懂後 你想做眉毛就知道 選擇什麼價格了??
昆凌完全就是芭比娃娃呀!化橙色眼影穿不規則衫,好看到讓人失神
刺激戰場:一局遊戲到底有多少真人玩家?這個規則你知道了嗎?
看懂規則,這幾支奪冠熱門隊伍不可能同時打進世界盃4強
古幣玩藝術品正規交易規則,不懂就好好看一下!
據說本期極限挑戰小豬因不守規則遭罵了?這屆觀眾都不帶腦子嗎?
成龍大哥真的是娛樂圈潛規則的鼻祖嗎?看過這些你就知道了
你以為只有娛樂圈有潛規則嗎?翡翠圈也有,看完你就懂了!
游泳的人這麼多,泳池裡的交通規則你都了解嗎?
5分鐘讓你了解棒球——小白都能看得懂的規則簡述
最具爭議?其實看懂它就能讀懂好萊塢娛樂圈的規則
娛樂圈潛規則有多可怕?看看這些照片,你就知道娛樂圈的水有多深
這6種改寫戰爭規則戰機,你能猜到幾個?
都定好了規則,使者怎麼就被斬了呢?
楊紫撕碎娛樂圈「潛規則」 戲演得怎麼樣還真沒那麼重要!
不是想懟就懟!噴垃圾話也要遵守三大潛規則
規則,就是為了打破