當前位置:
首頁 > 知識 > 如何戰勝阿爾法圍棋?兩條路:黑客和棋道

如何戰勝阿爾法圍棋?兩條路:黑客和棋道

如何戰勝阿爾法圍棋?兩條路:黑客和棋道



文章來源:微博 metameta

■知己知彼,可黑可道。在這個後六十連勝的時代,來聊聊怎麼樣才可能贏master版的阿狗。


A-阿狗的機制


要講黑道先得了解一下alpha go的基本運行機制。它一共有四個大模塊1.MCTS,2。快速展開網路,3。走子網路,4,估值網路。名詞聽著很陌生,其實不難理解。快速展開網路的功能就是對一個目前棋局做快速的展開下到棋局結束,然後程序判斷是贏還是輸,這是阿狗判斷的一個依據。走子網路的功能是選下一步走在哪裡的一些可能性。走子網路有兩個選擇(其實是三個),一個是通過KGS高水平對局訓練出來的走子網路(SL),另一個是在此基礎上通過reinforcement learning訓練出來的走子網路(RL)。兩個網路結構差不多,但參數不一樣,RL是左右互搏來提高自己水平的,它有優點也有缺點,這裡不展開。價值網路的用處是估算目前局勢好不好,是基於全局輸贏的判斷。它是通過RL左右互搏幾千萬,現在可能更多,盤棋訓練出來的。MCTS是阿狗用來搜索並且確切的挑出下一手是什麼的演算法。其它網路是基礎的支撐。MCTS先挑幾個有希望的下一手,然後在這些手的基礎上再展開幾手,這樣就有一個樹形結構,到達第L層時,不再用走子網路展開搜索而是直接用快速展開網路展開到底。這樣就把一次模擬做完,這樣重複很多次,MCTS可以通過自己的演算法挑一個最好的下法,然後落子。


這麼輕描淡寫的運行機制其實是建立在巨型運算之上的,這個計算不光是對弈時的運算量,更重要的是這些網路的訓練需要耗費極大的運算量。更可貴的是程序員的智慧,因為裡面的技術小細節可以決定網路質量,繼而影響機器下棋水平。沒有這些阿狗就沒有今天,因此歸根到底,狗是人類的朋友和寵物。

這個運行機制是如何提高阿狗類人工智慧棋力的呢?deep mind的論文里告訴大家每一個模塊對勝率都有重要的影響力。比如快速走子展開網路,它的影響的可能主要是局部對殺的能力。走子網路主要提高機器的布局能力,也就是說它其實是建立在人類智慧之上的。估值網路的功效在於給機器提供一個對整盤局勢的判斷的依據,雖然MCTS選落子的時候,它不是唯一選擇。如果演算法只用它,機器棋力會下降。事實上,阿狗的演算法里控制了一個平衡:exploitation 和exploration。失去平衡的機器可能要麼特別有想像力但有時會發瘋,要麼墨守成規比較好預測。MCTS和其它模塊一起運行保障機器隨時以大局為重並且眼光深邃而且寬廣。用圍棋語言就是算路深,妙手多,大局好。


這就很好的解釋了人類高手在快棋時面臨的困境和結局。通常是在一頓拼殺後不知不覺中,master已經圍出一個蔚為壯觀的巨大空,此為大局好;或者在大家意想不到,人類的『棋理』通常不會考慮的地方,來一手或者犀利或者讓人迷惑但又不好對付的棋,此為創意多;又有時人類想要和master拼殺,但大師總是在平穩的騰挪里,面不改色的泰然處之,此為算路深。有這三個特點,快棋里人類不崩潰才應該是新聞。它簡直就是接近圍棋之神的機器。


阿狗演算法里從高層總結有幾個特點:1。汲取了人類的下棋直覺,通過走子網路來獲得;2。算路很深,主要靠MCTS和展開網路;3。時刻以大局為重,一切以贏棋為目的;4。最後,有一定的隨機和意外手段。


B-黑客戰略


然後這麼霸道,冷酷,而全面的master,肯定不是不可擊敗。即使是人類,也有希望。

前一篇 人類所欠的圍棋債 里提到,master官子一般,這是事實,但也是事出有因。訓狗時,演算法的唯一目標是輸贏,所以怎麼贏更多目數並不在它考慮範圍內。但每次都是館子虧損,也說明它的官子演算法里可能有缺陷。如果有缺陷,我覺得也是有原因的。因為官子其實需要在棋盤的多處輪流處理,次序很重要,也沒有固定的下法。它的走子網路,展開網路,還有估值網路對這個就不那麼敏感。這也造成它收官時靈活度和計算大小上不是特別準確。但這一波,人類前面落後實在大多,官子的問題沒有凸顯。但這個是人類可以利用的一個點。


第二個可以利用的點,在於人工智慧對於人類一些基本棋理的不了解。阿狗其實很少有按照預設規則下棋的時候,預設的一些小規則也是在訓練網路時用到了,其後就是不斷的算網路和統計MCTS的量了。同時,它下法上面的exploration 和exploitation的平衡註定了,在某些情形下,它會下出奇怪的應手。理解這一點,一方面是說,不要過分解讀master的神奇之處,尤其在細細研究它的棋譜之前;另一方面,我們可以制定一些戰略上的辦法來嘗試利用這個潛在可以利用的缺陷。比如,孤立的局部的戰鬥,尤其在布局階段盡量不要挑起。首先,此類對殺人類目前優勢應該不多甚至沒有,同時還得考慮全局,這對人類來講具有太高的挑戰性。其次,假設這類戰鬥有兩個比較可以接受的結果,實地或者外勢。取了外勢的機器非常懂得如何把它變成自己目數;而人類在得了外勢後經常有些不知道選取最好的點,同時機器對攻擊削減外勢貌似很有手段。因此開局時盡量留有迴旋餘地,不輕易交換也不要鎖定交換。期待的是在中盤階段多處有餘味的戰鬥,可能會讓機器的搜索程序出現盲點,如果阿狗沒有在演算法里加入自適應的控制,繼續保持它的套路,很可能在這時出現機會。目前唯一的案例,李世石-阿狗的第四局那一挖,其實就是一個例子。這是幾塊棋纏鬥之時,焦點是黑棋的兩子棋筋(G6-7)以及白棋的突圍。然後在白棋達成目標後,此處局面其實黑棋有簡單的改變攻擊方向,指向中間立著的M上的白三子並且。那麼情勢還是對白棋有利。但此時,局面碎片化,有多處黑棋需要考慮死活以及圍空,這對機器的挑戰就很大了,這種局面的人類直覺不好學,因為真的需要『理性』的思考和平衡利弊,不像開局處,統計式的算局面以及對人類直覺的統計模仿(走子網路)可以達到甚至超過人類,那這裡的真實的估值函數對於選點是極端不平滑的,選錯點會造成生死的差別,而機器正是此時出現了人類看來莫名其妙的選點。這不是機器崩潰了,而是價值函數不平滑的情況下,有很多模稜兩可的點可選,隨機性決定了它選了莫名其妙的地點。這局我凌晨看的,當時的心情異常爽快。

如何戰勝阿爾法圍棋?兩條路:黑客和棋道



李世石-阿狗第四局78手,挖

構成這個局面的其實都是些殘子的餘味,還有多處棋塊的關聯。這個是可以利用的策略指導。布局時要考慮到。這個潛在的缺陷是不是在master版里被彌補了呢?個人看法是很可能更大了。因為看完一些棋譜,master總體感覺exploration的能力,就是創意的新手,好像變強了,也就是deep mind的工程師調了參數加重了這部分網路的比重,或者RL網路訓練的樣本變大了。後者可能比較小些,因為之前的訓練表明,RL訓練出來的網路偏向保守,變化性不足。


C-棋道的研究


沒有人懂得棋理的全部,我更是不行。但是還是可以聊聊,不是嗎?


布局 布局 布局

布局階段,雖然大多務虛,卻是每個子的平均價值影響力最大的時期。這一點說來並不難懂,但實戰時,貌似很多棋手都會暫時性的忽略。所以實際看來,這個簡單的真理,目前強調的還不夠。但這點特別重要,值得換一個說法,再來講一遍。布局的每一步必須考慮全局價值,而且很有可能一手錯而成全盤恨。這點在大家的下棋哲學相近時,問題不突出,大家都在定式和研究局部變化時,忽略的問題也不突出。而遇到master這樣天生考慮全局的對手時,我們最牛的職業棋手,布局階段大多落後相當多。


這個就要提到聶老了,他的前五十號稱天下第一,並且一貫重視大局觀,也一直在佈道。是真的智慧,再強調都不為過!


了解了這點,我就要提很多問題,比如定式的運用。就如前面一篇里寫的,我們世代研究出來的一些定式是布局階段的基礎。然而這些定式中的很多,就不說全部了,應該是隨著情況而採取的,並不是一成不變的。這裡舉一個例子,是master測試版對日本的deepzen在KGS的第三局,master在天元旁邊踏空連下兩子以示讓zen一把。然後棋局到了下圖。

如何戰勝阿爾法圍棋?兩條路:黑客和棋道



Zen和GodMoves(應該是master的測試版),master開局在中央下了兩子,表示讓一下Zen


GodMoves(也就是master測試版)接下來怎麼下呢?一般定式或者傳統智慧告訴我們,此時我們可以對白B6施加壓力,把根基立穩同時獲得實地,交換走的是白棋在左邊安心做活。斷然不能讓白棋在D9搬過來破壞黑大勢。而黑卻飛了一手在C14。簡單幾手之後局面如下。

如何戰勝阿爾法圍棋?兩條路:黑客和棋道



黑棋充分利用了下面的子構築出來巨大的勢力。左邊安穩,中間二子也被利用到了,白苦苦逃亡,沒有圍出空來。局面天翻地覆。這一幕在六十連勝里也常常發生。和master下時,必須牢記這一點,它的效率極高,布局階段不能隨意棄子或者讓它圍出大空來,它孤立局部的手段很好,一旦圍空,很難有效傾銷或者成功打入。


所以棋理是什麼?我想棋理應該是靈活的,需要考慮全局。棋理不是定式,定式大多是很精巧的局部經驗,但需要隨著局面的子力配置靈活改變。我看了一些棋手對局後的評價,很多時候,我們的棋手研究還是著眼於局部的手段上,擺變化,這些變化固然有意思,也很重要,但如果沒有把全局考慮進去,這樣擺的變化很可能理真理不近。


這個簡單道理在布局階段尤其重要,而從棋道上講,人類要暫時戰勝機器最有效的研究可能就是在布局階段的研究上。我們憑藉特有的直覺,需要研究master布局的特點,並且提出更好的布局方案來。這個可能性是很大的。理由有兩點,第一,master本身就給我們演示了新布局的可能。第二,開局的自由度極大,master所依賴的直覺訓練大多來自人類的過去對局。所以第一要義就是布局布局布局。


改變 改變 改變


master老師教我們下棋之後,我們看到了master展示的原來人類認識中的圍棋盲點。棋手們需要接受它。這就比如大航海時代或者大探索時代,誰先接受和承認事實,誰就可以在這個大變革的時代取得先機。master的具體一手棋是不是真的很好,這不一定也不應該是我們需要思考的。需要改變的是我們對於下棋的保守理解。人人知道圍棋的變換無窮,卻少有人有膽識有魄力去真的投入到改變和創意里去。


神之一手,妙手……還是太少!我們需要去尋找它們,改進固有思路,主動改變思考的模式,可能是達到彼岸最重要的先決條件之一。希望人類的棋手們擺棋時不再僅僅滿足於在局部的美妙變化。


這些要求都很高,因為棋手們需要考慮額外的可能性。但當我們形成習慣去做這件事,我們大腦可以很快獲得直覺,這方面大腦的效率比機器要高的多。而我們也只有憑藉這種新直覺的產生來再次贏得對機器的勝利。


D-人機大戰規則如何定?


什麼樣的規則才是合理的?人腦考慮一個局面的時間-效果比應該是有一個飽和過程的,最初的幾秒甚至一分鐘可能帶來的效果增長很快,到了後面思考的得利越來越小。而機器不一樣,它的演算法決定了,它的時-效幾乎是線性的。所以人機所得的時間是不是考慮有所差別?


機器的演算法建立在大量人類對局的智慧之上,並且做了改進,加上自己的運算優勢,同時還有創新的能力,而我們人類棋手對機器的『智慧』了解太少。這是一個巨大的不對稱。人機大戰是不是考慮允許熱身賽。柯潔或者其他人類代表應該被公平的給予一定量的對局機會,這樣對於雙方都公平,尤其人類。


啰嗦的寫了很多,不是圍棋人工智慧的專家,也不是圍棋的高手,所以難免錯誤不少。僅供娛樂,有時可以參考。

您的贊是小編持續努力的最大動力,動動手指贊一下吧!


本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊下面的「搶先收到最新資訊」瀏覽吧!



請您繼續閱讀更多來自 掌上資訊 的精彩文章:

英國杜絕食物浪費刻不容緩 家庭浪費最為嚴重
反正買不起房,不如住個有意思的地方
周公解夢:做夢夢到很多蛇
倒計時1個月!用氣球裝飾不一樣的聖誕

TAG:掌上資訊 |

您可能感興趣

阿爾法狗3:0戰勝柯潔後宣布退役,該如何評價阿爾法圍棋?
馬克龍能戰勝「黑客」,希拉里為何不行?
烏鎮圍棋人機大戰:阿法狗戰勝率超柯潔
揭秘:赤壁之戰,假如曹操戰勝將會如何?
昂拉恩桑決意KO戰勝「黑豹」艾龍!
劉邦一介布衣是如何戰勝英雄項羽的?竟是一路無賴到底
庫里為戰勝騎士留起了鬍子?杜蘭特一句話證明庫里已更強!
《龍珠》做反派的牢記住十點,戰勝悟空貝吉塔不是夢
《海賊王》讓索隆低頭的兩個人,第二位索隆永遠無法戰勝
邊路進攻、遠射是關鍵,曼聯必須戰勝桑德蘭
西提猜戰勝科爾,一龍賽後上拳台擁抱兩人,表示:願和科爾二番戰
爐石大鏢客——酒吧前的卡組決鬥,看動物園如何戰勝青玉德!
海賊王中路飛能夠戰勝的強者,艾尼路和沙鱷魚可惜了!
曼聯客場戰勝塞爾塔 聽聽穆帥賽後怎麼說?
足總杯決賽阿森納是如何戰勝衛冕冠軍切爾西的?
俄羅斯用對抗戰勝了塞爾維亞,中國隊未來的出路在哪裡?
綠軍東部決賽能戰勝騎士嗎?詹姆斯一句話回答這個問題!
我就想知道,阿爾法狗選股票能戰勝巴菲特么?
孔令豐能否像武僧一龍一樣,二番復仇之戰勝泰拳王子播求?