AlphaGo這隻小狗狗,怎麼就成了「阿老師」?
這是一篇寫給你姥姥的科普貼。
AlphaGo打敗李世乭的時候,柯潔說「它贏不了我」;
AlphaGo贏了柯潔的時候,他說AlphaGo進步的速度太快,自己還是想跟人類下棋。
態度巨變背後,柯潔只是從19歲到了20歲,小狗狗卻已在不斷的訓練中變得愈發兇猛。
柯潔與AlphaGo的對陣現場(圖源:The New York Times)
一方面,小狗狗自己一直在不斷學習和訓練,讓腦子變得越來越聰明。另一方面呢,狗爹DeepMind還給小狗狗投餵了新硬體,讓它身體倍兒棒、腦子能轉得快點兒。
「小狗狗」的修仙之路
一開始,狗爹DeepMind教了小狗狗兩樣武器:策略網路(Policy Network)和價值網路(Value Network)。
策略網路是要讓小狗狗知道,下一個棋子最可能落在哪些位置。
畢竟圍棋棋盤這麼大,一共19*19個點,每個點上又有白子、黑子和無子三種可能性,整個決策過程會出現的可能性是炸裂型的。
GIF/633K
如果小狗狗真的每一步棋都把情況都算盡,按它腦子現在的運算速度,不只會把對面的柯潔熬成一個老柯,也得把自己活活耗成一條老狗。
所以,需要縮小計算範圍,那些不太可能出現的情況咱就先不管了。
學習方法嘛,第一步可以算是「題海戰術」——給小狗狗投喂大量人類頂級棋手的棋譜數據,讓它記住最經常出現的套路。
(圖源:The Atlantic)
價值網路可以幫助小狗狗判斷的是:按照策略網路里會出現的那些可能性,棋子落在特定位置的勝率會怎麼樣。
根據策略網路能算出來的可能性,小狗狗還可以用同樣的方法,更深入地預測接下來可能會發生的走棋。小狗狗不會真的把所有可能性算完,而是舉出下一步棋的幾種主要可能,再算出來它們在後續各種可能性中的平均勝率。
但是,如果策略網路算漏了幾種厲害的棋可怎麼辦?小狗狗眉頭一皺,打算在已經原本想放棄的可能性中,儘可能地多挑幾個都算一下試試。
蒙特卡洛樹搜索的步驟(圖源:wiki)
最後,小狗狗會所有的結果放在一起比較,來決定到底要聽誰的。
小狗狗也會找機會跟人類高手(比如李世乭)互相毆打。切磋之後,狗爹DeepMind會帶著小狗狗回倫敦老家,研究這次比賽的數據,繼續閉關修鍊。
「阿老師」的重現江湖
有一天,武林上突然出現一位自稱Master(大師)的人物,通過網路嗷嗷跟人類頂級玩家過招,且從來沒有輸過。
事後大家才知道,它就是小狗狗。不過,據狗爹DeepMind講,小狗狗進化成阿老師啦,以前三個月的事兒,現在他們一星期就可以搞定!
DeepMind創始人哈薩比斯(Demis Dassabis)
阿老師真身跟柯潔對弈的第二天,DeepMind就介紹了如今阿老師的功力。簡單說就是:阿老師可以讓小狗狗3個子兒。
從大腦發育程度上講,小狗狗只有12層神經網路,而成年後的阿老師已經有40層了。無敵太寂寞,阿老師已經開始減少對人類棋譜的依賴,更多地依靠深度學習、自我對弈來修行了。
阿老師聰慧起來,演算法也就更高效。所以,阿老師需要進行的運算量,只是勤勞但是笨拙的小狗狗的十分之一。小狗狗需要耗用50個TPU(可以理解成一種提升腦力運算速度的高級狗糧),阿老師在單個TPU機器上就可以戰鬥。
阿老師的自我修行,也給它積累了最好的訓練數據。阿老師勤勞分析自己跟自己打架之後的每一地雞毛,通過各種復盤和回想,逼著自己找出最關鍵的那步棋。
「狗爹」的星辰大海
對阿老師的爸爸DeepMind來講,跟人類玩家的戰局只是訓練決策的一種遊戲而已。
狗爹的目標,可是大海星辰呀。在解決圍棋問題的過程中,阿老師要利用策略網路來減少搜索的寬度,再利用價值網路減少搜索的深度。讓阿老師下圍棋,只是為了訓練它深度學習、強化學習的能力,最終化身通用智能,實現人機合作,走上狗生巔峰。
決策網路和價值網路
讓人類跟阿老師互相毆打,是為了讓兩邊熟悉一下彼此,更方便合作。狗爹打比方說,阿老師其實是新的哈勃望遠鏡,就像人類以前可以用哈勃望遠鏡探索宇宙,現在也可以藉助阿老師來發現新的知識。
「我不在意誰下贏圍棋!」狗爹講,「因為最終的勝利屬於全人類。」


※狗狗被人用膠帶纏嘴丟野外,居然還對人搖尾傻笑歡迎!
※別再用剩飯剩菜喂狗狗了,這幾件寵物好貨才是貴賓金毛最需要的
※寵物狗狗用品集合!家裡剛買金毛、泰迪等寵物犬的都能用上!
※這是一群十分有原則的狗狗們!
※狗狗長成了球樣,朋友都向我打聽喂什麼吃
TAG:狗狗 |
※人工智慧AlphaGo Zero是一個突破,那它呢?
※想當AlphaGo的 Open AI,玩刀塔時為何又慘敗給人類了?
※馬庫斯再談AlphaGo Zero不是從零開始,AGI可能需要這十大先天機制
※詳解AlphaGo到AlphaGo Zero!
※如何評價 AlphaGo Zero?
※實現通用人工智慧還要多久?Hinton與AlphaGo之父這樣回答
※AlphaGo後再出神作!DeepMind打造AlphaFold擊敗人類,精度碾壓人類專家!
※AlphaGo「兄弟」AlphaFold出世,DeepMind再創記錄
※為什麼AlphaGo會掀起AI浪潮
※AlphaGo Zero又上《Science》封面!谷歌的人工智慧又干翻人類了!
※圍棋AI哪家強:AlphaGo已成傳說 絕藝迎頭趕上
※最小化類 AlphaGo Zero 引擎——Nochi
※AlphaGo Zero代碼遲遲不開源,TF等不及自己推了一個
※AlphaGo之父DeepMind再出神作,PrediNet原理詳解
※與前輩Alphago相比,openAI現在還只是個弟弟
※AlphaGo理解圍棋嗎?
※生物界「AlphaGo」來了!蛋白結構預測AlphaFold大勝傳統人類模型
※AlphaGo 們都應該玩玩《我的世界》
※遊戲AI是什麼?從AlphaGo到MOBA遊戲開發探索
※AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構