當前位置:
首頁 > 新聞 > AlphaGo這隻小狗狗,怎麼就成了「阿老師」

AlphaGo這隻小狗狗,怎麼就成了「阿老師」

這是一篇寫給你姥姥的科普貼。

AlphaGo打敗李世乭的時候,柯潔說「它贏不了我」;

AlphaGo贏了柯潔的時候,他說AlphaGo進步的速度太快,自己還是想跟人類下棋

態度巨變背後,柯潔只是從19歲到了20歲,小狗狗卻已在不斷的訓練中變得愈發兇猛。

柯潔與AlphaGo的對陣現場(圖源:The New York Times)

一方面,小狗狗自己一直在不斷學習和訓練,讓腦子變得越來越聰明。另一方面呢,狗爹DeepMind還給小狗狗投餵了新硬體,讓它身體倍兒棒、腦子能轉得快點兒。

「小狗狗」的修仙之路

一開始,狗爹DeepMind教了小狗狗兩樣武器:策略網路(Policy Network)和價值網路(Value Network)

策略網路是要讓小狗狗知道,下一個棋子最可能落在哪些位置

畢竟圍棋棋盤這麼大,一共19*19個點,每個點上又有白子、黑子和無子三種可能性,整個決策過程會出現的可能性是炸裂型的

GIF/152K

如果小狗狗真的每一步棋都把情況都算盡,按它腦子現在的運算速度,不只會把對面的柯潔熬成一個老柯,也得把自己活活耗成一條老狗

所以,需要縮小計算範圍,那些不太可能出現的情況咱就先不管了。

學習方法嘛,第一步可以算是「題海戰術」——給小狗狗投喂大量人類頂級棋手的棋譜數據,讓它記住最經常出現的套路。

(圖源:The Atlantic)

價值網路可以幫助小狗狗判斷的是:按照策略網路里會出現的那些可能性棋子落在特定位置的勝率會怎麼樣。

根據策略網路能算出來的可能性,小狗狗還可以用同樣的方法,更深入地預測接下來可能會發生的走棋。小狗狗不會真的把所有可能性算完,而是舉出下一步棋的幾種主要可能,再算出來它們在後續各種可能性中的平均勝率。

但是,如果策略網路算漏了幾種厲害的棋可怎麼辦?小狗狗眉頭一皺,打算在已經原本想放棄的可能性中,儘可能地多挑幾個都算一下試試。

蒙特卡洛樹搜索的步驟(圖源:wiki)

最後,小狗狗會所有的結果放在一起比較,來決定到底要聽誰的。

小狗狗也會找機會跟人類高手(比如李世乭)互相毆打。切磋之後,狗爹DeepMind會帶著小狗狗回倫敦老家,研究這次比賽的數據,繼續閉關修鍊。

「阿老師」的重現江湖

有一天,武林上突然出現一位自稱Master(大師)的人物,通過網路嗷嗷跟人類頂級玩家過招,且從來沒有輸過。

事後大家才知道,它就是小狗狗。不過,據狗爹DeepMind講,小狗狗進化成阿老師啦,以前三個月的事兒,現在他們一星期就可以搞定!

DeepMind創始人哈薩比斯(Demis Dassabis)

阿老師真身跟柯潔對弈的第二天,DeepMind就介紹了如今阿老師的功力。簡單說就是:阿老師可以讓小狗狗3個子兒。

從大腦發育程度上講,小狗狗只有12層神經網路,而成年後的阿老師已經有40層了。無敵太寂寞,阿老師已經開始減少對人類棋譜的依賴,更多地依靠深度學習、自我對弈來修行了。

阿老師聰慧起來,演算法也就更高效。所以,阿老師需要進行的運算量,只是勤勞但是笨拙的小狗狗的十分之一。小狗狗需要耗用50個TPU(可以理解成一種提升腦力運算速度的高級狗糧),阿老師在單個TPU機器上就可以戰鬥。

阿老師的自我修行,也給它積累了最好的訓練數據。阿老師勤勞分析自己跟自己打架之後的每一地雞毛,通過各種復盤和回想,逼著自己找出最關鍵的那步棋。

「狗爹」的星辰大海

對阿老師的爸爸DeepMind來講,跟人類玩家的戰局只是訓練決策的一種遊戲而已。

狗爹的目標,可是大海星辰呀。在解決圍棋問題的過程中,阿老師要利用策略網路來減少搜索的寬度,再利用價值網路減少搜索的深度。讓阿老師下圍棋,只是為了訓練它深度學習、強化學習的能力,最終化身通用智能,實現人機合作,走上狗生巔峰。

決策網路和價值網路

讓人類跟阿老師互相毆打,是為了讓兩邊熟悉一下彼此,更方便合作。狗爹打比方說,阿老師其實是新的哈勃望遠鏡,就像人類以前可以用哈勃望遠鏡探索宇宙,現在也可以藉助阿老師來發現新的知識。

「我不在意誰下贏圍棋!」狗爹講,「因為最終的勝利屬於全人類。」

關注PingWest品玩

(微信號:wepingwest)

發現更多有趣好玩的內容

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 狗狗 的精彩文章:

夜晚男生宿舍闖進來只狗狗,緊跟著一群女生進來了,這可炸開了鍋
狗狗們模仿海豹賣萌,一個比一個像,居然還有表情帝doge
狗狗陪伴孤獨老人5年,家人接走老人,狗狗緊追不放
陪伴才是最長情的告白,這是狗狗做的最好的一件事!

TAG:狗狗 |

您可能感興趣

人工智慧AlphaGo Zero是一個突破,那它呢?
馬庫斯再談AlphaGo Zero不是從零開始,AGI可能需要這十大先天機制
想當AlphaGo的 Open AI,玩刀塔時為何又慘敗給人類了?
詳解AlphaGo到AlphaGo Zero!
為什麼AlphaGo會掀起AI浪潮
AlphaGo「兄弟」AlphaFold出世,DeepMind再創記錄
AlphaGo後再出神作!DeepMind打造AlphaFold擊敗人類,精度碾壓人類專家!
實現通用人工智慧還要多久?Hinton與AlphaGo之父這樣回答
最小化類 AlphaGo Zero 引擎——Nochi
如何評價 AlphaGo Zero?
圍棋AI哪家強:AlphaGo已成傳說 絕藝迎頭趕上
AlphaGo Zero代碼遲遲不開源,TF等不及自己推了一個
AlphaGo之父DeepMind再出神作,PrediNet原理詳解
生物界「AlphaGo」來了!蛋白結構預測AlphaFold大勝傳統人類模型
與前輩Alphago相比,openAI現在還只是個弟弟
AlphaGo Zero又上《Science》封面!谷歌的人工智慧又干翻人類了!
AlphaGo 們都應該玩玩《我的世界》
遊戲AI是什麼?從AlphaGo到MOBA遊戲開發探索
AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
Tomaso Poggio解析下個「AlphaGo」線索,再談「深度學習鍊金術」