AlphaGo這隻小狗狗，怎麼就成了「阿老師」

新聞 05-25

這是一篇寫給你姥姥的科普貼。

AlphaGo打敗李世乭的時候，柯潔說「它贏不了我」；

AlphaGo贏了柯潔的時候，他說AlphaGo進步的速度太快，自己還是想跟人類下棋。

態度巨變背後，柯潔只是從19歲到了20歲，小狗狗卻已在不斷的訓練中變得愈發兇猛。

柯潔與AlphaGo的對陣現場（圖源：The New York Times）

一方面，小狗狗自己一直在不斷學習和訓練，讓腦子變得越來越聰明。另一方面呢，狗爹DeepMind還給小狗狗投餵了新硬體，讓它身體倍兒棒、腦子能轉得快點兒。

「小狗狗」的修仙之路

一開始，狗爹DeepMind教了小狗狗兩樣武器：策略網路（Policy Network）和價值網路（Value Network）。

策略網路是要讓小狗狗知道，下一個棋子最可能落在哪些位置。

畢竟圍棋棋盤這麼大，一共19*19個點，每個點上又有白子、黑子和無子三種可能性，整個決策過程會出現的可能性是炸裂型的。

GIF/152K

如果小狗狗真的每一步棋都把情況都算盡，按它腦子現在的運算速度，不只會把對面的柯潔熬成一個老柯，也得把自己活活耗成一條老狗。

所以，需要縮小計算範圍，那些不太可能出現的情況咱就先不管了。

學習方法嘛，第一步可以算是「題海戰術」——給小狗狗投喂大量人類頂級棋手的棋譜數據，讓它記住最經常出現的套路。

（圖源：The Atlantic）

價值網路可以幫助小狗狗判斷的是：按照策略網路里會出現的那些可能性，棋子落在特定位置的勝率會怎麼樣。

根據策略網路能算出來的可能性，小狗狗還可以用同樣的方法，更深入地預測接下來可能會發生的走棋。小狗狗不會真的把所有可能性算完，而是舉出下一步棋的幾種主要可能，再算出來它們在後續各種可能性中的平均勝率。

但是，如果策略網路算漏了幾種厲害的棋可怎麼辦？小狗狗眉頭一皺，打算在已經原本想放棄的可能性中，儘可能地多挑幾個都算一下試試。

蒙特卡洛樹搜索的步驟（圖源：wiki）

最後，小狗狗會所有的結果放在一起比較，來決定到底要聽誰的。

小狗狗也會找機會跟人類高手（比如李世乭）互相毆打。切磋之後，狗爹DeepMind會帶著小狗狗回倫敦老家，研究這次比賽的數據，繼續閉關修鍊。

「阿老師」的重現江湖

有一天，武林上突然出現一位自稱Master（大師）的人物，通過網路嗷嗷跟人類頂級玩家過招，且從來沒有輸過。

事後大家才知道，它就是小狗狗。不過，據狗爹DeepMind講，小狗狗進化成阿老師啦，以前三個月的事兒，現在他們一星期就可以搞定！

DeepMind創始人哈薩比斯（Demis Dassabis）

阿老師真身跟柯潔對弈的第二天，DeepMind就介紹了如今阿老師的功力。簡單說就是：阿老師可以讓小狗狗3個子兒。

從大腦發育程度上講，小狗狗只有12層神經網路，而成年後的阿老師已經有40層了。無敵太寂寞，阿老師已經開始減少對人類棋譜的依賴，更多地依靠深度學習、自我對弈來修行了。

阿老師聰慧起來，演算法也就更高效。所以，阿老師需要進行的運算量，只是勤勞但是笨拙的小狗狗的十分之一。小狗狗需要耗用50個TPU（可以理解成一種提升腦力運算速度的高級狗糧），阿老師在單個TPU機器上就可以戰鬥。

阿老師的自我修行，也給它積累了最好的訓練數據。阿老師勤勞分析自己跟自己打架之後的每一地雞毛，通過各種復盤和回想，逼著自己找出最關鍵的那步棋。

「狗爹」的星辰大海

對阿老師的爸爸DeepMind來講，跟人類玩家的戰局只是訓練決策的一種遊戲而已。

狗爹的目標，可是大海星辰呀。在解決圍棋問題的過程中，阿老師要利用策略網路來減少搜索的寬度，再利用價值網路減少搜索的深度。讓阿老師下圍棋，只是為了訓練它深度學習、強化學習的能力，最終化身通用智能，實現人機合作，走上狗生巔峰。

決策網路和價值網路

讓人類跟阿老師互相毆打，是為了讓兩邊熟悉一下彼此，更方便合作。狗爹打比方說，阿老師其實是新的哈勃望遠鏡，就像人類以前可以用哈勃望遠鏡探索宇宙，現在也可以藉助阿老師來發現新的知識。

「我不在意誰下贏圍棋！」狗爹講，「因為最終的勝利屬於全人類。」

關注PingWest品玩

（微信號：wepingwest）

發現更多有趣好玩的內容

點擊展開全文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自狗狗的精彩文章:

您可能感興趣