僅用3天，AlphaGo Zero就憑藉自學以100：0擊敗AlphaGo，柯潔表示人類太多餘了

最新 10-19

AlphaGo Zero3天時間就能達到擊敗李世石的AlphaGo Lee的水平，21天可以達到了之前擊敗柯潔的AlphaGo Master的水平。

今天凌晨，谷歌旗下Deepmind人工智慧團隊發布了一篇轟動AI界的論文，《Mastering the game of Go without human knowledge》（在沒有人類知識的情況下掌握圍棋），一句話總結這篇論文，他們研發的AlphaGo大表哥AlphaGo Zero能夠在沒有人類圍棋對弈數據的情況下，直接通過自我純強化學習，於短短的3天自我訓練時間後，以100:0的戰績擊敗曾經的AlphaGo。

學霸中的戰鬥機大表哥AlphaGo Zero完全靠「悟性」登上圍棋巔峰

在下面的視頻中，DeepMind研究人員簡單的介紹了新一代的AlphaGo Zero的基本原理，

DeepMind聯合創始人兼CEO Demis Hassabis表示：「AlphaGo Zero是我們項目中最強大的版本，它展示了我們在更少的計算能力，而且完全不使用人類數據的情況下可以取得如此大的進展。」

舉個簡單的例子，AlphaGo是經過大量的人工對弈數據學習和訓練才一點點登上圍棋的巔峰，它之所以能在去年打敗李世石，並且在今年以Master的身份戰勝排名世界第一的柯潔，都依賴于海量的人類對弈數據。

但是它的大表哥AlphaGo Zero是從一個完全不懂圍棋知識和規則的神經網路開始，AlphaGo Zero每天就默默的自己一個人玩，不會像我們一樣整天突擊學習各種歷史棋譜，參考前輩們的經驗知識，它完全依靠自己的悟性（自我強化學習），在這個過程中，神經網路會不斷更新、調整，來預測落子的位置，發展新的策略。

值得注意的是，AlphaGo Zero的自我訓練強化時間更短，AlphaGo Zero只需要在4個TPU上花三天時間，自己左右互搏490萬棋局。而它的大表弟AlphaGo需要在48個TPU上，花幾個月的時間，學習三千萬棋局，才能打敗人類。對於AlphaGo Zero來說，3天時間就能達到了擊敗李世石的AlphaGo Lee的水平，21天可以達到了之前擊敗柯潔的AlphaGo Master的水平。

GIF/852K

AlphaGo Zero給我們的啟發

Deepmind的論文中也公布了AlphaGo Zero的一些技術細節，現在也有不少文章分享了相關的技術原理，鎂客君簡單的整理一下，其實主要在於AlphaGo Zero有更深的網路能更有效地直接從棋盤上提取特徵。

AlphaGo Zero在自我對弈中，在每一個落點s，神經網路fθ都會進行蒙特卡洛樹（MCTS）搜索，得出每一步落子的概率π，再根據遊戲規則計算出最終的獲勝者z，這一過程可被視為一個強有力的評估策略操作。在這其中，神經網路參數不斷更新，落子概率和價值 (p,v)= fθ(s)也越來越接近改善後的搜索概率和自我對弈勝者 (π, z)，而新的參數也會被用於下一次的自我對弈來以增強搜索的結果。

更多的技術原理可以參考下面的論文：

https://deepmind.com/documents/119/agz_unformatted_nature.pdf

其實AlphaGo Zero之所以會一石激起千層浪，很大原因在於這種自我強化訓練，不需要過多人工標註樣本的自我強化訓練未來可能的應用前景。

想像一下，以後可能再也不用花費大量的時間去為人工智慧的應用或者產品做海量的數據準備工作，更何況很多情況下，數據的獲取難度也非常之大。

尤其是很多小樣本應用領域內，大量的人工標註幾乎不可能實現，比如醫療數據方面，考慮到數據隱私性，以及各個醫院之間的互通性，這些都讓海量數據獲取和訓練難上加難。

而Demis Hassabis認為AlphaGo Zero的意義在於，「我們希望利用這樣的演算法突破來幫助解決現實世界的各種緊迫問題，例如蛋白質摺疊或新材料設計。如果我們能在這些問題上取得與AlphaGo同樣的進展，就有可能推動人類理解，並對我們的生活產生積極影響。」

AlphaGo Zero的技術理論是美好的，但是我們也需要思考的是，這種僅僅依靠神經網路演算法來解決實際問題，其實際應用的範圍到底有多大以及效果如何？

人工智慧專家、美國北卡羅萊納大學夏洛特分校洪韜教授表示，早期人工智慧火了之後，被神經網路「解決」的實際問題寥寥無幾；美國密歇根大學人工智慧實驗室主任Satinder Singh也表示，人工智慧和人甚至動物相比，所知所能依然極端有限。

回顧AlphaGo成名史聊聊AlphaGo Zero的下一步

出生於2014年的AlphaGo，2015年就擊敗了樊麾，成為第一個無需讓子即可在19路棋盤上擊敗圍棋職業棋手的電腦圍棋程序。到了2016年3月，AlphaGo在和李世石的對戰中一舉成名，4:1的勝績讓它成為有史以來第一位非人類的名譽職業九段；之後升級版AlphaGo以「Master」的稱號，挑戰了中韓日台的一流高手，最終60戰全勝；2017年，AlphaGo在浙江烏鎮，和我國圍棋選手柯潔進行對戰，最終以打敗柯潔成為世界第一正式退役謝幕。

那麼對於AlphaGo Zero，大家也非常期待它會以什麼樣的身份正式亮相，鎂客君覺得可能會是這樣的情景：

今年8月的時候，DeepMind 曾公開宣布，星際爭霸 2 將會是其下一個目標。自學能力如此強的AlphaGo Zero極有可能會在星際爭霸AI中亮相。

和圍棋對弈相比，星際爭霸 AI 也是基於開發者人工編寫的規則和策略，此前的對戰中，AI會觀看海量的比賽數據，然後嘗試各種不同的策略，在反覆的訓練和學習後，從其中選出最有可能獲勝的一種。可以想像，按照AlphaGo Zero的自我強化學習能力，它完全能夠在自我博弈過程中去尋找到最佳的策略。

最後，在看到柯潔發的這條微博動態後，

一聲唏噓，在這樣的人工智慧面前，人類的學習經驗價值似乎越來越低，人類會太多餘嗎……

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 鎂客網 的精彩文章:

※耶魯研究團隊利用遍地的「硅藻」材料，提升有機太陽能電池的轉換效率
※利用微波技術，亞瑟士要為用戶打造獨一無二定製化跑鞋

TAG:鎂客網 |