當前位置:
首頁 > 科技 > 馬庫斯再談AlphaGo Zero不是從零開始,AGI可能需要這十大先天機制

馬庫斯再談AlphaGo Zero不是從零開始,AGI可能需要這十大先天機制

安妮 編譯整理

量子位 出品 | 公眾號 QbitAI

紐約大學心理學和神經科學教授馬庫斯(Gary Marcus)堅信AlphaZero仍依賴於一些人類知識,也曾在AlphaZero解讀現場這樣diss哈薩比斯。

可能覺得說得不夠,近日,馬庫斯在arXiv發布了本月第二篇長文Innateness, AlphaZero, and Artificial Intelligence,繼續論證AlphaZero「可以在沒有人類指導的情況下訓練到超過人類水平」的說法被誇大了。

「當代人工智慧論文(通常)用了一個『相當不錯的』具體結果,對更廣泛的主題做出了絕對普遍和離譜的斷言。」幾個小時前,他在推特引用了這句話,說明自己怒懟的原因。

在文章中,馬庫斯將AlphaGo、AlphaGo Zero、AlphaZero的歸結成一種「神奇的AI工程」,代號「AlphaStar」。

它是一種深層結構的混合,它不單利用深度學習人,也依賴於像樹搜索這樣的傳統符號技巧(symbolic technique)。

這到底是種怎樣的神奇工程?馬庫斯從DeepMind如何構建Alpha家族的架構開始講起,量子位將重點內容編譯整理如下。

馬庫斯

從零開始?

DeepMind在論文中說「一種純強化學習方法是可行的,即使在最具挑戰性的領域,它也能訓練到超過人類的水平,並且無需人類的案例和指導。除了基本規則外,沒有任何領域的基礎知識。」

我不贊同。

他們系統中的很多方面延續了在之前在圍棋程序上積累的研究,比如構建遊戲程序中常用的蒙特卡洛樹搜索。這種技術可以用來評估動作和對策,在樹狀結構上快速得到測試結果。

問題來了,蒙特卡洛樹這種結構不是通過強化學習從數據中學習的。相反,它在DeepMind的程序中是與生俱來的,根深蒂固地存在於每個迭代的AlphaStar。

可以發現,DeepMind給出的卷積結構很精確,有很多下圍棋的精確參數在裡面,這不是通過純碎的強化學習學到的。並且,固有演算法和知識的整合的取樣機制不在AlphaZero的實驗範圍內,這樣可能會導致模型效果變差。

與其說AlphaGo是從白板開始學習,不如說是它在構建的開始就站在了巨人的肩膀上。

完美信息博弈之外

無論是圍棋、國際象棋還是將棋,都屬於完美信息博弈。在這些遊戲中,每個玩家可以在任何時候看到已經發生或正在發生的遊戲局勢。正因如此,圍棋、國際象棋和將棋問題特別適合用大數據的方法「蠻力破解」。

問題來了,同樣的機制能解決更廣泛的問題嗎?

AlphaGo Zero的解釋中並沒有說明應用範圍,結果是否在其他挑戰中通用也沒有被提及。事實是,即使在其他棋類遊戲中,這套方法可能並不適用。

圍棋程序需要的是強模式識別和樹搜索技能,但其他遊戲需要的能力可能不是這些。文明系列的遊戲需要在不確定的交通網路中做出決策,遊戲強權外交需要形成聯盟,字謎遊戲需要語言技能等等。

還有一個例子,Moravcik等人研究的AI DeepStack能在德撲中擊敗人類對手,就需要一套相關但不同的先天結構,這無疑和完美信息的單機Atari遊戲需要的結構不同。DeepMind想同時攻克這兩種遊戲,那他需要的是一套廣泛的先天機制,而不是僅適用於單一遊戲的系統。

如何讓這套先天機制適用於完美信息博弈以外的遊戲呢?我們接著往下看。

先天機制(Innate machinery)

僅僅有強化學習和蒙特卡洛樹搜索這兩種先天機制還不夠,那麼,如果要達到通用人工智慧,我們需要怎樣的結構呢?

在去年10月5號和LeCun的論證中,我有機會總結出一套計算原語組合:

物體的表示

架構化和代數表示

基於變數的操作

type-token區別

表示集合、位置、路徑、軌跡、障礙和持久性的能力

表示物體的可視性的方法

時空鄰近(Spatiotemporal contiguity)

因果關係

平移不變性

分析成本效益的能力

具備了上述的基礎列表中的原語,可能自然就能擁有其他技能了。比如基於博弈的樹搜索可能是AlphaStar與生俱來的,但是人們可能學習如何做出分析,即使精確度差了些,但至少可以把時間、因果關係和意圖性結合在一起,具備成本效益分析的能力。

但上面列表僅僅是個初版,它應該有多長還是個未知數。這讓我想起1994年Pinker提出的一組的先天能力,裡面甚至包括了恐懼、自我概念和性吸引力。這些都有些經驗主義,但每個特徵都被認知和發展心理學、動物行為學和神經科學所支撐。

更重要的是,就目前的目的而言,這個領域確實存在一些可能的先天機制值得AI研究者去思考,簡單假設在默認情況下,包含很少或幾乎不包含先天機制就讓人滿意了,往好了說這叫保守。往壞了說,不經過思考就承諾從頭開始重新學習可能也非常愚蠢,這是將每個獨立的AI系統置於需要重新概括數百萬年來進化的初始位置。

最後,附論文鏈接:

https://arxiv.org/abs/1801.05667

加入社群

量子位AI社群13群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot5入群;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進群請加小助手微信號qbitbot5,並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

Rokid祝明銘:大腿我們不抱,人機交互產品形態未定

TAG:量子位 |