Andrej Karpathy:監督學習、無監督學習、人腦模擬和AGI的未來(83 PPT下載)
1新智元編譯
PPT下載:https://docs.google.com/presentation/d/119VW6ueBGLQXsw-jGMboGP2-WuOnyMAOYLgd44SL6xM/edit#slide=id.p
通用人工智慧(AGI)從何來?
「Deep Learning」這個詞的搜索熱度
技術進步的幾個關鍵時間點:
2012年:圖像識別
2010年:語音識別
2014年:機器翻譯
……
機器智能生態全景圖3.0 [Shivon Zilis]
兩個觀點:
今天的AI仍然非常「窄」
但得益於深度學習,我們能夠更快地更新解決方案
例如:AlphaGo
圍棋AI的有利屬性:
完全確定性的。遊戲中沒有噪音。
可以完全觀察的。每一個玩家都擁有完全的信息。
行動空間是不連續的。動作具有有限數量的可能性。
能夠獲得一個完美的模擬器(遊戲本身),所以每一步能取得的效果都是可以精確預測的。
每一盤棋都很短,只有大約200手。
評估是清晰、快速的,允許大量的試錯。有大量的人類棋譜數據。
參考 Karpathy 博客文章:
問題:可以把AlphaGo的方法應用在Amazon揀貨挑戰賽的機器人上嗎?
完全確定性的。遊戲中沒有噪音。——OK
可以完全觀察的。每一個玩家都擁有完全的信息。——大概OK
行動空間是不連續的。動作具有有限數量的可能性。——OK
能夠獲得一個完美的模擬器(遊戲本身),所以每一步能取得的效果都是可以精確預測的。——不好
每一盤棋都很短,只有大約200手。——難
評估是清晰、快速的,允許大量的試錯。——不好
有大量的人類棋譜數據。——難
小結
AI很熱門。
AI仍然非常窄。
AI技術在某些情況工作很好,但還可以更進一步。
假如我們能夠讓AI不再那麼「窄」,會怎樣?
一般技術的成熟度曲線 vs AI技術成熟度曲線
那麼,通用人工智慧(AGI)從何處來?
監督學習
無監督學習
AIXI(AGI的理論數學形式)
腦模擬
人工生活
雷達看不到的東西
第一部分:監督學習
監督學習:收集很多很多有標籤的數據,然後利用這些數據訓練神經網路
Amazon Mechanical Turk(亞馬遜土耳其機器人)
核心想法:從人類行為中收集數據,然後訓練一個大型網路去模擬人類
這種方法的AI:
模擬/生成類似人類的行動
這些AI有創造力嗎?——(或許有)
它們能在一個房間里擺好桌子/椅子嗎?——(能)
它們能統治人類嗎?
第二部分 無監督學習
無監督學習:大的生成模型
例如:(變分)自編碼器
另一個例子:Unsupervised Sentiment Neuron(無監督情感神經元)
想法:
在一個大型無標籤評論語料庫(Amazon網站上的評論)訓練一個大型 char-rnn 網路
一個神經元自動地「發現」一個小情感分類器(該高級特徵幫助預測下一個字元)
神經網路有強大的「大腦狀態」
那麼,這樣的AI能夠接管世界嗎?——(不)
第三部分:AIXI
AIXI:
應用於通用人工智慧的演算法信息理論。(Marcus Hutter)
「通用智能」的正式定義。(Shane Legg)
圖靈機假設空間的貝葉斯強化學習智能體。
AIXI 表達式
super intelligent agent 的定義
MC-AIXI agent loop
這些AI是怎樣的?
我們需要給它一個獎勵信號。這個獎勵可能很難寫下來,可能導致「反常實例化」(perverse instantiation)。
或許人類可能說要給獎勵,但它的行為可能沒有被人類覺察到。
計算上非常困難,而且人類不擅長寫複雜的代碼。(例如,「AIXI approximation」)
這個智能體相當可怕,絕對是有「智能」的。
第四部分:人腦模擬
如何測量一個完整的大腦狀態?
抽象的級別?
如何模擬動態?
如何模擬進入感官的「環境」?
各種倫理上的難題
第五部分:Artificial Life
自然智能從何而來?
結論:我們需要創造激勵新的認知工具的環境
多智能體環境的益處:
多樣性——環境有它的智能體參數化,因此最佳策略必須是動態推導的
自然設置——環境的難度取決於其他智能體的能力
點擊閱讀原文可查看職位詳情,期待你的加入~
※DeepMind最新Nature論文:探索人類行為中的強化學習機制
※「DeepMind最新Nature论文」探索人类行为中的强化学习机制
※AI瑞文智力測驗超美國人平均IQ,計算模型用類比推理解決視覺問題
※「實戰」GAN網路圖像翻譯機:圖像復原、模糊變清晰、素描變彩圖
TAG:新智元 |