Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

新聞 09-05

1新智元編譯

PPT下載：https://docs.google.com/presentation/d/119VW6ueBGLQXsw-jGMboGP2-WuOnyMAOYLgd44SL6xM/edit#slide=id.p

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

通用人工智慧（AGI）從何來？

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

「Deep Learning」這個詞的搜索熱度

技術進步的幾個關鍵時間點：

2012年：圖像識別
2010年：語音識別
2014年：機器翻譯

……

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

機器智能生態全景圖3.0 [Shivon Zilis]

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

兩個觀點：

今天的AI仍然非常「窄」
但得益於深度學習，我們能夠更快地更新解決方案

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

例如：AlphaGo

圍棋AI的有利屬性：

完全確定性的。遊戲中沒有噪音。
可以完全觀察的。每一個玩家都擁有完全的信息。
行動空間是不連續的。動作具有有限數量的可能性。
能夠獲得一個完美的模擬器（遊戲本身），所以每一步能取得的效果都是可以精確預測的。
每一盤棋都很短，只有大約200手。
評估是清晰、快速的，允許大量的試錯。有大量的人類棋譜數據。

參考 Karpathy 博客文章：

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

問題：可以把AlphaGo的方法應用在Amazon揀貨挑戰賽的機器人上嗎？

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

完全確定性的。遊戲中沒有噪音。——OK
可以完全觀察的。每一個玩家都擁有完全的信息。——大概OK
行動空間是不連續的。動作具有有限數量的可能性。——OK
能夠獲得一個完美的模擬器（遊戲本身），所以每一步能取得的效果都是可以精確預測的。——不好
每一盤棋都很短，只有大約200手。——難
評估是清晰、快速的，允許大量的試錯。——不好
有大量的人類棋譜數據。——難

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

小結

AI很熱門。
AI仍然非常窄。
AI技術在某些情況工作很好，但還可以更進一步。

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

假如我們能夠讓AI不再那麼「窄」，會怎樣?

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

一般技術的成熟度曲線 vs AI技術成熟度曲線

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

那麼，通用人工智慧（AGI）從何處來？

監督學習
無監督學習
AIXI（AGI的理論數學形式）
腦模擬
人工生活
雷達看不到的東西

第一部分：監督學習

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

監督學習：收集很多很多有標籤的數據，然後利用這些數據訓練神經網路

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

Amazon Mechanical Turk（亞馬遜土耳其機器人）

核心想法：從人類行為中收集數據，然後訓練一個大型網路去模擬人類

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

這種方法的AI：

模擬/生成類似人類的行動
這些AI有創造力嗎？——（或許有）
它們能在一個房間里擺好桌子/椅子嗎？——（能）
它們能統治人類嗎？

第二部分無監督學習

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

無監督學習：大的生成模型

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

例如：（變分）自編碼器

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

另一個例子：Unsupervised Sentiment Neuron（無監督情感神經元）

想法：

在一個大型無標籤評論語料庫（Amazon網站上的評論）訓練一個大型 char-rnn 網路
一個神經元自動地「發現」一個小情感分類器（該高級特徵幫助預測下一個字元）

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

神經網路有強大的「大腦狀態」

那麼，這樣的AI能夠接管世界嗎？——（不）

第三部分：AIXI

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

AIXI：

應用於通用人工智慧的演算法信息理論。（Marcus Hutter）
「通用智能」的正式定義。（Shane Legg）
圖靈機假設空間的貝葉斯強化學習智能體。

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

AIXI 表達式

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

super intelligent agent 的定義

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

MC-AIXI agent loop

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

這些AI是怎樣的？

我們需要給它一個獎勵信號。這個獎勵可能很難寫下來，可能導致「反常實例化」（perverse instantiation）。
或許人類可能說要給獎勵，但它的行為可能沒有被人類覺察到。
計算上非常困難，而且人類不擅長寫複雜的代碼。（例如，「AIXI approximation」）
這個智能體相當可怕，絕對是有「智能」的。

第四部分：人腦模擬

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

如何測量一個完整的大腦狀態？

抽象的級別？
如何模擬動態？
如何模擬進入感官的「環境」？
各種倫理上的難題

第五部分：Artificial Life

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

自然智能從何而來？

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

結論：我們需要創造激勵新的認知工具的環境

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

多智能體環境的益處：

多樣性——環境有它的智能體參數化，因此最佳策略必須是動態推導的
自然設置——環境的難度取決於其他智能體的能力

Andrej Karpathy：監督學習、無監督學習、人腦模擬和AGI的未來（83 PPT下載）

點擊閱讀原文可查看職位詳情，期待你的加入~

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

TAG:新智元 |