當前位置:
首頁 > 科技 > 思考總結10年,圖靈獎得主Yann LeCun指明AI方向:自主機器智能

思考總結10年,圖靈獎得主Yann LeCun指明AI方向:自主機器智能

選自arXiv

作者:Yann LeCun

機器之心編譯

編輯:小舟、陳萍


在這篇長達 62 頁的論文中,LeCun 表示,這篇論文提煉了他對過去 5 年 - 10 年關於 AI 發展大方向的思考,這基本上是他計劃在接下來的 10 年中開展的工作,也是他希望激勵其他人從事的工作。

隨著機器學習的不斷發展,領域內的研究者開始思考一個問題:我們離通用人工智慧(AGI)還有多遠?

要實現 AGI,最關鍵的一點是讓機器了解世界是如何運轉的,掌握廣泛的現實知識。

這也是圖靈獎得主 LeCun 近期在探索的問題。他曾表示:讓機器像人或動物一樣行動一直是他一生的追求。

LeCun 認為動物大腦的運行可以看作是對現實世界的模擬,他稱之為世界模型。LeCun 表示,嬰兒在出生後的頭幾個月通過觀察世界來學習基礎知識。觀察一個小球掉幾百次,普通嬰兒就算不了解物理,也會對重力的存在與運作有基礎認知。

不久之前,LeCun 表示他已經建立了世界模型的早期版本,可以進行基本的物體識別,他現在正致力於訓練它做出預測。在昨天公布的一篇論文中,LeCun 詳細地描述了這一願景。

論文地址:https://openreview.net/pdf?id=BZ5a1r-kVsf

LeCun 表示,這篇論文提煉了他對過去 5 年 - 10 年關於 AI 發展大方向的思考,這基本上是他計劃在接下來的 10 年中開展的工作,也是他希望激勵其他人從事的工作。

LeCun 對下一代 AI 有了新想法

動物和人類表現出的學習能力和對世界的理解,遠遠超出了 AI 和機器學習系統。

一個青少年可以在大約 20 小時的練習中學會開車,小朋友可以在只需要很少的交流後就學會語言溝通,人類可以在他們從未遇到過的情況下採取行動。相比之下,為了可靠,當前的 ML 系統需要通過大量試驗進行訓練,以便在訓練期間可以覆蓋最意外的情況。儘管如此,我們最好的 ML 系統在現實世界任務(例如駕駛)中仍遠未達到人類可靠性,即使在從人類專家那裡獲得大量監督數據之後、在虛擬環境中經歷了數百萬次強化學習試驗之後等等,可靠性還沒有好轉。

目前,AI 研究必須解決三個挑戰:

  1. 機器如何學習表徵世界,學習進行預測以及通過觀察後採取行動?現實世界中的交互既昂貴又危險,智能體應該在沒有互動的情況下 (通過觀察) 儘可能多地了解這個世界,從而儘可能減少學習一項特定任務所需昂貴而危險的試驗次數。
  2. 機器如何以基於梯度學習的方式進行推理和規劃?目前最好的學習方法是依賴估計和梯度的,而這些方法只能用可微架構來執行,並且很難與基於邏輯的符號推理相協調。
  3. 機器如何學習以一種分層的方式,在多個抽象級別和多個時間尺度上表示感知和行動規劃?人類和動物都能夠構思出多層次的抽象概念,通過將複雜的行動分解成一系列較低層次的行動,可以實現長期的預測和規劃。

Yann LeCun 在論文中提出了一種智能的智能體架構,該架構可以解決三個挑戰。本文的貢獻如下:

  • 一個整體的認知架構,其中所有模塊都是可微的,並且還是可訓練的;
  • JEPA 和分層 JEPA:用於預測世界模型的非生成架構,可以學習表徵的層次結構;
  • 一種非對比的自監督學習範式,它產生的表徵同時具有信息性和可預測性。

自主智能架構

LeCun 提出一種名為自主智能(autonomous intelligence)的新型架構,如下圖所示:

自主智能架構中包含多個模塊。一些模塊可以即時配置,它們的具體功能由配置器(configurator)模塊確定。配置器的作用是執行控制:給定要執行的任務,它預先配置針對當前任務的感知(perception)、世界模型(world model)、成本(cost)和參與者(actor)。

配置器模塊從其他模塊獲取輸入,並根據給定任務調整其他模塊的參數和注意力電路。特別地,配置器可以啟動感知、世界模型和成本模塊以實現特定的目標。

感知模塊接收來自感測器的信號並估計世界的當前狀態。給定一個任務,感知到的世界狀態中只有一小部分是和任務相關有用的。感知模塊可以以分層的方式表徵世界的狀態,具有多個抽象級別。配置器啟動感知系統以從感知中提取相關信息用於當前任務。

世界模型模塊是整個架構中最複雜的部分,它有雙重作用:(1)估計感知未提供的關於世界狀態的缺失信息;(2)預測世界的合理未來狀態。世界模型可以預測世界的自然演化,以及由參與者模塊做出一系列動作產生的未來世界狀態。

世界模型可以預測多個似是而非的世界狀態,由表徵世界狀態不確定性的潛在變數進行參數化。世界模型是一種對世界相關方面的「模擬器」,而哪些方面是相關的,取決於當前任務。配置器負責配置世界模型,世界模型的預測是在包含任務相關信息的抽象表徵空間內執行的。理想情況下,世界模型將在多個抽象層次上操縱世界狀態的表徵,使其能夠在多個時間尺度上進行預測。

這裡有一個關鍵的問題:世界模型必須能夠表徵世界狀態的多種可能預測。然而,自然世界不是完全可以預測的,特別是包含具有對抗性的智能體時尤其如此。但即使世界只包含無生命的物體,它們的行為仍然是混亂的,其狀態不能完全觀察到。因此,在構建新架構時,有兩個基本問題需要回答:(1)如何讓世界模型做出多個合理的預測並表徵預測中的不確定性;(2)如何訓練世界模型。

成本模塊以稱為能量(energy)的標量形式測量智能體的「不適(discomfort)」程度。能量是由兩個子模塊計算的兩個能量項的總和:內部成本(Intrinsic Cost)模塊和可訓練評價者(Trainable Critic)模塊。智能體的總體目標是採取行動以保持在最小平均能量的狀態。內部成本模塊的設計決定了智能體行為的性質,其輸入是由感知模塊產生的世界當前狀態,或者是世界模型預測的潛在未來狀態。內部成本模塊可以由配置器控制,以在不同時間驅動不同的行為。

可訓練評價者模塊負責預測未來的內部能量。與內部成本模塊一樣,可訓練評價者模塊的輸入要麼是世界的當前狀態,要麼是世界模型預測的可能狀態。對於訓練,該模塊檢索存儲在關聯記憶模塊中的過去狀態和隨後的內部成本,並訓練自己從前者預測後者。同樣,可訓練評價者模塊也由配置器根據給定任務動態配置。由於成本模塊的兩個子模塊都是可微的,所以能量梯度可以通過其他模塊反向傳播。

短期記憶模塊類似於脊椎動物中的海馬體,負責存儲有關世界過去、現在和未來狀態的相關信息,以及內部成本的相應值。世界模型可以向短期記憶模塊發送查詢請求、接收檢索到的值、更新存儲狀態值。整體架構通過從記憶模塊檢索過去的狀態和相關的內部成本來訓練評價者模塊。

參與者模塊計算動作序列並將動作輸出到效應器。世界模型根據動作序列預測未來的世界狀態序列,並將其反饋給成本模塊。配置器首先會給定成本模塊一個目標,然後成本模塊會根據所提動作序列估計未來能量。

參與者模塊可以訪問估計成本的梯度,因此它可以使用基於梯度的方法計算出最小化估計成本的最優動作序列。如果動作空間是離散的,則可以使用動態規劃來找到最佳動作序列。優化完成後,actor 將第一個動作(或一小段動作)輸出到效應器。這個過程類似於最優控制中的模型預測控制(Bryson 和 Ho,1969)。

參與者模塊包括兩個組件:(1)策略模塊,它直接從感知模塊產生、從記憶模塊檢索的世界狀態估計中產生一個動作;(2)動作優化器,用於模型 - 預測控制。

下面我們重點看一下架構中最複雜的部分 —— 世界模型的設計和訓練過程。

設計和訓練世界模型

毫不誇張的說,未來幾十年阻礙人工智慧發展的真正障礙是為世界模型設計架構以及訓練範式。本文的主要貢獻之一正是分層架構和世界模型的訓練,可以在預測中表示多個結果。

訓練世界模型是自監督學習(SSL)中的一個典型例子,其基本思想是模式補全。對未來輸入(或暫時未觀察到的輸入)的預測是模式補全的一個特例。在這項工作中,世界模型旨在預測世界狀態未來表徵。

自監督學習

自監督學習 (SSL) 作為一種範式,可用來訓練學習系統以捕獲輸入之間的相互依賴關係。具體來說,這通常歸結為訓練一個系統來告訴其輸入的各個部分是否彼此一致。

本文還介紹了一種基於能量的模型(EBM)架構,如圖 8 所示,數據點是黑點,能量函數在數據點周圍產生低能量值,並在遠離高數據密度區域的區域產生較高能量,如能量等高線所示。

自監督學習 (SSL) 和基於能量的模型 (EBM)

聯合嵌入預測架構(JEPA)

本文的核心是聯合嵌入預測架構 (JEPA)。JEPA 不是生成式的,因為它不能輕易地用於從 x 預測 y。它僅捕獲 x 和 y 之間的依賴關係,而不顯式生成 y 的預測。圖 12 顯示了一個通用 JEPA。

與 EBM 一樣,可以使用對比方法訓練 JEPA。但是,對比方法在高維空間中效率很低。本文設計出了非對比方法來訓練它們,在 JEPA 的情況下,可以通過四個標準來完成,如圖 13 所示:1. 最大化 s_x 關於 x 的信息量;2. 最大化 s_y 關於 y 的信息量;3. 使 s_y 容易從 s_x 中預測;4. 最小化用於預測潛在變數 z 的信息含量。

分層 JEPA (H-JEPA)

圖 15 顯示了多級、多尺度下世界狀態預測的可能架構,變數 x_0, x_1, x_2 表示一系列觀察值。第一級網路表示為 JEPA-1,使用低級表徵執行短期預測。第二級網路 JEPA-2 使用高級表徵進行長期預測。研究者可以設想這種類型的架構有許多層,可能會使用卷積和其他模塊,並使用級之間的時間池來粗粒度的表示和執行長期的預測。使用 JEPA 的任何非對比方法,可以進行 level-wise 或全局的訓練。

分層規劃

分層規劃比較困難,幾乎沒有解決方案,大多數都需要預先定義動作的中間辭彙。圖 16 顯示了分層模式 2 規劃的可能架構,該架構可以利用多尺度世界模型的分層特性。

圖 17 表示了不確定情況下的分層規劃階段。


文章最後,LeCun 表示文中許多觀點是多年來與不同研究者互動的結晶。了解更多內容,請查看原論文。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心Pro 的精彩文章:

騰訊自動駕駛總經理蘇奎峰:實時孿生與智能決策
較上代性能提升21%,功耗降低40%,Intel 4工藝細節曝光