算力不是王道，強化學習之父Rich Sutton的六點錯誤

新聞 03-21

新智元AI技術峰會倒計時6天

新智元將於3月27日在北京泰富酒店舉辦「2019新智元AI技術峰會——智能雲?芯世界」，聚焦智能雲和AI晶元發展，重塑未來AI世界格局。

同時，新智元將現場權威發布若干AI白皮書，聚焦產業鏈的創新活躍，助力中國在世界級的AI競爭中實現超越。

參會二維碼：

新智元報道

作者：Rodney Brooks

編輯：肖琴

【新智元導讀】強化學習之父Richard Sutton總結AI研究「苦澀教訓」，認為利用算力才是王道，不應依靠人類知識。對此，著名機器人專家Rodney Brooks 撰文反駁，闡述了Sutton觀點錯誤的六大原因。

The Bitter Lesson還是A Better Lesson？

近日，強化學習之父、加拿大計算機科學家 Richard S. Sutton 在其個人網站上發文The Bitter Lesson，指出了過去 70 年來 AI 研究方面的苦澀教訓：我們過於依靠人類知識了。

他認為，過去 70 年來，AI 研究走過的最大彎路，就是過於重視人類既有經驗和知識，研究人員在訓練 AI 模型時，往往想將人類知識灌輸給智能體，而不是讓智能體自己去探索。這實際上只是個記錄的過程，並未實現真正的學習。

Sutton說，事實證明，這種基於人類知識的所謂「以人為本」的方法，並未收到很好的效果，尤其是在可用計算力迅猛增長的大背景下，在國際象棋、圍棋、計算機視覺等熱門領域，智能體本身已經可以自己完成「規模化搜索和學習」，取得的效果要遠好於傳統方法。

由此，Sutton認為利用算力才是王道，過去的教訓必須總結，未來的研究中，應該讓 AI 智能體自己去發現，而不是將我們發現的東西記下來。

這番言論引來許多反對的聲音，比如，牛津大學計算機科學教授 Shimon Whiteson 寫道：「Sutton 說 AI 的發展歷程告訴我們，利用計算力要勝過利用人類知識。我認為這是對歷史的一種很奇怪的解釋。AI 的成功不僅取決於豐富的計算資源，還取決於沒有被拋棄的人類知識。」

近日，著名 AI 專家 Rodney Brooks 也加入反對Sutton的隊伍，他撰文「A Better Lesson」，闡述Rich Sutton的觀點錯誤的六大原因。

Rodney Brooks 被譽為機器人教父，機器人領域祖師爺級別的學者，他還是澳洲科學院院士，美國國家工程院院士，前 MIT 計算機科學和人工智慧實驗室主任。

Rodney Brooks

新智元對 Rodney Brooks 的評論文章翻譯如下：

Sutton觀點錯誤的六大原因

就在上周，Rich Sutton 發表了一篇題為《苦澀的教訓》(The Bitter Lesson) 的短文。我打算盡量把這篇評論寫得比他的帖子更短。Sutton 在強化學習領域有著長期而持續的貢獻。

在他的文章中，Sutton 用了很多很好的例子來論證，在人工智慧 70 年的歷史中，更多的計算和更少的內置知識總是構建 AI 系統的最佳方式。這與許多新進入 AI 領域的人們目前的思維模式產生了共鳴，他們認為，設計學習網路並投入大量計算能力，要比為某個任務專門設計一個計算架構更好。然而，我必須要說的是，上周在美國國家科學院 (National Academy of Science) 舉辦的為期兩天的深度學習研討會上，後一種觀點更為流行，某種程度上這與 Sutton 的觀點正好相反。

我認為 Sutton 錯了，原因有很多。

1.深度學習最著名的成功之一就是圖像標註 (image labeling)，使用 CNN，即卷積神經網路，但 CNN 的本質是網路的前端由人類設計來處理平移不變性，即對象可以出現在框架的任何地方。使用深度學習網路也必須學習那些看起來學究氣十足的東西，並且會使學習的計算成本提高許多個數量級。

2.在圖像標記方面，還有其他一些東西受到了極大的影響，因為目前的 CNN 中缺乏某些眾所周知對人類表現很重要的內置功能。例如，顏色恆常性 (color constancy)。

有這麼一個著名的例子：一個停車標誌上被貼了一些膠帶，就被一個為自動駕駛訓練的 CNN 誤認為是一個「限速 45 英里」的限速標誌了。

人類不會犯這樣的錯誤，因為他們知道停車標誌是紅色的，限速標誌是白色的。CNN 並不知道這一點，因為相機中的像素顏色和物體的實際顏色之間的關係是一種非常複雜的關係，而這種關係並沒有被訓練演算法使用的區區數千萬張訓練圖像所闡明。

未來可行的訓練集可以是將人類的工作負載轉移為創建大量的訓練集，並編碼我們希望系統學習的標籤。這就像直接構建一個顏色恆常性階段一樣需要內置知識。這是把人類的智力工作轉移到其他地方的花招。

3.事實上，對於今天的大多數機器學習問題，都需要人來設計一個特定的網路架構才能使學習順利進行。所以，我們現在期望的不是由人類構建特定的知識，而是由人類構建特定的、適當的網路，以及構建需要使用的特定訓練機制。再說一次，說 AI 在沒有人類參與的情況下取得成功，這是一種花招。相反，我們要求人類將他們的智慧以一種不同的形式注入演算法中。

4. 大量的數據集根本不是人類學習東西所需要的，所以這裡缺失了某些東西。今天的數據集可以有數十億個樣本，但一個人可能只需要少數幾個樣本就能學會同樣的東西。但更糟糕的是，訓練我們今天所看到的大多數網路所需的計算量只能由預算非常龐大的大公司提供，AI 的成本過高使得個人甚至大學院系難以推動。對於智能系統，這不是一個可持續發展的模式。對於一些機器學習問題，由於在訓練過程中需要消耗大量能耗，我們已經開始看到一些明顯節約的方法。

5. 摩爾定律 (Moore』s Law) 正在放緩，因此，一些計算機架構師報告稱，單個晶元上計算量倍增的時間正在從一年延長到 20 年。此外，登納德縮放定律 (Dennard scaling) 在 2006 年的崩潰意味著機器的功耗隨著性能提升而提高，因此我們甚至可能無法承受在小型機器上提高機器學習的結果 (更不用說實際的學習)，例如，自動駕駛汽車可能需要 2500 瓦的電力來進行計算 —— 而人腦只需要 20 瓦。因此，Sutton 的觀點只會讓情況變得更糟，讓 AI 和 ML 的使用變得不切實際。

6.計算機架構師現在正試圖通過為訓練好的網路構建專用晶元來解決這些問題。但他們需要將硬體鎖定到特定的網路結構，並利用人工分析，在不改變計算結果的情況下大幅降低電力預算。這有兩個缺點。首先，它鎖定了特定於特定解決方案的硬體，因此每當我們遇到新的 ML 問題，我們都需要設計新的硬體。其次，它只是簡單地轉移了應用人類智能的地方，而不是完全消除人類參與設計的需要。

因此，我對 Rich Sutton 這篇文章的看法是，我們應該從過去 70 年的 AI 研究中吸取的教訓，根本不是只要使用更多的計算力就總能成功。相反，我認為應該吸取的更好的教訓是，我們必須考慮任何解決方案的總成本，而且到目前為止，這些都需要大量的人類智慧。

這篇評論，包括這句話，比 Sutton 的帖子短了 78 個詞。

https://rodneybrooks.com/a-better-lesson/

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※潛移默化，AI如何影響人類的語言？
※必讀！生成對抗網路GAN論文TOP 10

TAG:新智元 |