強化學習教父Richard Sutton：也許能在2030年之前實現強人工智慧演算法

科技 12-29

機器之心原創

採訪：ChainnZ、Yuxi

編輯：Rui Chen、ChainnZ、Qintong Wu、吳攀、李澤南

Richard S. Sutton 教授被認為是現代計算的強化學習創立者之一。他為該領域做出了許多重大貢獻，包括：時間差分學習（temporal difference learning）、策略梯度方法（policy gradient methods）、Dyna 架構。

但驚人的是，Sutton 博士進入的第一個領域甚至與計算機科學無關。他先是獲得了心理學學士學位，然後才轉向計算機科學。但是，他並不認為自己轉變了方向。他說：「和大多數心理學家關注的問題一樣，我也對學習（learning）的工作方式很感興趣，我在 1977 年獲得了心理學學士學位；那時候學習在計算機科學領域還並不是很流行。因為我對人工智慧或與人工智慧相關的一切感到很好奇，所以我就選擇了就讀計算機科學的碩士，然後又讀了博士。我對人工智慧的看法受到了心理學領域關於人類和動物學習方面的影響——這也是我的秘密武器，因為人工智慧領域的很多人都沒有我這樣的背景。我從心理學開始的，並且從中汲取了大量的靈感。」

強化學習教父Richard Sutton：也許能在2030年之前實現強人工智慧演算法

1984 年，Sutton 博士在馬薩諸塞大學安姆斯特分校（University of Massachusetts at Amherst）獲得了博士學位。在 1985 年到 1994 年之間，他都是 GTE Laboratories 的計算機和智能系統實驗室的技術組的主要成員。1995 年，他以資深研究科學家的身份回到了馬薩諸塞大學安姆斯特分校並在那裡一直呆到了 1998 年，之後他加入了 AT&T Shannon Laboratory 擔任人工智慧部門的主要技術組成員。他的研究興趣圍繞著決策者與其環境交互時所面臨的學習問題，他將其看作是人工智慧的核心問題。他也對動物學習心理學、連接網路（connectionist networks）、以及廣義上的能夠持續改進自己對世界的表徵和模型的系統。2003 年之後，他成了阿爾伯塔大學計算機科學系的教授和 iCORE Chair，在這裡他領導著自己的「強化學習與人工智慧實驗室

這個實驗室的名字 RLAI 似乎在說明強化學習（RL）是所有人工智慧問題的解決方案。但是，Sutton 博士在這次採訪之中給了我們一個不同視角的解釋。他指出有些人認為強化學習只是人工智慧問題的強化，但實際上強化學習問題是實現人工智慧的一種抽象的方法。他說：「我想說我們正在使用一種實現人工智慧的方法，『強化學習與人工智慧』是很有意思，其中的英語單詞『and』意味著要麼是兩個單獨的主題，要麼就是互相包容的，它可能是『and』，也能是『or』。因為強化學習既是人工智慧的一個子集，也是人工智慧的一個源頭。其中的關係挺模糊的。我們也仍還在尋找答案。」

強化學習是現在人工智慧領域裡面最活躍的研究領域之一，它是一種用於學習的計算方法，其中會有一個代理在與複雜的不確定環境交互時試圖最大化其所收到的獎勵（reward）。現在，如果你是一個強化學習的初學者，由 Richard Sutton 和 Andrew Barto 合著的《Reinforcement Learning : An Introduction》可能就是你的最佳選擇。這本書提供了關於強化學習的簡單明了的關鍵思想和演算法的解釋。Richard Sutton 和 Andrew Barto 的討論從該領域的知識基礎的歷史延伸到了最新的發展的應用。但是，在 20 世紀 70 年代的時候，儘管機器學習被人所知且日益流行，但那時還沒有出現強化學習這樣的東西。

近日，機器之心走進了阿爾伯塔大學與這位強化學習的教父聊了聊。讓我們看看 Sutton 在這次獨家專訪中說了些什麼。

機器之心：強化學習是如何起步的？編寫演算法的起點是什麼？

Sutton：這一直以來都是一個明顯的思想——一個學習系統想要一些東西而且某些類型的學習方式缺失了。在 20 世紀 70 年代，Harry Klopf（1972,1975,1982）寫了幾篇解決類似問題的報告。他認識到適應性行為（adaptive behavior）的關鍵方面是失敗（being lost），而那時候學習領域的研究者幾乎都將關注的重心移到了監督學習上面。試錯學習的關鍵思想卻缺失了。我們試圖弄明白其中的基本思想，然後發現他是對的。這一思想還從未在任何領域得到過研究，尤其是在機器學習領域；控制論、工程學和模式識別等領域也都沒有研究——所有這些領域都忽略了這個思想。你可以在 50 年代看到一些早期的研究工作，那時候有人談論過試驗神經（trial neuro），但最後它還是變成了監督學習。它有目標和訓練集，並且嘗試記憶和從中進行歸納。

我們現在在談論深度學習和強化學習，這很有意思。最開始的時候，情況也是類似——試圖將強化學習和監督學習區分開。我們研究的目的是獲得一個可以學習的系統，那就夠了。所以強化學習找到了一種可以表現和最大化這個世界的方法，而監督學習只是記憶被給出的樣本然後將其泛化到新樣本上——但它們需要被告知該做些什麼。現在，強化學習系統可以嘗試很多不同的事物。我們必須嘗試不同的事物，我們必須搜索動作和空間或定義學習來最大化世界。這個思想後來被丟棄了，Andrew Barto 和我則逐漸意識到這並沒有出現在之前的研究中，而這是我們需要的。簡單來說，這就是我們成為了先驅的原因。

編輯註：實際上，自 1979 年以來，Sutton 博士就一直在開發和推廣強化學習。和其他人一樣，Sutton 博士感覺到強化學習已經在早期的控制論和人工智慧研究中得到過了探索。儘管強化學習顯然受到最早期的一些關於學習的計算研究的啟發，但這些研究中的大部分都轉向了其它方面，比如模式分類、監督學習和適應性控制，或他們整體上放棄對學習的研究。此外，那時候計算機的計算能力還是很有限的，所以要將強化學習應用到真實世界問題上是很困難的，因為強化學習涉及到大量試錯，之後才能收斂到一個最優策略，這可能會需要非常長的時間。

機器之心：你怎麼看待強化學習自 20 世紀 70 年代以來的發展？因為那時候看起來強化學習還需要長時間的發展而且進展緩慢，你為什麼還會對其有信心？

Sutton：我不同意你所說的強化學習進展很慢的說法，但我確實同意計算資源給這一領域帶來了很大的影響。我們需要時間等待可用的硬體。儘管那時候對深度學習來說還有一點早，它成功地使用了大量的計算提供助力。很長一段時間以來，人們都在說我們會在 2030 年擁有足以支持強人工智慧的算力。但我認為這不僅僅依賴於廉價的硬體，還依賴於演算法。我認為我們現在還沒有強人工智慧的演算法，但我們也許能在 2030 年之前實現它。

機器之心：那麼在 2030 年之前，硬體和軟體哪一個更加關鍵？

Sutton：硬體優先還是軟體優先，這是個大問題。我們需要軟體來測試我們的硬體，我們也需要可用的硬體來推動人們研發軟體。在有限的計算資源上研究和工作，即使最聰明的人也不能帶來很大的價值。即使是在 2030 年我們有了合適的硬體，我們可能仍然需要 10 年以上的時間等待最聰明的研究者研究出演算法。現在你理解我的推理過程了，你可以自己重新判斷一下或改變你原來的想法。

機器之心：近年來，人工智慧已從心理學與神經科學的研究中受益良多，強化學習和卷積神經網路都是這樣的例子。在你的新版《Reinforcement Learning: An Introduction》中，你也加入了相應的兩個章節。心理學/神經科學對人工智慧/強化學習有多重要？

Sutton：強化學習最初受到大腦運行機制的啟發。目前認為大腦的運行機制類似於強化學習。這也被稱作是大腦中世界系統的標準模型（standard model of world system）。之所以稱之為標準模型並不是因為它是完美的，而是因為所有人都在使用它。這就像當你成名後所有人都知道你，大腦獎勵機制的理論也是一樣的套路。我們的大腦是研究心理學和動物行為學的完美模型。另外一個重要的事情是：這個模型是基於學習的，你可以進行規劃，這是對於各種可能發生情況的響應。這也是一個強化我們進行規劃的方式的模型，讓我們可以從不同的後果中學習經驗。考慮到兩者的關係，人工智慧研究者正在試圖找出意識和心靈的本質。

強化學習研究決策和控制，試圖讓機器在未知環境中做出最佳決策。深度強化學習研究在強化學習演算法中使用了神經網路，讓原始感官輸入到原始電機輸出的映射成為可能，消除了人工設計的過程。因此，如今深度強化學習（DRL）已經成為解決諸如遊戲、決策問題、機器人控制等許多類型的問題的非常流行的方法。

編輯註：Sutton 認為強化學習和深度學習的整合是很好的技術演進。在特定領域內（如計算機視覺（CV）），他說道：「你完全可以不用強化學習就完成一個計算機視覺，用已有數據集監督學習正常訓練的樣本，但它不會有深度學習做出的結果那麼好。我認為那會需要一點聰明和想像力才能做到。我認為計算機視覺如果使用一點強化學習的話，將會出現一個技術突破。」

Sutton：強化學習的最大優勢在於，你可以在正常運行中學習。傳統的深度學習方式需要使用標記好的數據集進行訓練，而強化學習並不需要這樣做。你可以發揮想像力改變設定，因為你雖然沒有足夠的數據，但你知道在正常情況下應該怎麼做。

AlphaGo 在圍棋上的勝利則是另一回事。毫無疑問 AlphaGo 是一個偉大的成就，它的水平提高速度是前所未有的。AlphaGo 的成就很大程度上歸功於兩種技術的整合：蒙特卡洛樹搜索和深度強化學習。

機器之心：讓我們以 AlphaGo 作為例子。為什麼自我對弈很重要？自我對弈有什麼缺陷嗎？人工智慧可以在自我學習的過程中持續提高性能嗎？

Sutton：自我對弈可以生成無限多的訓練數據。你不需要人力來為這些訓練數據做標註，這是我們都希望得到的。由此觀之，我們也可以讓計算機在模擬真實環境中生存和競爭。當然，AlphaGo 缺乏一個關鍵要素：理解世界運行機制的能力，例如對物理定律的理解，以及對物體動作反饋的預測。

這裡就出現了一個問題，你只能在虛擬環境中自我對弈，而在現實環境中我們沒有類似與遊戲的規則可循，現實生活是無限美好的（笑）。你知道當你按下手機上的接聽鍵接聽一個來電，將會有一些事會發生。但你無法預測會發生什麼，這不是遊戲里已經安排好的設定，很多事情你不知道結果會是什麼。在遊戲中自我對弈的缺陷就在於此。

機器之心：深度學習需要大量數據。強化學習通常也需要提供大量樣本進行訓練。但是最近提出的 one shot learning（一次性學習）試圖用很少的樣本進行學習，這有點像是人類學習的方式了。你認為 one shot learning 可以用在強化學習中嗎？

Sutton：目前的學習方式是慢速的，我認為 one shot 方式可以加快機器學習的速度。人類可以從一些經驗中很快地學習到大量知識，這意味著我們可以進行 one shot learning，從很少的經驗中汲取大量有用知識。

機器之心：談完了強化學習的優勢與技術突破，讓我們來談談它的短處。你認為去強化學習和廣義上的人工智慧的短處在哪裡？

Sutton：有幾點非常重要，其中包括一個技術問題。先來談談大家都能理解的吧，這也是最大的問題。強化學習寬泛地說來，就是讓機器可以理解這個世界，隨後利用自己所學的知識完成人類指定的任務，糾正自主行為。像 AlphaGo 和深藍這樣的程序不需要知道世界運行的規律。它們知道下一步棋可能的落子位置，知道所有下一步會帶來局勢上的優劣。人造系統現在已經可以在這方面做得很好了。我們希望把這種決策和預測的方式應用到其他領域中去，但這需要一種新的機制，需要讓機器對世界建模。我認為這是目前最大的問題。我們現在對動態的真實世界缺乏有效的模型，無法讓機器在其中對抉擇與抉擇的後果進行模擬以不斷學習。一旦我們做到了這一點，我們就會構建出更強大的人工智慧。

另外一些問題有關知識。機器要以何種方式作出預測？我們人類是以何種方式作出預測的？我們會試著用不同方法進行嘗試看看後果，但不會全部試到全部結束。例如，當你走進一個房間，右手邊是一杯水，有一把椅子，還有一些其他傢具和人。你對房間里其他人的交流，或者和物體的交互會獲得不同反饋，但人類只會去做一點點交互——也許永遠不會拿起那杯水——因為我看著它就知道那是怎麼回事了。這種從特定經驗中學到的東西，我們稱之為離策略（off-policy）學習，這種方式是目前強化學習領域中的最大挑戰。

機器之心：這很有趣。我們還想知道更多的細節，如何更好地理解離策略（off-policy）學習？

Sutton：想要有效地了解離策略功能，你需要規模化的學習方式、需要使用未經處理的數據，而不必要總是有標籤的圖像的訓練集，只需要通過純粹地與世界互動來獲取經驗，並學習世界的運行方式……這種強化（學習）的方法是非常有趣的思路，人們應該嘗試去做。

機器之心：感謝你的精彩論述。最後我們還想問問，你對強化學習的初學者有什麼建議？

Sutton：學習基礎知識，先找一個簡單便宜的應用。從數據中推導東西的方式是有已知確定結果的。想像一下電梯，也許在午夜時你可以把它關閉來節約能源，當有人來乘坐時再把它打開。所以你需要為此設定一個時間表，收集信息在這裡就很重要了，如果沒人乘坐，開啟的電梯就是在浪費能源。訓練數據也是同樣的道理，你不應該在缺乏信息的時候進行訓練，請記住這個準則。

本文為機器之心原創，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

請您繼續閱讀更多來自 機器之心 的精彩文章:

※Yoshua Bengio研究生科研指導演講：解讀人工智慧全貌和下一個前沿
※Nature 2017 年十一大展望：繼續探索事件視界
※創造智能不需要複製人類
※OpenAI 的 PixelCNN++實現
※扎克伯格展示個人助理Jarvis:又一個走出銀幕的科幻作品

TAG:機器之心 |

您可能感興趣

※對話機器學習教父Tom Mitchell：人工智慧不會出現第三次衰退了 | GMIC 2017
※教父參謀 - 藤原浩以 Fragment 之名策劃 Range Rover Velar 發布
※美漫教父 Stan Lee 表示 Marvel 將重掌《X-Men》與《Fantastic Four》電影版權
※時尚教父的倫敦豪宅盡顯 Alexander McQueen 靈魂最深處的品味
※讓原宿教父 Nigo、導演 Sofia Coppola 帶你走近潮流界常青樹品牌 —— Beams
※牛仔教父 Goldschmied 之女創辦的創意牛仔品牌 Made Gold 獲合作夥伴投資
※模拟音频教父、第一台调音台发明人Rupert Neve明天在上海要发布HIFI产品啦
※電影《教父》主題曲《Speak Softly Love（柔聲傾訴）》
※震驚！原來莎士比亞才是freestyle教父
※自動駕駛汽車教父Sebastian Thrun：世界已準備好迎接飛行汽車的到來
※VANDAL HIGH FREESTYLE 教父貨號AH8652-001即將發售
※模擬音頻教父、第一台調音台發明人Rupert Neve明天在上海要發布HIFI產品啦
※日本Netflix出了BUG：一切作品都會顯示《教父》的台詞
※嘻哈教父歐陽靖7.26約你賽車道上「Battle」
※剖析「潮爺」除了電音教父外的另一面 | 專訪 Steve Aoki
※「一直被抄，從未被超」的潮流玩具教父 Michael Lau
※Google無人車教父，居然帶狗來發布新課......
※深度學習教父Hinton專訪，AI已跨越重要分水嶺
※甚麼是：教父哲學-EP15