MIT科學家用AI設計「好奇心」演算法：基於元學習探索奇妙世界

新聞 05-07

新智元報道

編輯：夢佳、雅新

很多偉大的發明一開始都是好奇心驅使的。

蘋果砸到牛頓頭上，他開始思考為什麼蘋果會從樹上掉下來，於是得出了萬有引力定律。

瓦特對燒水壺冒出的蒸汽十分好奇，最後改良了蒸汽機。因為好奇，成就了「昆蟲界的荷馬」法布爾。因為好奇，德萊斯發明了自行車。

數千年來，好奇心打開了人類的智慧大門。

在好奇心的驅使下，人們探索世界並從經驗中學到了新技能。相比之下，把計算機放到新的環境中，有時就會出現故障。

將「好奇心」編碼到演算法中

為了能讓計算機更好地適應新環境，工程師們嘗試將好奇心編碼到演算法中，希望在好奇心推動下智能體能夠去更有效地探索，了解他所處的環境。

就和小孩學習新事物一樣，智能體要首先從撿東西，操縱使用物體，投擲東西學起，實現了這些基本操作，學習其他事物的能力也會隨之加快。

工程師已發現了許多方法，能夠將好奇探索機制編碼到機器學習演算法中。一直以來，研究人員也通過計算機來搜索新的演算法。最近，麻省理工學院的一個研究小組在思考計算機在演算法設計方面是否比人有優勢。

近年來，深度神經網路的設計（通過調整參數來搜索解決方案的演算法）已通過Google的AutoML和Python中的auto-sklearn等軟體實現了自動化。這使那些非專業人士也能輕易地開發AI應用程序。

但是，儘管深度神經網路擅長做特定任務，但它們在新的環境中適用性不高。相比之下，用高級編程語言編出的演算法能在不同任務和環境中遷移知識。

利用AI自動設計演算法

研究的合著者，麻省理工學院電氣工程與計算機科學系，以及計算機科學與人工智慧實驗室（CSAIL）的研究生Ferran Alet說：「人為設計的演算法非常普通。我們受到啟發，使用AI來發現具有好奇心且能適應各種不同環境的演算法。」

同時，作者表示，「我們從人和其他動物的好奇行為中汲取了靈感。假設好奇心是進化過程中探索發現的一種機制，該機制促使智能體在生命早期進行有意義的探索。這項探索使它能夠在其一生學習中，不斷獲取經驗贏得高額回報。我們將產生好奇行為的問題作為一種元學習。」

研究人員創建了一種「元學習」演算法，該演算法生成了52,000個探索演算法。他們發現最上面的兩個是全新的演算法，從人為角度看，似乎太明顯，違反直覺了。這兩種演算法都產生了探索行為，從根本上改善了一系列模擬任務中的學習過程，從二維網格圖像導航到機器人螞蟻行走。由於元學習過程會輸出高級計算機代碼，因此可以分解這兩種演算法，以了解其內部決策過程。

該論文的高級作者是麻省理工學院計算機科學和電氣工程學教授Lesile Kaelbling和Tomas Lozano-Perez。這項工作將在2020ICLR大會上進行具體介紹。

該論文獲得了許多沒有參與其中的研究人員的稱讚。

Google的首席科學家Quoc Le表示，「使用程序檢索來發現更好的內在獎勵機制是非常有創意的，它幫助開拓了計算機輔助深度學習模型的設計。我非常喜歡這個idea，在於它的程序是可以解讀的」

研究人員將自動化的演算法設計過程，比作是用有限的單詞來寫句子的過程。他們首先選擇了一組基本構建模塊來定義其探索演算法。在研究了其他好奇心演算法以獲得靈感之後，他們挑選了30多種高級操作，包括基本程序和深度學習模型，來引導智能體做一些事情，比如記住以前的輸入，比較當前和過去的輸入，並使用學習方法來改變自己的模塊。然後，計算機一次最多可以組合7種不同操作，生成描述52,000種演算法的計算圖。

即使用一台快速的計算機，對所有的演算法進行測試都要花費數十年的時間。因此，研究人員首先排除了那些從代碼結構就預測出其性能較差的演算法，來縮小範圍。

然後，他們在一項基本的網格坐標導航任務上測試了那些最看好的演算法，網格導航任務需要大量的探索行為，但計算量最少。如果某項演算法表現良好，那麼它的表現就成為新的基準，從而淘汰更多候選人。

研究人員用四台計算機搜索了10多個小時，以找到最佳演算法。結果發現，超過99％都是垃圾演算法，但大約有一百種是優勝的高性能演算法。值得注意的是，前16名優勝的演算法既新穎又好用，在其他虛擬任務（從登上月球車，到舉起機械臂，再到移動類似螞蟻的機器人）的性能上，都比人類設計的演算法要好，至少實力相當。

所有16種演算法都產生了兩個基本的探索功能。

智能體會在兩種情況下受到獎勵：

第一種，智能體會因為訪問新的地方而獲得獎勵，因為在那裡他們有更大的機會採取新的行動。

第二種，智能體也會因為訪問新地方而獲得獎勵，但以一種更細微的方式：其中一個神經網路預測未來的狀態，而另一個回憶過去，然後試圖通過在未來回憶過去來預測現在。如果這個預測結果是錯誤的，那麼它會獎勵自己，因為這是一個信號，表明它發現了以前不知道的東西。第二種演算法是如此違反直覺，以至於研究人員花了很長時間才弄明白。

「我們的偏見常常使我們無法嘗試非常創新的想法，」Alet說。「但是計算機不會。他們會多多嘗試，看看怎麼樣，有時反而會得到意想不到的出色結果。」

越來越多的研究人員轉向機器學習，來設計更好的機器學習演算法，這其中就包括AutoML。Google的Le和他的同事們最近推出了一款新的演算法發現工具，名為Auto-ML Zero。 (它的名字是谷歌的 AutoML 軟體和谷歌 DeepMind 的 Alpha Zero的結合，前者為給定的應用程序定製深層網路架構，後者可以通過自己玩數百萬個遊戲，來學習玩不同的棋盤遊戲。）

他們的方法是在大量的演算法當中搜索原始運算更簡單的演算法。但是，他們的目標不是發現探索策略，而是發現能夠對圖像進行分類的演算法。兩項研究都表明，人類有能力使用機器學習方法來創建新穎的，高性能的機器學習演算法。

「生成的演算法可以被人類讀取和解讀，但是要真正理解這些代碼，我們必須對每個變數和操作進行推理，以及它們如何隨著時間演變，」研究合著者，麻省理工學院研究生Martin Schneider說。「設計演算法和工作流程，利用計算機來評估大量演算法，是一個有趣的挑戰。同時我們也要來解釋和改進這些想法，」

參考鏈接：

https://www.csail.mit.edu/news/automating-search-entirely-new-curiosity-algorithms

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※谷歌Jeff Dean又用AI設計晶元！6小時出活兒，強力碾壓集成電路設計專家
※谷歌大腦聯手Hinton提出SimCLR新框架，瘋狂提升自監督學習性能