深度學習真的不需要理論指導了？圖靈獎得主講座無人問津，貝葉斯之父Judea Pearl落寞身影背後引人深思

新聞 12-11

新智元轉載

來源：專知

【新智元導讀】今天帶來一個落寞的背影。最近NIPS 2017 "Test of Time"論文大獎獲得者Ali Rahimi 在長灘現場的演講中把機器學習稱為「鍊金術」（Alchemy）引起機器學習界的大討論，不難理解深度學習理論的研究似乎真的陷入了尷尬的境地。與此同時，寂寞的背影，聽者寥寥的會場，圖靈獎得主同時也是貝葉斯之父 Judea Pearl 的報告似乎並沒多少人關心。而報告的題目《機器學習的理論障礙》（Theoretical impediments to machine learning）正是關於Judea Pearl對機器學習特別是深度學習背後理論的思考。

NIPS 2017 "Test of Time"論文大獎獲得者Ali Rahimi 在長灘現場的演講中抱怨當前機器學習尤其是深度學習使用的很多方法缺少（理論）理解。而Lecun則回懟說：僅僅因為理論沒有追趕上實踐的水平，就批評整個機器學習社區使用「鍊金術」，這種言論是危險的。

CMU大學教授，Petuum公司創始人Eric Xing則在看到這組圖後表示：這是NIPS2017大會上一個讓人難過的場景。成為一個單純的「鍊金術師」並不可恥，可恥的是並不努力從「鍊金術師」學成「化學家」。意思是僅僅反覆的做工程實踐並沒有什麼不對的，但是還應該想想背後的原理。（不想當將軍的士兵不是好兵？）

圖：Judea Pearl演講的會場

Judea Pearl簡介

Judea Pearl 曾獲得2011年的圖靈獎，獎勵他在人工智慧領域的基礎性貢獻，他提出概率和因果性推理演演算法，徹底改變了人工智慧最初基於規則和邏輯的方向。他主要的研究領域是概率圖模型和因果推理，這是機器學習的基礎問題。圖靈獎通常頒給純理論計算機學者，或者早期建立計算機架構或框架的學者。

Judea Pearl 是 UCLA 計算機科學系的教授，他曾兩次居於科學革命的中心：第一次是在 20 世紀 80 年代，他為人工智慧引入了一套新的工具，叫貝葉斯網路。這種基於概率的機器推理模型使得機器能在複雜的、模糊的和不確定性的環境下工作。短短几年內，貝葉斯網路就完全替代了此前基於規則的人工智慧方法。

第二次革命，鑒於貝葉斯網路在計算上的優勢，Pearl 意識到簡單的圖模型和概率論（正如貝葉斯網路中的那樣）也能用於因果關係的推理。這一發現為人工智慧的發展奠定了另一個基礎，但意義遠非如此，這一能驗證因果關係的、條理性的數學方法，幾乎已經被所有科學和社會科學領域採用。

Judea Pearl 還是美國國家工程院院士，AAAI 和 IEEE Fellow，是以他兒子姓名命名的 Daniel Pearl 基金會的主席（他的兒子Daniel Pearl曾是華爾街日報記者，2002年被巴基斯坦恐怖份子綁架並斬首，為這事美國還專門拍了一部電影」 A Mighty Heart」。）

場外JudeaPearl親自講解自己的工作

http://web.cs.ucla.edu/~kaoru/theoretical-impediments.pdf

理論在深度學習中的作用

AliRahimi 阿里引起的理論之爭一石激起千層浪，網路上出現了更多機器學習界的代表發聲。今天芝加哥豐田研究院教授DavidMcAllester發表博文進行解讀，以下內容為McAllester的觀點：

這篇博文的主要受Ali Rahimi最近的NIPS演講和Lecun回懟的啟發。

https://www.reddit.com/r/MachineLearning/comments/7hys85/nalirahimistalkatnipsnips2017testoftime/

https://www.facebook.com/search/str/yann+lecun+alchemy/keywordssearch

這個研究話題從根本上就是理論和深度學習的關係。我將從Ali的演講中摘抄一些引用。

Rahimi：

機器學習已經成為鍊金術。

鍊金術是有效的（對於很多事情）。

但科學家已推翻二千年的鍊金術的理論。

我想生活在一個社會，這個社會的制度建立在可證實的嚴謹的知識上，而不是鍊金術上。

LeCunn：

理解（理論或其他）是一件好事。但是僅僅因為理論沒有追趕上實踐的水平，就批評整個機器學習社區使用「鍊金術」，這種言論是危險的。

為什麼危險？正是這種態度使機器學習社區放棄神經網路 10 年有餘，儘管大量實證研究證明神經網路在很多情況下非常有效。

我從根本上同意Yann的觀點，他認為苛刻的要求會誤導一個領域。也許最危險的是要用成熟的數學理論來打動同行，而不是尋求真正的進步。

但我想在這場辯論中加入我自己的觀點。我將再次引用Rahini:

Rahini：

當一個深度網路不起作用時，我認為它是梯度下降的錯誤。

梯度下降是深度學習的基石。梯度下降是局部搜索的一種形式。以下是一些局部搜索的例子:

內燃機從十九世紀九十年代到二十世紀的演變。

摩爾定律指導下近50年來半導體工藝的發展。

包括人類大腦進化的生物進化。

從希臘數學到現代數學的演變。

Alphago zero訓練時間，通過自我下棋成為世界上最強大的國際象棋程序。

局部搜索確實是神秘的。但是，我們真的能期待一個嚴格的局部搜索理論來預測或解釋人腦的進化或數學知識的歷史演變嗎？我們真的可以期待通過某種梯度下降的二階分析來預測未來二十年將出現哪些數學理論？我的立場是，局部搜索（梯度下降）是非常強大的，從根本上超出了任何完全嚴格的理解。

如今的計算能力已經達到了這樣的水平：強大GPU加上強大架構設計上的梯度下降只能被理解為某種形式的非常強大的通用非凸局部搜索，其性質類似於上述例子。是的，特定的神經網路訓練失敗是梯度下降（局部搜索）的失敗。但是那個觀察提供提供的信息很少。

一個相關的問題是在通用人工智慧（AGI）中時間幀上的方位。嚴謹是否有助於實現AGI？也許即使是Rahini也會發現對AGI的嚴格處理是不可能的。一個嚴謹者的普遍反應是，AGI太遠太扯淡。但是，我覺得我們離得很近，這更讓人興奮。

我寫了一篇關於關於近期的機器感知的合理性的博客文章（https://machinethoughts.wordpress.com/2017/07/22/the-plausibility-of-near-term-machine-sentience/）。

我相信洞察結構是可能的，而這種洞察可以成功地指導設計。LSTMs出現在1997年，因為有克服梯度小時的一種「理論洞察力」。理解批量標準化是克服內部協變數轉換的一種方法，我確實認為我是在直觀的層面來理解（我很樂意解釋它）。直覺的非嚴格的理解是理論理解的基礎。

20多年前，Fernando Pereira（可能他是引用別人）對我說「探險家」和「定居者」。探險者首先看到地形（沒有嚴謹），定居者清理它（嚴謹）。考慮微積分或傅立葉分析。但在局部搜索的情況下，我不認為定理（定居者）將會解決它。

在我看來，一般局部搜索（AGI）的進展將來自尋找正確的計算模型——正確的通用架構——用於定義「強」局部搜索空間的結構。我已經寫了一篇關於搜索一般認知架構的博文（https://machinethoughts.wordpress.com/2016/06/20/cognitive-architectures/）。

輸或贏，我個人打算繼續追求AGI。

參考文獻：

https://machinethoughts.wordpress.com/2017/12/08/the-role-of-theory-in-deep-learning/

特別提示-貝葉斯之父 Judea Pearl Theoretical Impediments to Machine Learning 論文下載：請關注專知公眾號，後台回復「TIML」就可以獲取論文pdf下載鏈接~

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※人工智慧進步來自計算力？周志華：不同意；陳怡然笑談「分餅」
※助理來也胡一川：智能助理正在以去中心化的形態落地
※人類要開始被AI統治？人工智慧機器人Alisa被提名競選俄羅斯總統
※兩億元訂單跑飛子虛烏有，劉慶峰對「BAT無情碾壓」表態
※馬斯克首度承認自研AI晶元，或與英偉達「分手

TAG:新智元 |