當前位置:
首頁 > 最新 > Gary Marcus再發萬字長文,列14個Q&A回應機器學習批判言論

Gary Marcus再發萬字長文,列14個Q&A回應機器學習批判言論

大數據文摘作品

編譯:魏子敏、龍牧雪

「所有的真理都經歷了三個階段:第一,被嘲笑; 第二,被強烈反對;第三,被不證自明地接受。「Gary Marcus引用叔本華的這段話為自己的另一篇萬字長文進行了開篇,以回應他近期面對的「推特上的成千上萬條質疑」。

1月初,一直對深度學習持質疑態度的紐約大學教授、人工智慧創業者Gary Marcus在arxiv上發布了一篇長文,列舉十大理由,質疑深度學習的局限性,在AI學術圈又掀起了一輪波瀾。

Gary Marcus文章地址:

https://arxiv.org/ftp/arxiv/papers/1801/1801.00631.pdf

今天凌晨,針對學術圈(推特圈)對這篇文章的質疑(查看大數據文摘相關報道《Marcus十大理由質疑深度學習?LeCun說大部分錯了》), Marcus又發了一篇長文,他總結了這次論戰中14個常見的問題,並一一給出答案,來回應各種挑戰。

無監督學習更適合哪些領域?

為什麼我不會謬讚深度學習?

為什麼我最有權討論這件事?

Gary Marcus是被Uber收購的人工智慧初創公司 Geometric Intelligence 的創始人兼CEO,同時是紐約大學心理學及神經科學教授。大數據文摘對這些問題進行了摘要,以下為精華內容:

質疑1. 什麼是通用人工智慧(general intelligence)?

機器學習的著名教授、迄今為止最佳評論家Thomas Dietterich教授給出了一個很好的答案,我很滿意:

「通用人工智慧」是一個廣泛目標和環境下的智能系統。例如,參見Russell和Norvig的教科書,以及他們對「智能「的定義——「理性行事」。

質疑2. Marcus對深度學習不夠友好,他沒有提及深度學習的各種成績,並低估了其他人(的研究)。

上面提到的Dietterich提出了這兩點:

@GaryMarcus的文章令人失望。他幾乎沒有談到深度學習的成就(如NL翻譯),並低估了其成績(例如有1000個類別的ImageNet依然很有限)。

關於深度學習的成績,我確實可以說得更多,但我不是沒有說,我在第一頁提到了深度學習的成就:「自那時以來,深度學習在語音識別,圖像識別和語言翻譯等領域取得了許多成就,並在當前廣泛的AI應用中發揮著重要作用。」

並且,在文章最後我引用了幾個文本和博客,提及了很多例子。不過,這些大部分並不算是通用人工智慧,這是我的論文的主要論點。 (例如,Google翻譯做得很棒,但其並不是通用的,例如,它不能像人類翻譯員那樣,回答關於翻譯內容的問題。)

質疑的第二部分更具實質性。 1,000個類別真的非常有限嗎?與認知的靈活性相比,我認為是的。認知科學家通常認為,每個人認知的元素概念大概有5萬個數量級,我們可以很容易將這些概念組合,獲得更多的複雜想法。

你可以在谷歌圖像上搜索的「寵物魚」,給出的圖片還不錯;但是,再試一下「佩戴護目鏡的寵物魚」,你會搜到大量帶護目鏡的狗的圖片,誤報率超過80%。在辨認狗的種類這種問題上,機器會比人類更強,但是在描述複雜場景的時候,人類更有利。

在我看來,把機器學習問題集中在1000個類別塊上,也限制了其解決更開放的問題(比如場景和句子理解)。

質疑3. Marcus說深度學習是無用的,但深度學習對很多問題都很有用。

深度學習當然是有用的,我的觀點是:

在目前的監督學習形式下,深度學習可能正在接近其極限,

這些極限將使通用人工智慧不能完全實現。

我的結論的核心是這樣的:

儘管我勾勒了許多問題,但我不認為我們需要放棄深度學習。

相反,我們需要對其進行重新概念化:不是作為一種普遍的溶劑,而是作為眾多工具中的一種。如果深度學習比喻為電動螺絲刀,那麼我們還需要鎚子、扳手和鉗子。

質疑4. Marcus說DL對分層結構不好,但LeCun的《自然》綜述中說,其特別適合於這樣的層次結構。

這是Ram Shankar的一個問題,我可以很清楚地回答:有許多不同類型的層級可以考慮。對於LeCun說的那種特徵層次來說,深度學習是非常好用的,也許是有史以來最好用的,我通常把它稱為層次特徵檢測。你可以用像素來構建線條,用線條組成字母,用字母組成單詞。 Kurzweil和Hawkins也強調了這一點,這類工作真的可以追溯到Hubel和Wiesel(1959)的神經科學實驗,和福島的作品(福島,三宅和伊藤,1983)。福島在他的Neocognitron模型中,手工連接了很多抽象特徵的層次結構;LeCun等很多人後來證明了(至少在某些情況下)你不必手工設計它們。

但是,頂層系統不需要對整個輸出的結構進行明確的編碼,這是一個深度學習系統可以被愚弄並認為黑色和黃色的條紋是校車的一部分原因(Nguyen,Yosinski,&Clune,2014)。這種條紋模式與校車輸出單元的激活密切相關,這又與一系列低層次特徵相關聯,但是在典型的圖像識別深度網路中,沒有完全意識到校車由車輪、底盤、窗戶等組成。

我所討論的結構層次和上面講的是不同的,我講的系統對某部分可以明確表示。經典的例證是Chomsky的層次,使用複雜的語法結構如the man who mistook his hamburger for a hot dog,構成長句The actress insisted that she would not be outdone by the man who mistook his hamburger for a hot dog。我不認為深度學習在這樣的任務里有好的表現(例如,辨別女演員、男人和熱狗之間的關係)。

即使在計算機視覺領域,問題也沒有完全解決。Hinton最近提出的膠囊網路論文(Sabour,Frosst,&Hinton,2017)試圖通過使用更多結構化的網路來構建能更穩健應對局部-全局關係的圖像識別。我認為這是一個好的趨勢,也是一個潛在的解決「深度學習被欺騙」問題的方法,也反映了標準深度學習方法面臨的麻煩。

質疑5. 在通用人工智慧的背景下討論深度學習是不合適的。通用人工智慧不是深度學習的目標!

這個部分最好的質疑來自魁北克大學教授Daniel Lemire的推特,還有Google的數學博士Jeremy Kun,他反駁了「通用人工智慧不是深度學習的目標」這個說法。

吳恩達最近在《哈佛商業評論(Harvard Business Review)》發布了一篇文章,表述了深度學習可以人類可以做的任何事情。Thomas Dietterich在推文中也表達說,「很難說DL是有限制的」。Jeremy Howard擔心,深度學習過度的想法本身可能被誇大了,然後建議每一個已知的限制都被反駁。

DeepMind最近關於AlphaGo的論文[見注釋4]也有類似定位:

我們的研究結果證明,即使在最具挑戰的領域,一個純粹的[深度]強化學習方法是完全可行的。

以上這些觀點都說明,人們不斷對自己的AI系統進行人類基準測試,其主要原因正是因為,他們以通用人工智慧為最終目標。

質疑6. Marcus說的是監督學習,而不是深度學習。

Yann LeCun在我的Facebook頁面發表了一個評論:

我沒時間做出適當的回應,但總之:(1)我認為大部分都是錯誤的,如果用「監督學習」取代這裡的「深度學習」,那麼問題就會大大減少。 (2)將深度學習的概念拓展到監督學習,正是我過去2年半年來一直倡導的。你對這件事很了解,但是你並沒有在論文中提到這一點。

深度學習和無監督學習並不是邏輯對立的。深度學習主要用於有標記數據的監督環境,但是有一些方法可以以無監督的方式使用深度學習。儘管我對目前建立無監督系統的方法也持保留意見,但我也對這一過程持比較樂觀的態度:

如果我們能夠在這個更加抽象的層面建立一個系統,這個系統能夠設定自己的目標並進行推理和解決問題,那麼可能會有重大進展。

我承認LeCun所提到的這一點,我對深度學習的部分質疑並非只針對深度學習,其對於監督學習也適用。但是,我不認為無監督學習能夠解決我所提出的問題,除非我們為期增加更抽象的符號表徵。

質疑7. 深度學習不僅僅是卷積網路(Marcus批評的那種)它本質上是一種新的編程風格 - 差異化編程 - 而且這個領域正試圖用這種風格來制定可重用的構造。我們已經有一些方法:卷積,池化,LSTM,GAN,VAE,內存單元,路由單元等。 - Tom Dietterich

這似乎(在Dietterich的長推文中)被提出來作為一種批評,但我對此感到困惑,因為我是一個差異化編程迷。也許重要的是,深度學習可以採取更廣泛的方式。在任何情況下,我都不會將深度學習和差異化的編程(例如神經圖靈機和神經編程這樣的方法)等同起來。深度學習是許多可區分系統的組成部分。但是這樣的系統也構建在我一直在敦促整合的符號處理之上(Marcus,2001; Marcus,Marblestone,&Dean,2014a; Marcus,Marblestone,&Dean,2014b),包括內存單元和變數操作,以及其他系統,比如最近的兩篇論文強調的路由單元。如果把所有這些東西融入到深度學習之中是通往AGI之路,那麼我的結論將會無效:

大腦可被視為由「一系列可重複使用的計算原語組成 - 與微處理器中的一組基本指令類似的處理的基本單元 - 可能並行連接在一起,如在可重新配置的集成電路類型中(現場可編程門陣列)「,正如我在其他地方所論證的(Marcus,Marblestone,&Dean,2014),為豐富我們的計算系統所建立的指令集而做出的努力只能是一件好事。

質疑8. 現在vs未來。也許深度學習現在不起作用,但它未來會讓我們實現AGI(通用人工智慧)。

有可能。我認為深度學習可能會促成AGI,如果補充一些關鍵的東西(許多還沒有被發現)的話。

但是,我們補充的東西非常關鍵。將未來的系統稱為深度學習本身,還是更為明智地稱為「使用深度學習的某種特定的系統」,這取決於深度學習在哪裡更合適。例如,在真正充分的自然語言理解系統中,符號處理將扮演與深度學習同樣重要、或更重要的角色。

這裡的部分問題當然是術語。最近一位很好的朋友問我,為什麼我們不能將包括深度學習的任何東西稱之為深度學習,即使它也包含符號處理?深度學習的一些增強版應該起作用。對此我作出回應:為什麼不把包含符號處理的任何東西稱為符號處理,即使它包含深度學習呢?

基於梯度的優化應該得到應有的效果,但符號處理也應該是這樣,它是系統地表示和實現高級抽象的唯一已知工具,它基本上覆蓋了世界上所有複雜的計算機系統,從電子表格到編程環境到操作系統。

最後,我猜想,兩者將不可避免的融合,組成混合系統,將20世紀50年代初期發展起來的20世紀AI的兩個偉大思想——符號處理和神經網路——結合在一起。其他尚未發明的新工具也可能至關重要。

對於一個真正的深度學習者來說,任何東西都是深度學習,無論它是如何融合的,不管它與現在的技術有什麼不同(萬歲帝國主義!)。如果用一個神經元代替經典的符號微處理器中的每個晶體管,但是保持晶元的邏輯完全不變,一個真正的深度學習者仍然會宣告勝利。但是,如果我們把所有的東西放在一起,我們就不會理解是誰在推動(最終)成功。

質疑9. 機器沒有推斷能力,因此期望神經網路從偶書中生成奇數並不公平。

這是一個用二進位數字表示的函數。

f(110)= 011;

f(100)= 001;

f(010)= 010。

那麼f(111)=?

一個人很容易猜出,這個答案是111,而神經網路則不可能。

你可能會覺得這個功能就像「反轉」一樣,很容易用一行計算機代碼來表示。但是對於神經網路很難從這種情況下的平行方法中學習逆轉的抽象概念。這不是一個公平的對決:人類在推廣這樣的映射時顯然依賴於先驗知識。

質疑10. 你論述的論點所有人都已經知道,你沒有提出什麼新觀點。

首先,當然不是每個人都知道,如前所述,有很多批評者認為我們還不知道深度學習的局限性。

而且我從來沒有說過我的觀點是全新的,我引用了其他學者的一些觀點,他們也獨立地得出了相似的結論。

質疑11.Marcus未能引用xxx的論文。

這一點我承認絕對真實,文獻綜述是不完整的。我未能引用一些很受歡迎的論文,我試圖通過其中的一些代表,總而言之,我可以做得更好。

質疑12.Marcus在業內沒什麼地位,他並非從業者,只是個評論家。

在提出這個質疑的時候我有些猶豫,但是這一問題一直出現,包括一些知名教授也提出了這一問題。」真正重要的不是我的資質(我相信事實上我確實有資格寫),而是論證的有效性。

要麼我的論點是正確的,要麼不是。

[對於那些「好事「的人,我最後在附註8中提供了一些我相關證書的迷你歷史記錄。]

質疑13. 回應:Socher的tree-RNN怎麼樣?

我已經給他寫信以期更好地了解其現狀。

質疑14. 你對深度學習的批評可以更加激烈一些。

例如有一位同事指出,未來可能會有一些嚴重的錯誤出現。

確實,我們成功的速度會以指數的速度快速增長......在快速發展的過程中,我們會獲得很多短期成果,而向深層推理的進展將會變慢。

此外,現在我們還不清楚,為什麼對貓95%的識別率,就對通用人工智慧有所幫助。

另一位同事補充說:

[研究人員]在某些領域太快取得勝利。例如圖像處理,但是這些演算法很可能被對抗性攻擊混淆。而且一旦犯錯,常常是瘋狂的錯誤。

另一位同事深度學習研究員兼作家Pedro Domingos指出了目前我沒有提到的深度學習方法的其他缺點:

像其他靈活的監督式學習方法一樣,深度學習系統是不穩定的,因為稍微改變訓練數據可能導致最終模型的巨大變化。

儘管少量數據就足夠運作,但是多數情況下仍需要大量的數據(數據的增加是非常昂貴的)。

它們可能很脆弱:對數據的小改動會導致災難性的失敗。

如果我們想要真正達到通用人工智慧,我們應該直面各種挑戰及我們獲得的成就。

參考文獻

Bordes, A., Usunier, N., Chopra, S., & Weston, J. (2015). Large-scale Simple Question Answering with Memory Networks. arXiv.

Daniluk, M., Rockt?schel, T., Welbl, J., & Riedel, S. (2017). Frustratingly Short Attention Spans in Neural Language Modeling. arXiv.

Elman, J. L. (1990). Finding structure in time. Cognitive science, 14(2)(2), 179–211.

Evans, R., & Grefenstette, E. (2017). Learning Explanatory Rules from Noisy Data. arXiv, cs.NE.

Falkenhainer, B., Forbus, K. D., & Gentner, D. (1989). The structure-mapping engine: Algorithm and examples. Artificial intelligence, 41(1)(1), 1–63.

Fukushima, K., Miyake, S., & Ito, T. (1983). Neocognitron: A neural network model for a mechanism of visual pattern recognition. IEEE Transactions on Systems, Man, and Cybernetics, 5, 826–834.

Garnelo, M., Arulkumaran, K., & Shanahan, M. (2016). Towards Deep Symbolic Reinforcement Learning. arXiv, cs.AI.

Goodman, N., Mansinghka, V., Roy, D. M., Bonawitz, K., & Tenenbaum, J. B. (2012). Church: a language for generative models. arXiv preprint arXiv:1206.3255.

Graves, A., Wayne, G., Reynolds, M., Harley, T., Danihelka, I., Grabska-Barwińska, A. et al. (2016). Hybrid computing using a neural network with dynamic external memory. Nature, 538(7626)(7626), 471–476.

Gulwani, S., Hernández-Orallo, J., Kitzelmann, E., Muggleton, S. H., Schmid, U., & Zorn, B. (2015). Inductive programming meets the real world. Communications of the ACM, 58(11)(11), 90–99.

Hofstadter, D. R., & Mitchell, M. (1994). The copycat project: A model of mental fluidity and analogy-making. Advances in connectionist and neural computation theory, 2(31–112)(31–112), 29–30.

Hosseini, H., Xiao, B., Jaiswal, M., & Poovendran, R. (2017). On the Limitation of Convolutional Neural Networks in Recognizing Negative Images. arXiv, cs.CV.

Hubel, D. H., & Wiesel, T. N. (1959). Receptive fields of single neurones in the cat』s striate cortex. The Journal of physiology, 148(3)(3), 574–591.

Lake, B. M., & Baroni, M. (2017). Still not systematic after all these years: On the compositional skills of sequence-to-sequence recurrent networks. arXiv.

Loghmani, M. R., Caputo, B., & Vincze, M. (2017). Recognizing Objects In-the-wild: Where Do We Stand? arXiv, cs.RO.

Marcus, G. F. (1998a). Rethinking eliminative connectionism. Cogn Psychol, 37(3)(3), 243?—?282.

Marcus, G. F. (1998b). Can connectionism save constructivism? Cognition, 66(2)(2), 153?—?182.

Marcus, G. F. (2001). The Algebraic Mind: Integrating Connectionism and cognitive science. Cambridge, Mass.: MIT Press.

Marcus, G. F. (2004). The Birth of the Mind : how a tiny number of genes creates the complexities of human thought. Basic Books.

Marcus, G. F. (2008). Kluge : the haphazard construction of the human mind. Boston : Houghton Mifflin.

Marcus, G. (2018). Deep Learning: A Critical Appraisal. arXiv.

Marcus, G.F., Marblestone, A., & Dean, T. (2014a). The atoms of neural computation. Science, 346(6209)(6209), 551?—?552.

Marcus, G. F., Marblestone, A. H., & Dean, T. L. (2014b). Frequently Asked Questions for: The Atoms of Neural Computation. Biorxiv (arXiv), q-bio.NC.

Marcus, G. F. (2001). The Algebraic Mind: Integrating Connectionism and cognitive science. Cambridge, Mass.: MIT Press.

Marcus, G. F., Pinker, S., Ullman, M., Hollander, M., Rosen, T. J., & Xu, F. (1992). Overregularization in language acquisition. Monogr Soc Res Child Dev, 57(4)(4), 1–182.

Marcus, G. F., Vijayan, S., Bandi Rao, S., & Vishton, P. M. (1999). Rule learning by seven-month-old infants. Science, 283(5398)(5398), 77–80.

Nguyen, A., Yosinski, J., & Clune, J. (2014). Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images. arXiv, cs.CV.

Pengfei, L., Xipeng, Q., & Xuanjing, H. (2017). Dynamic Compositional Neural Networks over Tree Structure IJCAI. Proceedings from Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17).

Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). 「Why Should I Trust You?」: Explaining the Predictions of Any Classifier. arXiv, cs.LG.

Richardson, M., & Domingos, P. (2006). Markov logic networks. Machine learning, 62(1)(1), 107–136.

Sabour, S., dffsdfdsf, N., & Hinton, G. E. (2017). Dynamic Routing Between Capsules. arXiv, cs.CV.

Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A. et al. (2017). Mastering the game of Go without human knowledge. Nature, 550(7676)(7676), 354–359.

Smolensky, P., Lee, M., He, X., Yih, W.-t., Gao, J., & Deng, L. (2016). Basic Reasoning with Tensor Product Representations. arXiv, cs.AI.

線下課程推薦|機器學習和人工智慧方向

新年新目標,稀牛喊你找工作啦!

高頻面試考點

行業項目經驗

簡歷修改完善

面試注意事項

VIP小班授課,定製化服務,2018春招Offer觸手可即!


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

人工智慧——機器學習(一)

TAG:機器學習 |