深度學習會不會退出AI的舞台?紐約大學為你解讀
圖片來源:pixabay
原文來源:arxiv
作者:Gary Marcus
「雷克世界」編譯:KABUDA
儘管深度學習擁有較為久遠的歷史,但就在五年前,「深度學習」一詞及其方法還並不流行。2012年,Krizhevsky、Sutskever和Hinton等人在論文中提出了經典的深度網路模型Imagenet,這使得深度學習重新回歸大眾視野,並逐步變得炙手可熱。
自那時(2012年)起,深度學習領域在隨後的五年中又有哪些新的研究成果?在期刊雜誌對語音識別、圖像識別及遊戲交互等領域的快速發展,進行爭相報道的背景下,我提出了關於深度學習的10個問題,並給出了我的建議:如果想提高人工智慧的發展水平,就必須將深度學習其他技術相結合。
深度學習的發展到達瓶頸了嗎?
雖然深度學習有著幾十年的發展歷史,但直到五年前才真正引起人們的關注。幾乎所有的轉機都發生在2012年,這一年出現了大量極具影響力的論文,如Krizhevsky、Sutskever和Hinton等人當年發表的ImageNet Classification with Deep Convolutional Neural Networks一文,該論文使得ImageNet因其在目標識別方面取得的先進的成果而被世人所熟知。隨後,其他實驗室也開展了類似的研究。在2012年年末,深度學習登上了《紐約時報》的頭版,並迅速成為人工智慧領域最著名的技術。如果說,訓練多層神經網路的構思早已是老生常談的話題,那麼隨著計算能力的提升和數據量的增長,使得深度學習開始在一定程度上變得真正實用起來。
自那時起,深度學習在語音識別、圖像識別和語言翻譯等領域取得了諸多先進成果,並在當前廣泛的AI應用領域中發揮了突出作用。許多公司投入了數十億美元用來爭奪深度學習領域的人才。著名的深度學習倡導者Andrew Ng給出了這樣的建議:「如果一個人可以用不到一秒鐘的時間完成一項智力任務,那麼在現在或者將來,我們可以通過利用AI來實現自動化」。最近,紐約時報周末雜誌刊登的一片關於深度學習的文章,揭示了深度學習「有望重塑計算本身」。然而,正如我之前在beginning of the resurgence、as leading figures like Hinton和Chollet等論文中預測的那樣,深度學習的發展或許已經到達了瓶頸,並且近期已經有相關的現象出現。
深度學習究竟是什麼?智能的本質又是什麼?我們期待它能夠做些什麼?我們希望它能從哪些方面帶來突破?我們距離「通用人工智慧」還有多遠?機器在哪一方面展示出了人類所不具備的解決問題的靈活性?本文的目的是為了打破某些不理性的幻想,並反思我們應該在哪些領域謀求發展。
本文是為了深度學習領域的研究人員、日益增多的AI消費者(這些人往往不具備豐富的技術知識)以及其他希望了解該領域的人而撰寫的。因此,我們從一個簡短而通俗的介紹開始,首先闡明深度學習系統在哪方面表現出色,以及為什麼能有如此出色的表現。然後,對深度學習存在的不足進行點評,並揭示一些因誤解深度學習的作用而產生的恐懼心理,最後以前瞻性的預測作為結束。深度學習不可能,也不應該消失。然而該領域近五年的快速發展,似乎是一個深刻反思的契機,我們應反思哪些是深度學習可以實現的,哪些又是其無法實現的。
什麼是深度學習?它有何出色表現?
深度學習主要是一種使用多層神經網路,對樣本數據進行分類的統計技術。深度學習中使用的神經網路主要由一組表示像素或單詞的輸入單元、多個隱藏層(隱藏層越多,網路越深),包括隱藏單元(也稱節點或神經元)和一組輸出單元(在這些相互連接的節點/神經元之間運行)組成。在一個典型的應用程序中,這樣一個網路可以通過大量的手寫數字(表示圖像,作為輸入)和標記(作為輸出)進行訓練,以識別這些輸入所屬的類別(如,這個圖像是2,這個圖像是3,等等)。
深度學習系統最常被用作分類系統,因為典型網路的任務是確定給定的一組輸入屬於哪一類別(由神經網路上的輸出單元定義)。有了足夠的想像力,分類的力量是巨大的;輸出可以表示單詞、圍棋棋盤的上的位置以及其他任何內容。
在一個擁有大量數據和計算資源的世界裡,可能對於技術的需求非常少。
深度學習的局限性
深度學習的局限性在於對立面(contrapositive):我們生活在一個充斥著無限數據的世界裡,因此,深度學習系統經常需要將數據擴展到已知數據之外,可能是一個新單詞的發音,或是一張從未見過的圖片,在已知數據有限的情況下,深度學習的性能表現往往會受到限制。
正如我們將要探討的那樣,泛化具有兩種形式,已知樣本之間的差值和插值(interpolation)和外推(extrapolation),這需要超出已知訓練樣本的空間。
神經網路的泛化,一般需要擁有大量數據,而且測試數據必須與訓練數據相似,從而可以在舊的數據之間插入新的答案。在Krizhevsky等人的論文中,一個具有6千萬個參數和65萬個節點的9層卷積神經網路,在大約100個不同的樣本上進行了訓練。
這種「粗暴」的方法在Image Net中得到了很好的應用,所有的刺激(stimuli)都可以被分到一個相對較小的類別中。它還適用於像語音識別這樣相對穩定的領域,在該領域中,樣本被不斷地映射到一個有限的語音類別集合上,是由於諸多原因,深度學習不能成為人工智慧的通用解決方案。
過度炒作的潛在風險
目前,過度炒作人工智慧,會帶來的最大風險是引發人工智慧的「冬天」。 比如在上世紀70年代,Lighththill的報告打破了AI領域的研究。該報告稱AI太過脆弱、太過狹隘、太過膚淺,無法在實踐中使用。儘管如今,AI在現實生活中的應用,已經比20世紀70年代更加廣泛,但炒作仍然是一個不可忽視的問題。當Andrew Ng這樣的知名人士,在《哈佛商業評論》中寫道,他承諾即將實現的自動化程度與現實不符時,人們的期望就有了新的風險。事實上,機器並不能像人類那樣做很多事情,如感知世界和理解語義。任何人都不會把烏龜誤認為冰箱, 也不會把停車標誌誤認為冰箱。
大量投資AI的高管們可能會感到失望,尤其是考慮到AI對自然語言的理解水平尚且較低。目前,已經有一些重大項目被放棄了,比如Facebook的M項目,這個項目於2015年8月推出,曾作為一個普通的私人助理而大肆宣傳,後來被降級為一個小得多的角色,只是幫助用戶完成範圍很小的明確任務,如日曆條目等。
就事實而言,聊天機器人總體上並沒有達到幾年前所宣傳的效果。再比如,相較於早期的宣傳而言,無人駕駛汽車同樣令人失望,它被證實在大規模推廣時是不安全的,同時,在做出大量承諾後,無人駕駛汽車沒有實現充分的自主權。類似的事情可能導致AI領域的受歡迎程度和資金投入量大幅縮水。
哪些方面會更好?
雖然我指出了很多問題,但我並不認為我們應該放棄深度學習。
相反,我們應該對其進行重新定義:它不是一種萬能工具,而是眾多工具中的一個。在這個世界上,我們不僅需要鑿子、鑽頭、電壓表、邏輯探頭和示波器,我們還需要鎚子、扳手和鉗子。
在擁有大量數據的感知分類(perceptual classification)領域,深度學習是一種富有價值的工具,而在其他更加豐富的認知領域,它往往不盡如人意。
作為一種衡量進步的標準,值得思考的是我5年前在《紐約客》上發表的一篇有些悲觀的文章,在那篇文章中,我推測「深度學習只是構建智能機器的諸多挑戰之一」,因為「這種技術缺乏表達因果關係(如疾病與癥狀之間的因果關係)的方式,而且在獲得諸如『兄弟姐妹』或『完全相同』之類的抽象概念方面也會面臨挑戰。 它們沒有明顯的邏輯推理方法,對於抽象知識的整合也還有很長的路要走,比如關於什麼是對象、對象用來做什麼、以及如何使用對象等等」。
正如我們所看到的,儘管在語音識別、機器翻譯和棋盤遊戲等某些領域取得了重大進展;儘管在基礎設施建設、數據量和計算量方面也取得了令人印象深刻的進步,但其中仍有許多問題沒有得到有效解決。
有趣的是,在去年,越來越多的曾擁有不同觀點的學者開始強調相似的限制。部分名單包括Brenden Lake和Marco Baroni、Franouis Chollet、Robin Jia和Percy Liang、Dileep George等人、Pieter Abbeel及其在Berkeley的同事。
或許最值得注意的是,Geoff Hinton勇敢地反思了自己的信仰。他在8月接受新聞網站Axios的採訪時透露,他對反向傳播「非常懷疑」,因為他擔心對標記數據集產生依賴,然而,這曾是幫助他開展深度學習研究的一項關鍵動力因素。
相反,他指出(Axios的改述)「可能不得不發明全新的方法」。


TAG:雷克世界 |