當前位置:
首頁 > 新聞 > 吳恩達對話Yann LeCun:從相識Hinton到深度學習崛起

吳恩達對話Yann LeCun:從相識Hinton到深度學習崛起

深度學習專項課程 Deeplearning.ai 中,也包含吳恩達和多位深度學習大牛的對話視頻,之前 YouTube 上已經公開了他與 Geoffrey Hinton、Yoshua Bengio、Ian Goodfellow、Andrej Karpathy 等人的對話視頻。昨日,Deeplearning.ai 放出吳恩達對話 Yann LeCun 的視頻,機器之心對此視頻內容進行整理介紹。

視頻鏈接:https://www.youtube.com/watch?v=JS12eb1cTLE&feature=youtu.be

吳恩達:Hi Yann,你研究神經網路很長一段時間了,我想聽你講下自己的故事:你是怎麼開始做人工智慧的?又是怎麼構建神經網路的?

Yann LeCun:我從小就對「智能」很感興趣,例如人類智能的出現、人類的進化等等。

而且我也對科技、太空等主題感興趣。我最喜歡的電影是《2001 太空漫遊》,裡面有智能機器、太空旅遊、人類進化等讓我痴迷的東西。其中關於智能機器的概念真的很吸引我。

後來我學習的專業是電子工程,大概在工程學院的第二年的時候,我偶然發現了一本哲學書,裡面有 MIT 語言學家喬姆斯基(Noam Chomsky)和瑞士研究兒童發展的認知心理學家讓·皮亞傑(Jean Piaget)的辯論。這個辯論主要圍繞語言的先天機制與後天培養。我們知道,喬姆斯基主張人類擁有語言是因為大腦內有大量的單元結構,是一種先天習得的機制,而皮亞傑認為兒童的語言發展是通過後天學習到的。這兩方都聚攏了一批支持者為其辯護。

MIT 關注於感知機的西蒙·派珀特(Seymour Papert)支持皮亞傑的觀點,他表示感知機(Perceptron)是首個可以學習的機器,而我之前從未聽過。我讀了那篇文章,覺得「可以學習的機器」聽起來真妙。

所以,我開始在幾所大學的圖書館裡面搜索任何我能找到的、討論感知機的書。隨後我意識到,50 年代這個領域的論文很多,然而到了 60 年代,這種討論隨著西蒙與他人合著的關於感知機一本書而終止。

吳恩達:那大概是什麼年份?

Yann LeCun:大概是 20 世紀 80 年代。

所以,後來我和大學的幾位數學教授做了一些神經網路方面的項目。但 80 年代沒有人能夠與我討論,因為基本上這個領域像消失了一樣,很少人研究感知機。我只能自己做實驗,寫了很多用於模擬的程序,讀了很多神經科學方面的書。

在結束工程課程之後,我學習了晶元設計。進行了一些項目之後,我覺得自己需要做這方面的研究,以解決當時比較重要的一類問題:如何訓練多層的神經網路。60 年代的文獻中明確表示這是一類沒有解決的重要問題。我當時也讀了很多文章,你知道 Kunihiko Fukushima 的 Neo-cognitron 論文提出的層級架構,非常類似於卷積網路,但沒有類似反向傳播的學習演算法。

吳恩達對話Yann LeCun:從相識Hinton到深度學習崛起

論文鏈接:http://www.rctn.org/bruno/public/papers/Fukushima1980.pdf

後來,我在法國又碰到一小批人,他們也對此感興趣,但他們稱之為自動機網路(Automata Networks)。他們讓我看了一些研究 Hopfield 網路的論文。你知道,這個網路並不是特別流行,但卻是第一個帶有聯合記憶的神經網路。在 80 年代早期,這些研究重新引起了一些研究團體對神經網路的興趣,其中大部分是物理學家,比如凝聚態物理學家,也有少數心理學家。這時候,工程師和計算機科學家並不參與討論神經網路。

他們也讓我看了另外一篇論文,即剛剛發布的預印版論文《Optimal Perceptual Inference》,這是第一篇有關玻爾茲曼機的論文,作者是 Geoffrey E. Hinton 和 Terrence J. Sejnowski。這篇論文討論了隱藏單元,提出了多層神經網路比單純的分類器更強大。我當即就說,我覺得我需要見見這群人,因為我對這些問題也非常感興趣。後來,我讀博士時參與了一場同事們組織的 workshop,當時 Terrence 做了演講,我也碰到了 Hinton。

那是 1985 年,這是非常吸引人的一個 workshop,有很多早期的理論神經科學等領域的研究者。當時,我也碰見了後來招我進貝爾實驗室的人。

在 workshop 上,我告訴 Terrence 我正在研究的類似反向傳播的演算法,這時 David E. Rumelhart、Geoffrey E. Hinton、Ronald J. Williams 三人的論文還沒發表(指論文《Learning representations by back-propagating errors》),而 Terrence 與 Hinton 是朋友,常常互通有無。所以當時 Terrence 已經在做反向傳播相關的工作,但他當時沒告訴我。

所以,他回到美國告訴 Hinton,法國有個小孩也在做和我們同樣的工作。然後幾個月後(6 月),法國有另外一個會議,Hinton 是 keynote 演講者,他介紹了用反向傳播的玻爾茲曼機。演講結束後大概有 50 人圍繞在他身邊,而他對主辦方說的第一句話是,「你知道有個小孩叫 Yann LeCun 嗎?」——當時,他在 Proceedings 上讀了我的法語版論文,他懂一點法語,再加上數學公式,他能看懂那大概是反向傳播。所以我們一起吃了午飯,然後成為了朋友。

吳恩達:所以你們分別獨立重造了反向傳播?

Yann LeCun:是的,或者說,我們意識到鏈式法則的重要性,也就是那些研究最優控制的學者所說的伴隨態方法(adjoint state method),是非常重要的。而那才是反向傳播真正被「發明」的環境: 20 世紀 60 年代的最優控制研究領域。「在不同的層級利用梯度」就是反向傳播的實質,而這個概念在不同時期的不同語境下反覆出現。但是 Rumelhart,Hinton 和 Williams 的論文讓這個概念變得流行了起來。

吳恩達:讓我們快進幾年,你在 AT&T 貝爾實驗室工作過一段時間,期間,你的重要工作之一是發明了 LeNet。我在我的課程上提到了它,並且當我還是貝爾實驗室的一名暑期實習生的時候,我就聽說過你的工作。能否給我們講述更多關於 AT&T 以及 LeNet 的故事呢?

吳恩達對話Yann LeCun:從相識Hinton到深度學習崛起

Yann LeCun:我實際上是在博士後時期開始研究卷積神經網路的,當時我在多倫多大學 Jeff Hinton 組。我寫了早期相關的代碼,並做了第一批實驗。

當時還沒有 MNIST,我用滑鼠畫了一些字元,用數據擴增技術增加了數據量,然後用這個數據集測試模型的效果。

我比較了全連接神經網路、局部連接但是不共享參數的網路、以及局部連接且共享參數的網路,後者就是第一代卷積神經網路。

模型在小規模數據集上效果很好,有更好的表現,而且在卷積結構下沒有過擬合。而當我在 1988 年 10 月進入貝爾實驗室之後,我做的第一件事就是放大模型規模,因為那裡有更快的電腦。就在我進入實驗室幾個月之前,我的老闆 Larry Jekyll(後來他成為了貝爾實驗室主任)問我:「我們應該在你來之前先訂購電腦,你想要什麼?」當時我們在多大,我們有一部 Sun-4,當時最好的電腦,所以我對他說,「如果(在實驗室)也有一台的話會很贊。」於是他們訂購了一台,所以我就自己擁有了一台電腦!

要知道,在多大,我們是整個系共享一台電腦,但是現在我自己就有一部電腦!當時 Larry 對我說,「在貝爾實驗室,你不會因為省錢而聞名天下的」,這簡直太棒了。而且,他們已經在字母識別任務上工作了一段時間,積累了一個「龐大」的數據集,叫做 USPS,有 5000 個訓練樣本。所以我立刻訓練了一個卷積神經網路,你可以叫它 LeNet one,在 USPS 數據集上取得了相當不錯的效果——比實驗室或者外部人員試過的所有方法都要好。

那時我們就知道,我們做出了一些成果。此時距離我加入貝爾實驗室僅僅三個月。

這是第一個版本的卷積神經網路,我們用了帶有步幅(strides)移動的卷積運算,但沒有單獨的子採樣(subsampling)也沒有池化層(pooling),換言之每個卷積都在直接進行下採樣。這樣設計的原因是因為我們無法承擔每個點都有一個卷積的計算量。

第二個版本有單獨的卷積、池化和下採樣層,這就是 LeNet one。我們在 Neural Computation 和 NIPS 上發表了一系列論文。

有趣的是,我在 NIPS 上做了一個關於這篇論文的演講,Jeff Hinton 當時就在觀眾席。當我回到我的座位(我當時正好坐在他旁邊),他說,「你的演講傳遞一個信息:如果你做出所有合理的選擇,模型會變得能用。(If you do all the sensible things, it actually works.)」

吳恩達:可以肯定的是這項工作在這之後繼續創造著歷史,這個思路開始被用於讀取支票。

Yann LeCun:是,當時這項技術開始在 AT&T 內部應用,但是幾乎沒有在外部使用。

我很難解釋其原因,但是我覺得有這樣一些影響因素:

  • 其一,當時是 80 年代末,沒有互聯網,我們有基於 FTP 的電子郵件,但那還並不是真正的互聯網。

  • 其二,沒有任何兩個實驗室採用相同的軟體或硬體平台。有些人用工作站,有些人用 PC,沒有類似 Python 或者 MATLAB 這樣的框架,人們都要自己寫代碼。

我和 Leon Powe 兩個人花了大概一年半時間,基本上就寫了個神經網路模擬器。而且因為沒有 MATLAB 或者 Python,你得自己寫解釋器(interpreter)來控制你的模型,所以我們寫了自己的 Lisp 解釋器,LeNet 也就完全是用 Lisp 以及一個數值計算後端寫的。結構和現在的框架很像,有不同的模塊,你可以把它們相互連接起來,然後進行微分計算等所有那些現在為人熟悉的框架(Torch、PyTorch 或者 TensorFlow)都具有的功能。

然後我們和一群工程師一起開發了一系列應用。那是一群非常聰明的人,比如有的人原來是理論物理學家,後來來到貝爾實驗室做了工程師。Chris Burgess 就是其中之一,他後來在微軟研究院有著傑出的職業生涯。Craig Knoll 也是其中之一。我們和很多優秀的人合作,把這個特別的概念變成現實。

我們一起開發了很多應用,比如字母識別系統,那是一個結合了卷積神經網路和類似條件隨機場(CRF)的模型,用來識別字母序列,而不是單獨的字母。

吳恩達:是的,我讀了那篇 LeNet 論文,先讓數據通過一個神經網路,然後再讓其通過一個自動機把識別出來的字母合併在一起。

Yann LeCun:是的,論文的前半在講卷積神經網路,那是全文最激動人心的部分。而後半部分鮮少有人讀過。後半部分講的是序列層面的判別式學習(discriminantive learning)以及不帶歸一化(normalization)過程的結構預測,非常像 CRF。

這是個很成功的做法。當時 AT&T 的一個子公司 NCR 的一支產品團隊是我們的「客戶」,負責把我們的系統嵌入到能讀取支票的 ATM 機等設備中。這個系統被部署到一家大型銀行的那天,我們團隊在一家高檔餐廳吃飯慶祝,然而消息傳來說,AT&T 決定拆分改組。當時是 1995 年,拆分後,AT&T 變為三家公司,分別是 AT&T,Lucent Technologies 和 NCR。工程團隊被分到了 Lucent Technologies,產品團隊被分到了 NCR。遺憾的是,AT&T 的律師團動用他們無盡的智慧之後決定把卷積神經網路的專利(是的,卷積神經網路是有專利的,但是謝天謝地它在 2007 年已經過期了)分給了 NCR,然而 NCR 完全沒有人知道卷積神經網路到底是什麼。所以 NCR 的人們手握卷積神經網路的專利卻根本不知道自己掌握的是什麼。而我們在另一家公司,無法再進行與卷積神經網路相關的研究。

吳恩達:除了那些神經網路很火的時期之外,你在「神經網路寒冬」里也堅持對神經網路的信念,那是什麼感覺?

Yann LeCun:某種意義上來說我堅持了,另一個角度來看我也並沒有。我始終相信這類技術會走回前沿,人們會找到在實際生活中應用它們的辦法,我心底始終對此堅信不疑。但是在 1996 年,隨著 AT&T 的拆分,我們所有的字母識別的工作基本上都停滯了,而我也升職成為了部門負責人,我必須為團隊找到可以做的選題。當時還是互聯網的萌芽期,我持有一個觀點:隨著互聯網的興起,我們必須找到把所有紙面上的知識轉移到電子化世界的方法,所以我開始了一個叫 DjVu 的項目,旨在壓縮掃描文件好讓它們得以分布在互聯網上。這個項目在一段時間內很有趣,取得了一定的成功,雖然 AT&T 也不知道該用它來做什麼。

吳恩達:是的,我對那個項目有印象,旨在幫助線上傳播研究工作。

Yann LeCun:是的,我們掃描了整本 NIPS 論文集,然後把它發布在了網上,來展示這項技術如何工作。我們可以把高清的掃描頁壓縮到幾 kb。

吳恩達:你在非常早期的工作中展示出來的(對卷積神經網路的)信念現在已經席捲了計算機視覺領域,並且在持續影響其它領域,談談你是怎麼看待這整個過程的。

Yann LeCun:我剛剛提到,我在很早就預見了這一切的發生。其一我一直相信這方法能行,雖然它需要很快的電腦和大量數據,但是我一直認為這是正確的做法。我在貝爾實驗室的時候就見證了機器持續不斷朝著越來越強大的方向進步,在貝爾實驗室時期,我們就在設計晶元來運行卷積神經網路,我們用兩塊不同的晶元來高效地運行卷積神經網路,所以我們看到了晶元性能的改善,相信這會是一個持續不斷的過程。

然而在 90 年代中期,對神經網路的興趣逐漸走向衰微,所以這個過程沒有立刻發生。在 1995 年到 2002 年這 6、7 年時間裡,基本上沒人進行相關研究。

微軟在 21 世紀初,他們就用卷積神經網路做了中文字元識別,在法國以及其他地方也有一些小的有關人臉檢測的工作,但規模都非常小。

我最近發現,有不少組提出的想法本質上與卷積神經網路非常相似,但是並沒有發表,用於醫療圖像分析。這些想法大部分是在卷積系統語境下,因此它並未應用到職業領域中。我的意思是在對卷積神經網路進行研究之後,研究者並未真正意識到它的力量,不過卷積神經網路依然得到了發展。

你知道很多人提出的想法是類似的,或者隔了幾年提出的想法是類似的,但是在 2012 年 ImageNet 挑戰賽出現後,研究者的興趣改變得非常快。2012 年末在佛羅倫薩 ECCV 舉辦的 ILSVRC 2012 是一個非常有趣的賽事,ECCV 上有一個關於 ImageNet 的 workshop,每個人都知道 Geoffrey Hinton 團隊的 Alex Krizhevsky 以極大的優勢贏得了比賽,每個人都在等待 Alex Krizhevsky 的演講,大會委員會的大部分人不知道 AlexNet 是什麼。我的意思是他們聽我講過這個網路,在 CVPR 2000 會議上,但是大部分人並沒有太注意它。一些資深的研究者知道 AlexNet 是什麼,而社區中的大部分年輕人並不了解它。

然後 Alex Krizhevsky 進行了演講,他並沒有解釋 AlexNet 是什麼,因為他來自機器學習社區,認為所有人都已經知道了 AlexNet 的架構。很多人感到震驚,你可以看到在 Alex Krizhevsky 進行演講的時候,人們的想法改變了,包括領域內非常資深的人。是的,計算機視覺領域的改變正是從那時開始。

吳恩達:那麼今天你仍然保留 NYU 的教職,並且仍然在 FAIR 任職。我知道你對公司如何開展研究有著獨到的見解,可以分享一下嗎?

Yann LeCun:我認為過去四年在 Facebook 的經歷最美好的體驗就是我被賦予充分的自由來按照自己認為最合適的方式建設 FAIR,因為這是 Facebook 內部第一個研究組織。

Facebook 是一家以工程為中心的公司,目前又重新聚焦生存或一些短期問題。在創立快 10 年的時候,這家公司成功上市,那時候差不多就開始思考下一個 10 年的問題。他們告訴我扎克伯格關於未來 10 年的想法,哪些問題將變得重要。那時候,Facebook 的生存已經不是問題。對於大公司來說,或者對於當時只有 5000 名員工的 Facebook 來說,那是一個轉折點,它可以開始思考下一個 10 年的問題,思考技術的發展重點。

馬克及他的團隊認為,AI 將會成為一項關鍵的社交網路技術,同時這也是 Facebook 的使命所在。因此,他們探索了幾種 AI 的利用方式。他們組建了一個小型的內部團隊,用卷積網路在人臉識別和其他幾個方面取得了很好的效果,這激發了他們的興趣。於是他們開始嘗試聘用一批年輕的研究者,收購一家 AI 公司,還有其他一些類似的舉措。最終,他們決定聘用該領域的資深專家並創建了一個研究組織。最初,這種做法遭遇了一點文化衝擊,因為公司使用的研究方法與工程大相徑庭。人們會問,為什麼你的時間比別人長,範圍比別人大?研究者們對於他們想要選擇的研究領域非常保守。在很早的時候我就清楚,研究應該是開放的,我們不僅需要鼓勵,還應該要求研究者去發表研究成果,同時以一種我們熟悉的衡量標準去衡量這些成果,從而讓我們有機會了解這些研究。馬克和 CTO 邁克表示 Facebook 是一個開放的公司,我們在開源方面也有很多貢獻。我們的 CTO 就曾致力於開源,此外公司還有不少人也是如此。可以說開放是刻在 Facebook 骨子裡的。因此,或許這讓我們有信心建立開源研究組織,Facebook 不像其他有些公司一樣對知識產權有著執著的追求,這種文化使得我們更容易與高校合作,在產業界和學界都能有所涉獵。

如果你看看我過去四年發表的論文,就會發現大部分論文是我 NYU 的學生一起寫的,因為在 Facebook 我做了很多實驗室組織工作,指導科研方向等,但是我沒有涉及個人研究項目,讓我的名字出現在論文上。我並不在意論文。你會想要呆在幕後,不想和實驗室里的人競爭。

吳恩達:對想要進入 AI 領域的人,你有什麼建議?

Yann LeCun:如今與我剛剛進入 AI 領域的時候已經大不相同了。我認為現在比較棒的是人們很容易就能達到一定水平,比如有方便使用的現成工具、TensorFlow、PyTorch 等,計算機會相對便宜,在家裡就能訓練卷積網路、循環網路。而且,你也可以在線學習。所以,你看現在高中生都在做 AI,我認為這非常棒。現在,從學生開始越來越多的人對機器學習、人工智慧感興趣。

我的建議是,如果你想做 AI,就要高度參與其中,例如為開源項目做貢獻,或者實現一些標準演算法。就像找到自己認為重要的論文,重現裡面的演算法,開源出來。如果你寫的東西有用,你就會受到關注。這樣,你可能就會收到中意公司的工作 offer,或者參與到喜歡的 PhD 項目中。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

CMU&谷歌Spotlight論文:超越卷積的視覺推理框架
CVPR 2018 | 殘差密集網路:利用所有分層特徵的圖像超解析度網路

TAG:機器之心 |