和 Geoffery Hinton 面對面聊聊

新聞 05-15

雷鋒網 AI 科技評論按：在今年的谷歌 IO 2019 大會上有個環節，邀請了「深度學習教父」、也是 2018 年圖靈獎獲獎者之一的 Geoffery Hinton 聊一聊學術、非學術的各類話題。整個過程很輕鬆，就是聊聊各種話題，不過 Hinton 老爺子一如既往地學術風氣十足。雷鋒網 AI 科技評論根據視頻回放把訪談內容聽譯整理如下。有小部分刪節。

主持人：大家好，我是 Nicholas Thompson，Wired 記者。今天我們要和 Geoffery Hinton 面對面聊一聊。說起 Hinton 他身上有兩件事讓我很敬佩，第一件當然是他很能堅持，即便所有別的人都說他的想法很糟糕，他也堅持相信自己，堅持一直做下去。別的「有很糟糕的想法」的人很受到他的鼓勵，包括我自己。第二件就是，我做了大半輩子管理者，可以說收集了各種各樣的職位頭銜，而當我看到 Hinton 的簡介的時候，他的頭銜簡直不能更加平庸 —— 就是谷歌工程 Fellow（Google Engineering Fellow）而已。讓我們邀請他上台。

Hinton：謝謝，很高興來到這裡。

和 Geoffery Hinton 面對面聊聊

為什麼要堅持神經網路

主持人：那我們開始吧。我記得大概是 20 年前，你開始寫一些最早的產生影響力的論文，別人看了以後覺得「唔，挺聰明的想法，但是我們沒辦法設計這樣的電腦」。跟大家談談你為什麼能一直堅持、為什麼那麼相信自己找到了很重要的東西？

Hinton：首先糾正你一下那是 40 年前。在我看來，大腦沒辦法以別的方式運轉，它只能是學習連接的強弱。那麼，如果你想要製造一個能做智能的事情的機器，你面前有兩個選擇，給它編程，或者讓它學習。顯然我們人類的智慧不是被別人編寫出來的，所以就只能是「學習」。只有這一種可能。

主持人：那你能再給大家解釋一下「神經網路」這個概念嗎？在場的多數人應該都是知道的，不過我們還是想聽聽你最初的想法，以及它是如何發展的。

和 Geoffery Hinton 面對面聊聊

Hinton：首先你有一些非常簡單的處理單元，可以看做是神經元的簡單形式。它們能接受傳入的信號，每個信號都有權重，這些權重可以變化，這就是學習的過程。然後神經元做的事情就是先把傳入的信號值乘上權重，再把它們全都加起來得到一個和，最後再決定是否要把這個和傳送出去；比如這個值足夠大，就傳送出去，不夠大或者是負數，就不傳送。就這麼簡單。你只需要把成千上萬個這樣的單元互相連接起來，裡面有成千上萬的成千上萬倍的權重，然後學習到這些權重，那你就可以做到任何事了。難點只在於如何學習權重。

主持人：你是在什麼時候開始覺得，這種做法和人類大腦的運轉方式差不多的？

Hinton：神經網路一開始就是仿照人類大腦的樣子設計的。

主持人：比如在你人生中的某個時候你開始意識到了人類大腦是怎麼工作的，可能是在 12 歲的時候，也可能是在 25 歲的時候，那麼你是在什麼時候開始、以及如何決定了你要仿照人類大腦的樣子設計神經網路的？

Hinton：差不多一知道人類大腦是這麼工作的就決定了吧。做這個研究的整個思路就是模仿人類的大腦的連接，然後試著學習這些連接權重。我其實不是這個思路的創始人，圖靈就有過同樣的思路。雖然圖靈為標準計算機科學的發展做出了很大貢獻，但是他就認為人類大腦是一個沒有什麼明確結構、連接權重也都是隨機值的設備，然後只需要用強化學習的方式改變這些權重，它就可以學到任何東西。他覺得「智慧」的最好的模式就是這樣的。還有很多別的人也都有差不多的想法。

主持人：上世紀 80 年代的時候你在這方面的研究讓你變得小有名氣，但後來，從什麼時候開始其它的研究者就開始放棄這個方向了呢？只有你一個人堅持下來了。

Hinton：（停頓了一下）總有那麼一小撥人是堅持相信、堅持到了今天的，尤其是心理學領域裡。不過計算機科學這邊能堅持的就少一點，因為上世紀 90 年代的時候，領域內的數據集很小、計算機也沒有那麼快，這時候還有其它類型的方法出現，比如支持向量機（SVM），它們在那樣的條件下效果更好，受到雜訊的影響也沒那麼嚴重。這就開始讓人感覺到沮喪了，雖然我們在 80 年代開發了反向傳播，我們也相信它能解決任何問題，但那時候我們搞不清它「為什麼沒能解決任何問題」。後來我們知道了讓神經網路發揮實力需要數據和計算力都有很大的規模，但當時沒人知道。

主持人：你們當時以為它效果不好的原因是什麼？

Hinton：我們以為是演算法不好、目標函數不好等等各種原因。我自己很長時間內都有一個想法，覺得是因為我們在做監督學習，需要標註很多數據；那麼我們應該做的是無監督學習，從沒有標籤的數據中學習。但最後我們發現主要原因還是在規模上。

主持人：聽起來很有趣，其實只是數據量不足，但是你們當時以為數據量夠了，但是標註得不好 —— 你們找錯了問題了對嗎？

和 Geoffery Hinton 面對面聊聊

Hinton：我當時覺得「用有標註的數據」就是不對的，人類的大多數學習過程都沒有用到任何標籤，就只是在建模數據中的結構。其實我現在也還相信這個，我覺得隨著計算機變得越來越快，給定一個足夠大的數據集以後就應該先做無監督學習；無監督學習做完以後，就可以用更少的標註數據學習。

主持人：到了九十年代，你還繼續在學術界做研究，還在發表論文，但是沒能繼續解決越來越多的問題。你當時有沒有想過，覺得我受夠了、我要做點別的去？還是就是很堅定地要一直做下去？

Hinton：就是要堅定做下去，這是一定能行的。你看，人類大腦就是通過改變這些連接來學習的，我們去研究、去模仿就好了。學習這些連接的強弱可能會有很多種不同的方式，大腦用了某一種，但是其他的方法也有可能是可行的。不過你總是需要找到一種學習連接權重的方法。這一點我從來沒有懷疑過。

看到希望

主持人：大概在什麼時候看起來好像行得通了？

Hinton：八十年代的時候其實有件事讓大家很頭疼，就是如果你設計了一個有很多隱層（中間層）的神經網路，你沒辦法訓練它們。有一些很簡單的任務里的神經網路是可以訓練的，比如識別手寫字體，但是對於大多數比較深的神經網路，我們都不知道要怎麼訓練。到了大約 2005 年，我想到了一些對深度神經網路做無監督訓練的點子。具體來說是，從你的輸入，比如說是一些像素，學習一些特徵檢測器，學習過之後它們就可以很好地解釋為什麼這些像素是這樣的。然後你把這些特徵檢測器作為數據，把它們作為輸入再學習另一批特徵檢測器，就可以解釋那些特徵檢測器之間為什麼會有關聯性。那麼就這樣一層又一層地學。很有趣的是，你可以通過數學證明，當你學的層數越來越多的時候，你不一定得到了更好的數據模型，但是你會知道你當前的模型的比較結果。每當你增加一個新的層，你就會得到更好比較結果。

主持人：能多解釋一下嗎？

Hinton：當你得到一個模型以後，你會問「這個模型和數據的相符程度如何？」你可以給模型輸入一些數據，然後問它「你認為這些數據和你的想法相符嗎？還是說你感到很意外？」你可以對這個程度做出一些測量。我們想要的效果是，得到一個好的模型，它看到這些數據以後會說「嗯，嗯，都是我很熟悉的」。準確地計算模型對數據有多熟悉一般來說是很難的，但是你可以計算一個模型和模型之間的相對高低，就是比較結果。那麼我們就證明了，當你增加的額外的特徵檢測器層越多，新模型對數據的熟悉程度就會越高。（雷鋒網 AI 科技評論註：這部分的具體技術細節可以參見 Hinton 在 NIPS 2007 上介紹深度信念網路的教學講座 http://www.cs.toronto.edu/~hinton/nipstutorial/nipstut3.pdf）

主持人：在 2005 年有這樣的建模想法挺好的，那你的模型開始有好的輸出大概是在什麼時候？你又是在什麼數據上做的實驗？

Hinton：就是手寫數字數據集，非常簡單。差不多也就是那個時候，GPU（圖形計算單元）開始快速發展，做神經網路的人大概從 2007 年開始使用 GPU。我當時有一個很優秀的學生，他藉助 GPU 在航拍圖像里找到公路，他當時寫的代碼有一些後來被其它學生用在語音的音位檢測里，也是藉助 GPU。他們當時做的事情是預訓練，做完預訓練之後把標籤加上去，然後做反向傳播。這種做法不僅確實做出來了很深的、經過了預訓練的神經網路，再做了反向傳播之後還能有不錯的輸出，它在當時的語音識別測試中打敗了不少別的模型，數據集是 TIMIT，很小，我們的模型比當時學術界的最好的成果好一點點，也比 IBM 的好一些。這是一開始，提升不算多。

然後其他人很快就意識到，這種方法再繼續改進一點就能取得很好的成果，畢竟它當時打敗的那些標準的模型都是花了 30 年時間才做到這種效果的。我的學生畢業以後去了微軟、IBM、谷歌，然後谷歌最快把這個技術發展成了一個生產級別的語音識別系統。2009 年有了最初的成果，2012 年已經來到了安卓系統上，安卓系統也就在語音識別方面遙遙領先。

主持人：那時候你有這個想法都 30 年了，終於做出大眾認可的成果，而且也比其他的研究人員效果更好，你的感覺如何？

Hinton：感覺真的很開心，終於發展到了解決實際問題的階段了。

主持人：那麼，當你發現神經網路能很好地解決語音識別問題以後，你是什麼時候開始嘗試用它解決其他的問題的？

Hinton：嗯這之後我們就開始在各種問題上嘗試這個方法。最早用神經網路做語音識別的是 George Dahl，他又開始用神經網路預測一個分子是否會連接到某些東西上面然後起到治療的作用。當時有一個做這個的競賽，他就直接把用於語音識別的標準方法用來預測藥物分子的活性，然後就這麼贏了競賽。這是一個很積極的信號，神經網路的方法似乎有很高的通用性。這時候我有一個學生說，「Geoff，我感覺用這個方法去做圖像識別也會效果很好，李飛飛也已經創建了一個合適的數據集，還有一個公開的競賽，我們一定要去試試」。我們就參加了，得到的結果比標準計算機視覺方法好很多。（AlexNet 在 2012 年的 ImageNet 大規模視覺識別挑戰賽 ILSVRC 中以遠好於第二名的成績取得第一，下圖中 SuperVision 團隊）

和 Geoffery Hinton 面對面聊聊

主持人：說了不少的成功案例，對化學分子建模啊、語音啊圖像啊什麼的，有沒有什麼失敗的案例？

Hinton：失敗都只是暫時的，你能明白嗎？

主持人：那麼，有沒有哪些領域特別快就成功，有的領域裡就慢一些？我的感覺好像是視覺信號處理、語音信號處理這些人類的感知器官的核心任務是最先攻克的，是這樣嗎？

Hinton：不完全對，感知的確實攻克了，但還有運動控制之類的事情沒有那麼大的進步。人類的運動控制能力非常高，也非常輕鬆，很顯然我們的大腦就是為運動控制設計的。一直發展到今天，神經網路在運動控制方面的表現才開始追趕上此前就有的技術。神經網路最終會趕超的，但現在才剛剛出現小的勝利。我覺得，推理、抽象推導這些人類也最後才學會做的事情，也將會是神經網路最難學會的事情。

主持人：你們總說神經網路最後能搞定所有的事情？（笑）

Hinton：這個嘛，我們人類就是神經網路啊。所有我們能做的，神經網路就能做。

主持人：沒錯，不過人類大腦也不見得就一定是世界上最高效的計算機器。有沒有哪種機器比人類大腦的效率更高的？

Hinton：哲學上來講，我並不反對「存在一種完全不同的方式來達成這一切」這樣的觀點。比如有可能你從邏輯開始，你就會嘗試研究自動邏輯，會研究出什麼特別厲害的自動定理證明機器；如果你從推理開始，然後你要通過推理做視覺感知，可能這個方法也可行。不過最後這些方法沒做出好的效果。我從哲學角度上並不反對其它的方式也能達成這些。只是目前來看，我們知道大腦、也就是神經網路，是確實可以做出這些的。

我們理解神經網路嗎？理解我們的大腦嗎？

主持人：下面我想問另一個角度的問題，那就是，目前我們並不完全清楚神經網路是如何工作的，對嗎？

Hinton：對，我們不太清楚神經網路是如何工作的。

和 Geoffery Hinton 面對面聊聊

主持人：我們很難從結果推理出神經網路的工作方式，這是我們對神經網路的不理解的關鍵之處對吧？詳細談談吧。以及顯然我還有緊接著的下一個問題：如果我們不知道他們是如何工作的，那麼我們把它們造出來以後是如何得到好的效果的？

Hinton：如果你觀察一下當前的計算機視覺系統的話，它們大多數都只有前向傳播，沒有反饋連接。當前的計算機視覺系統還有一個特點，就是他們對於對抗性錯誤非常敏感，比如你有一張熊貓的圖像，輕微修改了其中幾個像素以後，在我們看起來仍然是熊貓，但計算機視覺系統就會一下子認為圖中是火雞。顯然，這個修改像素的方式是需要經過精密的設計的，是對計算機視覺系統的誤導或者欺騙。但重點是，在人類看來它仍然是熊貓，不受影響。

所以一開始我們以為基於神經網路的計算機視覺系統工作得挺不錯的，但是後來當我們發現這樣的對抗性修改（攻擊）可以起到這樣的作用以後，大家都會開始有點擔心。我覺得這個問題有一部分原因是因為網路並沒能從高級別的表徵進行重建。現在有研究者開始嘗試做判別式學習，就是學習很多層的特徵檢測器，然後最終目標是改變不同特徵檢測器的權重，更好地得到正確的結果。最近我們團隊在多倫多也有一些發現，Nick Frost 發現，如果你引入了重建過程，它能讓網路面對對抗性攻擊的時候更穩定。所以我覺得人類視覺系統中，學習的過程就帶有重建。而且我們人類除了視覺之外，很多的學習過程都是帶有重建的，所以我們面對對抗性攻擊的時候要穩定得多。

主持人：就是說，你覺得神經網路中從後往前的連接可以幫你測試數據的重建的過程？

Hinton：對，我覺得這非常重要。

主持人：那麼腦科學家也持有同樣的觀點嗎？

Hinton：腦科學家們全都同意這個觀點，就是如果感知信號通路要經過大腦皮層的兩個不同區域，那一定會有反向連接。他們只是還沒有在這個連接的作用上達成一致。它的作用有可能是注意力、有可能是為了學習、也有可能是為了重建，甚至有可能三者都是。

和 Geoffery Hinton 面對面聊聊

主持人：所以我們還不完全理解反向連接的作用。那現在你就希望在網路中構建起到重建作用的反向連接，這麼做合理嗎？雖然你說要仿照大腦，但是你不確定大腦到底是不是這樣的。

Hinton：我完全沒有這方面的擔心。畢竟我做的不是計算神經科學，也不是要為人類大腦的運轉方式提出一個多麼好的模型。我所做的僅僅是觀察大腦，然後說「既然它能很好地發揮作用，那我們想讓別的東西也發揮好的作用的時候，就可以從這裡尋找一些靈感」。所以我們從神經科學、腦科學中獲得靈感，但並不是為腦神經建模。我們的整個神經網路模型、我們的模型中用的神經元，就是來自於人腦中的神經的啟發：神經元有很多的連接，而且這些連接可以改變權重。

主持人：聽起來很有趣。所以如果我也做計算機科學，我也研究神經網路，然後我想要比 Hinton 做得更好的話，有一種選擇是根據腦科學裡的其它一些模型構建從後向前的連接，這次我可以選擇讓它發揮學習的作用。

Hinton：如果這樣能得到更好的模型，那你真的有可能會成功的。

主持人：下一個話題，既然我們說神經網路可以解決各種問題，那有沒有可能讓神經網路捕捉重現人類的大腦，比如感情呀……

Hinton：（直接打斷）不可能的。

主持人：那能用神經網路重建愛情、重建意識嗎？

Hinton：這個可以，只要你弄明白了這些東西的含義到底是什麼。畢竟我們人類也是神經網路。意識是我現在特別感興趣的一件事，不過很多人說到這個詞的時候都不太清楚自己到底在說什麼。這東西有很多不同的定義，在我眼中它應當是一個科學辭彙。100 年以前如果你問別人「生命」是什麼，他們可能會說「活著的東西就有一種積極的生命力，當他們死去的時候，這種生命力就跟著一起走了。所以活著和死了的區別就是有沒有那種生命力」。現在我們已經不談生命力這種東西了，我們認為這是偽科學概念。甚至當你學習了生物化學和分子生物學之後，你就會開始痛斥生命力的說法，因為你已經明白生命具體是怎麼回事了。我覺得我們對於「意識」的理解也會經過同樣的過程。以前提出這個詞是為了解釋我們覺得有重要含義的精神現象。但一旦我們真正明白了意識是怎麼一回事，這個「重要含義」的內容就不再重要了，我們能夠清楚地解釋做哪些事會讓別人覺得一個人「有意識」，而且這又是為什麼，也能夠解釋這個詞的所有不同含義。

主持人：那麼，沒有什麼感情是不能被創造的，沒有什麼思維是不能被創造的，只要我們完全理解了大腦是如何工作的，理論上就沒有什麼人類大腦能做的事情是不能被工作良好的神經網路重現的？

Hinton：你知道嗎，你剛才說的這幾句，讓我想起 John Lennon 的一首歌，詞句很像。

主持人：你對這些有 100% 的信心嗎？

Hinton：不，不是 100%。我是一個貝葉斯主義者，我有 99.9% 是有信心的。

主持人：好吧，那另外那 0.1% 呢？

Hinton：就是有可能我們整個世界都是一個很大的模擬器，這一切都不是真的。

主持人：也不是沒可能。那麼，通過你在計算機方面的研究，我們有沒有什麼關於大腦的新發現？

Hinton：我覺得，在過去的十年中我們學到的是，如果你有一個系統有數以億計的參數和一個目標函數，比如做好完形填空，它能達到的表現要比直接看上去的好得多。

和 Geoffery Hinton 面對面聊聊

做傳統 AI 的人大多數會覺得，或者一個普通人也會覺得，對於一個有幾十億參數的系統，要從所有參數都是隨機值的初始狀態開始，計算目標函數的梯度，然後挨個更改這幾十億參數，讓目標函數的值向著更好的方向去那麼一點點，而且要做一輪一輪又一輪，這件事工作量太大了，沒什麼希望完成，很有可能在半路上就卡死了。但實際上這是一種很好的演算法，各方面的規模越大，它的效果就越好。這完全是從我們的經驗中總結出來的。現在既然我們已經發現了這樣的規律，那麼認為人類大腦也是在計算某些目標函數的梯度、然後依據梯度更新神經電信號傳播時候的強弱，就顯得容易接受多了。我們只需要弄明白這個過程是如何分解成一步步的，以及這個目標函數是什麼。

主持人：但我們對大腦的理解還沒有到那一步？我們還不理解這個改變權重的過程？

Hinton：這是一種理論。挺久以前人們認為是有這個可能的，不過也總會有一些傳統的計算機科學家堅持說「聽起來很美，但是你說你有幾十億個隨機初始值的參數，然後全部通過梯度下降去學習，這是辦不到的，你必須在裡面固定一些知識進去。」現在我們能證明他們的觀點是錯誤的，你只需要從隨機的參數開始，然後學到一切。

主持人：我們再拓展一點。假設我們根據我們認為的大腦工作方式設計了模型，然後對它們做大規模測試，我們就很有可能了解到越來越多的關於大腦事實上如何運轉的知識。會不會有一天到了某個地步，我們可以動手改造自己的大腦，讓它們成為更高效、最高效的計算機器？

Hinton：如果我們真的能弄明白的話，我們就可以把教育之類的事情做得更好。我相信這是會發生的。如果你能弄明白自己的大腦中在發生什麼，但是卻不能夠調節它、讓它更好地適應你所在的環境的話，這反倒是一件奇怪的事情。

機器學習也「做夢」

主持人：我們能更好地理解夢境嗎？

Hinton：我覺得能，我自己也對夢境很感興趣，以至於我知道至少四種關於夢境的理論。

主持人：給大家講講唄。

Hinton：第一種有個挺長的故事。很久以前有個叫做 Hopfield 網路的東西，它可以把記憶學習為局部吸引子。Hopfield 這個人發現，如果你試著往裡面塞太多的記憶的話，它們就會混淆。這會讓兩個局部的吸引力子在中間某個位置合二為一。

有 Francis Crick 和 Graeme Mitchison 兩個人，他們說可以做忘記（unlearn）來避開虛假的局部極小值。那麼我們就關閉網路的輸入，先把神經網路設在一個隨機狀態，然後等到它停止下來以後，我們會覺得得到的結果不好，然後調整一下網路連接讓它不要停在那個狀態。這樣做過幾次之後，它就可以存儲更多的回憶。

然後就到我和 Terry Sejnowski，我們覺得，不僅僅有存儲回憶的神經元，還有很多起其它作用的神經元，我們能不能設計一個演算法，讓其它的神經元也幫助恢復回憶。後來我們就這樣開發出了機器學習里的玻爾茲曼機，它有一個非常有趣的性質：給它展示數據，它就會在其它的單元附近持續轉悠，直到得到一個滿意的狀態；然後一旦得到了，它就會根據兩個單元是否都激活來增加所有連接的權重。這裡存在一個階段，你需要把它和輸入之間切割開。你讓它轉悠轉悠來到一個它自己覺得舒服的狀態，這時候你就會讓它找到所有成對活躍的神經元然後減弱它們之間的連接。

在這兒我跟你解釋的演算法好像是一個有趣的過程，但實際上演算法是數學研究的結果，我們考慮的是「要如何改變這些連接的方式，才能讓帶有隱層的神經網路覺得數據很熟悉」。而且它還需要有另外一個階段，我們把它叫做負性狀態，就是讓它在沒有輸入的狀態下運行，然後對於它所處的任何狀態都會忘記。

我們人類每天都會睡很多個小時。如果你隨機地醒來，你就能說出你剛才在做什麼夢，因為夢的記憶在存儲在短期記憶里的。如果你一直睡夠了才醒來，你就只能記得最後一個夢，更早的夢就記不起來了。這其實是一件好事，免得把夢和現實弄混了。那麼為什麼我們不能記得我們的夢呢？Crick 的觀點是，做夢的意義就在於把很多事情忘掉。就像是學習的反向操作。

而 Terry Sejnowski 和我展示了，其實這是一個玻爾茲曼機的最大似然學習過程。這也是做夢的一種理論。

主持人：你有沒有讓哪個深度學習演算法也像這樣做個夢？學習某個圖像數據集，然後忘掉，再學習，等等。

Hinton：有的。我們試過機器學習演算法。我們最早發現的能夠學會處理隱層神經元的演算法里就包括了玻爾茲曼機，不過效率非常低。後來我發現了一種對它們做逼近的方法，要高效多了。這些其實都是讓深度學習重獲生機的契機，也就是藉助這些方法我能夠每次學一層特徵檢測器。這也就是受限玻爾茲曼機的一種高效形式。它也可以做遺忘。不過它不需要睡眠，它只需要在看過每個數據點之後冥想一陣子。

主持人：第二種理論呢？

Hinton：第二種理論叫做清醒和睡眠演算法（the Wake Sleep Algorithm），而且你會想要學習一個生成性的模型。這裡的思路是，你有一個可以生成數據的模型，它有很多層特徵檢測器，它可以從高層開始逐步向下激活，一直激活到像素的那一層，然後你就得到了一張圖像。你也可以反過來做，就成了識別一張圖像。

這樣你的演算法就會有兩個階段，在醒著的階段，數據進來，模型嘗試識別數據；但這時候模型學習的目標不是加強連接用於識別，而是加強連接用於生成。隨著數據進來，隱層的神經元被激活，然後讓神經元學習如何更好地重建數據。每一層都學習如何重建。但問題是，這樣要如何學習前向連接呢？思路就是，如果你已經知道了前向連接，你就可以學習反向連接，因為你可以學習重建。

和 Geoffery Hinton 面對面聊聊

現在我們還發現它可以使用反向連接，你可以學習反向連接，因為你可以直接從最上層開始激活然後生成數據。而且因為你在生成數據，你就知道隱層神經元的激活狀態，你也就可以學習到前向連接來恢復這些狀態。這就是睡眠階段了。當你關掉輸入的時候，你只是生成數據，然後你嘗試重建那些生成了數據的隱層神經元的狀態。另外，如果你知道了自頂向下的鏈接的話，你就可以學習從下向上的連接；反過來也一樣。所以如果你從隨機連接開始做，把兩件事交替進行的話，也是可行的。當然了，為了讓它有好的效果，你需要對它做各種變化，但是確實是可行的。

主持人：emmm，我們還有 8 分鐘時間，你打算繼續談談其它兩種理論嗎？那樣的話我們就跳過最後幾個問題。

Hinton：另兩個理論可能要花一個小時。

膠囊是個好想法，但也是個錯誤

主持人：那我們就繼續往下問吧。你現在在做哪方面的研究？在嘗試解決哪些問題？

Hinton：最終我們都是要把以前沒做完的研究一直做完。我覺得我的研究里有一件東西是永遠都結束不了的，那就是膠囊（capsules），它就是我心中那個通過重建進行視覺感知的理論，也是把信息路由到正確的地方的理論。在標準的神經網路里，信息，也就是每層神經元的活動，它的走向是自動的，你沒法決定要讓信息去哪裡。膠囊的想法就是要決定把信息發送到哪裡。目前來說，從我開始研究膠囊以後，有一些別的很聰明的谷歌同事創造了 Transformer 模型，做的是同樣的事情。它們都是決定把信息送到哪裡，這是很大的一個進步。

還有一件啟發了我做膠囊的事情是坐標框架。當人類做視覺感知的時候，我們都會使用坐標框架。如果人類在一個事物上假設了錯誤的坐標框架，他就會認不出來那個物體。

和 Geoffery Hinton 面對面聊聊

你做一個小任務感受一下：想像一個正四面體，它的底面是三角形，然後有三個三角形的側面，四個面都是全等三角形。很容易想像對吧？然後想像用一個平面切割它，要得到一個正方形的截面。切割簡單，但是得到正方形的截面就難了。每次你嘗試截的時候，你都會得到一個三角形的截面。

和 Geoffery Hinton 面對面聊聊

似乎很難看到這個正方形截面要怎麼截出來。那麼我換個方式來描述這同一個物體。我用你的筆來筆畫一下，上面是一隻筆，下面也有一隻筆，想像它們在空間中垂直，然後把上面的筆上的所有的點連接到下面的筆的所有的點。這樣你就得到了一個四面體。現在我們看一下這個四面體和坐標框架的關係，上面的邊和一條坐標軸平行，下面的邊和另一條坐標軸平行。那麼當你這樣來看它的時候，就很容易看到如何截出來一個矩形，也就能找到在中間某個位置可以得到一個正方形。但是只有我們在這個坐標框架下思考才能看得出來。

和 Geoffery Hinton 面對面聊聊

對於人類來說這一點是很顯然的，但其實對感知這整件事來說，坐標框架都很重要。

主持人：在模型中增加坐標框架，和你在 90 年代做的想要把規則集成到模型里結果發現是個錯誤，有什麼區別嗎？不是說要讓系統是無監督的嗎？

Hinton：沒錯，這就是同一個錯誤。正因為我很確定這是個糟糕的錯誤，所以我只能加一點點東西，有點不懂不癢。這實際上也讓我自己的處境有點尷尬。

主持人：你目前的研究是專門針對視覺識別的，還是說先想到了坐標框架的事情，然後再試著把它做成更通用的樣子？

Hinton：它也可以用在其他任務里，不過我自己尤其對視覺識別里的應用感興趣。

主持人：深度學習曾經很獨特，如今似乎很大程度上就是 AI 的近義詞了；同時 AI 也成了一個市場營銷意味很濃的詞，隨便用了一個什麼機器什麼演算法的人也說自己用了 AI。作為發展了這些技術、幫助帶來了這種現狀的人，你的感受如何？

Hinton：當年 AI 只是指基於邏輯的、操作符號的計算系統的時候我要快樂得多；當時的神經網路也是說你可以用神經網路學習。現在有很多企業不喜歡那些，只是在乎錢。我就是在這樣的環境里長大的。如今我甚至看到有一些曾經連續很多年說神經網路是垃圾的人現在開始說「我是做 AI 的教授，所以請給我批資金」。真的很煩人。

主持人：你的研究領域起飛了，有點吞併了其它領域的味道，也就讓他們有理由要錢了，有點讓人沮喪。

Hinton：不過也不是完全不公平吧，有很多人確實調整了思路。

主持人：最後一個問題，你曾經在一次採訪中說過，AI 有可能會像是黑洞，如果你構建它的方式不正確，它可能會反過來吃掉你。那麼你在研究中是如何避免把它得有傷害、甚至做成黑洞的呢？

和 Geoffery Hinton 面對面聊聊