人工智慧教父Hinton懟戰記

最新 07-10

（Hinton：其他所有人都是錯的）

本文大部分材料由張恩文兄搜集整理，錯誤的歸於我，偶爾正確的，請歸於他。

no、no、no，本文沒有任何錯誤。

＊這個符號開始的行是注釋行，為了閱讀流暢，可以直接跳過。

＊英文簡稱第一次出現時通常有中文或英文全稱，若遇到不熟悉的簡稱，請移步文尾，有統一解釋。

1，戰神Hinton

（戰神Hinton和他的學生LeCun）

大約在2009年，一種被稱為深度學習DL的神經網路NN技術開始在語音識別上應用，大幅度改進了識別率。據稱這是1979年來識別準確度最顯著的提升（Rashid等），其始作俑者Hinton開始進入大眾的視野。2012年，圖像識別突破。2013年Hinton受聘為Google Brain科學家，從「地下組織」開始進入主流。2016年，Alphago擊敗世界圍棋冠軍，Hinton成為人工智慧教父。

在整個科學歷史上，都極少見到這種從完全非主流走向完全主流的顛覆式變化。「範式衝突如殺人父母」，所以，被懟之兇殘，難以想見。據說敵對陣營都想要起訴他們了（Werbos 2003），說他詐騙經費，為此Hinton不得不在官網公布每一筆開支，每一個penny。最兇殘的被懟可能是被罵成惡魔Evil，這幾乎可以讓人聯想到宗教審判，或者是燒死女巫的戲碼。

NN在之前曾有過一段短暫主流。例如人工智慧歷史最悠久的學術會議之一NIPS，就是IJCNN分出來NN的人創辦的（Hinton在NIPS開幕笑話說，現在NN回來了，NIPS終於對得起這個neuron這個名字了，其實大家去年之前都沒必要參加NIPS）。不過後來基礎有缺陷、加上效果不好就不行了，不僅資金申請不到，而且文章連NIPS都投不中，NN大神Andrew NG在2011年的公開課中到NN就直接跳過了，說沒什麼用。以Minsky為代表倡導的路線壓制了NN發展，差不多20年冰河期，只有少數人在堅持，如Kohonen、Grossberg、Amari，很辛苦就是。NN的人韌性太好，Hinton又是其中典型，戰鬥力爆表。被罵了30年後，終於蛻變突破，殺回司令部，年近70的老爺子，不只是戰神而已，簡直可以稱為大帝。

（Hinton the Great）

本文就是Hinton the Great的懟戰記。

2，DL鍊金術

鍊金術的意思是，DL缺乏理論。所有的事都在工作，但沒有人知道是怎麼工作的。Everything works but no one knows why。LeCun在2012年的論文在CVPR被拒的原因也是有效果，卻沒模型說明為什麼達到這種效果。

理論缺失的攻擊來自於NN與支持向量機SVM的站擼。SVM和NN都源於感知機，其實是兩種解決方法。SVM是Vapnik在1992年提出的，NN是多層非線性，SVM利用一種核Kernel的技巧，將非線性的問題線性化。SVM長期來一直處於優勢，直到Hinton 2006年的DL。NN被Vapnik罵慘了，說搞AI的有兩種人，一種是靠譜的，一種是搞NN的。DL出來後，Vapnik稱DL是使用暴力Brute Force，沒有理論指導，是惡魔的行事方式，與智能無關。

不過DL效果更好，Hinton the Great就戲稱SVM是淺層（淺薄）學習，I want to call SVM shallow learning。LeCun也開玩笑說，Hinton豎起小指，就幹掉了SVM。

Geoff Hinton doesn"t need support vectors. He can support high-dimensional hyperplanes with hispinky finger.

對DL理論缺失的攻擊，集中爆發在2017年「鍊金術」之爭。

（機器學習是鍊金術ML is alchemy，Ali Rahimi NIPS 2017，Ben Recht 2017）

＊實話說，這其實也不能全怪別人，DL有些論文挺民科的，比如Bengio的《Evolving Culture vs Local Minima》，雖然接近心理學中的social learning，但看起來就是哲學稿件。

Lecun隨後回應，實踐本就先於理論，鍊金術的觀點是侮辱性的。Ali Rahimi輕飄飄的回應說，如果你不喜歡，可以改變這種狀況啊。If you don"t like what"s happening, fix it。

Hinton the Great面臨同樣質疑的時候就智慧很多。有人說DL沒道理，Hinton說我performance第一，可能它是有點道理的。Alex Smola問你們是不是發展發展穩固的理論，Hinton說，我覺得你會做這事兒的。

這有點像上個世紀理論物理和數學之爭。數學家認為物理理論太過於依靠直覺，並沒有嚴格的數學證明。而物理學家認為有效性先於數學工具。鬧到Dyson感嘆說數學和物理之間幾百年的婚姻以離婚告終。更長期看來，我們發現，物理和數學其實發展出兩種關係，一是數學模型在物理中不可思議的有效性，比如歐拉和牛頓的秤動點，用物理學家溫伯格的話來體會一下：

一些數學家出賣靈魂給魔鬼，以換取何種數學在許多年後將為物理學家所應用的信息。一一Wigner

二是先找到一種現實中有效的理論，然後得出嚴格的數學表述，其中有可能觸發數學工具的發展，比如Witten的鏡像對稱。用數學家阿蒂亞的話來體會一下：

這是一記妙招：物理學家先飛上天去，使用一個叫作降落傘的東東出現在代數幾何的中心，他們立即佔領了整個城市。一一阿蒂亞

So it』s a spectacular coup: physicists go up into the sky, they land by parachute in the middle of algebraic geometers and they capture immediately the whole city. by Atiyah

DL就是Hinton的那個降落傘，降落在人工智慧的中心，佔領了整個城市。也許在這裡也會形成阿蒂亞說的那種有趣的互動，人工智慧專家先形成一個答案，而後，數學家通過其他方式證明它。然後，他們可以交換信息。就像相對論、量子力學、弦論中發生的那樣。

20世紀的數學其實是有大革新的。20世紀之前，科學並不研究事物的整體性質，只研究它的組成部分。然而，在20世紀，首先是數學，由龐加萊發起，開始了整體性質的研究，奠定了現代數學不同分支的基礎，尤其是拓撲學。考慮一下複分析，或者叫做函數論，是19世紀數學的中心，對他們（Weierstrass等）來說，一個函數是一個就是一個復變數的函數、一種冪級數、可以明確寫下來的公式。Abel、黎曼讓我們遠離了這些，函數更多的通過整體性質來定義，奇異點位置、定義域位置、取值範圍等，這些整體性質正是一個特定函數與眾不同的特性，局部展開只是看待它們的一種方式。考慮微分方程，最初，解一個微分方程，人們需要尋找一個明確的局部解，隨著事物的發展，解不必是一個顯函數，人們不一定必須用好的公式來描述它們，解的奇異性是真正決定其整體性質的東西。

我們進一步將這種轉變與數學、物理的融合聯繫起來，甚至更細節的將這種轉變與物理中對稱、對偶、同調等整體性質的引入聯繫起來，與現代物理學對時空的描述聯繫起來。

如今，我們討論DL在理論的缺乏，討論的不是弱點，不是危機，而是一個讓人驚嘆的事情，一個劃時代的機遇。它超越經濟，超越技術，我們討論的是一個大事情big thing，我們這個時代最大的科學的獎賞，也許，在任何時代，都是最大的獎賞。（模仿NN大神Sutton的語氣，很朋克對不對）

（Sutton接受採訪，「Biggest thing」，搞個大事情）

也許有人說NN只是工程上解決問題的機器，而函數則是人腦孕育的一個概念。但「函數」這個概念為什麼不能包含DL本身？AI在現實中的有效性很有可能推動新的數學工具發展，甚至引發新的革新。它真正走入大眾視野不過10年時間，而這個世紀，才剛剛開始，還有很多的時間。

不過，希望不要太多類似那位自封為「當代蘇軾」的數學家吧。那樣除了加強「鄙視鏈」，別的什麼也不會有。

3，不能推理Reasoning

不能推理的責難，發起是Marcus 2012年在紐約客上的文章，說DL是構建智能機器的更大挑戰的一部分，目前這些技術都還缺乏表示因果關係的方式，不能邏輯推理。

為了講訴一個古老神話，Hinton建了一個更好的梯子，但是更好的梯子也不會讓你到月球。

To paraphrase an old parable, Hinton has built a better ladder; but a better ladder doesn』t necessarily get you to the moon.

一一Gary Marcus

之後這個討論被擴大化，成了DL的心病，Dietterich、LeCun的大篇的回應，其實是沒什麼回應。類似於從沒有拼過刺刀的Witten在採訪中說：我沒有什麼深刻的話好說了，我希望我們能學到更多。

不過這同樣難不倒Hinton the Great。Hinton在NN革命的演講中說，

其實我們應該改變的，是對我們自身本質的理解。50年前的觀點是，我們是理性的人，我們推理、把內心的想法置於腦海中，組成一個大的符號表述，這不過是無稽之談。

有一些事發生於100年前，弗洛伊德在意識之下引入了一種無意識的原因，Hinton不稱它為無意識，而是說：

我們不過是使用類比工作的設備，它比說我們依靠推理工作，更為根本。

I just say we are devices that work by using analogies and that"s much more basic to how we work than reasoning。

一一Hinton

並且舉了我們基於日常經驗，會把貓當作女性，狗當作男性的例子。正如侯世達所談到的Strange Loop。

（分層的「我」「I」，Will Schoder，神經網路中沒有邏輯和符號規則，努力去掉最後人工規定的目標函數，讓它無監督學習，所以它是數學家的public enemy no.1，恩文兄甚至更為激進的說，整個科學都基於因果關係，所以是整個科學的頭號公敵。侯世達則是分層的，規則誕生於高層）

Hinton用「向量之舞」，隱藏層內部狀態中的積累信息，替代了侯世達的「符號之舞」，用analogy替代了symbolic inference，symbol只不過是一種修辭，thought不過是大的狀態向量而已。

（四面體謎題，Hinton，coordinate frame）

這是Hinton演示的四面體謎題，是一種思維實驗，參與者需要將兩個全等的積木，拼成一個四面體。這理應很簡單的問題，但卻比預期的花更多的時間。這意味著這裡有一種錯覺發生，也說明邏輯並非底層認知的規則。

（BBVA獲獎時的戰爭宣言）

所以，Hinton在獲獎感言中談到兩種AI願景之爭，傳統的基於推理，而Hinton堅持的路線，則是新的、革命的、基於類比的道路。

4，DL跟大腦工作不一樣

有一個揄揶Hinton的動畫短片，說是每隔幾年，Hinton the Great就會宣布一次「我知道人腦是怎麼工作的了」。

（1983年大腦是RBM，後面分別是1986BP、1993圖模型、2000CD、2006DL、2010幾何變換）

（live long and prosper）

^_^。毫無疑問，DL與上世紀90年代認知神經科學家一系列人腦的理論相關，特別是新皮質發育neocortical。這些理論在計算理論中被實例化，成為DL的前身。所以，當Daniel Dennett被問及如何評價Hinton時，他說的是，Hinton是認知科學領域最傑出的人之一。

(Hinton：我的主要研究計劃是理解人腦如何計算）

然而，直至今日，認知神經科學對人腦在迴路/系統層面如何學習仍然所知不多，所知的如個體突觸在特定實驗條件下的反應，不過是現象學的模型，如STDP，小腦所知較多，但似乎更適合運動計時。Hinton、LeCun等在DL中運用的技術，主要是BP、梯度下降，這是目前所有成果的基礎（Jonathan Cohen）。可惜的是，它在生物學中並不成立。

也就是說，Hinton理解人腦的成果，模擬人腦建立的神經網路，採用的卻是跟大腦完全不同的工作方式。

對BP在生物學上不成立，backprop is not biologically-plausible，最早是DG Stork在1989年，這其實也是NN被放棄的原因之一。後來雖然出了大量成果，這個問題也一直是DL的心病。在DL中，替代BP幾乎不太可能，它有效且靈活，什麼形狀的NN都可以訓練，相當於萬能引擎。LeCun 2014年在reddit有個在線訪談中談到，STDP可能是某種我們不理解的演算法的副效應，而BP可能不比腦中發生的這些事情更為中心。在IEEE Spectrum，甚至說NN網路的零件應該是單元Units，而不是神經元Neural。可見心病之嚴重。

Hinton在2014年提出（在2015年由Yoshua Bengio補充）在STDP中，逆矩陣乘法作為自動編碼器的一部分被先驗固定下來，Whittington也有過修正，不過這很難說服神經科學家。Microglia可能是更好的一個解釋。不過Hinton強調的是：

神經科學家已經知道一些大腦運行的事實，卻還不了解其計算原理。如果我們真的理解大腦是如何學習的，到底是什麼回事，以便我們真正理解它，不是那些心理學家的模糊的模型，而是懂得如何製造它，理解到那種程度，它就會產生跟DNA結構在分子生物學中的那種影響。

Neuroscientists know a lot of facts about how the brain works but they don"t understand the computational principles yet. If we could understand how the brain actually learns, what really goes on, so that we really understood it, not some sort of vague model like psychologists have, but really understanding how you could build one, understanding it that well, then it would have an impact similar to the impact of understanding the structure of DNA, and what that did for molecular biology. by Hinton on NSERC

DL跟True North、Human Brain Project等完全複製人腦結構（期望STDP中的湧現）不同，他們使用的NN雖然是受人腦啟發，但跟人腦的關係不大，而是來源於理論、直覺和經驗的探索，是人工創造出來的結構。

（Hinton：受大腦的啟發，完全不同的結構）

這種狀況，Hinton自然並不滿意。

（四面體與Capsules）

於是，Hinton在2017年正式提出了Capsule神經元概念，受到的是大腦皮層一種稱為Cortical minicolumn的柱狀結構的啟發，其結構內部含有上百個神經元，並存在分層。這意味著人腦中的一層並不是類似現在神經網路的一層，而是有複雜的內部結構。通過Capsule結構，可以替代BP。由此，Axios宣稱，人工智慧先驅Hinton說我們需要從頭開始。

（Hinton：我們需要從頭再來）

那麼，究竟是依據生物學呢，還是不依據生物學呢？同樣，我們回到第2節與物理和數學的關係。我們對大腦的工作原理理解還有限，但可以基於統計上的普遍性，從中找出某種AI發展的可能性。

「構建智能機器」的任務，就像一種解謎活動，探索者擁有一種直覺，堅持它，最終破除迷霧，我們只能彼此感嘆。

總有一天，我們可以抓住所有問題的核心理念，它是如此簡明，如此美麗，以至於我們只能彼此感嘆：「哦，它怎麼可能是別的樣子呢！我們怎麼這麼久就沒有看到它呢！」一一取名大師「惡棍」惠勒

科學就像是一系列解謎活動（庫恩），它服從於周期性的知識革命，先在的範式基礎動搖之時，新的基礎被建立，這就是範式轉移。它是通過修正基本概念的方式發生的，一門科學在何種程度上能夠承受它的基本概念的危機，規定著它的水平（海德格爾|思想研究）

＊本節Capsule部分參考SIY.Z 2017年文章《淺析Hinton最近提出的Capsule計劃》。

5，結語&附錄

以上是DL，或者更大範圍說是NN，或是AI，比較到位的三項批評：缺乏理論、不能推理、生物學不成立。

DL大部分時候被懟，其實是說他們是「跳樑小丑」、「弱智的低能兒」、「絕對垃圾」（Pinker）、「賤民」，幾乎成了全民公敵。科學家們人身攻擊其實挺狠的，代表著他們的本性，動物本能。對人身攻擊的懟戰，Hinton其實相對克制，充其量不過罵個dumb、stupid（罵規則派），也許跟他良好的家庭出身有關。他只是用十分平靜的語氣說：

可惜，你們前30年都白費了。一一Hinton

或者，

這對那幫人來說，是一種解脫吧。一一Hinton

但Hinton在DL面臨上述危機之時，總是挺身而出，變身Hinton the Great，從不懼任何懟戰。

Hinton the Great真是一個戰鬥力爆表，同時又具備大視野的人。可以毫不誇張稱之為AI的奠基人，AI教父也名至實歸。

（AI教父Hinton）

附，簡稱

AI，Artificial intelligence，人工智慧

BP，Back Propagation，反向傳播

CD，Contrastive Divergence，對比散度

CVPR，國際計算機視覺和模式識別年會

DL，Deep Learning，深度學習

HTG，Hinton the Great，Hinton大帝

ML，Machine Learning，機器學習

NIPS，Conference and Workshop on Neural Information Processing Systems，神經信息處理系統進展大會

NN，Neural Network，神經網路

RBM，restricted Boltzmann machine，受限玻爾茲曼機

STDP，Spike-Timing Dependent Plasticity，在大腦中發現的神經元之間權重連接的更新規則。

SVM，Support-Vector Networks，支持向量機

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 sayonly 的精彩文章:

TAG:sayonly |