Yoav與LeCun深度學習之爭：谷歌VP談NLP「三幕劇」

新聞 06-12

選自EarningMyTurns

機器之心編譯

參與：機器之心編輯部

近日，著名學者 Yoav Goldberg 發布的一篇批評蒙特利爾大學新論文《Adversarial Generation of Natural Language》乃至整個 arXiv 社區的不良風氣的文章引起了人工智慧界的軒然大波，許多研究者和從業者也紛紛長文短文地發表了自己的看法，參閱機器之心的相關報道《從 Yoav Goldberg 與 Yann LeCun 爭論，看當今的深度學習、NLP 與 arXiv 風氣》和《觀點 | Yoav Goldberg 撰文再回應 Yann LeCun：「深度學習這群人」不了解 NLP(附各方評論)》。
但這場爭論或許持續的時間太長了！今天早些時候，自稱「三年未寫過博客」的谷歌 VP、 Engineering Fellow、自然語言理解與機器學習負責人 Fernando Pereira 在其博客上發聲，用喜劇性的敘述風格對人工智慧和計算語言學的發展進行了描述並闡述了自己的看法和觀點。機器之心對本文進行了編譯介紹，但文中觀點並不代表機器之心的立場。

Yoav與LeCun深度學習之爭：谷歌VP談NLP「三幕劇」

序言

我有 3 年不寫博文了。有很多似是而非的借口，但最大的原因是相比於寫博文需要全神貫注，動動手指發條推特卻很容易。但是由 Yoav Goldberg 的 Medium 博文引發的這場關於深度學習、自然語言、 arXiv 風氣的爭論讓我回想起了有一天（不是今天）我要做的事：計算語言學（language as a computational process）複雜且有時模糊，但又持續不斷的科學與工程學歷程（我清楚，非常清楚，甚至是本文的這種謹慎說法也會觸犯不少社會科學家和哲學家，但這只是一篇博文，不是論文）。

我將這段歷史稱為一出鬧劇並沒有不敬之意，而是由於其中的誤解和起伏，宛如一場真正的喜劇、歌劇或者無聲電影。在激烈的學術爭論中，那些不清楚歷史之人將第一個拿起水球。畢竟，這些爭論源自 1950 年代和 1960 年代早期學術巨人的嚴肅工作，比如 Kleene、Shannon、Harris、McCulloch、McCarthy、Minsky、Chomsky、Miller 等。希望有一天我可以看到有關人工智慧起源的富有思想、精心編排的歷史，以及更希望看到的語言學的計算（機）轉向。但是這一轉向一直沒有人寫，那我就拋磚引玉獻上我的喜劇版的吧。

第一幕：（弱）理性時代

直到 1980 年代，很多語言計算模型和語言處理的工作依然是寄託於一個清晰或隱晦的希望：相對簡單的演算法將捕獲大部分重要的東西。研究者（包括我）創建模型和演算法宣稱可以模塊化的組合方式捕獲「關鍵」現象。一旦取得成功，實際應用將輕易到來，因為組合性的良好組合會涵蓋到人類表達意義的無限多的方式。

這很棒，但是存在一個所有模型或系統均無法解析的尷尬問題，更不用說很好地翻譯絕大多數日常語言了。回到當時，人工神經網路的支持者甚至說那些脆弱的語言形式模型失敗了，因為在其節點上它們並沒有足夠的「彈性」。這導致了一些史詩般的食物大戰，但現實是 NN 模型、演算法和我們當時使用的絕大多數微計算機和數據集甚至不能匹配那些手工精心打造的規則系統。

解決模型和實際語言不匹配的一個（臨時的）不得已的辦法是我們成了形式語言學家（我也是），並聲稱我們正在使用計算工具調研語言的核心，置實際語言的自然性混合而不顧，直到幾十年後我們找到了打開寶藏的鑰匙。對於符號和神經網路研究者來說，這是一次很好的繞道，它有一個並非完全不理性的方法論式防衛，在其中，比如說，物理學家當然也調研了簡化的系統，這迴避掉了令人不舒服的感覺：語言作為一種進化的生物和社會現象也許並不存在簡單描述。順提一句，語言學的這種情況有點和生物學與生物醫學在發現基因代碼（以及後來的人類基因組測序）之後如何研究「簡單性」相似，在進化遺留的令人膽怯的混亂面前停住了腳步。不管怎樣，我依然認為一些當時開發的語言描述模型在從未被超越的細節層面確實捕捉到了語言中特定實際組合式可能性的範圍。這主要是另一個時間的故事，除卻簡化的設置和模型的誘惑再次出現在第三幕中。

這一領域在當時非常小，人們之間彼此相識，甚至包括那些互相輕視彼此工作並在 ACL 提問環節破口而出的人。結果，一些研究品味很好的仲裁者設置了每個子社區的基調。當時通過研究流通的有限手段，產生了小而有力的派系。當這樣的派系控制了研究資源時，事實上確實如此，替代性想法就沒有生存空間了。

第二幕：經驗主義的入侵

自然語言的計算研究 70 年代末到 80 年代末的經費資助並不多，再結合研究經費的變動（這一部分本身就很有趣，但這裡不適合展開），經驗主義者說服了經費提供者，令他們相信傳統的理性學派全都在研究上犯了錯誤。

經驗主義者的繼承人包括香農、圖靈、Kullback、I.J. Good 等人，他們在 IDA 和隨後的貝爾實驗室與 IBM 將語音識別和翻譯問題視為密碼分析問題上做出了巨大的貢獻。而這一段時間從 Bletchley Park 到 HMM 再到 IBM Model 2 仍然處於黑暗中，模型並沒有完全建立，但這一發現過程無疑是十分有趣的。他們這一群經驗主義者說服了資助者，特別是 DARPA，令他們相信理性學派是空洞的，而只有統計度量才能推動計算語言工作在實踐和真實情況中取得成功，這就正如現在在語音識別領域內發生的一樣（如今語音識別的進步不如以前那麼令人印象深刻）。那時的經驗主義者其背景、職業等通常都更接近於 DoD 而不是理論性的計算語言學家（這裡有一系列故事可以展開）。不論如何，那一段時間經驗主義入侵者越來越多地與資助者結盟，並設定了新的研究規則。這就像諾曼人入侵英格蘭，通過新的貴族，一種全新的辭彙很快在統治階級流行開來。

事後看來，1987-89 年的運動以及由此產生的新秩序是非常有趣的（即使這一領域當時還沒有受到入侵），並帶來了新的方法，客觀上帶來了更有效，可衡量進步水平的方法，如果你的研究急需資金的話。對我來說，我已經開始了自己從有些懷疑的理性主義到有些懷疑的經驗主義過渡的旅程，並在接下來的 12 年裡脫離了政府資助研究的世界。所以，衝突是建立對舊文化和新文化之間更遠視野的一個絕佳方式。

經驗主義的優勢在運用計算資源和文本數據時展示無遺，它也隨著網路爆炸帶來的新資源和有資助研究、軟體開發和語料庫的建立而不斷興起。對指標的信仰幫助資助者將研究結果更好地展示出來，併產生（如果不像有些時候想要的那樣廣泛的）切實利益，特別是在語音識別和機器翻譯方面。因此，在這一時期，研究社區的發展很快（樂觀估計的話，在 20 世紀 90 年代到 21 世紀初，擴張了大約五倍）。

經驗主義與今天的衝突有關的一個奇怪的副產品就是：衡量對比本身成為了一種美德，有時甚至完全獨立於測量之外。許多經驗主義的信徒只想要數字，而忽視了他們的研究是否符合與實際語言結構和使用有關的任何內容。儘管 Penn Treebank 指標經常被拿來反對這一指責，但我會忽略這個罪名，在此不再贅述。

總而言之，一種統計度量方法在這一段時期出現並至今流行，例如在會議審查，那些有趣的模型或觀察是不受人關注的，除非他們提升了這種統計度量方法。而統計度量方法成為了出版的守門員，它們不需要思考而可以很簡單地應用，這推動了一種 p-hacking 文化，該文化抑制了模型的解釋和誤差分析。對於一個從業者來說，更糟的是所有統計度量都是平均值，如果你負責一個誤差率需要非常低的產品，那麼較大的偏差就很有問題了。這使我們進入到最後一幕。

第三幕：被入侵的入侵者

其實經驗主義者（Empiricist）的做法是有很明顯的缺陷的，但是卻很少被大家討論。開始的時候，他們能通過非常有限的資源，比如內容和辭彙進行工作。畢竟，它不像生活中的交通那樣，需要受交通管制，天氣等等因素的制約。當你得到足夠的象徵性的數據以後，你就可以知道你想知道的任何事。這就是 Harris 極力強調的技術語言和通用語言的差別。經驗主義時代的通俗性任務，從 ATIS 到 PTB, 也被限制了（例如旅行，商業新聞等）。這意味著典型的基於統計的經驗主義方法在他們自己的基準下比在現實中做得更好。用 PTB 語法分析程序去分析一下網路（比如社交媒體或聊天工具）就知道了。

大量的訓練數據可以很自然地被收集——特別值得注意的是，並行翻譯語料庫集——當經驗主義方法擁有足夠數據的時候進展是很緩慢的。儘管當數據量很小的時候這種方法是無把握的，就像他們經常做的那樣。

另一方面，經驗主義方法常常通過選擇一個比較實用的預估方法來防止失敗。那些把這些方法應用到真實數據中的人很清楚怎樣和「小數據」進行抗爭，讓人失望的是那些受喜愛的數據方法（比如潛在變數模型）在大多數情況下是沒有顯著效果的，因為在實際情況當中，一個基於數據的普通模型（或者線性模型）可以像「手握」數據時的效果一樣好。那些經常思考這個問題的人開始意識到象徵性數據和它的變數不能通過「類似」標記的方法被有效地歸一化。我們嘗試了很多方法來解決這個問題（比如基於分類的語言模型），但是他們全是無效的，或者在計算上行不通。

現在，深度學習者拿著他們的 GPU 來對經驗主義者和他們那些受人崇敬的方法進行挑戰，首先是語言建模，然後是機器翻譯，由於它們學習應用和歸一化的能力比普通的統計方法強很多，因此收穫不小。神經網路的模塊化可以使它很容易地去拓展其模型設計的空間。循環門控模型——Recurrent gated models（來自 Hochreiter 和 Schmidhuber）比過去二十年的傳統統計方法更加靈活，更加兼容。這無疑是個顛覆。

這一發展是不可遏制的。包括科研人員在內，實驗項目，和論文都以很快的的速度在推進，據我估計從 2010 年到 2017 年間已經翻了四倍。現在，發表的地點「遍地開花」，科研人員用更多的能源去燃燒自己的 GPU, 將更多的精力轉向 arXiv, 以在「新大陸」上建立自己的功勛。

但是這種「入侵」是值得稱道的嗎？只有很少的標準化任務擁有大量的訓練數據集去進行語言建模或翻譯，而這也是大規模 SGD 所依賴的。一些被小心翼翼地建立起來的訓練數據集，比如語法分析，也有一些效果，但是不像深度學習那樣成果顯著。現在在遷移學習（transfer learning）中, 比如 zero shot 翻譯，也產生了令人興奮的成果，但是它們需要在整個大數據集中對模型進行訓練。然而在另一方面，當我們僅僅有一些預估數據時，基於計數（count-based）的模型仍然可以做一些不錯的工作（聚類，生成模型），但是深度學習方法還不能得出更好的答案。

對於連續性輸出來說，GAN 已經取得了很多成果。至少在圖像效果方面很好。但是當我應用分布式聚類（distributional clustering）的時候發現，從觀看者的角度來看，效果也是非常的好。詞語關聯任務（word association tasks）在預估詞語嵌入的應用中是很通用的，和被預估模型的規模大小相比幾乎是沒有差別的。用 GAN 進行文本預測的好方法非常稀有。在對手的抵制下，經驗論者「經歷了慘烈的戰爭，僅有少數得以倖存，獲得新生」。一旦著名經驗論者的堡壘被攻陷，這場戰役還怎麼打？

思想！讓我們回到我們可以輕鬆創建測試條件的玩具問題，就像理性主義者當時做的那樣（即使我們沒意識到我們在模仿他們）。畢竟，Atari 並不是真實生活，但卻仍然可以表現強化學習的驚人進展。讓我們一起破解自然語言領域的 Atari 吧！

但現在，理性主義變成了經驗主義（人們甚至對此抱有很大的熱情）。這不公平，Atari 不是真實生活！

當然不是。PTB 也不是，任何標準的經驗主義任務都不是。這還想模擬不羈的語言（因為經費就靠它！）。但就只能失敗——就像 Harris 在 1950 年代末預測的那樣。而最好的描述性語言學也不會成功，它將來自描述性模型的良好組合的混亂偏移丟進了黑暗之中。

結語

莫扎特的《魔笛（The Magic Flute）》中的神秘主義讓我噁心想吐，說實話這場戲已經拖得太長了（至少對那些坐在不舒適的音樂廳座位上的人來說是這樣）。但這個音樂和最後的信息是明確的！主角們在掙扎，但最終會沿著他們不同的道路獲得啟迪。我們離 Dann ist die Erd" ein Himmelreich, und Sterbliche den G?ttern gleich 還很遠（多謝神經機器翻譯給我的引用做了檢查），但我們已經在我們的道路上奮鬥了足夠長時間了，我們能夠認識到接下來的需求以及推動我們前進的更好方式。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※小心訓練模型，數據少也可以玩轉深度學習
※觀點｜小心訓練模型，數據少也可以玩轉深度學習
※學界｜讓機器耳濡目染：MIT提出跨模態機器學習模型

TAG:機器之心 |

您可能感興趣

※NVIDIA深度學習Tensor Core全面解析
※美劇《矽谷》深度學習APP獲艾美獎提名：使用TensorFlow和GPU開發
※Logo Remix，YOHO！Boy與GAP大佬的深度對話
※深度學習之DenseNet
※NVIDIA聯合MIT公布深度學習系統Noise2Noise，用於圖片降噪
※AMD的GPU現在可以加速TensorFlow深度學習了
※ArXiv最受歡迎開源深度學習框架榜：TensorFlow第一，PyTorch第四
※類Keras的PyTorch 深度學習框架——PyToune
※全網最詳：HUAWEI MateBook X Pro深度測試
※最大化互信息來學習深度表示，Bengio等提出Deep INFOMAX
※ArXiv最受歡迎開源深度學習框架榜單：TensorFlow第一，PyTorch第四
※谷歌雲宣布支持Nvidia Tesla P4，專註深度學習工作負載
※NeuronBlocks：微軟發布的模塊化深度學習NLP工具集
※LeCun、Bengio、Hinton三巨頭曾合體，Nature發文綜述深度學習
※CDPR與Digital Scapes將展開深度合作
※深度學習之CapsuleNets理論與Python實踐！
※深度學習綜述：Hinton、Yann LeCun和Bengio經典重讀
※Nvidia發布GPU上的Kubernetes以加速深度學習負載
※SKM 受邀參加矽谷 MONage 峰會，與 SKM 的顧問/通訊界大牛 Jeff Pulver 深度交流
※NVIDIA線下交流會：手把手教你搭建TensorFlow＆Caffe深度學習伺服器