香儂科技獨家對話斯坦福大學計算機學院教授、麥克阿瑟天才獎得主Dan Jurafsky

知識 07-25

機器之心專欄

來源：香儂科技

斯坦福大學計算機學院教授Dan Jurafsky是自然語言處理領域泰斗，他所著的《語音與語言處理》一書，被翻譯成 60 多種語言，是全世界自然語言處理領域最經典的教科書。Dan Jurafsky曾在 ACL 2006、EMNLP 2013、WWW 2013 獲最佳論文獎，在2002年獲得麥克阿瑟天才獎（美國跨領域最高獎項），2017年獲得美國科學院Cozzarelli 獎，2015年獲得古爾德獎。Dan Jurafsky 教授在Google Scholar上引用量超過3萬，h-index 達 75。他的主要研究方向有自然語言理解、對話系統、人與機器語言處理之間的關係等，並一直嘗試運用自然語言處理方法來解決社會學和行為學問題。同時，他還對食物語言學以及中文有著極大的興趣，他所著的科普圖書《食物的語言—從語言學家角度讀菜單》被翻譯成多國語言，榮獲2015國際暢銷書榜首，並獲2015年James Beard Award提名。

圖 1.斯坦福大學計算機學院終身教授 Dan Jurafsky 早在 80 年代就與中國結下了不解之緣。圖為他 1985 年在北京大學進修中文時的留影（第二排右二即是青年時代的 DanJurafsky）。圖片來源於Jurafsky 教授的個人主頁 https://web.stanford.edu/~jurafsky/

香儂科技：您現正在編輯《語音和語言處理》的第三版，這本書是自然語言處理（Natural Language Processing, NLP）領域使用最廣泛的教科書，編輯的過程中，您對過去幾年自然語言處理領域的變化總體上有何體會？最令人興奮的事是什麼？最令人失望的事又是什麼（如果有的話）？

圖2. Dan Jurafsky 與 James Martin 所著的《語音和語言處理》一書，被翻譯成 60 多種語言，是全世界自然語言處理領域最經典的教科書。

Jurafsky：能在這個時代身處這個領域是一件令人激動的事！當然，我會為深度學習感到特別的興奮，而我覺得最值得期待的是自然語言生成方面將發生的巨大改變，這是一個很有潛力的領域，卻在自然語言處理中被邊緣化了太久的時間。另外，嵌入，特別是基於上下文的嵌入（embedding/contextualized embedding）的使用也令人興奮不已，它讓我們得以構造模型來捕捉詞義在不同時間、空間，語境中的動態變化。另外一件事是人們對NLP領域的社會性有了日漸提高的覺知：人們既意識到模型存在一定的偏見，也意識到這些模型可以用來模擬和理解人與人之間的互動，進而將這個世界變得更好。

香儂科技：許多NLP研究人員都有很強的語言學背景，甚至本身就來自該領域。然而，隨著深度學習的方法在NLP中變得越來越主導，有人說（這甚至可以算得上一種趨勢）語言學知識不再是進行NLP研究的必要條件：只要訓練一個雙向長短時記憶循環神經網路（bidirectional LSTM RNN）就足夠了。您能評價下這一說法嗎？另外，您如何評價Frederick Jelinek教授的名言「每次我解僱一個語言學家時，我的語音識別器的性能都會提高」？

Jurafsky：我堅定地相信，想要為一個知識領域做出貢獻，充分了解這個領域是有幫助的，所以我認為NLP研究人員深刻地理解語言的功能，以及熟悉各類語言現象，比如：指代、組合性、變異、語法結構、隱含意義、情感、語言風格、對話互動等仍是至關重要的。但理解語言和語言現象並不意味著盲目地套用不恰當的語言學模型。Jelinek教授的那句話（他曾告訴我他的原話其實更加婉轉：「每個語言學家離開團隊時模型的識別率都會上升」）實際上是指語音識別中的發音建模。事實證明（並且現在仍然正確）在擁有足夠的數據時，機器學習能夠比人工定義語音規則更好地解決語音多樣性的問題。

所以我認為這個領域未來仍將是機器學習與語言結構、知識的不斷融合，而每個研究人員將在不同時間不同情況下決定如何分配這兩個重要組成部分的權重。

香儂科技：從歷史的角度來看，重大的突破通常首先在語音處理中發生，然後傳播到自然語言處理領域。例如：在20世紀90年代早期，來自語音領域的Peter Brown和Robert Mercer將統計機器學習模型引入NLP領域，從而徹底改變了該領域;而深度學習方法是首先在2012年被微軟研究院科學家鄧力等人應用在語音領域並取得突破性進展，而在NLP中大規模使用深度學習要到2013-2014年。回顧這些，您能解釋為什麼會發生這種情況嗎，還是說它只是巧合？

Jurafsky：正如你所說，統計模型確實是從語音領域傳播到NLP，深度學習也是從語音和視覺領域傳播到NLP。我認為這根本不是巧合，一般來說創新來自於在不同領域工作的人一起工作時的結合。對諾貝爾獎獲得者的研究表明，他們往往是「搭橋者」—將不同領域的方法聯繫在一起。因此，我對年輕學者的建議是多利用跨學科的聯繫，與相關但不同領域的人交談。這就是重大突破誕生的方式。

香儂科技：您在博士後階段做了3年的語音處理研究。您能描述一下這些年的研究是如何影響了您在NLP領域的研究生涯嗎？

Jurafsky：它的影響是非常巨大的。我的博士後是在1992-1995年，正是機器學習、概率理論（probability theory）、圖模型（graphical model）、神經網路（neural network）以及早期版本的嵌入（embedding）同時進入NLP的時期。我很幸運能夠在加州大學伯克利分校國際計算機科學研究所（ICSI - UC Berkeley）的一個語音識別和神經網路實驗室攻讀博士後，並與Nelson Morgan和Jerry Feldman合作。那個實驗室對我有著重要的意義，我的導師們對NLP領域的「大熔爐」觀點對我產生了非常大的影響：你必須重視文本、語音、對話以及認知科學，給予它們和工程學一樣多的思考。

我們當時不知道什麼會成為最主流的模型，是機器學習這個大領域，還是具體的圖模型或神經網路。當時，因為沒有足夠多的GPU，訓練神經網路要慢得多，所以實驗室必須搭建自己的向量處理器，而一個有著4000個單元的隱藏層的語音識別網路在當時是非常巨大的神經網路，要花極久的時間來訓練。如果你當時讓我預測，我不會預想到深度學習二十年之後會是今天這樣的局面。有趣的是，我和Martin寫的《語音和語言處理》教科書的第一版僅僅介紹了神經網路作為語音識別演算法；在第二版，我們刪除了神經網路，轉而使用高斯模型，而在第三版中，我們又把神經網路加回來了！

香儂科技：在過去，您和您的學生使用NLP技術研究了許多社會科學中的重要問題（例如，Garg et al. PNAS 2018; Voigt et al. PNAS 2017, Winner of Cozzarelli Prize）。您對於想要進行更多這樣跨學科研究的NLP研究人員有哪些建議呢？

圖 3.Voigt et al. PNAS 2017 中 Dan Jurafsky 的實驗室與斯坦福大學心理系合作，利用自然語言處理方法，自動評估警察對不同種族的人說話時的尊重程度。圖片來源於Voigt et al. PNAS 2017。

Jurafsky：我們應該多跟社會科學家交流！我認為，如果你要研究與人類有關的任何東西，與社會科學專家合作這一點非常重要！社會科學專家不僅有著更多關於人和社會關係的思考，而且與計算機科學家相比，他們往往在統計和因果推理方面更有經驗。再次強調，是跨學科引發了創新！

香儂科技：近年來，人們對機器學習的模型中的偏見有很多擔憂。這個問題似乎在NLP領域格外突出，因為在自然環境（例如，twitter）中收集的數據不可避免地包含偏見（性別歧視，種族歧視等）。盲目地用這些數據訓練深度神經網路將導致有偏見的模型預測。您怎麼看待這一問題？

Jurafsky：是的，現在每天有數百萬，甚至是數十億人在使用NLP工具，如機器翻譯、信息抽取、自動推薦等等，這是激動人心的進展。但是正像你所說，這些廣泛的應用是有副作用的！NLP的工作在道德層面上是影響社會的，越來越多的人，包括這個領域的年輕從業者以及我們科學和技術的消費者正在更多地關注這些影響。

我很高興我們終於開始正視這些問題！也許我們可以向那些長期以來必須面對這些道德困境和社會挑戰的領域學習，比如：醫藥學、核物理學、生物學、社會科學等。你問我當需要權衡準確性與偏見時應該做些什麼，我的答案是我們需要時時捫心自問：我們工作的終極目標是什麼。我們現在意識到，這個終極目標絕不僅僅是為了提高準確性或速度，而是真正讓世界變得更美好。這是一個模糊的答案，需要結合具體的演算法或任務來實踐，但是希望我們能夠成功！

香儂科技 (http://shannon.ai/) ，是一家深耕金融領域的人工智慧公司，旨在利用機器學習和人工智慧演算法提取、整合、分析海量金融信息，讓 AI 為金融各領域賦能。

香儂科技在 2017 年 12 月創立，獲紅杉中國基金獨家數千萬元融資。創始人之一李紀為是斯坦福大學計算機專業歷史上第一位僅用三年時間就獲得博士的人。在近日由劍橋大學研究員 Marek Rei 發布的一項統計中，李紀為博士在最近三年世界所有人工智慧研究者中，以第一作者發表的頂級會議文章數量高居第一位。公司碩士以上比例為 100%，博士佔比超 30%，成員皆來自斯坦福、MIT、CMU、Princeton、北京大學、清華大學、人民大學、南開大學等國內外知名學府。

參考文獻：

Jurafsky D and Martin J H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition[M]. Second Edition. 2009, Prentice-Hall.

Jurafsky, D. 2014. The Language of Food: A Linguist Reads the Menu[M]. Norton.

Garg N et al. Word embeddings quantify 100 years of gender and ethnic stereotypes[J]. Proceedings of the National Academy of Sciences, 2018, 115(16): E3635-E3644.

Voigt R et al. Language from police body camera footage shows racial disparities in officer respect[J]. Proceedings of the National Academy of Sciences, 2017, 114(25): 6521-6526.

本文為機器之心經授權轉載，轉載請聯繫原作者獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※原Movidius CEO Remi El-Ouazzane：深度了解終端視覺處理器VPU
※構建深度神經網路，我有20條「不成熟」的小建議

TAG:機器之心 |