自然語言處理頂會 NAACL 近日召開，五大主題報告全面解讀

新聞 06-13

雷鋒網 AI 科技評論按，本文作者為華盛頓大學方昊，他為 AI 科技評論撰寫了關於 NAACL 的獨家稿件。

第 16 屆 NAACL（NAACL 2018）於當地時間 6 月 1 日至 6 月 6 日在美國路易斯安那州新奧爾良市舉行。NAACL 是自然語言處理領域非常受關注的頂級會議之一，據統計，今年共接收 207 篇長論文（32% 接收率）、125 篇短論文（29% 接收率），美國是接收論文的主要來源國，中國緊隨其後。值得一提的是，NAACL 在今年第一次推出了 Industry Track 吸引來自工業界的研究工作。

在6 月 2 日——6 月 4 日的主會上，迎來五位主講嘉賓，其中 3 位嘉賓在 Research Track 環節，2 位嘉賓在 Industry Track 環節。

6 月 2 日上午，迎來第一位主講嘉賓——賓夕法尼亞大學的 Charles Yang 教授。他的演講主題是《Why 72?》。

自然語言處理頂會 NAACL 近日召開，五大主題報告全面解讀

這次的演講是關於他在研究兒童學習語言的過程中發現的規律，他們嘗試在機器上使用這些規律。他們做了一系列關於兒童數數的研究，發現對於說英語的兒童，總是無法從 1 完整地數到 72，但一旦他們能完整地數到 72，那就能成功地數到 100。換句話說，沒有兒童在從 72 數到 100 之間會失敗。他通過一系列的研究和觀察發現了一些可解釋的規律，並且嘗試將這些規律應用在機器學習上。

他在演講最後提出兩點結論：第一，兒童可以從很少的數據中學習到語言，所以機器也應該可以；有時候更多的數據並不一定會有幫助。第二，研究語言能力獲取的過程會幫助非監督自然語言處理系統的發展。

關於演講內容的詳細 PPT，大家可以點擊如下網址：

http://www.ling.upenn.edu/~ycharles/naacl2018.pdf

下午是來自華盛頓大學的 Mari Ostendorf 教授的主題演講。她演講的主要內容是關於她帶領的華盛頓大學隊伍在 2017 年亞馬遜 Alexa Prize 獲勝系統 Sounding Board 的工作。

自然語言處理頂會 NAACL 近日召開，五大主題報告全面解讀

演講的第一部分是 Sounding Board 的系統描述，她提到搭建社交對話系統的兩個主要理念：以用戶為中心，以內容為導向。她表示，Sounding Board 可以被看成是一個接入大規模網路內容的對話式的入口。

演講的第二部分主要討論了搭建社交對話系統的難點和挑戰：

第一，自然語言處理技術處理語音識別系統輸出的問題；第二，用戶有非常大的多樣性，包括他們的交互方式、個性、對新聞和內容的興趣；第三，互聯網提供了很多有用的數據，但也是一把雙刃劍，網上充斥著很多不適合討論的內容，所以需要開發非常好的內容理解和過濾系統；第四，和用戶進行深度討論非常困難，需要有針對用戶語言和網上內容的更加強大的理解系統。

在演講的最後，Mari 討論了學術界和工業界合作的一些經驗。首先，學術界和工業界的合作提供了讓在校學生和教授能夠接觸到大規模用戶的機會，這能影響到學術界的研究方向和解決方法，也會讓學生有更好的全局觀念。其次，與工業界的合作也能夠給學生提供資金支持，而學生和教授也能直接提供工業界新產品或者功能的反饋。她表示，也有很多方面需要進一步改進，比如如何在不影響用戶隱私的情況下獲得數據，如何提供更加豐富的語音界面，以及怎樣達成更加長期和穩定的合作。

演講內容 PPT 詳見如下鏈接：

https://sounding-board.github.io/index_files/Ostendorf_naacl2018.pdf

Kevin Knight 在主會次日上午帶來主題演講。他被 AMiner 評為機器翻譯界十大領軍人物之一，在卡內基梅隆大學計算機科學系獲得博士學位，目前是南加州大學信息科學研究所的一名教授，也是機器翻譯界公認的領袖，統計機器翻譯的主要倡導者之一。

自然語言處理頂會 NAACL 近日召開，五大主題報告全面解讀

這個演講是關於他最近在自然語言解密和自然語言生成方面的工作。

在自然語言解密方面，他談到他們使用統計模型幫助歷史學家翻譯一些古老文獻，以及幫助拍攝關於解密黃道十二宮殺手信件的紀錄片的經歷。

接下來他分享了他們關於自然語言生成，特別是使用循環神經網路在生成詩歌方面的工作。他討論了如何使用循環神經網路控制詩歌的話題和韻律的一些實驗結果。他表示，在自然語言生成領域，學術界暫時還沒有一個廣泛接受的衡量標準。但他同時強調，即使有一些研究領域暫時還沒有一個良好定義的衡量標準，大家也應該繼續在這個領域投入研究。他舉了機器翻譯領域的例子，早在 BLEU 被提出前很多年，就已經有非常多的高質量的機器翻譯的工作發表，所以大家不要被衡量指標限制了研究的多樣性。

另一個有趣的消息是，他也在演講中提到他於 2018 年 6 月 1 日正式加入滴滴出行，將在洛杉磯開設一個自然語言處理實驗室。

下午，亞馬遜的 Daniel Marcu 帶來主題演講，他目前在亞馬遜管理一個機器學習/自然語言處理團隊。

自然語言處理頂會 NAACL 近日召開，五大主題報告全面解讀

他分享了他在過去一段時間將前沿研究轉化到成功的創業公司上的經驗，也談到分析數據和衡量指標的重要性。他指出有些研究太過注重提高在一些已有衡量指標上的分數，但是忽略了實際應用場景的用戶因素。

演講的最後，他強調博士工作一方面要在一個非常專註的領域做出貢獻，但同時也不要忘記縱觀全局。

主會第三日上午，迎來最後一位演講嘉賓——谷歌 AI 的 Dilek Hakkani-Tür。

自然語言處理頂會 NAACL 近日召開，五大主題報告全面解讀

演講伊始，她回顧了端到端的對話系統研究，並指出任務導向的對話系統和閑聊系統近期有匯聚到同一個方向的趨勢。之後，她提到可以將對話看成一個合作式的用戶和機器之間的遊戲。同時，她再次強調了 Mari 在演講中提到的結合語音和自然語言處理研究對基於語音對話系統的重要性，並且討論了視覺信息在對話系統中的應用。

演講最後，她描述了谷歌近期關於訓練對話系統的框架：首先通過模擬用戶來引導初始化模型訓練，然後通過眾包 (crowdsourcing) 平台來改善系統，最後在和實際用戶的交流中迭代改善系統。

主會第三日下午是傑出論文演講。今年 NAACL 共選出 4 篇傑出論文，值得一提的是，華盛頓大學參與完成其中 3 篇，傑出論文名單如下：

Deep Contextualized Word Representations

地址：https://arxiv.org/abs/1802.05365

Learning to Map Context-Dependent Sentences to Executable Formal Queries

地址：https://arxiv.org/abs/1804.06868

Neural Text Generation in Stories using Entity Representations as Context

地址：https://jiyfeng.github.io/publication/papers/clark2018neural.pdf

Recurrent Neural Networks as Weighted Language Recognizers

地址：https://arxiv.org/abs/1711.05408

關於這四篇論文的簡介，可參見雷鋒網 AI 科技評論此前文章：自然語言處理頂會 NAACL 2018 最佳論文、時間檢驗論文揭曉

最佳論文（Deep Contextualized Word Representations）也在傑出論文之列，這篇論文由來自 AI2（艾倫人工智慧研究院）和華盛頓大學的團隊共同完成。在這篇關於 ELMo 的工作中，他們描述了如何通過 LSTM 語言模型獲得編碼了語境的詞向量，並表示這樣得到的詞向量可以應用在各個自然語言處理系統上，獲得顯著的性能提升。

這篇論文的模型和代碼已經在 AllenNLP（基於 PyTorch）和 TensorFlow 中實現。更多細節可以參考他們的網站：https://allennlp.org/elmo

在此次會議上，可以看到學術界和工業界的合作越來越多，工業界也越來越關注在學術會議上發表論文。會上除了有來自各所高校的教授和學生，也有很多來自工業界的研究員，大家互相交流經驗。這也是 NAACL 嘗試開設 Industry Track 的原因之一。

另外，會議上有來自騰訊、阿里巴巴、京東等公司的論文，可以看到中國公司的曝光率越來越高。

整體來說可以感覺到學術界和工業界在 NLP 領域現在都處於比較好的狀態，從而也促進了越來越多高質量的論文和工作。

（完）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※面對 NIPS 上 6：1 的男女比例，李飛飛和 AI4ALL 決定……
※英特爾正在測試僅為50nm的最小自旋量子位晶元

TAG:雷鋒網 |