當前位置:
首頁 > 新聞 > ACL 2017 傑出論文公布,國內五篇論文入選(附解讀)

ACL 2017 傑出論文公布,國內五篇論文入選(附解讀)

機器之心報道

參與:PaperWeekly、機器之心

國際計算語言學協會 (ACL,The Association for Computational Linguistics),是世界上影響力最大、最具活力的國際學術組織之一,其會員遍布世界各地。第 55 屆國際計算語言學協會(ACL)年會將於 7 月 30 日-8 月 4 日在加拿大溫哥華舉行。

ACL 2017 傑出論文公布,國內五篇論文入選(附解讀)ACL 會議是計算語言學領域的首要會議,廣泛涉及自然語言的計算方法及其各類研究領域。ACL 2017 除了主要會議之外,還如同其他頂級會議一樣包含研討會、專題報告、研習會和演示等。

4 月 22 日,中國中文信息學會青年工作委員會在北京舉辦了一場「ACL 2017 論文報告會」,邀請了國內部分被錄用論文的作者針對其論文進行主題報告(參閱:ACL 2017 中國研究論文解讀:讀懂中國自然語言處理前沿進展)。從近日 ACL 2017 官網釋放的消息來看,中國有五篇論文入選 ACL 2017 Outstanding Papers。

  • Adversarial Multi-Criteria Learning for Chinese Word Segmentation

  • 論文作者:陳新馳、施展、邱錫鵬、黃萱菁(復旦大學)

  • Visualizing and Understanding Neural Machine Translation

  • 論文作者:丁延卓、劉洋、欒煥博、孫茂松(清華大學)

  • Abstractive Document Summarization with a Graph-Based Attentional Neural Model

  • 論文作者: Jiwei Tan、萬小軍(北京大學)

  • Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

  • 論文作者:鄭孫聰、Feng Wang、Hongyun Bao(中科院自動化研究所)

  • A Two-stage Parsing Method for Text-level Discourse Analysis

  • 論文作者:王義中、張素建(北京大學)

    PaperWeekly 近期對其中的兩篇獲獎論文進行了詳細的解讀(部分論文未能找到公開地址)。

    Adversarial Multi-Criteria Learning for Chinese Word Segmentation

    • 論文作者:陳新馳、施展、邱錫鵬、黃萱菁(復旦大學)

    • 特約記者:鄭華濱(中山大學)

    在中文信息處理中,分詞(word segmentation)是一項基本技術,因為中文的辭彙是緊挨著的,不像英文有一個天然的空格符可以分隔開不同的單詞。雖然把一串漢字劃分成一個個詞對於漢語使用者來說是很簡單的事情,但對機器來說卻很有挑戰性,所以一直以來分詞都是中文信息處理領域的重要的研究問題。

    如今 90% 乃至 95% 以上的中文分詞準確率已不是什麼難題,這得益於模型和演算法上的不斷進步。在傳統 CRF 中,特徵需要人工設定,因此大量繁雜的特徵工程將不可避免。近幾年深度學習的發展給很多研究問題帶來了全新的解決方案。在中文分詞上,基於神經網路的方法,往往使用「字向量 + 雙向 LSTM + CRF」模型,利用神經網路來學習特徵,將傳統 CRF 中的人工特徵工程量將到最低,如下圖所示,其中:

    • 字向量層(對應 Embedding Layer)能夠把離散的漢字元號轉化為連續的向量表示

    • 雙向 LSTM 網路(對應 Feature Layer)能夠在考慮時序依賴關係的同時抽取有用的文本特徵

    • 最後的 CRF 模型(對應 Inference Layer)則建模了兩個相鄰輸出的概率制約關係 強大的樣本表示、特徵抽取和概率建模能力,使它成為如今最主流的中文分詞模型。

    ACL 2017 傑出論文公布,國內五篇論文入選(附解讀)

    圖 1:分詞模型

    除了模型和演算法,中文分詞準確率的提高更得益於豐富的公開訓練語料集。然而,因為中文分詞這個問題本身並不存在一個完全統一的標準,眾多語料集之間都或多或少存在不一致的地方。由於語言學家定義了分詞的多種不同標準,因此對於同一串漢字,不同的人可能會給出不同的切分結果。比如「姚明進入總決賽」這句話,在 CTB 和 PKU 兩個語料集中就是不同的切分標準,前者認為「姚明」和「總決賽」是一個整體,後者卻認為姓和名應該分開、「總」和「決賽」應該分開:

    ACL 2017 傑出論文公布,國內五篇論文入選(附解讀)

    圖 2:語料不一致

    中文分語料豐富,每一份中文分詞語料都是經過昂貴而耗時的人工標註得到的。又因為每份語料間的標準多少有些不一致,因而以往在訓練一個分詞模型的時候只會用一份語料,而置其他語料於不顧,這無疑是浪費,棄之可惜。所以現在一些研究者就在思考怎麼同時利用多個語料集。如果能夠想辦法利用多個分詞標準語料集的信息,就能讓模型在更大規模的數據上訓練,從而提升各個分詞標準下分詞的準確率。最近,來自復旦大學的陳新馳同學、施展同學、邱錫鵬老師和黃萱菁老師就提出了一個新框架,可以利用多標準的中文分詞語料進行訓練。實驗在 8 個語料集上進行訓練,並在 8 份語料上都提升了準確率。他們的論文 Adversarial Multi-Criteria Learning for Chinese Word Segmentation 發表在今年的 ACL2017 上。值得一提的是,這四位作者中的陳新馳同學、邱錫鵬老師、黃萱菁老師同時也是上述「字向量 + 雙向 LSTM+CRF」中文分詞模型最初原型的提出者。

    接下來我們就來一步步走近這個框架。首先,在多份語料上訓練可以看成一個多任務學習(Multi-task Learning)問題,在 8 份語料上的模型訓練就是 8 個任務。這些任務之間顯然存在著很大的共性,所以可以設想用單獨一個「字向量 + 雙向 LSTM + CRF」模型來訓練,但是如前所述,這些任務之間存在不一致,所以又必須考慮用一部分模塊來建模它們之間的差異部分。論文中具體採取的方案是再拿出 8 個特定於具體任務的私有 LSTM 模塊,跟原來共享的 LSTM 網路模塊一同構成圖 1 中的特徵抽取層,變成如圖 3 所示的結構。在圖 3 中,兩個灰色的私有 LSTM 模塊分別負責捕捉 TaskA 和 TaskB 的任務私有特徵,中間黃色的共享 LSTM 模塊負責捕捉任務共享特徵,然後再把私有特徵與共享特徵拼接到一起,輸入每個任務私有的 CRF 模塊。整個框架總共有:

    • 1 個共享的字向量模塊

    • 1 個共享的 LSTM 模塊

    • 8 個私有的 LSTM 模塊

    • 8 個私有的 CRF 模塊

    ACL 2017 傑出論文公布,國內五篇論文入選(附解讀)

    圖 3:多任務框架

    在嘗試用以上多任務框架進行訓練後,作者發現有 7 個語料上的分詞準確率確實得到了提升,但是 MSRA 語料的準確率下降。為什麼呢?作者分析認為這可能是由於共享 LSTM 模塊所捕捉的特徵並不「純凈」,裡面可能混入了某個任務的私有特徵,這些特徵對 MSRA 語料沒有用,甚至可能反倒有害,才導致其準確率下降。

    根據上述假設,我們似乎應該想辦法把私有特徵從共享的 LSTM 模塊中「剝離」出去,保證該模塊僅僅抽取對所有語料都有用的特徵,而論文作者就非常巧妙地利用了對抗網路來達到這個目的。

    論文在上述多任務框架的基礎應用對抗網路,提出了如下圖所示的對抗多任務框架,它與之前框架的區別在於多了一個判別器(Discriminator)網路模塊,負責檢查共享特徵中是否不小心混入了特定於某個任務的特徵。

    ACL 2017 傑出論文公布,國內五篇論文入選(附解讀)

    圖 4:對抗多任務框架

    具體來說,每當一個樣本經過字向量層、共享 LSTM 層之後,我們會得到一個特徵向量序列,該序列的長度與輸入樣本的字元長度相等。為了檢查這些特徵向量是否「純凈」,我們對它們求平均,得到一個固定長度的特徵向量,再輸入判別器網路模塊,要求判別器預測該特徵向量來源於 8 個語料中的哪一個。這是我們給判別器設定的目標。

    假如判別器能夠準確預測每一個共享特徵向量的來源語料,則說明這些共享特徵中混入了太多私有信息,這是我們不希望發生的事情。所以我們反過來給共享 LSTM 模塊設定一個目標,讓它跟判別器對抗,想辦法讓判別器預測不準。假如共享 LSTM 模塊成功讓判別器分不清特徵向量來自哪個語料,意味著我們已經把私有特徵剝離出去了,從而保證了共享特徵向量的純凈性。

    引入了上述對抗訓練目標之後,新的對抗多任務框架在 8 個語料上都獲得了準確率的提升。

    回過頭來看,這樣神奇的結果似乎又很符合直覺。作者借鑒了多任務學習的思想,融合多個語料的數據來提升共享字向量模塊、共享 LSTM 模塊的泛化性能,又讓多個私有 LSTM 模塊、私有 CRF 模塊分別負責各個語料之間標準不一致之處,還巧妙地利用了對抗網路把私有信息從共享模塊中剝離到各個私有模塊中去,既能充分享受到數據量增大帶來的好處,又避免了不同語料之間相互掣肘,做到了「求同存異,共創雙贏」。筆者相信這篇論文提出的對抗多任務框架不僅對中文分詞有好處,也能夠用在很多其他問題上,具有相當的普適應用價值。

    Visualizing and Understanding Neural Machine Translation

    • 論文作者:丁延卓、劉洋、欒煥博、孫茂松(清華大學)

    • 特約記者:吳酈軍(中山大學)

    如果有一個功能神奇的「黑箱子」,你想不想打開它,好好研究一番?神經機器翻譯就是這麼一個「黑盒」,只要給它一句中文,就能將對應的英文順利地翻譯出來,如何才能一探其中的究竟呢?清華大學的丁延卓同學、劉洋老師、欒煥博老師和孫茂松老師在今年 ACL2017 上的工作就將這其中的奧秘「畫給你看」。

    近年來,深度學習快速發展,神經機器翻譯(Neural Machine Translation)方法已經取得了比傳統的統計機器翻譯(Statistical Machine Translation)更為準確的翻譯結果。可是,深度學習這樣的複雜而又龐大的網路模型,就像一個摸不清的「黑箱子」,網路中只有浮點數的傳遞,到底背後包含著怎樣的語義、邏輯,一直困擾著研究人員對於神經機器翻譯的深入理解和分析。因此,如果能夠將網路可視化,找到網路中神經元之間的相關關係,將極大幫助人們探究神經機器翻譯中出現的各類錯誤,同時也能幫助指導如何調試更好的模型。

    而就在今年的 ACL2017 上,清華大學的丁延卓同學、劉洋老師、欒煥博老師和孫茂松老師發表了論文「Visualizing and Understanding Neural Machine Translation」,借鑒視覺領域中的研究,首次將計算機視覺中 layer-wise relevance propagation(LRP)的方法引入到神經機器翻譯中,為注意力機制(attention mechanism)的編碼 - 解碼(encoder-decoder)神經機器翻譯模型提供了可視化以及可解釋性的可能。通過分析層與層之間的相關性,將這些關係「畫」了出來。「據我們所知,目前還沒有工作是在神經機器翻譯模型的可視化上。」作者告訴我們,現有的注意力機制被限制在只能證明源語言(source language)和目標語言(target language)之間存在關係,卻不能提供更多的信息來幫助了解目標語言的詞語是如何一步一步生成的;而相關性分析則能夠幫助理解這個過程,並且能夠分析任意神經元之間的關係。

    Layer-wise relevance propagation(LRP)的方法到底是什麼呢?其實就是一個計算相關性,並將相關性逐層向後傳播的過程。首先將網路模型看成一個拓撲圖結構,在計算一個節點 a 和輸入的節點之間的相關性時,將 a 點的數值作為相關性,並且計算與 a 點相連的上一層節點在生成 a 點時所佔的權重,將 a 的相關性逐層向後傳播,直到輸入層。作者用下圖的例子告訴了我們:

    ACL 2017 傑出論文公布,國內五篇論文入選(附解讀)

    圖 1:Layer-wise Relevance Propagation 示例

    如果要計算 v1 和 u1 之間的相關性,首先計算 v1 和 z1, z2 之間的相關性,再將 v1 和 z1, z2 的相關性傳遞到 u1, 從而求得 v1 和 u1 之間的相關性。

    通過這樣的計算,我們最終能「畫」出怎樣的相關性呢?讓我們來幾個例子(顏色越深表示相關性越強):

    ACL 2017 傑出論文公布,國內五篇論文入選(附解讀)

    圖 2:目標語言單詞 "visit" 對應的隱變數可視化圖

    ACL 2017 傑出論文公布,國內五篇論文入選(附解讀)

    圖 3:錯誤分析:不相關詞語 "forge" 與源句子完全不相關

    圖 2 是在翻譯「我參拜是為了祈求」時中間的隱層 c2, s2 以及輸出層 y2 和輸入句子詞語之間的相關性,可以看到「visit」這個詞語正確的和「參拜」以及「my」的相關性更為強烈,因而正確的翻譯出了詞語「visit」;而圖 3 則表明「forge」(鍛造)這個詞語的隱層 c9, s9 和輸入的詞語都沒有正確的相關性並且跳躍,而在生成時 y9 也沒有和輸入有正確的相關性。

    「通過對翻譯中出現的不同錯誤的相關性的可視化的觀察,我們的方法能夠幫助模型進行改造和更好的調試。」作者告訴我們,在將 LRP 的方法引入時其實也遇到了一些難點,比如圖像領域只是輸入圖像像素點,而機器翻譯中則是一串詞語,每個詞語都對應著一個長度或百或千的向量,對於計算相關性造成了困難;同時模型複雜,包含各種不同的計算運算元。而通過仔細地設計計算方法以及 GPU 的利用,也將困難一個個克服了。

    「未來,我們希望將方法用於更多不同的神經機器翻譯模型中,另外也希望構建基於相關性分析的更好的神經機器翻譯模型。」對於未來的研究工作,他們也更為期待。

    ACL 2017 Outstanding Paper 列表

    ACL 2017 傑出論文公布,國內五篇論文入選(附解讀)

    ACL 2017 傑出論文公布,國內五篇論文入選(附解讀)

    喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

    本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


    請您繼續閱讀更多來自 機器之心 的精彩文章:

    企業應該怎樣選擇數據科學&機器學習平台?
    深度學習演算法全景圖:從理論證明其正確性
    專家雲集CSIG圖像圖形學科前沿講習班,共同探索「深度學習+視覺大數據」
    ACL 2017 傑出論文公布,國內四篇論文入選
    初學者必讀:IBM長文解讀人工智慧、機器學習和認知計算

    TAG:機器之心 |

    您可能感興趣

    AAAI 2019 四個傑出論文獎論文揭曉
    IJCAI2019:中國接收論文最多,CMU德撲團隊獲獎,傑出論文公布
    AAAI2018五個論文獎全部揭曉,「記憶增強的蒙特卡洛樹搜索」獲傑出論文
    聚焦強化學習,AAAI 2019傑出論文公布:CMU、斯坦福等上榜
    NAACL2018 | 傑出論文:RNN作為識別器,判定加權語言一致性
    對話清華大學周昊,詳解IJCAI傑出論文及其背後的故事
    日本iPS細胞研究所曝出論文造假醜聞
    華南理工教師研發雙向無線充電晶元 獲ISSCC遠東傑出論文獎
    京都大學iPS研究所查出論文造假
    台大醫院爆出論文造假,管中閔:維護學術倫理
    台灣機友:「小米MIX2性價比真的是超低!」,此言一出論壇炸鍋了!
    憋不出論文怎麼辦?不如試試這幾招
    今日頭條張一鳴你的價值觀越來越危險了:非法證券諮詢吳小平民企退出論的反動平台 造謠傳播劉強東性侵女照片的低俗平台
    可笑!解說提出中單的無效輸出論,如若是真的,那還要法師有何用