AAAI 2018預講會在哈工大成功舉辦，25篇頂會文章講了什麼（下）

新聞 01-16

雷鋒網 AI 科技評論按：1 月 6 日，由中國中文信息學會青年工作委員會（簡稱「青工委」）主辦，哈爾濱工業大學社會計算與信息檢索研究中心（HIT-SCIR）承辦的『AAAI 2018 預講會』在哈爾濱工業大學成功舉辦。本次會議由華為和雲孚科技提供贊助，雷鋒網作為獨家合作媒體，提供了在線直播，並對本次預講會做全程報道。

來張講者合照鎮樓！其中有教授、博士、研究生、本科生，覆蓋了學術研究的各個年齡層。

照片由哈工大李家琦提供

本次 AAAI 2018 預講會邀請了來自全國各地 15 所高校和研究單位的老師和同學分享他們在 AAAI 2018 中接收的 25 篇論文，內容覆蓋有聊天機器人、語義依存圖、文本摘要、機器翻譯、信息抽取、表示學習等多個領域的最新研究成果。會議吸引了 200 多名老師和學生來此參會並進行交流。

我們在《AAAI 2018預講會在哈工大成功舉辦，25篇頂會文章講了什麼（上）》中已經詳細介紹了其中的12篇文章，分別為：

Session 1

[1] Adversarial Learning for Chinese NER from Crowd Annotations

作者：楊耀晟，張梅山，陳文亮，張偉，王昊奮，張民

單位：蘇州大學人類語言技術研究所

[2] Adaptive Co-attention Network for Named Entity Recognition in Tweets

作者：張奇，傅金蘭，劉曉雨，黃萱菁

單位：復旦大學

[3] Large Scaled Relation Extraction with Reinforcement Learning

作者：曾祥榮，何世柱，劉康，趙軍

單位：中科院自動化所

[4] Event Detection via Gated Multilingual Attention Mechanism

作者：劉健，陳玉博，劉康，趙軍

單位：中國科學院自動化研究所

[5] Neural Networks Incorporating Dictionaries for Chinese Word Segmentation

作者：張奇，劉曉雨，傅金蘭

單位：復旦大學

[6] Learning Multimodal Word Representation via Dynamic Fusion Methods

作者：王少楠，張家俊，宗成慶

單位：自動化所

Session 2

[7] Inferring Emotion from Conversational Voice Data: A Semi-supervisedMulti-path Generative Neural Network Approach

作者：周素平，賈珈，王琦，董宇飛，尹宇峰，雷克華

單位：清華大學

[8] Long Text Generation via Adversarial Training with Leaked Information

作者：郭家賢，盧思迪，蔡涵，張偉楠，汪軍，俞勇

單位：上海交通大學

[9] Style Transfer in Text: Exploration and Evaluation

作者：付振新，譚曉燁，彭楠贇，趙東岩，嚴睿

單位：北京大學計算機科學技術研究所

[10] Meta Multi-Task Learning for Sequence Modeling

作者：陳俊坤，邱錫鵬，劉鵬飛，黃萱菁

單位：復旦大學

[11] RUBER: An Unsupervised Method for Automatic Evaluation of Open-DomainDialog Systems

作者：陶重陽，牟力立，趙東岩，嚴睿

單位：北京大學計算機科學技術研究所

[12] Exploring Implicit Feedback for Open Domain Conversation Generation

作者：張偉男，李凌志，曹東岩，劉挺

單位：哈爾濱工業大學

我們接下來將詳細介紹另外13場報告的內容。分別為：

Session 3

[13] Neural Character Dependency Parsing for Chinese

作者：李浩楠，張智松，琚毓琪，趙海

單位：上海交通大學

[14] A Neural Transition-Based Approach for Semantic Dependency Graph Parsing

作者：王宇軒，車萬翔，郭江，劉挺

單位：哈爾濱工業大學

[15] Asynchronous Bidirectional Decoding for Neural Machine Translation

作者：張祥文，蘇勁松，秦悅，劉洋，紀榮嶸，王鴻吉

單位：廈門大學

[16] Knowledge Graph Embedding with Iterative Guidance from Soft Rules

作者：郭舒，王泉，王麗宏，王斌，郭莉

單位：中國科學院信息工程研究所

[17] Embedding of Hierarchically Typed Knowledge Bases

作者：張日崇，孔繁爽，王晨玥，茆永軼

單位：北京航空航天大學

[18] Faithful to the Original: Fact Aware Neural Abstractive Summarization

作者：曹自強，韋福如，李文婕，李素建

單位：香港理工大學

[19] Twitter Summarization based on Social Network and Sparse Reconstruction

作者：賀瑞芳，段興義

單位：天津大學

Session 4

[20] Improving Review Representations with User Attention and ProductAttention for Sentiment Classification

作者：吳震，戴新宇，尹存燕，黃書劍，陳家駿

單位：南京大學

[21] Chinese LIWC Lexicon Expansion via Hierarchical Classification of WordEmbeddings with Sememe Attention

作者：曾祥楷，楊成，塗存超，劉知遠，孫茂松

單位：清華大學

[22] Learning Structured Representation for Text Classification withReinforcement Learning

作者：張天揚，黃民烈，趙立

單位：清華大學

[23] Assertion-based QA with Question-Aware Open Information Extraction

作者：閆昭，唐都鈺，段楠，劉樹傑，王文迪，姜大昕，周明，李舟軍

單位：微軟亞洲研究院

[24] End-to-End Quantum-like Language Models with Application to QuestionAnswering

作者：張鵬，牛嘉斌，蘇展，王本友，馬力群，宋大為

單位：天津大學

[25] EMD Metric Learning

作者：張子昭，張宇博，趙曦濱，高躍

單位：清華大學

Session 3（7場報告）

主持人：楊亮副教授，大連理工大學

[13] Neural Character Dependency Parsing for Chinese

作者：李浩楠，張智松，琚毓琪，趙海

單位：上海交通大學

經過一個半小時的午間休息和討論後，Session 3 由來自上海交通大學的趙海教授開啟。

2009 年，趙海教授針對中文分詞過程中會受到詞義模糊影響的問題，提出了字元級依存分析的方案。這種方案有兩個好處：1）使用字元級樹避免了中文分詞不存在通用標準的問題；2）單詞內部的深層次結構為更深層次的處理提供了額外的信息，能夠更好地理解整個句子。

在此基礎上，這篇文章利用神經模型來探索字元依存分析，提出了一個開放的字元級依存樹庫 SCDT（首次提供了豐富的字元級 POS 標籤和依存類別標籤）以及首個字元級別的神經中文依存分析器。

實驗顯示字元級 POS 標籤和依存標籤對解析性能起著重要的作用。另外在主分析指標方面，神經字元依存分析要比無神經網路的分析器更有效。

（感謝趙海教授指正）

[14] A Neural Transition-Based Approach for Semantic Dependency Graph Parsing

作者：王宇軒，車萬翔，郭江，劉挺

單位：哈爾濱工業大學

隨後由來自哈工大 SCIR 的王宇軒博士分享了他們在語義依存圖上的研究工作。

語義依存圖是近年來提出的對樹結構句法或語義表示的擴展，它與樹結構的主要區別是允許一些詞擁有多個父節點，從而使其成為有向無環圖 (directed acyclic graph，DAG)。因此要獲得句子的語義依存圖，就需要對這種 DAG 進行分析。目前大多數工作集中於研究淺層依存樹結構，少有人研究如何對 DAG 進行分析。

這篇文章提出一種基於轉移的分析器，使用 list-based arc-eager 演算法的變體對依存圖進行分析。

[15] Asynchronous Bidirectional Decoding for Neural Machine Translation

作者：張祥文，蘇勁松，秦悅，劉洋，紀榮嶸，王鴻吉

單位：廈門大學

來自廈門大學的張祥文介紹了他們在機器翻譯中一項有趣的工作。

傳統的機器翻譯中都是按照單向順序編碼。這種方法的一個缺點就是，一旦中間出現翻譯錯誤，隨後的內容就會出現很大的差錯。本文作者提出了一種雙向編碼的新思路。

15-1，雙向編碼

實驗結果相較之前的方法有顯著提升。但是這種效果的提升是以消耗計算量為代價的。Poster 環節中，張祥文也表示他們也曾考慮過跳序編碼的方法。

[16] Knowledge Graph Embedding with Iterative Guidance from Soft Rules

作者：郭舒，王泉，王麗宏，王斌，郭莉

單位：中國科學院信息工程研究所

隨後由來自中科院信息工程研究所的王泉副研究員報告了他們在知識圖譜表示學習方面的研究。

學習知識圖譜在低維向量空間中的分散式表示是當前研究的熱點。最近，將分散式知識表示與傳統符號邏輯相結合引起了越來越多的關注。但是，以往的大多數嘗試採用一次性注入邏輯規則的方式，忽略了分散式知識表示學習和邏輯推理之間的交互性。此外，以往的方法只專註於處理硬規則，即那些總是成立、不能被違反的規則。這類規則通常需要耗費大量的人力來編寫或驗證。

本文作者提出了一種新的知識圖譜分散式表示學習方法——規則引導嵌入（rule-guided embedding，簡記為 RUGE），藉助軟規則的迭代引導完成知識圖譜表示學習。所謂軟規則，就是那些不總是成立、帶置信度的規則。這類規則可以經由演算法從知識圖譜中自動抽取。

16-1，框架概述

具體來說，RUGE 同時利用標註三元組、未標註三元組、自動抽取出的軟規則這三種資源以迭代的方式進行知識圖譜表示學習。每一輪迭代在軟標籤預測和表示修正這兩個步驟間交替進行。前者利用當前學到的表示和軟規則為未標註三元組預測軟標籤；後者進一步利用標註三元組（硬標籤）和未標註三元組（軟標籤）對當前表示進行修正。通過這個迭代過程，RUGE 可以成功建模分散式知識表示學習和邏輯推理二者間的交互性，邏輯規則中蘊含的豐富知識也能被更好地傳遞到所學習的分散式表示中。

（感謝王泉副研究員指正！）

[17] Embedding of Hierarchically Typed Knowledge Bases（孔繁爽，北航）

作者：張日崇，孔繁爽，王晨玥，茆永軼

單位：北京航空航天大學

孔繁爽是來自北京航空航天大學的碩士生。她在報告中介紹了他們在 embedding 過程中考慮實體類型的研究工作。

Embedding 已經成為基於知識庫和各種嵌入模型的預測、推理、數據挖掘和信息檢索的重要手段。但是大多數模型都是「無類型的」，也即將知識庫僅僅視為一個實例集合，而不考慮實體的類型。

17-1 ，embedding過程中考慮實體類型

在這篇文章中，作者研究了實體類型信息在知識庫 embedding 中的應用。他們提出了一個框架，將一個通用的「無類型」嵌入模型添加到一個「有類型」嵌入模型中。這個框架將實體類型解釋為對所有實體集合的一個約束，並使這些類型約束在嵌入空間中同構地引入一組子集。然後引入額外的 cost 函數來模擬這些約束與實體和關係的嵌入之間的適應性。

（感謝孔繁爽指正！）

[18] Faithful to the Original: Fact-Aware Neural Abstractive Summarization

作者：曹自強，韋福如，李文婕，李素建

單位：香港理工大學

來自香港理工大學的曹自強博士在隨後的報告中提出，生成摘要不僅要保持信息充分，更重要的是信息的忠實性。

與抽取摘要不同，生成式摘要在融合原文本的過程中往往會創造出虛假的事實。曹自強在報告中介紹，目前有近 30% 的最先進的神經系統都會受到這種問題的困擾。以前生成式摘要主要著眼於信息性的提高，但作者認為忠實性（也即「信」）是生成摘要的前提，非常重要。

18-1，模型框架

為了避免在生成摘要中產生虛假事實，作者使用了開放的信息抽取和依存分析技術從源文本中提取實際的事實描述，然後提出 dual-attention sequence-to-sequence 框架來強制以原文本和提取的事實描述為條件的生成。實驗表明，他們的方法可以減少 80% 的虛假事實。

（感謝曹自強博士指正！）

[19] Twitter Summarization based on Social Network and Sparse Reconstruction

作者：賀瑞芳，段興義

單位：天津大學

來自天津大學的賀瑞芳副教授介紹了她們基於社交網路和稀疏重構的 Twitter 摘要研究工作。

隨著 Twitter 等微博服務的快速增長，數百萬用戶產生了大量短小而嘈雜的信息，使得人們很難快速掌握自己感興趣話題的概要信息。作者通過 Twitter summarization 來嘗試這個問題的解決，即從大量 Twitter 文本中提取摘要信息。

傳統摘要方法一般只考慮文本信息，現有推特摘要方法考慮了社會媒體的用戶級靜態特性，但卻忽視了推文之間的社交關係。受社會學理論的啟發（在社會網路中有表達一致性和表達傳染性），作者提出了一種新的稱之為 Twitter Summarization based on Social Network and Sparse Reconstruction（SNSR）的微博摘要方法，這種方法能夠用於社交媒體情景中大規模、短小和嘈雜的文本上，採用稀疏重構進行推理。

作者在文章中將推文之間的關係建模為社會正則，將其整合到組稀疏優化的微博摘要框架之中，並設計了多樣性正則來消除社交網路帶來的強冗餘信息。

由於缺乏公共語料庫，作者構建了 12 個不同話題的標準 Twitter 摘要數據集。在這個數據集上的實驗結果表明，這個框架在處理社交媒體中大規模、短小及嘈雜消息的有效性。

（感謝賀瑞芳副教授指正！）

Session 4（6場報告）

主持人：丁效副教授，哈爾濱工業大學

[20] Improving Review Representations with User Attention and Product Attention for Sentiment Classification

作者：吳震，戴新宇，尹存燕，黃書劍，陳家駿

單位：南京大學

來自南京大學的吳震在 Session 4 環節介紹了他們在文檔級別情感分類方面的研究工作。

在網路平台上有大量由用戶寫的文檔類型的評價，其中有些是表達用戶情感的，有些則是對產品本身的評價。如何根據這些評價信息推斷出用戶的情感表達是一個非常有意思的工作。

在這方面，唐都鈺等人（2015）在 CNN 網路的基礎上添加了用戶和產品的偏置矩陣和表示矩陣來表示這些信息；陳慧敏等人（2016）在層次網路中融入用戶和產品的這些信息。這兩個研究都獲得了很好的提升。

20-1，UPNN

20-2，USC+UPA

作者注意到，評論文本中有些詞表現出很強的用戶喜好，而有些詞則傾向於評價產品特點。其中觀點（理性評價）與產品更相關，而情緒（感性評價）則與用戶喜好關係更緊密。在此基礎上，作者提出了一個對稱的網路模型：

20-3

在這個網路中，左邊用來抽取用戶喜好的感性評價，右邊用來抽取產品評價的理性評價。此外為了綜合兩種視角，作者補充了一個組合策略。整體來看，損失函數表示為

其中三個參數可以調整以觀看不同的效果。其實驗表明，這種模型要比目前 state-of-art 的一些模型有更好的效果。

[21] Chinese LIWC Lexicon Expansion via Hierarchical Classification of Word Embeddings with Sememe Attention

作者：曾祥楷，楊成，塗存超，劉知遠，孫茂松

單位：清華大學

來自清華大學孫茂松組的楊成博士報告了他們在中文語言查詢和字數統計（LIWC）詞義擴展的研究工作。

LIWC 是一個字數統計軟體工具，已被用於許多領域的定量文本分析之中。由於其成功和普及，核心詞典已被翻譯成中文和許多其他語言。然而，其中的詞典只包含數千個單詞，與漢語常用單詞的數量相比是遠遠不足的。目前的方法通常需要手動擴展詞典，但是這往往需要太多時間，並且需要語言專家來擴展詞典。

為了解決這個問題，作者提出了自動擴展 LIWC 詞典的方法。具體而言，作者認為這個問題是一個層次分類的問題，並利用 seq2seq 模型來給詞典中的單詞分類。另外，作者還使用關注機制的義元信息來捕捉一個詞的確切含義，以便可以擴展一個更精確、更全面的詞典。

（感謝楊成博士指正！）

[22] Learning Structured Representation for Text Classification via Reinforcement Learning

作者：張天揚，黃民烈，趙立

單位：清華大學

隨後楊成博士代表黃民烈副教授介紹了他們在學習文本分類的結構表示方面的研究內容。

表徵學習是自然語言處理中的一個基本問題。這篇文章研究如何學習文本分類的結構化表示。

與大多數既不使用結構也不依賴於預定義結構的現有表示模型不同，作者提出了一種強化學習（RL）方法，通過自動地優化結構來學習句子表示。

作者在文章中提出兩種結構表示模型：Information Distilled LSTM (ID-LSTM) 和 Hierarchically Structured LSTM (HS-LSTM)。其中 ID-LSTM 只選擇重要的任務相關的單詞，HS-LSTM 則去發現句子中的短語結構。兩種表示模型中的結構發現被表述為一個順序決策問題，結構發現的當前決策影響隨後的決策，這可以通過策略梯度 RL 來解決。

結果表明，這種方法可以通過識別重要的詞或任務相關的結構而無需明確的結構注釋來學習任務友好的表示，從而獲得有競爭力的表現。

[23] Assertion-based QA with Question-Aware Open Information Extraction

作者：閆昭，唐都鈺，段楠，劉樹傑，王文迪，姜大昕，周明，李舟軍

單位：微軟亞洲研究院

接下來由哈工大的馮驍騁博士代替微軟亞洲研究院的唐都鈺博士，介紹了他們在自動問答方面的研究工作。

在這項工作中，作者提出了一個基於斷言的問答任務（Assertion-based QA），這是一個開放的領域問題問答任務。在搜索引擎中，用戶提出問題後，引擎會反饋回一個相關的段落作為響應。但是這並不利於用戶快速得到想要的信息。為了簡化引擎反饋信息，作者提出將問題和段落作為輸入，輸出包含主、謂、賓三元組表示的斷言的 ABQA 問題。

為了解決這個問題，作者構建了一個名為 WebAssertions 的數據集，其中包括 55960 個（question，passage）和 358427 個（question，passage，assertion）。

隨後為了從段落中提取出斷言，作者開發了提取式和生成式兩種方法。實驗結果表明，這兩種方法都能夠較好地直接從段落中給出問題的具體答案，並包含部分支撐信息。（文中斷言泛指三元組）

（感謝馮曉騁博士指正！）

[24] End-to-End quantum language models with Application to Question? Answering

作者：張鵬，牛嘉斌，蘇展，王本友，馬力群，宋大為

單位：天津大學

來自天津大學的蘇展做了一場極為有意思的報告，他們的工作是通過借鑒量子統計物理中的方法來表示語言模型，並用於語問答任務。

語言建模（LM）是自然語言處理領域的基礎研究課題。最近（Sordoni，Nie 和 Bengio 2013）利用量子統計物理中的數學形式，提出了量子語言模型（Quantum Language Model，QLM）。具體來說就是，QLM 借鑒了量子力學中密度矩陣的概念，將 single term 和 term dependency 的概率不確定性 encoding 到密度矩陣中，且與傳統 n-gram 模型相比，量子語言模型在表示 n 階 dependency 時不會增加參數規模。

這種方法在理論上是非常重要的，因為它是首次用量子理論的公式來推廣 LM。但是其也有一些限制：1）QLM 中每個詞的表示是一個 one-hot 向量，它只能編碼 local 事件，而不能考慮全局語義信息；2）QLM 通過密度矩陣表示文本（例如 query, document），它通過迭代求解而非解析求解，因此在端到端的設計中很難更新和優化密度矩陣；3）QLM 中密度矩陣的表示、訓練和匹配，這三個步驟無法共同優化，限制了 QLM 的適用性。

針對這些問題，這篇文章首次將詞向量作為單個詞的狀態向量，單個詞表示一個純態系統，整個句子就可以對應於由密度矩陣表示的混合態系統。這樣就可以在沒有迭代估計的情況下導出密度矩陣，密度矩陣表示也可以被集成到神經網路結構中並通過反向傳播演算法自動更新。

24-1，單句表示，Question 和 Answer 分別用密度矩陣表示

基於這種思想，作者提出了一種端到端的模型（即基於神經網路的類量子語言模型（NNQLM）），並設計了兩種不同的體系結構。

24-2，框架一由於密度矩陣是一個半正定的矩陣，其聯合表示的跡內積可以反映密度矩陣相似度，為了將其應用於 End-to-End 模型，將聯合表示矩陣的對角線元素和跡作為全連接層的輸入。

跡內積 (Trace Inner Product) 可表示兩個量子系統的相似度。在問答任務中，Question (Q) 和 Answer (A) 所對應的兩個密度矩陣的乘積可作為 Q 和 A 的聯合表示，其聯合表示的跡（即跡內積）可計算 Q 和 A 的相似度，每個對角線元素表示各個潛在語義子空間的相似度。

24-3，框架二對密度矩陣的聯合表示進行卷積操作，實驗結果表明卷積可以更加充分地挖掘聯合表示中潛在語義子空間的相似性信息

作者將這個模型用在經典的 QA 任務中，即答案選擇（從預選的候選答案中找出正確的答案）。實驗結果表明，NNQLM 在 WIKI 數據集上顯著提升了 QLM 的效果，並在 TREC-QA 數據集接近了 state-of-art 的結果。

目前，量子力學和神經網路的交叉領域已經衍生出量子機器學習和量子人工智慧等新興研究方向，已有相關重要論文發表在 Science 等高水平期刊。該論文以語言模型為切入點，對量子力學和神經網路這一交叉領域進行研究，並在自然語言處理領域的問答任務中實現了端到端訓練的類量子語言模型，擴展了量子語言模型的理論和應用。

（感謝蘇展指正！）

[25] EMD Metric Learning（張子昭，清華）

作者：張子昭，張宇博，趙曦濱，高躍

單位：清華大學

最後來自清華的本科生張子昭做了本次預講會的最後一個報告，報告內容為對 EMD 度量的一個優化工作。

Earth Mover"s Distance (EMD) 是 2000 年 IJCV 期刊文章《The Earth Mover"s Distance as a Metric for Image Retrieval》提出的一種多維分布相似度量方法，被廣泛應用於計算機視覺等任務當中。所謂 EMD，是傳統運輸問題的最優解問題，簡單來說就是給定兩個 signature（P 和 Q），把一個變成另一個所需要的最小工作量。EMD 越小，實體之間就越相似。

25-1，EMD。其中 f_ei 是 P_i（Q_i）的中心的特徵，w_i 是 P_i（Q_i）的相應的權重。d_ij 是從 P_i 到 Q_j 運送一個供給單位的成本，f_ij 是相應的流量

EMD 求解公式為

目前大多數設計 EMD 的工作都集中在 EMD 的加速和應用上，很少有工作對 EMD 進行優化。為了解決這樣的問題，這篇文章提出了一個 EMD 度量學習的演算法。

從上面的公式可以看出 ground distance matrix D 對 EMD 有很大影響。所以要想優化 EMD，那麼就去優化 D。從另一方面 D 又由相應的度量 A 來決定，因此可以通過優化 Ground Distance Metric A 來優化 EMD。

25-3，EMD 度量學習框架

其方法是從訓練數據中選擇出一個子集，對這些數據進行採樣，得到一些三元組來減少整個方法的計算量；隨後構建一個目標函數，通過交替優化模型，最後得到一個穩定的度量 A。

在實驗部分，作者將這種方法應用於多視角對象分類和文檔分類當中。實驗結果表明，與傳統的 EMD 方法和最新的方法相比，他們提出的 EMD 度量學習方法具有更好的性能。此外，這種 EMD 度量學習方法也可以應用於其他領域。

（感謝張子昭指正！）

！！！NOTE！！！

預講會已經結束，頂會將要開始。屆時雷鋒網 AI 科技評論也將到現場進行一線報道。如果你也有論文被 AAAI 錄用，歡迎在後台留下你的聯繫方式，我們將與您聯繫，並進行更多交流！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※專訪科大訊飛開放平台總經理齊舒萱：用技術創新讓 AI 賦能更多合夥夥伴

TAG:雷鋒網 |