鄒炎炎：語義分析介紹及跨語言信息在語義分析中的應用｜AI 研習社第 70 期大講堂

新聞 09-23

雷鋒網 AI 研習社編者按：語義分析（semantic parsing）是人工智慧的一個分支，是自然語言處理技術的幾個核心任務，涉及語言學、計算語言學、機器學習，以及認知語言等多個學科。近年來，隨著人工智慧的發展，語義分析也越發重要。

word embedding 是很常見的 input feature，能夠很大程度地提升語義分析模型的性能。然而，對於 output 對語義分析模型性能的影響，大家的關注度卻並不是很高。

近日，在雷鋒網 AI 研習社公開課上，新加坡科學設計大學在讀博士鄒炎炎就用通俗易懂的語言為大家介紹了 semantic parsing 的概念、背景以及自己在該領域的論文成果，並介紹了關於 output embedding 對於 semantic parsing 的影響。公開課回放視頻網址：http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan

鄒炎炎：新加坡科學設計大學博士在讀，主要研究方向為自然語言理解。

分享主題：語義分析介紹及跨語言信息在語義分析中的應用

分享提綱：

1.semantic parsing 背景介紹

2.semantic parsing 模型介紹

3. 如何學 output embedding

4. 實驗分析

雷鋒網 AI 研習社將其分享內容整理如下：

今天跟大家分享的內容包括兩個部分：

一是語義分析介紹，考慮參與分享的大多數朋友並不是從事 semantic parsing 的相關工作，所以我會從通俗易懂的角度為大家做一個普及；

二是講一下我們在 ACL 2018 會議中的一篇短文——《跨語言信息在語義分析中的應用》（Learning Cross-lingual Distributed Logical Representations for Semantic Parsing）

對於做 nlp 的人來講，parsing 一般會被默認為 Syntactic Parsing——語法方面的分析，常見的分析有 Dependency parsing（依賴關係分析）和 Constituency parsing（成分句法分析）。

Wikipedia 上對 semantic parsing 的解釋是：把人類自然語言的話轉化為機器能夠讀懂的語言。

為了讓大家更好地區分語法分析和語義分析的不同點，我先介紹一下兩種分析的任務：

Dependency parsing ：比如輸入一句話「I saw a girl with a telescope」，Dependency parsing 的目標就是找到哪兩個詞之間是存在依賴關係的，更進一步的話，可能需要給這種關係標記上 Label。例如「I 」是「saw」的修飾詞，其他關係同理。

鄒炎炎：語義分析介紹及跨語言信息在語義分析中的應用｜AI 研習社第 70 期大講堂

Constituency parsing：我們以同樣的句子為例，這裡我們關注的不是兩個詞之間是否存在修飾、依賴關係，而是關注哪些詞構成一個短語，一個短語即是一個成分，比如「a telescope」就是一個名詞短語。

鄒炎炎：語義分析介紹及跨語言信息在語義分析中的應用｜AI 研習社第 70 期大講堂

Semantic Parsing 則是指輸入一段完整的話，最後輸出 semantic representations（MRL）。那 semantic representation 是什麼呢？就我了解的而言，主要有五種比較流行的 representations ：

? Lambda calculus expressions（一般與 CCG 配合使用）。

? Lambda dependency-based compositional semantics（lambda-DCS）

? Forest, or DAG representations （AMR）

? SQL

? FunQL （logical forms with tree structures）

本次分享中，我們主要採用了 FunQL 這種語義分析方式。

【更多關於這五種主流語義分析的講解細節，請回看視頻 00：08：30 處，http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan】

從廣義上來講，Semantic Parsing 可以分為兩類：

? Task-independent：Semantic Parsing 只關注語義分析這一塊，input 就是一個句子，output 就是一個 representation，它的目標就是怎樣以更好的 Semantic Parsing，來預測句子的更準確的 representation，而不關注下面的任務是什麼。

? Task-specific：興趣點在於訓練一個能幫助完成 Answering questions、Taking actions 等這些任務的 Semantic Parsing。

【關於更多對二者的區別的講解以及案例，請回看視頻 00：15：45 處，http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan】

總的來說，我們要把一個文本轉化為 semantic representation 的形式，本文採用 FunQL 這種 representation 的方式，目標就是將文本轉化為一個 semantic trees（語義樹）。當然這個 semantic trees 也可以反向轉化為 FunQL，使用 semantic trees 這個媒介，能幫助我們更好得學到句子的語法意義。

鄒炎炎：語義分析介紹及跨語言信息在語義分析中的應用｜AI 研習社第 70 期大講堂

一般來說，Semantic Parsing 中一個比較流行的方法就是去學習 joint representation——可以同時將 input 的詞和 output 的 semantic units 進行對齊處理。

這次我主要介紹我們實驗室的一系列工作，包括：

Generative Hybrid Tree (Lu et al.，2008)

我們知道 input 是一句話，output 是一個 semantic trees，例子中，input 為「how many states do not have a river?」這句話，下面就是它的 semantic trees，我們可以將二者的對應關係表示為 Hybrid Tree 的形式，如下圖：

鄒炎炎：語義分析介紹及跨語言信息在語義分析中的應用｜AI 研習社第 70 期大講堂

【關於 Generative Hybrid Tree 的更多講解，請回看視頻 00：19：17 處，http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan】

Generative Hybrid Tree 有一些優點和缺點。

優點：第一，它是 Language-independent，不管 input 是中文還是英文，只要喂一個模型，系統就能輸出一個 Semantic Parsing；第二，可以很好地模擬出來詞與 semantic units 的對齊關係，這個對於 Semantic Parsing 來說非常重要；第三，效率性比較高。具體的推導，大家感興趣的話可以閱讀論文。

缺點：第一，無法獲得長距離的依賴關係；第二，能引入的特徵比較有限。

Discriminative Hybrid Tree (Lu，2014, 2015)

在這個工作中，我們採用了 log-linear model（對數線性模型）來解決上一篇論文存在的兩個問題。綠色字體是在 Generative Hybrid Tree 的基礎上新引入的，它們與 semantic units 保持著聯繫，它能將句子的節點與所有子節點的對齊關係都考慮進去。

鄒炎炎：語義分析介紹及跨語言信息在語義分析中的應用｜AI 研習社第 70 期大講堂

【關於 Discriminative Hybrid Tree 的更多講解，請回看視頻 00：25：25 處，http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan】

除了一般的特徵，Discriminative Hybrid Tree 這個模型還會考慮到 Word n-gram features、Character-level features、 Span features 這些額外的特徵。

Neural Hybrid Tree (Susanto、Lu, 2017)

現在 Neural Network 非常盛行，也有很多工作完全使用 Neural model 來完成 Semantic Parsing 的工作。Neural Hybrid Tree 其實就是 Discriminative Hybrid Tree 的一個擴展版本，引入了一些 Neural 特徵，來幫助我們更好地學習 Semantic Parsing。

鄒炎炎：語義分析介紹及跨語言信息在語義分析中的應用｜AI 研習社第 70 期大講堂

【關於 Discriminative Hybrid Tree 的更多講解，請回看視頻 00：28：35 處，http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan】

下面講一下我們在 ACL 2018 會議中的一篇短文——《跨語言信息在語義分析中的應用》。跨語言信息其實很少作為一個特徵用於 Semantic Parsing。那為什麼我們會想到使用跨語言信息去學習語義分析器呢？

鄒炎炎：語義分析介紹及跨語言信息在語義分析中的應用｜AI 研習社第 70 期大講堂

例如 Machine Translation 將「How many states have no rivers?」轉化為中文「有多少洲沒有河流？」，可能會有很多種表達，但是語義是一樣的。不同的語言其實有一些共享的信息，那這些共享信息是否能幫助我們更好的去學 Semantic Parsing 呢？這就是我們的 Motivation。

【更多關於使用跨語言信息去學習語義分析器的 Motivation 的講解，請回看視頻 00：32：15 處，http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan】

接下來就是怎麼去給這些共享信息建立模型。我們的目標就是在給定目標語言和輔助語言的情況下，比如要學英文的 Semantic Parsing，會以英文為目標語言，以中文、德文等其他語言為輔助語言，在訓練英文的 Semantic Parsing 前，我們會在輔助語言以及語言所對應的「語義樹」中學一些 cross-lingual information，之後我們會根據給定的數據，可以用 embedding 或者分散式表達去建立跨語言信息模型。

鄒炎炎：語義分析介紹及跨語言信息在語義分析中的應用｜AI 研習社第 70 期大講堂

【更多關於建立跨語言信息模型的講解，請回看視頻 00：34：50 處，http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan】

我們用一些實驗數據來證明 output embedding 對於模型的性能是有用的，如下圖中的表格：

鄒炎炎：語義分析介紹及跨語言信息在語義分析中的應用｜AI 研習社第 70 期大講堂

【更多對該數據表格的詳細講解，請回看視頻 00：37：00 處，http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan】

那學出來的 Cross-lingual Representation 到底表示什麼呢？我在這裡截取了其中的一部分，如圖：

鄒炎炎：語義分析介紹及跨語言信息在語義分析中的應用｜AI 研習社第 70 期大講堂

如果 semantic units 擁有相似或者一樣的 functional symbol，它們傾向於組成一個 group，在二維空間中非常接近。比較接近的語義會離得比較近，相反的語義則會離得比較遠。

最後做一下總結，本次我們分享了語義分析的基本背景知識，我們實驗室工作中用到的一些語義分析模型、ACL 2018 會議中的短文《跨語言信息在語義分析中的應用》以及語義分析的一些表現。

接下來，我們會考慮用一個 joint 的形式同時去學跨語言的 representations 和跨語言的 semantic parser。

以上提到的三個 Hybrid Tree 模型以及我們在 ACL 2018 的論文的代碼，都可以在我們的官方主頁（http://statnlp.org/research.sp/）上下載。

以上就是本期嘉賓的全部分享內容。更多公開課視頻請到雷鋒網 AI 研習社社區（https://club.leiphone.com/）觀看。關注微信公眾號：AI 研習社（okweiwu），可獲取最新公開課直播時間預告。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※自動駕駛壕傑多，Voyage二代自動駕駛計程車接上了Velodyne128線的激光雷達
※蘋果成立新的 AI/ML 團隊，由 John Giannandrea 領導

TAG:雷鋒網 |