蘇州大學張民教授兩小時講座精華摘錄:自然語言處理方法與應用
2018 中國人工智慧大會(CCAI 2018)於 7 月 28 日-29 日於深圳召開。「過去未去,未來已來」,李德毅院士在 CCAI 2018 開幕式上對人工智慧的發展寄予極高的期待,認為未來人工智慧必將給人類帶來全新的啟迪。
CAAI 副理事長、中國科學院院士譚鐵牛在開幕式致辭中同時強調,「理性、務實」是未來人工智慧的重要路線。他也希望中國人工智慧大會能給與會觀眾以充實的視聽盛宴與豐富的心得體會。
在 2018 中國人工智慧大會(CCAI 2018)首日下午的專題論壇上,蘇州大學特聘教授、國家傑出青年科學基金獲得者張民做了題為《自然語言處理方法與應用》的大會講座。在這場長達兩個小時的講座上,張民教授圍繞 AI、自然語言及 NLP,還有相應的方法、應用及展望,向與會觀眾分享了自然語言處理的相應研究。雷鋒網 AI 科技評論整理了張民教授的講座概要及部分精華內容,以饗讀者。
一、AI、自然語言和自然語言處理
從農業社會、工業社會到信息社會,從數據到信息、到知識到智能的演變,代表了人類社會的巨大進步,展現了人類對於不同概念的詮釋與理解的演變:
數據可以理解為人類對主觀/客觀世界事物的數量、屬性、位置及其相互關係的抽象表示;信息是具有時效性的、有一定含義的、有邏輯的、經過加工處理的、對決策有價值的數據流,也就是加工後有邏輯的數據。而信息的豐富性決定了我們需要將它抽取、凝練為知識;但擁有用知識去解決問題的能力,才真正叫做智能。從歷史的長河來看,人工智慧的產業成熟曲線及人類的認識體系,是在經歷「人類要毀滅」的恐慌(發現人工智慧的能力超出想像)與大呼「騙子」的頓悟(發現人工智慧的局限性)的反覆中循環提升的。在張民教授來看,這兩種極端的觀點都只能部分代表人工智慧的觀點和看法,不應以偏概全。
人工智慧的內涵和外延:
能夠講清楚什麼是人工智慧很重要。在張民教授的理解中,按照李德毅院士的觀點,人工智慧的外延包括機器人與智能系統。而內涵包括如下四個層面:
? 底層是腦認知基礎,上層是以知識工程為核心的知識建模、獲取和推理;
? 中間有兩個同樣重要的內容,一個是感知智能,即機器感知和模式識別;另一個是認知智能,也就是自然語言處理和理解。
人的進化與語言的關係
從感知、認知到進化,人為何能步入食物鏈的頂端?因為人類有語言,語言使人類區別於動物。語言的本質就是一套符號系統。從語言的種類來看,一個是動物語言,一個是人工語言,再者是自然語言。自然語言是人類最重要的工具,是人類進行溝通交流的各種表達符號。
那麼自然語言處理的定義是什麼?就是用計算機來處理人類的自然語言。
自然語言處理有三件重要的事:
1. 分析和理解;2. 生成和應用(互動過程);3. 動作(執行語言相對應的內容)。
為了更好地進行表示、推理和學習,自然語言處理涉及到了哪些方法?張民教授總結了如下內容:自然語言處理學科自身的演算法和理論,規則方法,統計方法、機器學習方法及深度學習等多種方法。
機器能理解人類的自然語言嗎?
從廣義角度來說,真正的自然語言處理從 1950 年代的機器翻譯研究開始。但語言存在高度歧義、高度結構化的特性。為何自然語言處理的難度如此大?張民教授認為包括如下因素:
? 功能:語言是對世界的認識和理解;
? 知識:涉及到語言學知識、外部知識、領域知識甚至是常識等多種綜合知識。
? 特性:語言具備組合性、開放的、動態的、長期特性等多種特性。
? 語用性:張民教授著重強調了環境、上下文、信息、意圖等各種因素對於理解語言的重要性和複雜性。
二、自然語言處理的方法
與人工智慧一樣,張民教授也將自然語言處理劃分為外延和內涵兩個部分。外延指的是自然語言處理的應用(下一部分會重點說明);內涵則涵蓋三大內容,包括以自然語言分析(分析語言表達的結構和含義)、自然語言生成(從內部表示生成語言表達)和多語言處理等。
分詞
分詞的任務定義為:輸入一個句子,輸出一個詞語序列的過程。如將「嚴守一把手機關了。」輸出為「嚴守一/把/手機/關/了。」
目前的兩種主流方法包括基於離散特徵的 CRF 和 BILSTM-CRF。
挑戰包括交叉歧義、新詞識別、領域移植、多源異構數據融合及多粒度分詞等。
命名實體
現在的主流方法包括:
1. 規則系統
2. 基於機器學習的學習系統
目前的挑戰包括新領域舊實體類別識別、新實體類別識別等,解決辦法包括利用構詞知識、領域知識,使用強化學習、跨領域學習、半監督學習、眾包、遠程監督等機器學習方法。
句法分析
句法分析的任務定義為:輸入一個句子的詞語序列,輸出為句子結構表示的過程。依存句法分析輸出的是依存句法樹,下面以依存句法分析為例。
目前採用的方法包括:
? 基於圖的方法,即從圖中搜索得到句法樹,主要的任務在於確定每個依存弧的分值;
?基於轉移的方法:即通過一系列移進規約的動作得到句法樹,主要任務在於基於當前狀態,確定每個動作的分值。
現在的主流做法是在上述兩者的基礎上加入深度學習的方法。
語義分析
定義是將文本轉換為可計算的知識表示。目前學術界語義表達方法包括:1)淺層語義分析;2)邏輯語義分析;3)抽象語義表示分析。
篇章分析
篇章的定義指的是一系列連續的語段或句子構成的語言整體單位,核心問題是篇章結構和篇章特徵,其所基於的語言學基本理論包括中心理論、脈絡理論、RST 等多種語言學基本理論。
? 基本結構分析
篇章結構指的是篇章內部關係的不同結構化表達形式,主要包括邏輯語言結構、指代結構、話題結構、功能結構、事件結構等範疇。
? 基本特徵的研究
包括連接性、連貫性、意圖、可接受性、信息性、情景性和跨篇章等七個基本特徵。
自然語言生成
張民教授總結了在基於規則、基於知識的檢索及基於深度學習等三種自然語言生成方法的優缺點對比及適用場景。
? 基於規則
它的一大優勢在於具體領域的能做到精準回答;但相應地,在可移植性及可擴展性上則存在不足;適用的場景以個人助理為主,和任務驅動型的對話。
? 基於知識的檢索
它的優點在於知識庫易於擴充,答案沒有語法錯誤;但對話連續性差,容易出現答非所問的情況;適用場景以問答系統、娛樂聊天為主。
? 基於深度學習
基於數據驅動的方法能夠省去顯示語言理解等過程,但需要大量語料支持;適用場景以虛擬影像、智能聊天機器人為主的有豐富領域語料的場景。
三、自然語言處理的應用
自然語言處理應用包括自然語言處理本身的直接應用和自然語言處理加行業的應用。直接應用包括,問答、對話、機器翻譯、自動文摘、機器寫作、閱讀理解、信息抽取、情感分析等;同時,自然語言處理在各個行業中都有越來越廣泛的應用,包括教育、醫療、司法、金融、旅遊、國防、公共安全、科技、廣告、文化、出版各行各業。
1. 情感和情緒分析
在業界研究和應用,情感一般包括正面、負面和中性,而情緒一般表現為喜、怒、哀、樂、驚、恐、思等。情緒和情感都是人對客觀事物所持的態度體驗,只是情緒更傾向於個體基本需求慾望上的態度體驗,而情感則更傾向於社會需求慾望上的態度體驗。情感和情緒分析包括問題驅動和模型驅動兩個方面,在工業界和學術界都已經有著廣泛的應用和研究。
2. 問答
智能問答主要有三方面的要求:一是理解人類語言的內涵;二是推敲知識獲取的意圖;三是挖掘精確貼切的知識。
相應地,問答系統需要解決三個問題:
1. 問題分類、分析和理解(一階邏輯、二階邏輯)
2. 答案的匹配、檢索
3. 答案生成
問答的四個難點及解決方法
1)多源異構大數據背景下開放域問答的瓶頸。在效率與覆蓋率的權衡下,數據大小與知識佔比的關係是每個研究者需要考慮的問題;而結構化數據與非結構化數據的混雜,導致知識挖掘與存儲存在相應的難點;此外,數據時效性的變化也給新舊知識的應用帶來了挑戰。
以往是用 IR 或 RC 的方法,但目前流行採用對檢索所得的多個段落排序,也就是在 IR 和 RC 中加入了排序的操作,進而進行面向多段落的提取/生成答案。
2)深度語義理解的問答技術。以 Watson 為代表的系統採用的是抽取與置信度計算的方法;目前則是閱讀理解抽取/生成式方法推動了技術發展。
3)知識庫與知識圖譜。以往的知識庫存在可靠性、包容性低,存在通用性不高的問題,目前研究者們更多考慮用當下熱門問題自動生成來實現知識圖譜的自動更新和擴展。
4)多模態場景下的問答。問題的對象往往潛藏於多媒體,且答案的判斷需要參考其它媒體的數據資源。目前出現了以語言處理 RNN 與圖像處理的 CNN 的有機結合方法,實現跨媒體的特徵共享、獨立和抗依賴。
對話
根據應用場景的不同,可分為開放域及封閉域對話系統。高準確率的上下文篇章建模、對話狀態轉移模型和領域知識建模是目前對話亟待解決的問題。
知識圖譜
包括知識建模、知識圖譜構建、知識融合、知識推理計算以及知識賦能等主要任務。知識圖譜構建是目前學術界和產業界研究熱點,包括實體及其屬性識別、事件抽取、實體事件關係抽取、概念實例化和規則學習等。
機器翻譯
機器翻譯目前已經取得較大進展,張民教授展望了未來機器翻譯可以從如下領域做發展:
知識建模和翻譯引擎,從詞序列到語義到知識,利用知識圖譜和各類知識(語言學知識、領域知識、常識知識等)進一步延伸機器翻譯的邊界;
研究新的翻譯模型,從廣度(篇章)和深度(深度理解)進一步推進機器翻譯的理解能力。此外,還需要適應產業化的需求和國家戰略需求。
四、AI 時代的自然語言處理
張民教授告訴雷鋒網 (公眾號:雷鋒網) AI 科技評論,目前的自然語言處理髮展處於歷史上最好的時機。早在 90 年代,他們團隊就嘗試做過自然語言處理的商業化應用,但因為技術的局限性,最終並沒能將商業模型成功落地。「早起的鳥兒有蟲吃,但起得太早,天沒有亮就餓死了。」張民教授的切身體會讓他意識到,技術的進步,加上產業的需求和落地,讓自然語言處理到了今天才迎來了新的春天。
同樣地,張民教授在講座中也提到了自然語言處理於 AI 時代的三個基本問題,一個是表示;一個是搜索、推理,還有一個是學習。
? 從底層來看,包括 NLP 詞法、句法、語義到篇章的 NLP 基礎研究和核心技術;
? 從應用研究來看,包括情感分析、信息抽取、對話系統、閱讀理解、信息檢索、問答系統、知識圖譜、機器翻譯等;
? 從上層來看,則是相應的平台、系統和應用。
以上這些也是張民教授團隊研究工作的重點。
張民教授對雷鋒網 AI 科技評論表示,從數據、信息到知識和智能,未來的學科邊界與知識智能結合會進一步融合,並在可解釋性、小數據、知識賦能等亟待解決和探討的問題上進一步延伸;與此同時,注重科學問題的凝練,定義學科研究規範和研究框架,重視產學研的結合與交融,這也是他寄予自然語言處理在 AI 時代這個「歷史上發展的最好時期」的期待。


※迫於壓力?亞馬遜人臉識別系統被奧蘭多政府禁用
※特斯拉第二季度生產28578輛Model 3,下月衝擊周產6000 台
TAG:雷鋒網 |