當前位置:
首頁 > 知識 > 一文讀懂自然語言處理NLP

一文讀懂自然語言處理NLP

(點擊可查看大圖)

前言

自然語言處理是文本挖掘的研究領域之一,是人工智慧和語言學領域的分支學科。在此領域中探討如何處理及運用自然語言。

對於自然語言處理的發展歷程,可以從哲學中的經驗主義理性主義說起。基於統計的自然語言處理是哲學中的經驗主義,基於規則的自然語言處理是哲學中的理性主義。在哲學領域中經驗主義理性主義的鬥爭一直是此消彼長,這種矛盾與鬥爭也反映在具體科學上,如自然語言處理。

早期的自然語言處理具有鮮明的經驗主義色彩。如1913年馬爾科夫提出馬爾科夫隨機過程與馬爾科夫模型的基礎就是「手工查頻」,具體說就是統計了《歐根·奧涅金》長詩中母音與輔音出現的頻度;1948年香農把離散馬爾科夫的概率模型應用於語言的自動機,同時採用手工方法統計英語字母的頻率。

然而這種經驗主義到了喬姆斯基時出現了轉變。

1956年喬姆斯基借鑒香農的工作,把有限狀態機用作刻畫語法的工具,建立了自然語言的有限狀態模型,具體來說就是用「代數」和「集合」將語言轉化為符號序列,建立了一大堆有關語法的數學模型。這些工作非常偉大,為自然語言和形式語言找到了一種統一的數學描述理論,一個叫做「形式語言理論」的新領域誕生了。這個時代,「經驗主義」被全盤否定,「理性主義」算是完勝。

然而在20世紀50年代末到60年代中期,經驗主義東山再起了。多數學者普遍認為只有詳盡的歷史語料才能帶來靠譜的結論。於是一些比較著名的理論與演算法就誕生了,如貝葉斯方法(Bayesian Method)、隱馬爾可夫、最大熵、Viterbi演算法、支持向量機之類。世界上第一個聯機語料庫也是在那個時候的Brown University誕生的。但是總的來說,這個時代依然是基於規則的理性主義的天下,經驗主義雖然取得了不俗的成就,卻依然沒有受到太大的重視。但是金子總會發光的。

90年代以來,基於統計的自然語言處理就開始大放異彩了。首先是在機器翻譯領域取得了突破,因為引入了許多基於語料庫的方法(哈欽斯,英國著名學者)。1990年在芬蘭赫爾辛基舉辦的第13屆國際計算語言學會議確定的主題是「處理大規模真實文本的理論、方法與工具」,大家的重心開始轉向大規模真實文本了,傳統的僅僅基於規則的自然語言處理顯然力不從心了。學者們認為,大規模語料至少是對基於規則方法有效的補充。到了1994~1999年,經驗主義就開始空前繁榮了。如句法剖析、詞類標註、參照消解、話語處理的演算法幾乎把「概率」與「數據」作為標準方法,成為了自然語言處理的主流。

總之,理性主義在自然語言處理的發展史上是有重要地位的,也輝煌了幾十年,歷史事物常常是此消彼長的,至於誰好誰壞,不是固定的,取決於不同時代的不同歷史任務。總的來說,基於規則的理性主義在這個時代被提及得比較少,用的也比較少,主要是由於以下幾個缺陷:

魯棒性差,過於嚴格的規則導致對非本質錯誤的零容忍(這一點在最近的一些新的剖析技術上有所改善);

研究強度大,泛化能力差。一個研究要語言學家、語音學家和各種領域的專家配合,在當前大規模文本處理的時間、資源要求下太不划算。且機器學習的方法很難應用,難以普及;

實踐性差。基於統計的經驗主義方法可以根據數據集不斷對參數進行優化,而基於規則的方法就不可以,這在當前數據量巨大的情況下,影響是致命的,因為前者常常可以通過增大訓練集來獲得更好的效果,後者則死板許多,結果往往不盡人意。

但理性主義還是有很多優點的,同樣經驗主義也有很多缺陷,算是各有所長、各有所短。不同學科有不同學科的研究角度,只能說某些角度在某個特定的歷史時期對提高生產力「更有用」,所以重視的人更多。但「有用」不代表勝利,暫時的「無用」更不能說是科學層面上的「失敗」。尤其是在當前中文自然語言處理髮展還不甚成熟的時期,私以為基於統計的方法在很多方面並不完美,「理性主義」的作用空間還很大,需要更多的人去關注、助力。

——《統計自然語言處理》宗成慶

自然語言處理涉及的範疇如下(維基百科):

中文自動分詞(Chinese word segmentation)

詞性標註(Part-of-speech tagging)

句法分析(Parsing)

自然語言生成(Natural language generation)

文本分類(Text categorization)

信息檢索(Information retrieval)

信息抽取(Information extraction)

文字校對(Text-proofing)

問答系統(Question answering)

機器翻譯(Machine translation)

自動摘要(Automatic summarization)

本文針對其中幾個主要領域的研究現狀和進展,通過論文、博客等資料,結合自身的學習和實踐經歷進行淺顯地介紹。由於個人實踐經驗不足,除中文分詞、自動文摘、文本分類、情感分析和話題模型方面進行過實際業務的實踐,其他方面經驗欠缺,若有不當之處,歡迎童鞋們批評指正!

目錄

一. 中文分詞

中文分詞主要包括詞的歧義切分和未登錄詞識別,主要可以分為基於詞典和基於統計的方法,最新的方法是多種方法的混合。從目前漢語分詞研究的總體水平看,F1值已經達到95%左右,主要分詞錯誤是由新詞造成的,尤其對領域的適應性較差。下面主要介紹一下中文分詞存在的主要問題和分詞方法。

1. 問題

1.1 歧義切分

切分歧義處理包括兩部分內容:

切分歧義的檢測;

切分歧義的消解。

這兩部分在邏輯關係上可分成兩個相對獨立的步驟。

切分歧義的檢測。「最大匹配法」(精確的說法應該叫「最長詞優先匹配法」) 是最早出現、同時也是最基本的漢語自動分詞方法。依掃描句子的方向,又分正向最大匹配 MM(從左向右)和逆向最大匹配 RMM(從右向左)兩種。最大匹配法實際上將切分歧義檢測與消解這兩個過程合二為一,對輸入句子給出唯一的切分可能性,並以之為解。從最大匹配法出發導出了「雙向最大匹配法」,即MM+ RMM。雙向最大匹配法存在著切分歧義檢測盲區。

針對切分歧義檢測,另外兩個有價值的工作是「最少分詞法」,這種方法歧義檢測能力較雙向最大匹配法要強些,產生的可能切分個數僅略有增加;和「全切分法」,這種方法窮舉所有可能的切分,實現了無盲區的切分歧義檢測,但代價是導致大量的切分「垃圾」。

切分歧義的消解。典型的方法包括句法統計和基於記憶的模型。句法統計將自動分詞和基於 Markov 鏈的詞性自動標註技術結合起來,利用從人工標註語料庫中提取出的詞性二元統計規律來消解切分歧義,基於記憶的模型對偽歧義型高頻交集型歧義切分,可以把它們的正確(唯一)切分形式預先記錄在一張表中,其歧義消解通過直接查表即可實現。

1.2 未登錄詞識別

未登錄詞大致包含兩大類:

新湧現的通用詞或專業術語等;

專有名詞。如中國人 名、外國譯名、地名、機構名(泛指機關、團體和其它企事業單位)等。

前一種未登錄詞理 論上是可預期的,能夠人工預先添加到詞表中(但這也只是理想狀態,在真實環境下並不易 做到);後一種未登錄詞則完全不可預期,無論詞表多麼龐大,也無法囊括。真實文本中(即便是大眾通用領域),未登錄詞對分詞精度的影響超過了歧義切分。未登錄詞處理在實用型分詞系統中占的份量舉足輕重。

新湧現的通用詞或專業術語。對這類未登錄詞的處理,一般是在大規模語料庫的支持下,先由機器根據某種演算法自動生成一張候選詞表(無監督的機器學習策略),再人工篩選出其中的新詞並補充到詞表中。鑒於經過精加工的千萬字、甚至億字級的漢語分詞語料庫目前還是水月鏡花,所以這個方向上現有的研究無一不以從極大規模生語料庫中提煉出的 n 元漢字串之分布(n≥2)為基礎。其中漢字之間的結合力通過全局統計量包括互信息、t- 測試差、卡方統計量、字串頻等來表示。

專有名詞。對專有名詞的未登錄詞的處理,首先依據從各類專有名詞庫中總結出的統計知識 (如姓氏用字及其頻度)和人工歸納出的專有名詞的某些結構規則,在輸入句子中猜測可能成為專有名詞的漢字串並給出其置信度,之後利用對該類專有名詞有標識意義的緊鄰上下文信息(如稱謂),以及全局統計量和局部統計量(局部統計量是相對全局統計量而言的,是指從當前文章得到且其有效範圍一般僅限於該文章的統計量,通常為字串頻),進行進一步的鑒定。已有的工作涉及了四種常見的專有名詞:中國人名的識別、外國譯名的識別、中國地名的識別及機構名的識別。從各家報告的實驗結果來看,外國譯名的識別效果最好,中國人名次之,中國地名再次之,機構名最差。而任務本身的難度實質上也是遵循這個順序由小增大。 沈達陽、孫茂松等(1997b )特彆強調了局部統計量在未登錄詞處理中的價值。

2. 方法

2.1 基於詞典的方法

在基於詞典的方法中,對於給定的詞,只有詞典中存在的詞語能夠被識別,其中最受歡迎的方法是最大匹配法(MM),這種方法的效果取決於詞典的覆蓋度,因此隨著新詞不斷出現,這種方法存在明顯的缺點。

2.2 基於統計的方法

基於統計的方法由於使用了概率或評分機制而非詞典對文本進行分詞而被廣泛應用。這種方法主要有三個缺點:一是這種方法只能識別OOV(out-of-vocabulary)詞而不能識別詞的類型,比如只能識別為一串字元串而不能識別出是人名;二是統計方法很難將語言知識融入分詞系統,因此對於不符合語言規範的結果需要額外的人工解析;三是在許多現在分詞系統中,OOV詞識別通常獨立於分詞過程。

二. 詞性標註

詞性標註是指為給定句子中的每個詞賦予正確的詞法標記,給定一個切好詞的句子,詞性標註的目的是為每一個詞賦予一個類別,這個類別稱為詞性標記(part-of-speech tag),比如,名詞(noun)、動詞(verb)、形容詞(adjective) 等。它是自然語言處理中重要的和基礎的研究課題之一,也是其他許多智能信息處理技術的基礎,已被廣泛的應用於機器翻譯、文字識別、語音識別和信息檢索等領域。

詞性標註對於後續的自然語言處理工作是一個非常有用的預處理過程,它的準確程度將直接影響到後續的一系列分析處理任務的效果。 長期以來,兼類詞的詞性歧義消解和未知詞的詞性識別一直是詞性標註領域需要解決的熱點問題。當兼類詞的詞性歧義消解變得困難時,詞性的標註就出現了不確定性的問題。而對那些超出了詞典收錄範圍的詞語或者新湧現的詞語的詞性推測,也是一個完整的標註系統所應具備的能力。

1. 詞性標註方法

詞性標註是一個非常典型的序列標註問題。最初採用的方法是隱馬爾科夫生成式模型, 然後是判別式的最大熵模型、支持向量機模型,目前學術界通常採用結構感知器模型和條件隨機場模型。近年來,隨著深度學習技術的發展,研究者們也提出了很多有效的基於深層神經網路的詞性標註方法。

迄今為止,詞性標註主要分為基於規則的和基於統計的方法。

規則方法能準確地描述詞性搭配之間的確定現象,但是規則的語言覆蓋面有限,龐大的規則庫的編寫和維護工作則顯得過於繁重,並且規則之間的優先順序和衝突問題也不容易得到滿意的解決。

統計方法從宏觀上考慮了詞性之間的依存關係,可以覆蓋大部分的語言現象,整體上具有較高的正確率和穩定性,不過其對詞性搭配確定現象的描述精度卻不如規則方法。針對這樣的情況,如何更好地結合利用統計方法和規則處理手段,使詞性標註任務既能夠有效地利用語言學家總結的語言規則,又可以充分地發揮統計處理的優勢成為了詞性標註研究的焦點。

2. 詞性標註研究進展

詞性標註和句法分析聯合建模:研究者們發現,由於詞性標註和句法分析緊密相關,詞性標註和句法分析聯合建模可以同時顯著提高兩個任務準確率。

異構數據融合:漢語數據目前存在多個人工標註數據,然而不同數據遵守不同的標註規範,因此稱為多源異構數據。近年來,學者們就如何利用多源異構數據提高模型準確率,提出了很多有效的方法,如基於指導特徵的方法、基於雙序列標註的方法、以及基於神經網路共享表示的方法。

基於深度學習的方法:傳統詞性標註方法的特徵抽取過程主要是將固定上下文窗口的詞進行人工組合,而深度學習方法能夠自動利用非線性激活函數完成這一目標。進一步,如果結合循環神經網路如雙向 LSTM,則抽取到的信息不再受到固定窗口的約束,而是考慮整個句子。除此之外,深度學習的另一個優勢是初始詞向量輸入本身已經刻畫了詞語之間的相似度信息,這對詞性標註非常重要。

三. 句法分析

語言語法的研究有非常悠久的歷史,可以追溯到公元前語言學家的研究。不同類型的句 法分析體現在句法結構的表示形式不同,實現過程的複雜程度也有所不同。因此,科研人員 採用不同的方法構建符合各個語法特點的句法分析系統。其主要分類如下圖所示:

下文主要對句法分析技術方法和研究現狀進行總結分析:

1. 依存句法分析

依存語法存在一個共同的基本假設:句法結構本質上包含詞和詞之間的依存(修飾)關係。一個依存關係連接兩個詞,分別是核心詞( head)和依存詞( dependent)。依存關係可以細分為不同的類型,表示兩個詞之間的具體句法關係。目前研究主要集中在數據驅動的依存句法分析方法,即在訓練實例集合上學習得到依存句法分析器,而不涉及依存語法理論的研究。數據驅動的方法的主要優勢在於給定較大規模的訓練數據,不需要過多的人工干預,就可以得到比較好的模型。因此,這類方法很容易應用到新領域和新語言環境。數據驅動的依存句法分析方法主要有兩種主流方法:基於圖( graph-based)的分析方法基於轉移( transition-based)的分析方法。

2.1 基於圖的依存句法分析方法

基於圖的方法將依存句法分析問題看成從完全有向圖中尋找最大生成樹的問題。一棵依存樹的分值由構成依存樹的幾種子樹的分值累加得到。根據依存樹分值中包含的子樹的複雜度,基於圖的依存分析模型可以簡單區分為一階和高階模型。高階模型可以使用更加複雜的子樹特徵,因此分析準確率更高,但是解碼演算法的效率也會下降。基於圖的方法通常採用基於動態規劃的解碼演算法,也有一些學者採用柱搜索(beam search)來提高效率。學習特徵權重時,通常採用在線訓練演算法,如平均感知器( averaged perceptron)。

2.2 基於轉移的依存句法分析方法

基於轉移的方法將依存樹的構成過程建模為一個動作序列,將依存分析問題轉化為尋找最優動作序列的問題。早期,研究者們使用局部分類器(如支持向量機等)決定下一個動作。近年來,研究者們採用全局線性模型來決定下一個動作,一個依存樹的分值由其對應的動作序列中每一個動作的分值累加得到。特徵表示方面,基於轉移的方法可以充分利用已形成的子樹信息,從而形成豐富的特徵,以指導模型決策下一個動作。模型通過貪心搜索或者柱搜索等解碼演算法找到近似最優的依存樹。和基於圖的方法類似,基於轉移的方法通常也採用在線訓練演算法學習特徵權重。

2.3 多模型融合的依存句法分析方法

基於圖和基於轉移的方法從不同的角度解決問題,各有優勢。基於圖的模型進行全局搜索但只能利用有限的子樹特徵,而基於轉移的模型搜索空間有限但可以充分利用已構成的子樹信息構成豐富的特徵。詳細比較發現,這兩種方法存在不同的錯誤分布。因此,研究者們使用不同的方法融合兩種模型的優勢,常見的方法有:stacked learning;對多個模型的結果加權後重新解碼(re-parsing);從訓練語料中多次抽樣訓練多個模型(bagging)。

2. 短語結構句法分析

分詞,詞性標註技術一般只需對句子的局部範圍進行分析處理,目前已經基本成熟,其標誌就是它們已經被成功地用於文本檢索、文本分類、信息抽取等應用之中,而句法分析、語義分析技術需要對句子進行全局分析,目前,深層的語言分析技術還沒有達到完全實用的程度。

短語結構句法分析的研究基於上下文無關文法(Context Free Grammar,CFG)。上下文無關文法可以定義為四元組,其中 T 表示終結符的集合(即詞的集合),N 表示非終結符的集合(即文法標註和詞性標記的集合),S 表示充當句法樹根節點的特殊非終結符,而 R 表示文法規則的集合,其中每條文法規則可以表示為Nig,這裡的 g 表示由非終結符與終結符組成的一個序列(允許為空)。

根據文法規則的來源不同,句法分析器的構建方法總體來說可以分為兩大類:

人工書寫規則

從數據中自動學習規則

人工書寫規則受限於規則集合的規模:隨著書寫的規則數量的增多,規則與規則之間的衝突加劇,從而導致繼續添加規則變得困難。

與人工書寫規模相比,自動學習規則的方法由於開發周期短和系統健壯性強等特點,加上大規模人工標註數據,比如賓州大學的多語種樹庫的推動作用,已經成為句法分析中的主流方法。而數據驅動的方法又推動了統計方法在句法分析領域中的大量應用。為了在句法分析中引入統計信息,需要將上下文無關文法擴展成為概率上下文無關文法(Probabilistic Context Free Grammar,PCFG),即為每條文法規則指定概率值。

概率上下文無關文法與非概率化的上下文無關文法相同,仍然表示為四元組,區別在於概率上下文無關文法中的文法規則必須帶有概率值。獲得概率上下文無關文法的最簡單的方法是直接從樹庫中讀取規則,利用最大似然估計(Maximum Likelihood Estimation,MLE)計算得到每條規則的概率值。使用該方法得到的文法可以稱為簡單概率上下文無關文法。在解碼階段,CKY 10等解碼演算法就可以利用學習得到的概率上下文無關文法搜索最優句法樹。

雖然基於簡單概率上下文無關文法的句法分析器的實現比較簡單,但是這類分析器的性能並不能讓人滿意。性能不佳的主要原因在於上下文無關文法採取的獨立性假設過強:一條文法規則的選擇只與該規則左側的非終結符有關,而與任何其它上下文信息無關。文法中缺乏其它信息用於規則選擇的消歧。因此後繼研究工作的出發點大都基於如何弱化上下文無關文法中的隱含獨立性假設。

3. 總結

分詞,詞性標註技術一般只需對句子的局部範圍進行分析處理,目前已經基本成熟,其標誌就是它們已經被成功地用於文本檢索、文本分類、信息抽取等應用之中,而句法分析、語義分析技術需要對句子進行全局分析,目前,深層的語言分析技術還沒有達到完全實用的程度。

四. 文本分類

文本分類是文本挖掘的核心任務,一直以來倍受學術界和工業界的關注。文本分類(Text Classification)的任務是根據給定文檔的內容或主題,自動分配預先定義的類別標籤。

對文檔進行分類,一般需要經過兩個步驟:

文本表示

學習分類

文本表示是指將無結構化的文本內容轉化成結構化的特徵向量形式,作為分類模型的輸入。在得到文本對應的特徵向量後,就可以採用各種分類或聚類模型,根據特徵向量訓練分類器或進行聚類。因此,文本分類或聚類的主要研究任務和相應關鍵科學問題如下:

1. 任務

1.1 構建文本特徵向量

構建文本特徵向量的目的是將計算機無法處理的無結構文本內容轉換為計算機能夠處 理的特徵向量形式。文本內容特徵向量構建是決定文本分類和聚類性能的重要環節。為了根據文本內容生成特徵向量,需要首先建立特徵空間。其中典型代表是文本詞袋(Bag of Words)模型,每個文檔被表示為一個特徵向量,其特徵向量每一維代表一個詞項。所有詞項構成的向量長度一般可以達到幾萬甚至幾百萬的量級。

這樣高維的特徵向量表示如果包含大量冗餘噪音,會影響後續分類聚類模型的計算效率和效果。因此,我們往往需要進行特徵選擇(Feature Selection)與特徵提取(Feature Extraction),選取最具有區分性和表達能力的特徵建立特徵空間,實現特徵空間降維;或者,進行特徵轉換(Feature Transformation),將高維特徵向量映射到低維向量空間。特徵選擇、提取或轉換是構建有效文本特徵向量的關鍵問題。

1.2 建立分類或聚類模型

在得到文本特徵向量後,我們需要構建分類或聚類模型,根據文本特徵向量進行分類聚類

其中,分類模型旨在學習特徵向量與分類標籤之間的關聯關係,獲得最佳的分類效果; 而聚類模型旨在根據特徵向量計算文本之間語義相似度,將文本集合劃分為若干子集。 分類和聚類是機器學習領域的經典研究問題。

我們一般可以直接使用經典的模型或演算法解決文本分類或聚類問題。例如,對於文本分類,我們可以選用樸素貝葉斯、決策樹、k-NN、 邏輯回歸(Logistic Regression)、支持向量機(Support Vector Machine, SVM)等分類模型。 對於文本聚類,我們可以選用 k-means、層次聚類或譜聚類(spectral clustering)等聚類演算法。 這些模型演算法適用於不同類型的數據而不僅限於文本數據。

但是,文本分類或聚類會面臨許多獨特的問題,例如,如何充分利用大量無標註的文本數據,如何實現面向文本的在線分類或聚類模型,如何應對短文本帶來的表示稀疏問題,如何實現大規模帶層次分類體系的分類功能,如何充分利用文本的序列信息和句法語義信息,如何充分利用外部語言知識庫信息,等等。這些問題都是構建文本分類和聚類模型所面臨的關鍵問題。

2. 模型

2.1 文本分類模型

近年來,文本分類模型研究層出不窮,特別是隨著深度學習的發展,深度神經網路模型 也在文本分類任務上取得了巨大進展。我們將文本分類模型劃分為以下三類:

基於規則的分類模型

基於規則的分類模型旨在建立一個規則集合來對數據類別進行判斷。這些規則可以從訓 練樣本里自動產生,也可以人工定義。給定一個測試樣例,我們可以通過判斷它是否滿足某 些規則的條件,來決定其是否屬於該條規則對應的類別。

典型的基於規則的分類模型包括決策樹(Decision Tree)、隨機森林(Random Forest)、 RIPPER 演算法等。

基於機器學習的分類模型

典型的機器學習分類模型包括貝葉斯分類器(Na?ve Bayes)、線性分類器(邏輯回歸)、 支持向量機(Support Vector Machine, SVM)、最大熵分類器等。

SVM 是這些分類模型中比較有效、使用較為廣泛的分類模型。它能夠有效克服樣本分布不均勻、特徵冗餘以及過擬合等問題,被廣泛應用於不同的分類任務與場景。通過引入核函數,SVM 還能夠解決原始特徵空間線性不可分的問題。

除了上述單分類模型,以 Boosting 為代表的分類模型組合方法能夠有效地綜合多個弱分類模型的分類能力。在給定訓練數據集合上同時訓練這些弱分類模型,然後通過投票等機制綜合多個分類器的預測結果,能夠為測試樣例預測更準確的類別標籤。

基於神經網路的方法

以人工神經網路為代表的深度學習技術已經在計算機視覺、語音識別等領域取得了巨大 成功,在自然語言處理領域,利用神經網路對自然語言文本信息進行特徵學習和文本分類, 也成為文本分類的前沿技術。

前向神經網路:多層感知機(Multilayer Perceptron, MLP)是一種典型的前向神經網 絡。它能夠自動學習多層神經網路,將輸入特徵向量映射到對應的類別標籤上。通過引入非線性激活層,該模型能夠實現非線性的分類判別式。包括多層感知機在內的文本分類模型均使用了詞袋模型假設,忽略了文本中詞序和結構化信息。對於多層感知機模型來說,高質量的初始特徵表示是實現有效分類模型的必要條件。

為了更加充分地考慮文本詞序信息,利用神經網路自動特徵學習的特點,研究者後續提出了卷積神經網路(Convolutional Neural Network, CNN)和循環神經網路(Recurrent Neural Network, RNN)進行文本分類。基於 CNN 和 RNN 的文本分類模型輸入均為原始的詞序列,輸出為該文本在所有類別上的概率分布。這裡,詞序列中的每個詞項均以詞向量的形式作為輸入。

卷積神經網路(CNN):卷積神經網路文本分類模型的主要思想是,對詞向量形式的文本輸入進行卷積操作。CNN 最初被用於處理圖像數據。與圖像處理中選取二維域進行卷積操作不同,面向文本的卷積操作是針對固定滑動窗口內的詞項進行的。經過卷積層、 池化層和非線性轉換層後,CNN 可以得到文本特徵向量用於分類學習。CNN 的優勢在於在計算文本特徵向量過程中有效保留有用的詞序信息。針對 CNN 文本分類模型還有許多改進工作, 如基於字元級 CNN 的文本分類模型、將詞位置信息加入到詞向量。

循環神經網路(RNN):循環神經網路將文本作為字元或詞語序列,對於第時刻輸入的字元或詞語,都會對應產生新的低維特徵向量s。如圖 3 所示,s的取值會受到 和上個時刻特徵向量s?1的共同影響,s包含了文本序列從0到的語義信息。因此,我們可以利用s作為該文本序列的特徵向量,進行文本分類學習。與 CNN 相比,RNN 能夠更自然地考慮文本的詞序信息,是近年來進行文本表示最流行的方案之一。

為了提升 RNN 對文本序列的語義表示能力,研究者提出很多擴展模型。例如,長短時記憶網路(LSTM)提出記憶單元結構,能夠更好地處理文本序列中的長程依賴,克服循環神經網路梯度消失問題。如圖 4 是 LSTM 單元示意圖,其中引入了三個門(input gate, output gate, forget gate)來控制是否輸入輸出以及記憶單元更新。

提升 RNN 對文本序列的語義表示能力的另外一種重要方案是引入選擇注意力機制 (Selective Attention),可以讓模型根據具體任務需求對文本序列中的詞語給予不同的關 注度。

3. 應用

文本分類技術在智能信息處理服務中有著廣泛的應用。例如,大部分在線新聞門戶網站(如新浪、搜狐、騰訊等)每天都會產生大量新聞文章,如果對這些新聞進行人工整理非常耗時耗力,而自動對這些新聞進行分類,將為新聞歸類以及後續的個性化推薦等都提供巨大幫助。互聯網還有大量網頁、論文、專利和電子圖書等文本數據,對其中文本內容進行分類,是實現對這些內容快速瀏覽與檢索的重要基礎。此外,許多自然語言分析任務如觀點挖掘、垃圾郵件檢測等,也都可以看作文本分類或聚類技術的具體應用。

對文檔進行分類,一般需要經過兩個步驟:(1)文本表示,以及(2)學習。文本表示是指將無結構化的文本內容轉化成結構化的特徵向量形式,作為分類模型的輸入。在得到文本對應的特徵向量後,就可以採用各種分類或聚類模型,根據特徵向量訓練分類器

五. 信息檢索

信息檢索(Information Retrieval, IR)是指將信息按一定的方式加以組織,並通過信息查找滿足用戶的信息需求的過程和技術。1951 年,Calvin Mooers 首次提出了「信息檢索」的概念,並給出了信息檢索的主要任務:協助信息的潛在用戶將信息需求轉換為一張文獻來源列表,而這些文獻包含有對其有用的信息。信息檢索學科真正取得長足發展是在計算機誕生並得到廣泛應用之後,文獻數字化使得信息的大規模共享及保存成為現實,而檢索就成為了信息管理與應用中必不可少的環節。

互聯網的出現和計算機硬體水平的提高使得人們存儲和處理信息的能力得到巨大的提高,從而加速了信息檢索研究的進步,並使其研究對象從圖書資料和商用數據擴展到人們生活的方方面面。伴隨著互聯網及網路信息環境的迅速發展,以網路信息資源為主要組織對象的信息檢索系統:搜索引擎應運而生,成為了信息化社會重要的基礎設施。

2016 年初,中文搜索引擎用戶數達到 5.66 億人,這充分說明搜索引擎在應用層次取得的巨大成功,也使得信息檢索,尤其是網路搜索技術的研究具有了重要的政治、經濟和社會價值。

1. 內容結構

檢索用戶、信息資源和檢索系統三個主要環節組成了信息檢索應用環境下知識獲取與信息傳遞的完整結構,而當前影響信息獲取效率的因素也主要體現在這幾個環節,即:

檢索用戶的意圖表達

信息資源(尤其是網路信息資源)的質量度量

需求與資源的合理匹配

具體而言,用戶有限的認知能力導致其知識結構相對大數據時代的信息環境而言往往存在缺陷, 進而影響信息需求的合理組織和清晰表述;數據資源的規模繁雜而缺乏管理,在互聯網「注意力經濟」盛行的環境下,不可避免地存在欺詐作弊行為,導致檢索系統難以準確感知其質量;用戶與資源提供者的知識結構與背景不同,對於相同或者相似事物的描述往往存在較大差異,使得檢索系統傳統的內容匹配技術難以很好應對,無法準確度量資源與需求的匹配程度。上述技術挑戰互相交織,本質上反映了用戶個體有限的認知能力與包含近乎無限信息的數據資源空間之間的不匹配問題。

概括地講,當前信息檢索的研究包括如下四個方面的研究內容及相應的關鍵科學問題:

1.1 信息需求理解

面對複雜的泛在網路空間,用戶有可能無法準確表達搜索意圖;即使能夠準確表達,搜 索引擎也可能難以正確理解;即使能夠正確理解,也難以與恰當的網路資源進行匹配。這使 得信息需求理解成為了影響檢索性能提高的制約因素,也構成了檢索技術發展面臨的第一個關鍵問題。

1.2 資源質量度量

資源質量管理與度量在傳統信息檢索研究中並非處於首要的位置,但隨著互聯網信息資 源逐漸成為檢索系統的主要查找對象,網路資源特有的缺乏編審過程、內容重複度高、質量 參差不齊等問題成為了影響檢索質量的重要因素。目前,搜索引擎仍舊面臨著如何進行有效 的資源質量度量的挑戰,這構成了當前信息檢索技術發展面臨的第二個關鍵問題。

1.3 結果匹配排序

近年來,隨著網路技術的進步,信息檢索系統(尤其是搜索引擎)涉及的數據對象相應 的變得多樣化、異質化,這也造成了傳統的以文本內容匹配為主要手段的結果排序方法面臨著巨大的挑戰。高度動態繁雜的泛在網路內容使得文本相似度計算方法無法適用;整合複雜 異構網路資源作為結果使得基於同質性假設構建的用戶行為模型難以應對;多模態的交互方 式則使得傳統的基於單一維度的結果分布規律的用戶行為假設大量失效。因此,在大數據時 代信息進一步多樣化、異質化的背景下,迫切需要構建適應現代信息資源環境的檢索結果匹 配排序方法,這是當前信息檢索技術發展面臨的第三個關鍵問題。

1.4 信息檢索評價

信息檢索評價是信息檢索和信息獲取領域研究的核心問題之一。信息檢索和信息獲取系 統核心的目標是幫助用戶獲取到滿足他們需求的信息,而評價系統的作用是幫助和監督研究 開發人員向這一核心目標前進,以逐步開發出更好的系統,進而縮小系統反饋和用戶需求之 間的差距,提高用戶滿意度。因此,如何設計合理的評價框架、評價手段、評價指標,是當 前信息檢索技術發展面臨的第四個關鍵問題。

2. 個性化搜索

現有的主要個性化搜索演算法可分為基於內容分析的演算法基於鏈接分析的方法基於協作過濾的演算法

基於內容的個性化搜索演算法通過比較用戶興趣愛好和結果文檔的內容相似性來對文檔的用戶相關性進行判斷進而對搜索結果進行重排。用戶模型一般表述為關鍵詞或主題向量或 層次的形式。個性化演算法通過比較用戶模型和文檔的相似性,判斷真實的搜索意圖,並估計 文檔對用戶需求的匹配程度。

基於鏈接分析的方法主要是利用互聯網上網頁之間的鏈接關係,並假設用戶點擊和訪問 過的網頁為用戶感興趣的網頁,通過鏈接分析演算法進行迭代最終計算出用戶對每個網頁的喜好度。

基於協作過濾的個性化搜索演算法主要借鑒了基於協作過濾的推薦系統的思想,這種方法 考慮到能夠收集到的用戶的個人信息有限,因此它不僅僅利用用戶個人的信息,還利用與用戶相似的其它用戶或群組的信息,並基於用戶群組和相似用戶的興趣偏好來個性化當前用戶 的搜索結果。用戶之間的相似性可以通過用戶的興趣愛好、歷史查詢、點擊過的網頁等內容計算得出。

3. 語義搜索技術

隨著互聯網信息的爆炸式增長,傳統的以關鍵字匹配為基礎的搜索引擎,已越來越難以滿足用戶快速查找信息的需求。同時由於沒有知識引導及對網頁內容的深入整理,傳統網頁 搜索返回的網頁結果也不能精準給出所需信息。針對這些問題,以知識圖譜為代表的語義搜索(Semantic Search)將語義 Web 技術和傳統的搜索引擎技術結合,是一個很有研究價值 但還處於初期階段的課題。

在未來的一段時間,結合互聯網應用需求的實際和技術、產品運營能力的實際發展水平,語義搜索技術的發展重點將有可能集中在以各種情境的垂直搜索資源為基礎,知識化推理為檢索運行方式,自然語言多媒體交互為手段的智能化搜索與推薦技術。首先將包括各類垂直搜索資源在內的深度萬維網數據源整合成為提供搜索服務的資源池;隨後利用廣泛分布在公眾終端計算設備上的瀏覽器作為客戶端載體,通過構建的複雜情境知識庫來開發多層次查詢技術,並以此管理、調度、整合搜索雲端的搜索服務資源,滿足用戶的多樣化、多模態查詢需求;最後基於面向情境體驗的用戶行為模型構建,以多模態信息推薦的形式實現對用戶信息需求的主動滿足。

六. 信息抽取

信息抽取(Information Extraction)是指從非結構化/半結構化文本(如網頁、新聞、 論文文獻、微博等)中提取指定類型的信息(如實體、屬性、關係、事件、商品記錄等), 並通過信息歸併、冗餘消除和衝突消解等手段將非結構化文本轉換為結構化信息的一項綜合技術。例如:


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 數據派THU 的精彩文章:

300+門編程計算機科學免費新課大集合
帶你訓練一個簡單的音頻識別網路
第四範式程曉澄:機器學習如何優化推薦系統
李飛飛:物體識別之後,計算機視覺的進展、目標和前景何在?
腦血管斑塊磁共振成像:技術研發、臨床轉化和數據挑戰

TAG:數據派THU |