當前位置:
首頁 > 最新 > 深度學習技術如何應用於文本智能處理?

深度學習技術如何應用於文本智能處理?

在前不久InfoQ主辦的Qcon全球軟體開發大會上,達觀數據創始人陳運文博士受邀出席發表了《文本智能處理的深度學習技術》的演講。深度學習在人工智慧領域已經成為熱門的技術,特別是在圖像和聲音領域相比傳統的演算法大大提升了識別率。在文本智能處理中深度學習有怎樣的具體實踐方法?以下內容根據陳運文博士現場分享整理所得。

人工智慧目前的三個主要細分領域為圖像、語音和文本,達觀數據所專註的是文本智能處理領域。文本智能處理,亦即自然語言處理,試圖讓機器來理解人類的語言,而語言是人類認知發展過程中產生的高層次抽象實體,不像圖像、語音可以直接轉化為計算機可理解的對象,它的主要應用主要是在智能問答,機器翻譯,文本分類,文本摘要,標籤提取,情感分析,主題模型等等方面。

自然語言的發展歷程經歷了以下幾個階段。這裡值得一提的是,關於語言模型,早在2000年,百度IDL的徐偉博士提出了使用神經網路來訓練二元語言模型,隨後Bengio等人在2001年發表在NIPS上的文章《A Neural Probabilistic Language Model》,正式提出神經網路語言模型(NNLM),在訓練模型的過程中也能得到詞向量。2007年,Mnih和Hinton在神經網路語言模型(NNLM)的基礎上提出了log雙線性語言模型(Log-Bilinear Language Model,LBL),同時,Hinton在2007年發表在 ICML 上的《Three new graphical models for statistical language modelling》初見其將深度學習搬入NLP的決心。

2008年,Ronan Collobert等人 在ICML 上發表了《A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning》,其中的模型名字叫C&W模型,這是第一個直接以生成詞向量為目標的模型。LBL與NNLM的區別正如它們的名字所示,LBL的模型結構是一個log雙線性結構;而NNLM的模型結構為神經網路結構。這些積澱也成就了Mikolov創造了實用高效的Word2Vec工具,起初,他用循環神經網路RNNLM來做語言模型,發表paper《Recurrent neural network based language model》,之後就是各種改進,博士論文研究的也是用循環神經網路來做語言模型,《Statistical Language Models based on Neural Networks》。

2013年,Mikolov等人同時提出了CBOW和Skip-gram模型。使用了Hierarchial Softmax和Negative Sampling兩種trick來高效獲取詞向量。當然這個模型不是一蹴而就的,而是對於前人在NNLM、RNNLM和C&W模型上的經驗,簡化現有模型,保留核心部分而得到的。同時開源了Word2Vec詞向量生成工具,深度學習才在NLP領域遍地開花結果。

一般地,文本挖掘各種類型應用的處理框架如下所示:

文本數據經過清洗、分詞等預處理之後,傳統方法通過提取諸如詞頻、TF-IDF、互信息、信息增益等特徵形成高維稀疏的特徵集合,而現在則基本對詞進行embedding形成低維稠密的詞向量,作為深度學習模型的輸入,這樣的框架可用於文本分類、情感分析、機器翻譯等等應用場景,直接端到端的解決問題,也無需大量的特徵工程,無監督訓練詞向量作為輸入可帶來效果的極大提升。

文本分類

對於文本分類,以下列出了幾種典型的深度學習模型:

序列標註

序列標註的任務就是給每個漢字打上一個標籤,對於分詞任務來說,我們可以定義標籤集合為:。B代表這個漢字是辭彙的開始字元,M代表這個漢字是辭彙的中間字元,E代表這個漢字是辭彙的結束字元,而S代表單字詞。下圖為中文分詞序列標註過程:

中文分詞轉換為對漢字的序列標註問題,假設我們已經訓練好了序列標註模型,那麼分別給每個漢字打上標籤集合中的某個標籤,這就算是分詞結束了,因為這種形式不方便人來查看,所以可以增加一個後處理步驟,把B開頭,後面跟著M的漢字拼接在一起,直到碰見E標籤為止,這樣就等於分出了一個單詞,而打上S標籤的漢字就可以看做是一個單字詞。於是我們的例子就通過序列標註,被分詞成如下形式:

對於序列標註,傳統的方法基本是使用大量的特徵工程,進入CRF模型,但不同的領域需要進行相應的調整,無法做到通用。而深度學習模型,例如Bi-LSTM+CRF則避免了這樣的情況,可以通用於不同的領域,且直接採用詞向量作為輸入,提高了泛化能力,使用LSTM和GRU等循環神經網路還可以學習到一些較遠的上下文特徵和一些非線性特徵。

經典的Bi-LSTM+CRF模型如下所示:

生成式摘要

對於生成式摘要,採用Encode-Decoder模型結構,兩者都為神經網路結構,輸入原文經過編碼器編碼為向量,解碼器從向量中提取關鍵信息,組合成生成式摘要。當然,還會在解碼器中引入注意力機制,以解決在長序列摘要的生成時,個別字詞重複出現的問題。

此外,在生成式摘要中,採用強化學習與深度學習相結合的學習方式,通過最優化詞的聯合概率分布,即MLE(最大似然),有監督進行學習,在這裡生成候選的摘要集。模型圖如下:

模型圖中的ROUGE指標評價是不可導的,所以無法採用梯度下降的方式訓練,這樣我們就考慮強化學習,鼓勵reward高的模型,通過給予反饋來更新模型。最終訓練得到表現最好的模型。

知識圖譜關係抽取

對於知識圖譜的關係抽取,主要有兩種方法:一個是基於參數共享的方法,對於輸入句子通過共用的 word embedding 層,然後接雙向的 LSTM 層來對輸入進行編碼。然後分別使用一個 LSTM 來進行命名實體識別 (NER)和一個 CNN 來進行關係分類(RC);另一個是基於聯合標註的方法,把原來涉及到序列標註任務和分類任務的關係抽取完全變成了一個序列標註問題。然後通過一個端對端的神經網路模型直接得到關係實體三元組。

如下圖所示,我們有三類標籤,分別是:

單詞在實體中的位置

關係類型

關係角色

根據標籤序列,將同樣關係類型的實體合併成一個三元組作為最後的結果,如果一個句子包含一個以上同一類型的關係,那麼就採用就近原則來進行配對。

總結:深度學慣用於文本挖掘的優缺點

優點:

1. 可以使用非監督數據訓練字詞向量,提升泛化能力

2. 端到端,提供新思路

3. 一些模型結構能夠克服傳統模型缺點

缺點:

1. 小數據量效果不一定好

2. 調參工作量有時不亞於特徵工程

3. 客戶部署硬體環境限制

關於達觀數據

達觀數據是全球領先的文本智能處理專家,是一家專註於企業知識管理和文字語義理解的國家高新技術企業。達觀數據為企業提供完善的文本挖掘知識圖譜搜索引擎個性化推薦等文本智能處理技術服務,是國內首家將自動語義分析技術應用於企業數據化運營的人工智慧公司。

達觀數據核心團隊來自百度、阿里、騰訊、盛大等企業的文本挖掘核心部門,在文本挖掘領域已有10餘年積累,多次斬獲國際數據挖掘最高級別競賽ACM KDD 和CIKM的世界冠亞軍大獎,擁有30多項國家發明專利,並與復旦大學建有技術聯合實驗室。

現已積累華為、京東、海爾、長虹、中國移動、順豐、中國平安、招商銀行、浦發銀行、華泰證券等數百家企業客戶的成功服務經驗,覆蓋金融、科技、製造、法律、電商、視頻、傳媒等行業,通過完善企業文本的自動化處理能力,有效提升企業運營效率和經營業績,加快企業智能化轉型速度。

* 本文作者:章華 整理

* 轉載來源:https://plushunter.github.io/2018/04/24/2018-04-24/

5月25日,由達觀數據主辦的2018長三角人工智慧應用創新張江峰會明星嘉賓匯聚,來自真格、微軟、復旦大學、滬江、喜馬拉雅、圖麟科技、森億智能、雲知聲……等國內知名企業大咖現場等你,全天400分鐘分享不停歇,關於資本、市場、學術前沿,應用落地,你想了解的人工智慧話題全在這裡(點擊下圖查看詳情)


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 達觀數據 的精彩文章:

達觀數據2018Qcon分享深度學習前沿應用,文本智能處理前景無限

TAG:達觀數據 |