當前位置:
首頁 > 最新 > 泰岳AI首席科學家晉耀紅博士:NLP落地需要語言、計算並舉

泰岳AI首席科學家晉耀紅博士:NLP落地需要語言、計算並舉

晉耀紅

神州泰岳人工智慧研究院院長兼首席科學家,博士生導師,中國計算機學會中文信息技術專委會專委,中國人工智慧學會自然語言處理專委會專委。師從中國自然語言處理著名流派概念層次網路(HNC)的創始人黃曾陽教授並於2006年出版專著《HNC(概念層次網路)語言理解技術及其應用》。國家863十二五課題(2012~2015)「海量文本多層次知識表示及中文文本理解應用系統研製」的課題負責人。

「NLP是語言與計算結合的技術。」

自然語言處理(NLP)是人工智慧和語言學的一部分,致力於使用計算機理解人類語言中的句子或詞語,實現降低用戶工作量並滿足使用自然語言進行人機交互的目的。

語法、語義、語用一個都不能少

晉耀紅博士認為,在現階段自然語言處理存在重計算輕語言的傾向,這是比較片面的。因為NLP的研究對象是語言,所以不能脫離語言談NLP,而必須基於語言知識,同時利用計算機技術來進行NLP的處理。

語法的作用

我打小明。

狼吃羊。

網易收購Daydream公司。

動詞前面的主語是「我」、「狼」、「網易」是動作的發出者,是施事,主語後的賓語「小明」、「羊」、「Daydream公司」是動作的承受者,是受事。如果顛倒過來,「小明打我」、「羊吃狼」、「Daydream公司收購網易」,那麼意思就完全變了。

語序作為重要的語法手段,規定了誰是動作的實施者,誰是動作的承受者。

語義的作用

小鳥在天空中飛翔。

白菜在天空中飛翔。

第一個句子非常自然。而第二個句子雖然符合語法,卻讓人忍不住思考,在什麼情況下,白菜才能在天上飛。這是因為「小鳥」在語義平面上具有「飛翔」的功能,而「白菜」不具備此功能。

語義歧義性是待攻克的難點。

語用的作用

有一個程序員出去買東西,妻子跟他說:「買五個桃子回來,要是看見賣西瓜的,就買一個。」結果他買了一個桃子回來。妻子非常生氣。

在這個情景裡面,妻子的意思是如果看見賣西瓜的,就買五個桃子一個西瓜。而丈夫誤解了妻子的意思。

誤解的產生及其原因是屬於語用平面的範疇。

晉博士談到,泰岳AI研究院在此方面投入了大量研究精力,最新推出的非結構化文本大數據分析挖掘平台DINFO-OEC8.0,通過其獨有的專屬語義模型建設能力,能夠實現語義消歧、語義歸一化/概念化,可解決非結構化數據處理技術中語言表達靈活、多樣化的挑戰難題,精準挖掘業務語義,提煉非結構化數據中業務價值信息。

計算方法是語言知識量化的手段和溝通橋樑

晉博士認為,除了語言學知識,要對語言進行全面分析,計算方法也必不可少,我們很長時間內以傳統的統計學習方法為主,進入21世紀以後,基於詞嵌入的深度學習方法進入了人們的視線並且迅速掀起新的浪潮。不同於之前的統計學習,其訓練基於淺層的、高度稀疏的特徵,並且高度依賴於人工對特徵的選擇。深度學習方法是基於密集向量表徵做多層級的自動特徵表徵的學習,能夠實現對特徵的自動學習。正如DINFO-OEC8.0,我們集成統計學習、機器學習、深度學習等關鍵自然語言處理技術,針對泰岳自主研發的專屬語義模型作了進一步創新與改進,集成深度學習計算能力,實現平台對大規模訓練語料的學習與預測。

晉博士談到,目前在圖像識別領域,深度學習的識別準確率達到、甚至超過了人類水平;在語音識別領域,深度學習幫助語音識別從實驗室走向了商用。而在NLP領域,深度學習的應用尚未有重大突破,但在文本分類、命名實體識別、詞義消歧、情感分析、機器翻譯領域,採用深度學習的應用均超過了當時的最優方案,取得了不俗的成績。

語言與計算的有機結合是NLP達到實用目標的關鍵

在實際應用場景中,如客服熱點的自動挖掘、企業關聯圖譜等,NLP的應用經常是多個任務協同處理,共同輸出結果。如何將語言知識與計算方法有機組織到一起,如何將各個NLP任務有效結合,是NLP應用達到實用目標的關鍵所在。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新媒傳信 的精彩文章:

神州泰岳「小富」機器人斬獲中國人工智慧產業創新聯盟「競爭力產品」大獎
新媒傳信小課堂——NFV引入IT,顛覆傳統CT設備的實現方式

TAG:新媒傳信 |