《明見》雙周刊第21期

最新 10-14

概述

試著開一下腦洞：假如有個文本，裡面存了大量「三體」人（劉慈欣小說中的高智能外星人）的網路信息（如圖1所示）。你會怎樣通過這些信息去了解外星文明並從中獲取有價值的技術情報？

圖1 「三體」人的文字信息

你看到的信息全是亂碼，根本摸不著頭腦！其實在計算機的眼中，人類的語言跟外星人的語言也沒什麼兩樣。

讓計算機「理解」人類語言中的種種信息，甚至像人類一樣做出反應，這些是自然語言處理（Natural Language Processing，NLP）的主要內容。

近年來，隨著人工智慧領域迅速發展，自然語言處理成為目前最前沿的科技研究熱點之一。數據的大幅增強、計算力的大幅提升、深度學習實現端對端的訓練使得NLP技術取得突破性的進展。商業巨頭如Google、IBM、微軟已開展大量的NLP相關研究並落地應用，如微軟小冰、Cortana、IBM Watson、必應搜索及Google翻譯等（如圖2所示）。

圖2 NLP技術的廣泛應用

一

發展歷程

從20世紀40年代開始，自然語言處理的研究已經有70年的歷史，隨著信息網路時代的到來，它已成為現代語言學中一個頗為引人注目的學科。自然語言處理的發展大致上可以分為如下幾個時期（見圖3）：

圖3 自然語言處理髮展歷程

從2008年到現在，在不到十年的時間裡，在圖像識別和語音識別領域的成果激勵下，人們也逐漸開始引入深度學習來做NLP研究，並在機器翻譯、問答系統、閱讀理解等領域取得了一定成功。深度學習是一個多層的神經網路，從輸入層開始經過逐層非線性的變化得到輸出。從輸入到輸出做端到端的訓練。把輸入到輸出對的數據準備好，設計並訓練一個神經網路，即可執行預想的任務。

二

關鍵技術與應用範疇

自然語言處理的關鍵技術

根據不同粒度的處理方法劃分，可以將目前自然語言處理的關鍵技術分為詞處理、句處理、篇章處理三大類：

表1 自然語言處理關鍵技術

自然語言處理的應用範疇

從應用角度來看，自然語言處理具有廣泛的應用前景。特別是在信息時代，自然語言處理的應用包羅萬象，例如：機器翻譯、手寫體和印刷體字元識別、語音識別及文語轉換、信息檢索、信息抽取與過濾、文本分類與聚類、輿情分析和觀點挖掘等，它涉及與語言處理相關的數據挖掘、機器學習、知識獲取、知識工程、人工智慧研究和與語言計算相關的語言學研究等。

問答系統

問答系統是自然語言處理的集大成的技術，因為其方便的人機交互方式，基本被認為將會是物聯網時代的主流的交互方式。用戶以自然語言提問的形式提出信息查詢需求，問答系統依據對問題的分析，從各種數據資源中自動找出準確的答案。問答系統一般依賴於已經策劃並整理好的知識庫及知識圖譜，其中，語義處理的過程是系統在遍歷知識庫及知識圖譜中的信息後，從概率論的角度尋找出最正確的答案。提供問答系統的公司有IBM、IPsoft、Nuance、微軟、百度等。例如，微軟的「小冰」機器人是以情感語料為基礎的中文人機對話社交平台，通過「小冰」機器人建立情感連接，其人機每次對話持續的輪數達近百次，給用戶留下深刻的印象。

機器翻譯

機器翻譯是指利用計算機實現自然語言（英語、漢語等）之間的自動翻譯。目前技術上基本從統計機器翻譯過渡到了基於神經網路的翻譯。

目前以IBM、谷歌、微軟為代表的國外科研機構和企業均相繼成立機器翻譯團隊，專門從事智能翻譯研究。如IBM於2009年9月推出ViaVoice Translator機器翻譯軟體，為自動化翻譯奠定了基礎；2011年開始，伴隨著語音識別、機器翻譯技術、DNN（深度神經網路）技術的快速發展和經濟全球化的需求，口語自動翻譯研究成為當今信息處理領域新的研究熱點；Google於2011年1月正式在其Android系統上推出了升級版的機器翻譯服務；微軟的Skype於2014年12月宣布推出實時機器翻譯的預覽版、支持英語和西班牙語的實時翻譯，並宣布支持40多種語言的文本實時翻譯功能。

搜索引擎

搜索引擎的職責不單單是幫助用戶找到答案，還能幫助用戶找到所求，連接人與實體世界的服務。搜索引擎最基本的模式是自動化地聚合足夠多的「內容」，對之進行解析、處理和組織，響應用戶的搜索請求找到對應結果返回。每一個環節，都需要用到自然語言處理。用百度舉例，比如用戶可以搜「天氣」、「日曆」、「機票」及「匯率」這樣的模糊需求，會直接在搜索結果呈現結果。再比如用戶可以搜索「5000港幣是多少人民幣」百度結果中會直接呈現一個計算器。用戶還可以搜索「演過還珠格格的台灣演員」這樣的複雜問題，百度都可以準確地回答。

一方面，有了自然語言處理技術才使得搜索引擎能夠快速精準的返回用戶的搜索結果，幾乎所有的自然語言處理技術都在搜索引擎中有應用的影子；另一方面，搜索引擎（例如谷歌商業帝國和百度巨頭）在商業上的成功，也促進了自然語言處理技術的進步。

推薦系統

在推薦系統中經常需要處理各種文本類數據，例如商品描述、新聞資訊、用戶留言等，且文本數據是一類量大、複雜、豐富的數據，對推薦系統起著重要的作用。藉助於自然語言處理技術，推薦系統可以更精準地為用戶推薦物品，提升用戶體驗。

三

自然語言處理面臨的挑戰

機器需要具備處理自然語言的能力，但研究自然語言、有效實現自然語言通信並非易事，自然語言處理目前面臨的挑戰如下：

普遍存在的不確定性

自然語言處理面臨的最大困難就是其普遍存在的不確定性，即消除歧義，涵蓋詞法、句法、語用分析中存在的歧義問題。在每一個層次中或是在下一層次向上一層次轉變中都存在著歧義和多義現象，即形式上一樣的一段字元串，在不同的場景或不同的語境下，可以理解成不同的詞串、片語串等，並有不同的意義。造成歧義出現的原因是，對於機器來說，人類活動非常複雜，而語言的辭彙和句法規則又是有限的，它們中的大多數表述需要根據特定的相應的語境和場景的規定而得到解決，這就造成同一種語言形式可能具有多種含義。

語言知識處理的複雜性

為了消除歧義，機器需要獲取更多的知識，而消除歧義所需要的知識在獲取、表達以及運用上存在困難，主要包含上下文知識和背景知識的問題。

在某些以任務驅動的對話中，用戶通過使用某類產品會在某一領域獲得相對完整的服務，解決一個複雜問題，或者獲得某種方向性的引導。在這種情況下，整個對話的場景被限定，需要確定一些關鍵的信息才能完成任務，但用戶一般不會再一次表述中就表達完所有需要提供的信息。這時候，機器需要能夠主動向用戶詢問，並且會根據上下文來判斷繼續提出什麼樣的問題，這就是「槽位填充」。

正確理解人類語言還要有足夠的背景知識，機器也需要了解約定俗成的東西。比如某打車軟體司機向客服系統詢問：「都十點了，怎麼還沒獎勵？」這就需要系統知道該打車軟體在晚間9點以後就有夜間獎勵。如果機器不知道這個政策，往往會給出令人啼笑皆非的答案。

輸入的不規範性

在輸入時，可能會出現錯誤。常見的不規範輸入主要是錯別字、口語化、語法不對。

從上面三個方面的主要困難，可以看到自然語言處理的根源就是人類語言的複雜性和語言描述的外部世界的複雜性。人類語言承擔著人類表達情感、交流思想、傳播知識等重要功能，因而自然語言處理也要求機器需要具備強大的靈活性和表達能力，理解語言所需要的知識又是無止境的，並不斷「學習」無止境的、變化的知識，自然語言處理道阻且長。

四

自然語言處理的發展趨勢

根據目前自然語言處理面臨的挑戰以及應用來看，未來將會從技術和應用兩個方面進行突破及改進：

技術方面

語言知識從人工構建到自動構建

從人工構建語料庫演變為使用機器學習自動獲取語言知識。人工構建語料庫就是語言學的專家學者自己做一個語料庫字典，即人工分詞，將相關的詞連接起來構成語料庫；機器自動獲取語言知識就是用機器學習的方法自動獲取語料信息，即提前提供語料庫的詞，然後讓計算機自動分詞。例如2011年IBM Watson挑戰《危險邊緣》、2014年百度「度秘」挑戰《芝麻開門》、2017年搜狗「智能狗」挑戰《一站到底》都是採用主動學習的方法進行語言知識的構建。

美國有一家文藝復興公司，它做金融領域的預測，但是這個公司不招金融領域的人，只是招計算機、物理、數學領域的人。這說明，計算機不是跟人的頂級高手學習，而是在利用用自己已有的演算法，去直接解決問題。在自然語言處理領域也是同樣的，但是這個領域的發展還是要有大量的顯性知識的積累，但是構造知識的方式正在產生變化。比如，現在越來越多的工程師在研究利用自動的方法，自動地去發現辭彙與辭彙之間的關係，像毛細血管一樣滲透到各個方面。

文本理解與推理從淺層分析向深度理解邁進

Google等都已經推出了這樣的測試機——以閱讀理解作為一個深入探索自然語言理解的平台。就是說，給計算機一篇文章，讓它去理解，然後人問計算機各種問題，看計算機是否能回答，這樣做是很有難度的，因為答案就在這文章裡面，人會很刁鑽地問計算機。所以說閱讀理解是現在競爭的一個很重要的點。

文本生成從規範文本到自由文本

文本生成這兩年很火，從生成古詩詞到生成新聞報道到再到寫作文。這方面的研究價值是很大的，它的趨勢是從生成規範性的文本到生成自由文本。比如，我們可以從資料庫裡面生成一個可以模板化的體育報道，這個模板是很規範的。然後我們可以再向自由文本過渡，比如寫作文。

應用方面

NLP平台化從封閉走向開放

越來越多的NLP平台開放化。哈工大的劉挺教授指出，以前在學術研究界，大家都不是很願意分享自己的成果，像程序或是數據，現在這些資料徹底開放了，無論是學校還是大企業，已經改變了原來閉門造車的狀態，都更多地提供平台技術。NLP領域提供的開放平台越來越多，如哈工大LTP平台、Google SyntaxNet、騰訊文智平台、Boson語義平台等。

對話機器人從通用到場景化

對話機器人是NLP落地的實際應用，目前的趨勢已從閑聊（如Siri、小冰）往特定場景演變，更加強調實用性。例如，在涉及催收業務的金融行業，一直存在催收業務量大、催收成本高等問題，而由捷通華聲提供的靈雲智能催收機器人則有效解決了這些痛點。通過嵌入到智能電話催收平台，利用策略平台將不同場景的分發至催收機器人，靈雲智能催收機器人能夠針對分配而來的不同場景進行批量合規化催收操作，成功解決了催收中的質量保證及效率提升的問題（見圖4）。

圖4：靈雲智能催收機器人的場景化演示

NLP與行業領域深度結合，為行業創造價值

與企業的合作。現在像銀行、電器、醫藥、司法、教育、金融等的各個領域對NLP的需求都非常多，可以將NLP與其它AI技術結合，共同在垂直領域得到廣泛應用。例如，在醫療領域，Watson的成功已經不是什麼新鮮事了。在治療肺癌時，Watson給出的治療建議96%的情況下與醫生的方案相吻合；而且，Watson在臨床試驗中篩選乳腺癌和肺癌患者的速度要比人類快78%，將篩查時間從110分鐘縮減到了24分鐘。這些研究成果使得它對於醫生來說更加有效和可靠。

自然語言處理作為一新興學科，正在進行著突飛猛進的發展。回顧自然語言處理的發展歷程，並不是一帆風順，有過低谷，也有過高潮。而現在我們正面臨著新的挑戰和機遇。例如，目前網路搜索引擎基本上還停留在關鍵詞匹配，缺乏深層次的自然語言處理和理解。語音識別、文字識別、問答系統、機器翻譯等目前也只能達到很基本的水平。路漫漫其修遠兮，自然語言處理作為一個高度交叉的新興學科，不論是探究自然本質還是付諸實際應用，在將來必定會有令人期待的驚喜和異常快速的發展。

參考資料

張鈸《自然語言處理的計算模型》中文信息學報

劉挺《自然語言處理的十個發展趨勢》

馮志偉《統計自然語言處理》清華大學出版社

孫茂松《語言計算：信息科學技術中長期發展的戰略制高點》語言文字應用

王天笑《自然語言處理的現狀研究與未來發展初探》中國科技縱橫

龍心塵寒小陽《從破譯外星人文字淺談自然語言處理的基礎》

本文出自《明見》科技雜誌第21期「NLP—智能交互專輯」。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！