語音系統的前世今生

科技 07-03

在數千年的人類文明史中，人類的交互行為只在人與人、人與自然物間進行。直到 1946 年，世界第一台現代計算機 EDVAC 在賓夕法尼亞大學誕生，人類交互史才發生了改變。而後，隨著人工智慧、自然語言識別、自然語言生成、對話管理等技術的持續發展，我們的交互史迎來了又一次變革——智能語音交互。

手機語音助手、智能音箱、智能車載系統……如今語音交互這種讓人工智慧更加擬人化的系統已經逐漸滲透到不同的領域。據國際市場公司 RAM 統計，三年內全球智能語音市場規模將達 191.7 億美元。照這樣發展，未來或許不能和你對話的智能軟硬體都稱不上「智能」了。

不過，智能語音發展到今天的規模可不是一蹴而就的。

以前的語音系統「長」啥樣

語音系統的發展時間軸

自然語言理解這種研究如何讓計算機懂得人類語言的技術，是實現智能語音交互的關鍵。不過，最開始時這種技術大都被用於機器翻譯領域，直到上世紀70年代初期，語言理解對話系統的相關研究才取得一定的進展。

當時，最典型的早期語言理解對話系統當屬——W. Woods 在美國 BBN 公司建立的自然語言檢索系統 LUNAR 和 MIT 科學家 T. Winograd 開發的自然語言人機對話系統 SHRDLU。

其中，LUNAR 利用了 Woods 於 1970 年提出的「擴充轉移網路」（ATN）方法把自然的英語語言翻譯成形式化的查詢語言，從而讓地質學家可以通過自然英語查詢阿波羅-11 帶回地球的月球岩石分析數據。而 SHRDLU 則是一個根據使用者輸入命令及問題來執行抓取積木、回答積木定位等等任務的「積木系統」。

不過，這類系統的「辭彙量不夠」（SHRDLU：200,；LUNAR：3500），只能完成特定領域中簡單的搜索、問答等等操作。

後來，自然語言理解的研究與認知科學緊密結合，發展出了一種名為故事理解及生成的系統（Story understanding and generation systems）。這種系統旨在探索人類自然語言的使用機制，從而讓系統學會在對話的字裡行間大致推測人類的意圖。此外，故事理解及生成系統一般分為幾類：

基於結構化知識的故事理解系統：SAM、FRUPM、PAM……

基於動態記憶的故事理解系統：IPP、BORIS、CYRUS……

基於事件敘述的故事理解系統：TALE-SPIN……

到了二十世紀 80年代，早期的對話式系統開始湧現，語音系統學會了「傾聽」。在這一階段，科學家們把研究的重心放到了孤立詞語語音識別上。為了提高識別效率，早期的語音識別系統大都結合了線性預測技術，其中較具代表性的是——由卡耐基梅隆大學研發的 Hearsay- II 語音理解系統。

據悉，Hearsay- II 通過黑板模型（Blackboard Model，如下圖），對參數、語段、音節、單詞、短語等等多層信息進行整合，從而實現語音理解。可以說，這是一種自上而下（假設驅動）和自下而上（數據驅動）的信息處理模型。

黑板模型

隨著語言識別研究的進一步深入，科學家們將研究重點從孤立詞語識別轉移到連續詞語語音識別之上，並開發出越來越複雜且能實現人機對話的語音系統。比如，卡耐基梅隆大學計算機學院副院長卡塞爾博士研發的、可實現簡單交流的人形對話代理（Embodied Conversational Agent）。

房地產人形對話代理

不過，這些語音系統依然未能滿足人類日益提高的人機交互要求，為此科學家們試圖構建具有一定社交意識的語音系統。這類研究模型加入了情感計算技術，讓系統可以識別、理解、表達和適應人類的情感，「從而實現更高、更全面的人工智慧」，中科院自動化研究所說道。

到了二十一世紀初，對話式語音系統的交互性越來越強，不僅能回答問題，還能向我們發問，並逐漸往擬人化方向發展。

現在的語音系統在幹嘛

得益於深度學習與人工神經網路等技術的發展，語音系統近年來在語音識別、自然語言生成等方面取得了一系列突破性進展，而且在產品應用上也越來越成熟。如果從如今語音系統的應用場景來看，對話式系統可分為以下五類：

五花八門的語音系統

1、在線客服

在這一領域，對話式語音系統的主要功能是與客戶溝通，並自動回復關於產品或者是服務的相關問題。這樣不僅能提升客戶體驗的目的，還能幫助公司降低運營成本。目前，這類系統的應用場景大都為網站首頁或者是手機終端，小 I 機器人、京東的 JIMI 客服機器人等等都是這一領域的代表。值得一提的是，JIMI 具有一定的「自知之明」——遇到自己無法回答的問題時，JIMI 會自動幫用戶接入人工服務。

2、娛樂類聊天機器人

這種系統一般用於社交媒體、兒童玩具等領域，主要通過與使用者進行開放性對話，以實現精神陪伴、情感慰藉、心理疏導等等作用。其中，最具代表性的就是我們比較熟悉的微軟「小冰」、微信「小微」、「小黃雞」，還有「愛情玩偶」……不過，除了聊天之外，這些機器人也會提供諸如天氣預報、生活知識查詢等簡單的服務。

3、教育類聊天機器人

這類機器人會根據教育內容構建不同的語言環境，比如營造特定年齡的語言氛圍，從而幫助使用者進行某些知識的學習及輔導。顯而易見，教育類聊天機器人主要應用在具備人機交互功能的學習、培訓類軟體及智能玩具上，科大訊飛公司研發的「開心熊寶」就是該領域的其中一員。

4、個人助理類語音系統

蘋果的 Siri、谷歌的 Google Now、微軟的 Cortana…… 語音助手類系統的應用場景大都在移動端，它們不僅能夠幫助用戶處理餐廳預訂、智能搜索等個人簡單事務，還能與使用者進行簡短的對話。

5、智能問答類聊天機器人

這類聊天機器人主要用於回答用戶提出的事實型問題、計算和邏輯推理型問題，以達到輔助用戶進行信息分析及決策的目的。IBM 的 Watson、Wolfram Alpha、Magi 等等是這一領域較為典型的產品，它們一般作為問答服務整合到聊天機器人系統中。

不過，除了在特定軟體平台上運行之外，近來語音交互系統已經開始實體化了，以智能音箱等形式出現在日常生活中，成為我們的「小幫手」——例如完成設置鬧鐘、規划行程、訂餐、播放音樂、搜索資料等等任務。而三年前亞馬遜推出的 Echo、谷歌與微軟隨即發布的 Google Home 和 Invoke、最近 WWDC 大會上蘋果公布的 HomePod……都是這一領域的代表。

從左至右：蘋果的 HomePod、谷歌的 Google Home、亞馬遜的 Echo

未來的語音系統去往何方

為了解放人類雙手，未來或許會有更多的硬體設備懂得「傾聽」和「訴說」。除此之外，隨著機器人技術的持續發展，伴侶型機器人將會成為語音系統的落腳點。

雖然目前機器人技術還未成熟，智能語音系統也面臨著諸如語義理解、人聲干擾等等難關，但是近年來已經出現了一些初級的伴侶型人形機器人。比如日本公司 NTT 推出的老年陪伴機器人「Sota」、由於軟銀和法國公司 Aldebaran Robotics 設計的仿人型機器人「胡椒」、大阪大學和京都大學研發的 23 歲美少女「ERICA」等等。