當前位置:
首頁 > 科技 > 語音系統的前世今生

語音系統的前世今生

在數千年的人類文明史中,人類的交互行為只在人與人、人與自然物間進行。直到 1946 年,世界第一台現代計算機 EDVAC 在賓夕法尼亞大學誕生,人類交互史才發生了改變。而後,隨著人工智慧、自然語言識別、自然語言生成、對話管理等技術的持續發展,我們的交互史迎來了又一次變革——智能語音交互。

手機語音助手、智能音箱、智能車載系統……如今語音交互這種讓人工智慧更加擬人化的系統已經逐漸滲透到不同的領域。據國際市場公司 RAM 統計,三年內全球智能語音市場規模將達 191.7 億美元。照這樣發展,未來或許不能和你對話的智能軟硬體都稱不上「智能」了。

不過,智能語音發展到今天的規模可不是一蹴而就的。

以前的語音系統「長」啥樣

語音系統的發展時間軸

自然語言理解這種研究如何讓計算機懂得人類語言的技術,是實現智能語音交互的關鍵。不過,最開始時這種技術大都被用於機器翻譯領域,直到上世紀70年代初期,語言理解對話系統的相關研究才取得一定的進展。

當時,最典型的早期語言理解對話系統當屬——W. Woods 在美國 BBN 公司建立的自然語言檢索系統 LUNAR 和 MIT 科學家 T. Winograd 開發的自然語言人機對話系統 SHRDLU。

其中,LUNAR 利用了 Woods 於 1970 年提出的「擴充轉移網路」(ATN)方法把自然的英語語言翻譯成形式化的查詢語言,從而讓地質學家可以通過自然英語查詢阿波羅-11 帶回地球的月球岩石分析數據。而 SHRDLU 則是一個根據使用者輸入命令及問題來執行抓取積木、回答積木定位等等任務的「積木系統」。

不過,這類系統的「辭彙量不夠」(SHRDLU:200,;LUNAR:3500),只能完成特定領域中簡單的搜索、問答等等操作。

後來,自然語言理解的研究與認知科學緊密結合,發展出了一種名為故事理解及生成的系統(Story understanding and generation systems)。這種系統旨在探索人類自然語言的使用機制,從而讓系統學會在對話的字裡行間大致推測人類的意圖。此外,故事理解及生成系統一般分為幾類:

基於結構化知識的故事理解系統:SAM、FRUPM、PAM……

基於動態記憶的故事理解系統:IPP、BORIS、CYRUS……

基於事件敘述的故事理解系統:TALE-SPIN……

到了二十世紀 80年代,早期的對話式系統開始湧現,語音系統學會了「傾聽」。在這一階段,科學家們把研究的重心放到了孤立詞語語音識別上。為了提高識別效率,早期的語音識別系統大都結合了線性預測技術,其中較具代表性的是——由卡耐基梅隆大學研發的 Hearsay- II 語音理解系統。

據悉,Hearsay- II 通過黑板模型(Blackboard Model,如下圖),對參數、語段、音節、單詞、短語等等多層信息進行整合,從而實現語音理解。可以說,這是一種自上而下(假設驅動)和自下而上(數據驅動)的信息處理模型。

黑板模型

隨著語言識別研究的進一步深入,科學家們將研究重點從孤立詞語識別轉移到連續詞語語音識別之上,並開發出越來越複雜且能實現人機對話的語音系統。比如,卡耐基梅隆大學計算機學院副院長卡塞爾博士研發的、可實現簡單交流的人形對話代理(Embodied Conversational Agent)。

房地產人形對話代理

不過,這些語音系統依然未能滿足人類日益提高的人機交互要求,為此科學家們試圖構建具有一定社交意識的語音系統。這類研究模型加入了情感計算技術,讓系統可以識別、理解、表達和適應人類的情感,「從而實現更高、更全面的人工智慧」,中科院自動化研究所說道。

到了二十一世紀初,對話式語音系統的交互性越來越強,不僅能回答問題,還能向我們發問,並逐漸往擬人化方向發展。

現在的語音系統在幹嘛

得益於深度學習與人工神經網路等技術的發展,語音系統近年來在語音識別、自然語言生成等方面取得了一系列突破性進展,而且在產品應用上也越來越成熟。如果從如今語音系統的應用場景來看,對話式系統可分為以下五類:

五花八門的語音系統

1、在線客服

在這一領域,對話式語音系統的主要功能是與客戶溝通,並自動回復關於產品或者是服務的相關問題。這樣不僅能提升客戶體驗的目的,還能幫助公司降低運營成本。目前,這類系統的應用場景大都為網站首頁或者是手機終端,小 I 機器人、京東的 JIMI 客服機器人等等都是這一領域的代表。值得一提的是,JIMI 具有一定的「自知之明」——遇到自己無法回答的問題時,JIMI 會自動幫用戶接入人工服務。

2、娛樂類聊天機器人

這種系統一般用於社交媒體、兒童玩具等領域,主要通過與使用者進行開放性對話,以實現精神陪伴、情感慰藉、心理疏導等等作用。其中,最具代表性的就是我們比較熟悉的微軟「小冰」、微信「小微」、「小黃雞」,還有「愛情玩偶」……不過,除了聊天之外,這些機器人也會提供諸如天氣預報、生活知識查詢等簡單的服務。

3、教育類聊天機器人

這類機器人會根據教育內容構建不同的語言環境,比如營造特定年齡的語言氛圍,從而幫助使用者進行某些知識的學習及輔導。顯而易見,教育類聊天機器人主要應用在具備人機交互功能的學習、培訓類軟體及智能玩具上,科大訊飛公司研發的「開心熊寶」就是該領域的其中一員。

4、個人助理類語音系統

蘋果的 Siri、谷歌的 Google Now、微軟的 Cortana…… 語音助手類系統的應用場景大都在移動端,它們不僅能夠幫助用戶處理餐廳預訂、智能搜索等個人簡單事務,還能與使用者進行簡短的對話。

5、智能問答類聊天機器人

這類聊天機器人主要用於回答用戶提出的事實型問題、計算和邏輯推理型問題,以達到輔助用戶進行信息分析及決策的目的。IBM 的 Watson、Wolfram Alpha、Magi 等等是這一領域較為典型的產品,它們一般作為問答服務整合到聊天機器人系統中。

不過,除了在特定軟體平台上運行之外,近來語音交互系統已經開始實體化了,以智能音箱等形式出現在日常生活中,成為我們的「小幫手」——例如完成設置鬧鐘、規划行程、訂餐、播放音樂、搜索資料等等任務。而三年前亞馬遜推出的 Echo、谷歌與微軟隨即發布的 Google Home 和 Invoke、最近 WWDC 大會上蘋果公布的 HomePod……都是這一領域的代表。

從左至右:蘋果的 HomePod、谷歌的 Google Home、亞馬遜的 Echo

未來的語音系統去往何方

為了解放人類雙手,未來或許會有更多的硬體設備懂得「傾聽」和「訴說」。除此之外,隨著機器人技術的持續發展,伴侶型機器人將會成為語音系統的落腳點。

雖然目前機器人技術還未成熟,智能語音系統也面臨著諸如語義理解、人聲干擾等等難關,但是近年來已經出現了一些初級的伴侶型人形機器人。比如日本公司 NTT 推出的老年陪伴機器人「Sota」、由於軟銀和法國公司 Aldebaran Robotics 設計的仿人型機器人「胡椒」、大阪大學和京都大學研發的 23 歲美少女「ERICA」等等。

ERICA

實際上,這些人形機器人目前只能完成一些簡單的任務,但是這種伴侶型機器人的理念對於老年人護理、促進人際關係等等確實具有積極意義,而隨著技術的發展,未來語音系統將能讓他們變得更加「逼真」,從而實現人機共生。

從搜索到問答,從抓取關鍵詞到理解語義,從機械式組裝到後來的擁有「情緒」…… 這幾十年來,智能語音系統已經取得了一系列的突破性進展。如若未來它們能通過圖靈測試,真正的類人語音系統將成為可能。

粹客網是國內首個關注前沿科技領域的科技新媒體和創業服務平台。我們提供最貼近商業化的前沿科技創業報道、最新最全的科技動態資訊以及深刻獨到的行業觀點。堅持挖掘有價值的創新創業項目,致力於成為創新創業者的前沿陣地。

每月精彩評論將有機會獲得神秘禮品,線下活動 or 商業合作請私信微信公眾號(cheekrnews)或發郵件到粹客網官方郵箱。

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 粹客網 的精彩文章:

「協和式」退出歷史舞台 15 年,超音速飛行還能改變未來嗎?
科學家發現了宇宙「第一道光」的來源
告別充電寶,科學家們用 70 年前的技術發明了一款不用電池的手機
比特幣「SegWit2x」方案將於明日發布 Beta 版本

TAG:粹客網 |

您可能感興趣

語音識別的前世今生,那些你不知道的事
中國第1家!採用語音生物識別銀行誕生
每周詩語|老驥伏櫪,志在千里:中國的「馬」文化|語音播報
卡普空宣布亞洲版《生化危機2》將提供中文語音
關於語音交互的老生常談
每周詩語|來與子共跡 去與子同塵|語音播報
堡壘之夜今年夏天將上線安卓版本 新增語音系統
《英雄聯盟》新語音聊天系統 和噴子說再見
逃出生天語音關閉方法一覽 逃出生天語音怎麼關閉
《全戰三國》間諜系統演示 中文語音首次公開
人生一字師『語音版』
《生化危機2:重製版》亞洲版將支持中文語音
如何才能切換《生化危機2 重製版》的中文語音?
科技巨頭的語音生意經
《生化危機2重製版》公布中文語音預告片
語音時代到來,語音自動化幫助品牌官網迎來「第二春」
《堡壘之夜》安卓版將於今年夏天正式發布,全新語音系統即將上線!
魔獸世界 新增角色語音文本
AI語音錄入,每天為醫生節省一小時 | 矽谷最新
《道德經》語音文字複習系列