機器人語言「天賦」嶄露頭角

科技 10-12

機器人語言「天賦」嶄露頭角

智能機器人如何與人溝通？簡單的指令輸入早已不能滿足這個快節奏的社會，如果能夠語音操作該有多好。但是現在大部分智能機器人對於語言的識別與回應並不盡如人意，有些只能識別普通話，有些則只能進行一對一回應，如果是多人聊天模式，或者是在嘈雜的背景下，智能機器人就會「暈頭轉向」，不知所云。

想要解決這個問題並不簡單，不過近日，在美國舊金山舉行的第四屆國際多通道語音分離和識別大賽，中國參賽團隊通過完成六麥克風、雙麥克風和單麥克風場景下的語音分離和英文識別任務，最終奪冠。而這個技術解決的最重要問題，就包括在噪音環境下的語音識別。此次比賽的獲獎團隊來自科大訊飛，目前，他們已經把這項技術應用在了名為AIUI的人機交互解決方案上。

與機器人對話

語音識別技術，小到手機指令大到智能家居控制都有所體現，這讓生活變得更加便捷。但這並非語音識別的終極目標。如果在噪音環境下，多個人給同一個智能機器人下了命令，那麼後者應該聽誰的，又應該如何應對呢？國際多通道語音分離和識別大賽比的就是如何解決這一類問題。

若想弄明白多通道語音，先明白語音識別的概念。首先，語音識別是指從語音到文本的轉換，也就是讓機器能夠聽懂人說的話。這其中包括兩層意思，一是指把用戶所說的話逐詞逐句轉換成文本；二是指正確理解語音中所包含的要求，作出正確的應答。這其中，語音語言學、信號處理、模式識別、概率論和資訊理論、發聲機理和聽覺機理、人工智慧的交叉學科，是中文信息處理領域的一項前沿技術，解決的主要問題就是如何將文字信息轉化為可聽的聲音信息。

智能機器人對於人的語音的處理，與人類自身理解完全不同，它們先將連續的句子分解為詞、音素等單位，在理解語義的規則基礎上讀取其中的含義。如果說話的主體語音模糊或者口音較重時，智能機器人若沒有設置過相關的規則，則無法識別。甚至一個人在認真說話與隨意說話時的語調在智能機器人聽起來都有區別。再加上採集聲音時周圍環境的雜訊等，都會對機器人產生干擾，進而導致語音識別的誤差率增加。而多通道語音識別是指，通過多個麥克風采集聲源，再用麥克風陣列技術進行降噪之後，語音識別將會更加精確。

科大訊飛AIUI研發總監趙艷軍在接受《中國科學報》記者採訪時介紹說，AIUI同時擁有的回聲消除、置信度判決、連續語音解密等技術，人可以在任何時候對機器進行打斷發出需求，AIUI在遠場識別方面支持3~5米的識別距離，識別率達到90%。「AIUI還支持方言識別，全雙工交互，以及自動糾錯的功能。同時，用戶在和機器交流的時候發出的非相關語音，機器可以有效拒識。」趙艷軍說。

AIUI是目前世界上正在開發的人機交互解決方案之一。作為未來智能機器人的主流配置之一，商業化的語音交互平台也是不少IT巨頭的研發重點。比如微軟的Speech API，是微軟推出的包含語音識別（SR）和語音合成（SS）引擎的應用編程介面（API），依託Windows平台，可以朗讀英文、中文、日文等。另外一個巨頭是IBM，它是較早開始語音識別方面的研究的機構之一，在1984年時，IBM發布的語音識別系統在5000個辭彙量級上達到了95%的識別率。

自然流暢的交互體驗

在之前公布的一段視頻中，幾個人給一個搭載了AIUI的機器人半成品下達不同的命令，先是搜索歌曲，再來問天氣，然後訂機票，之後還有人要求機器人搜索一首歌手與歌名完全不符的歌曲。雖然只是半成品，但是視頻中的機器人不緊不慢地「接招」，還「毫不客氣」地指出歌名與歌手信息有誤，並善意地提醒是否要重新搜索。

「準確的反應歸結於硬體與軟體的不斷更新。」趙艷軍回應道。首先要克服的是交互環境的複雜性，比如用戶交互時各類的雜訊、多樣的口音，以及其他不可預知的干擾因素。其次，就是AIUI識別平台中既長又複雜的研發鏈路，從前端的麥克風陣列技術到後端的語音喚醒、語義理解等服務，需要各組的人員協調、配合、溝通、合作，「這對整個項目團隊的要求是很高的」。

在硬體方面，AIUI 也從之前的4+1麥克風陣列到最新的6+0麥克風陣列，讓其聲源定位、回聲消除、雜訊抑制等能力不斷增強，可以從容應對各種複雜的環境。「後續我們將持續優化和完善AIUI，進一步提升效果。如提高遠場識別的識別率，增加方言識別的自適性，提高語義理解的能力等，使得AIUI的體驗越來越完美。」趙艷軍說。

智能生活更進一步

語音交互技術的進步並不是孤立呈現的，它在智能機器人與人類溝通功能的提升中所作的貢獻功不可沒。這一貢獻體現在智能設備適用人群範圍擴大以及領域拓寬。比如，隨著智能設備和網路的普及，越來越多的老齡人群、低齡人群、身體殘障人群使用智能設備。對於這些人群，觸控的交互方式並不方便，語音交互則突破了年齡障礙。甚至，有人曾經預測，語音交互可能會成為繼搜索引擎、瀏覽器、智能手機OS之後，第四代的入口。

同時，依託雲技術以及大數據的發展，智能語音技術的迭代和優化速度也在加快。智能機器人、智能車載、智能家電等領域的多款產品都可以依託這一技術。

在不遠的未來，你可以在家中僅通過語音控制家裡的一切設備，不僅可以打開空調，關閉檯燈，還可以不必走到窗前就能將窗帘打開、關閉。而智能機器人對於你的回應也不再是簡單的辭彙，它兼顧著音樂播放器、搜索引擎、出行幫手等多重功能，甚至在你無聊時還能陪你聊天。「未來，語音交互、語音識別系統在人機交互領域，面向機器人、智能家居等行業都將進行全面的推廣，為人工智慧時代奠定人機交互的新標準。而在訊飛開放平台上的各種設備和服務都可以根據這個統一標準，實現互聯互通、相互分享和支持，推動第三方開發生態圈的構建。」趙艷軍表示。

請您繼續閱讀更多來自 科學周末 的精彩文章:
TAG:科學周末 |

您可能感興趣

※讓聊天機器人更懂人類的方法？教它第二種語言
※迪拜第一位機器人警察現身街頭會用六種語言
※最有語言天賦的美女翻譯官星座女
※語言暴力
※想讓你的聊天機器人更聰明，試試教它一個新語言
※家庭中切記語言暴力冷言冷語傷感情
※智能機器人自創人類不懂語言臉書緊急關閉
※沒有任何人為干預，AI機器人突然用自己的語言開始對話！
※Go 語言條件語句
※搞笑手機笑話圖片，天真熱表白結婚語言搞笑笑話
※顫抖吧，人類！寵物語言翻譯器即將在亞馬遜上出售
※語言勿刺人骨髓，戲謔勿中人心病
※人有人的語言，動物有動物的語言，電腦有程序的語言
※一文讀懂莊家盤口語言奧秘，從言語中發現契機
※肢體語言才是世界第一語言
※谷歌耳機即時翻譯讓你用40種語言聊天
※牧師居然可以是機器人！會用五種語言做禱告
※語言博大精深，帶你領略外星人的語言會是什麼樣子！
※語言不通不是事！谷歌發布了一款黑科技耳機支持40種語言互譯