當前位置:
首頁 > 新聞 > 智能語音快速發展需跨越三座「大山」

智能語音快速發展需跨越三座「大山」

智能語音

語音是語言的物質外殼,是人類區別與其他動物從而能夠主宰世界的一種強大能力,是最直接、高效的信息溝通方式。在萬物互聯時代,隨著機器學習技術的快速發展,大規模場景數據的不斷積累,算力的指數級提升, 語音逐漸成為人機交互的全新入口。從手機端語音助手到智能音響、智能車載設備……

智能語音

已經由最初消費者娛樂時的調侃型應用,發展到如今可解決各種實際問題的功能性平台。語音技術的賦能(即Speech ),為各個垂直領域開闢出了全新價值。

數據 演算法 算力

推動智能語音技術飛速發展

IDC(國際數據公司)最新發布的報告《2019年全球IT產業預測》中指出,AI將成為全新的用戶介面,到2024年,支持AI的用戶界面和流程自動化將取代目前三分之一基於屏幕的應用程序;到2022年, 至少30%的企業將使用會話語音技術進行客戶維護工作。

近年來智能語音技術的飛速發展背後有三個推動力,這三大因素的組合造就了人工智慧和智能語音技術的發展:第一,隨著互聯網技術以及手機等移動終端的普及應用,大量的真實場景和用戶語料資源得到積累和沉澱,這為語音識別中的語言模型和聲學模型的訓練提供了豐富的資源,使得構建大規模語言模型和聲學模型成為可能。第二,以深度學習為代表的機器學習和人工智慧的發展和突破, 使得語音識別模型對複雜數據的挖掘和學習能力得到了空前的提升,使得更大規模的海量數據的作用得以充分的發揮。第三,支持大數據和深度學習的大計算能力提升,規模計算能力為技術變革奠定了基礎。

「魯棒性」、個性化、低資源

智能語音深化應用需跨越三座大山

在以上三大助力的賦能之下,智能語音在技術層面已具備根基,但若要在人機交互領域取得絕對性主導地位,拋開語義理解這個挑戰不談,目前的智能語音發展還面臨語音識別「魯棒性」、個性化、低資源三大主要瓶頸, 在性能、成本、智能程度上仍需繼續深耕。

語音識別「魯棒性」問題。在生物學中,有個術語叫做「魯棒性」,是指系統在擾動或不確定的情況下,仍能保持它的特徵行為。這一問題在包括語音識別領域在內的眾多AI領域也同樣存在。

語音識別整個過程包含語音信號處理、語音檢測與增強、聲學特徵提取、聲學建模、語言模型、解碼搜索等多個環節。語音信號的多樣性和複雜性對每個模塊都有影響,因此在真實使用場景中,語音識別的「魯棒性」(穩健性)是非常重要的挑戰。特別是語音交互從近講走向遠講,場景發生了變化,語音交互跨界聲學、信號處理和機器學習三個領域。聲學上帶來的影響眾多,包括聲學回波、目標移動、房間混響、各種背景噪音、干擾聲源等, 語音識別的準確率會大打折扣。

個性化。基礎語音識別和合成效果穩定後,下一步就是追求差異化或個性化。語音服務應該為每個場景、每個用戶來深度定製,提高交互服務的粘合度。例如,開車導航時,男性就可能喜歡用林志玲的聲音,女性可能就喜歡用岳雲鵬的聲音。如果語音合成只有一個聲音,大家就會覺得很無聊,因此需要做出個性化的聲音來滿足大家個性化需求,這對技術也有非常大的考驗。

低資源場景的挑戰。人工智慧行業內流傳一句話:「有多少人工,就有多少智能。」智能語音作為人工智慧的重要分支,在數據標註、計算資源、模型自適應等方面也都需要大量的人力財力投入。如何投入更少的資源來獲取更多更有效的成果,也是目前智能語音技術需要探索的一大重點。

深度學習 遷移學習 關鍵詞檢出

迎接智能語音新挑戰

瞄準智能語音技術的三大挑戰, 同盾智能語音實驗室做了眾多探索, 包括智能語音降噪、小數據遷移學習、低資源關鍵詞檢出等方面,有效提高了智能語音交互的體驗。

基於深度學習的智能語音降噪。在各種實際語音交互場景(比如智能客服)中,用戶語音不可避免的帶有雜訊,雜訊嚴重影響語音識別的準確率。傳統基於統計信號處理的方法很難解決一些棘手的突發或非平穩雜訊。通過深度學習的方法,用數據驅動的思路來降噪,藉助大數據有效地去學習語音和非語音之間的結構關係,從而可以獲得非常理想的降噪效果。此外,同盾語音團隊還嘗試把人的「注意力機制」引入到深度學習演算法中, 更好地解決突發雜訊問題。

基於深度學習的語音識別說話人自適應。在很多時候,通用語音識別的測試準確率已經較為理想,但是「千人千音」,每個人的口音造成了每個人機器語音識別性能的差異。通過深度學習的方法,基於小樣本遷移學習, 讓模型適應不同人的口音,實現通過少量目標說話人數據提升語音識別性能的目標,提升模型效率。

低資源關鍵詞檢出。關鍵詞檢出是指從一段語音流中檢測出關注的部分,在語音內容理解與信息挖掘中具有重要的作用。例如,在智能客服對話中,通過檢測一些關鍵詞,來挖掘用戶的需求,理解用戶。同樣的,智能音箱交互的「喚醒詞」、命令控制都是屬於關鍵詞檢出任務,通過比較輕量級的資源去做關鍵詞檢出,並不斷提升關鍵詞檢出的魯棒性和適應性, 來提高交互準確率。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 看航空 的精彩文章:

哪一個瞬間讓你愛上大飛機?
波音與Aerion公司合作加速超音速旅行發展

TAG:看航空 |