車主抱怨不斷，車載語音如何攻克「技術與體驗門檻」

最新 12-14

近年來，語音交互算是真正在市面上火了一把。智能手機、智能音箱、機器人，但凡是市面上我們能看到的所謂標榜智能的產品，或多或少都搭載了語音交互的功能。

和觸控、按鍵、手勢等交互方式一樣，語音交互也是一種人機交互方式，並且是被業界認為是最便捷、最符合人類交互習慣的一種交互方式，甚至有業內人士宣稱，未來語音交互將會逐步取代按鍵和觸控，成為主流的人機交互方式。

無論是考慮到用戶的使用習慣還是市場競爭和變革的壓力，對於汽車行業來說，主機廠和車載語音供應商都不願意放過這個機會，致力於在車載語音交互方面實現從量到質的轉變。

但，就目前大多數用戶的使用體驗來看，類似於山東大漢怒罵車載語音服務這類讓人哭笑不得的新聞，背後反映的其實是現階段的車載語音恐怕還沒我們想的那樣成熟和智能。

其實也很容易理解，發展比較完善的消費電子端的語音交互都還停留在向智能進化的過程中，車載語音就更「低能」了。

下面是一些實際車主對於目前已經搭載智能語音交互的車型的評價：

語音助手莫名其妙被激話，這時導航的語音提示會停止，如果此時你正在叉路口是不是要懵逼？

特別是語音導航，多人試過，沒有一次可識別的。

語音識別還湊合，主要問題是聽不懂同音字，車機可玩性差。

我們體驗過的眾多語音識別系統中，雖然有支持多輪對話的，但對話節奏、語速、還有這句話說完了，多久再說下一句它還能接上，這些問題還都沒有很好的解決掉。

車載語音很雞肋，沒網路用不了。語音功能不開網路時幾乎就是個聾子，是不識別的話，再說下一句話，還需要你低頭還要點下麥克風圖標。

汽車的使用場景與消費電子不同，汽車在行駛過程中一直面臨著來自各方的噪音干擾，如發動機、車噪、胎噪、空調雜訊、風噪、中控多媒體等。

這樣就對車載語音的拾音和降噪能力提出了很高的要求，而這也正是車載語音當前比較難以攻克的問題。

多麥克風陣列技術

機器在進行語音識別時主要是通過前端的信號處理和提取，也就是拾音降噪處理，然後將接收到的聲音輸入到識別系統中，經過識別系統執行指令或進行智能回復。

在語音識別前期，工程師需要對機器進行大量的訓練和學習。從前端的降噪處理將聲學信號進行處理，轉變為機器能夠聽懂的語言，當有了足夠的文本數據和語音之後，後端模塊將負責讓機器學習如何理解閱讀，比如每個字的讀音、什麼樣的文本組合是通順的，然後提取有用的數據模型構成資料庫。最後機器從資料庫和語言模型信息的網路搜索相應的信息解碼，輸出結果。

這只是語音識別和降噪的一個簡單過程，在實際應用中，情況遠比這更加複雜。

就拿第一步拾音這個過程，麥克風要如何接收到不同方位的聲波？最明顯的一個問題就是現在中控區的語音主要是針對主駕駛員方向的，如果副駕和后座乘客想要進行語音交互，機器能分別接收和識別到他們的聲源嗎？

答案是肯定的，實際體驗過車載語音交互的用戶大概有所體會。當我們坐在主副駕位置時，我們可以很輕鬆的使用語音交互，它可以清晰的辨別這兩個位置的聲源進行識別。

但如果是后座的乘客想要使用中控區的語音交互就顯得有些困難，用戶需要大聲呼叫或者是身體向前傾，也就是必須要讓聲源和麥克風的距離足夠的近，才能夠採集到聲源信息。

在這方面業內大多採用麥克風陣列技術進行多位置識別，通過多個麥克風能夠計算聲源的角度和距離，從而對目標聲源進行定向拾音。此外，這也涉及到麥克風的設計位置和組合方式，比如主駕駛方位需要安放幾個麥克風，什麼樣的組合方式，副駕以及后座需要安放幾個。

通常情況下有兩種方案：單麥克風方案和雙麥克風方案。單麥克風方案只接收主駕位置的聲音，對於其他方位傳來的聲音會選擇過濾屏蔽掉。雙麥克風就是在主副駕各放置一個麥克風，通過聲音發出的強弱和響度來判斷方位。

現在的語音廠商更多會把自家的技術優勢和市場的需求結合起來，希望在龐大的車載語音市場里打造自己特色的語音服務。思必馳告訴高工智能汽車，每家語音廠商採用的識別方案都不盡相同，但最終的目的都是希望能提升用戶的體驗。

在定向拾音方面，思必馳也有他們自己的方案，如主駕模式和整車模式。當用戶設置為主駕模式時，主要針對駕駛員方向進行識別，整車模式就是多方位拾音，包括駕駛員、副駕駛和后座乘客。背後主要依靠強大的軟體演算法能力，實現定向增強或抑制某個方向的聲音。

車載語音的降噪

除了定向拾音，車載語音的降噪也是現在面臨的一大難點。總體來說汽車遇到的噪音干擾可以分為三大類，第一種是汽車硬體裡面發出的底噪。第二種是車機或設備發出的聲音，如多媒體播放的音視頻、空調聲音等。第三種就是汽車外部的環境音，諸如風噪、交通噪音等。

在我們普通人理解降噪就是對那些噪音進行過濾和隔離，實際上廠商也確實是這樣做的。不過，它是針對不同的噪音採用不同的降噪方案。

根據思必馳介紹，第一類噪音主要是通過軟體的演算法來過濾或者是調整硬體結構的設計達到降噪的效果。

第二類噪音是通過AEC回聲消除法（即對揚聲器信號與由它產生的多路徑回聲的相關性為基礎，建立遠端信號的語音模型，利用它對回聲進行估計，將回聲估計值從話筒的輸入信號減去，最後達到消除回聲的目的）。

第三類是針對空調、胎噪這種有固定頻率的噪音，需要採用軟體演算法來消除。

在汽車實際駕駛過程中，遇到的噪音干擾只會更加複雜和多變。現在的降噪方案也並不是完美的，至少從技術上來說還有很大的提升空間。

其實車載語音面臨的技術難關遠不止降噪和識別，比如，在拾音後要如何識別語義進行解析？解析之後如何對接更多豐富的信源，讓車載語音的適用範圍變得廣泛，這其中包括對聲紋、性別和場景的識別，也就是車載語音交互的情感化和智能化。

不過，在期待車載語音變得更加聰明之前，我們還是先寄希望於車載語音能夠聽得見聽得懂。

活動預告

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 高工智能 的精彩文章:

※寶馬「挖走」奧迪A8「L3級幕後締造者」
※Horovod？Tensor flow？Uber開源分散式深度學習模型

TAG:高工智能 |