當前位置:
首頁 > 科技 > 語音識別技術未來會成為你的「數字版雙胞胎」

語音識別技術未來會成為你的「數字版雙胞胎」

本文由騰訊數碼獨家發布

語音命令是與電子設備互動的一種更自然的方式,尤其是無需笨拙的撥弄按鈕和觸控屏幕。最近幾年以來,語音助手的普及程度突飛猛進,現在我們幾乎所有能想到的家用智能設備都已經可以使用語音助手來控制。

而現在一家名叫XMOS公司的努力使這種技術的進一步增長成為可能。也許你這個名字可能不太熟悉,但如果你曾經使用過亞馬遜Echo智能音箱,那麼就從這種技術中受益過。

XMOS是一家專註於語音處理的無晶圓片半導體公司,它的演算法能夠檢測整個房間的輕聲語音指令,即使是在非常有挑戰性的條件下(比如有很多雜物或牆壁的房間里)。那麼,為什麼語音技術進步得如此之快呢?

XMOS演算法工程師亞歷克斯·克拉辛(Alex Craciun)表示:「我認為是語音技術讓生活變得更容易。你不必處理那麼多消息和複雜的指令。我們要做的只需要給出命令,設備就可以自己進行優化,或者告訴你想要的東西,這就簡單多了。」

該公司營銷總監Esther Connock補充說:「語音技術可以幫助我的服務,我們認為語音命令會讓一切變得簡單,因為這種技術會告訴你它是如何工作的。它不需要遙控器、也不需要帶說明書,我們只需要用一種非常自然的方式進行對話和與它交談,這對我們來說是技術的民主化,因為你不需要花費太多的時間成本去學習如何使用它,同時你也不需要帶著一定的知識儲備去做。」

「所以,如果想想那些文化水平或受教育程度比較低的用戶,突然之間就會意識到這是一個更加開放的競爭環境。社會的弱勢群體可以利用這種技術減少孤立感。所以對我們來說,聲音是世界上最自然的東西。」

有助於聊天

XMOS是來自英國布里斯托爾蓬勃市發展的科技產業的一部分,由該市的兩所大學聯合發展而來,這兩所大學還包括Ultrahaptics(利用超聲波在空中製造觸覺反饋)、Reach Robotics (Mekamon增強現實機器人的創造者)和Graphcore (XMOS的子公司)。

其語音檢測和隔離技術包括波束形成(跟蹤一個人的聲音、他們所處的空間以及自動跟著他們的麥克風移動)、聲學回聲取消(分離用戶的聲音從聲音播放的設備本身)和補償回波、雜訊抑制、停止音頻播放設備的檢測到喚醒語以及固定或自動增益控制(確保電話會議中的所有聲音都能以相同的音量聽到,不管對方說話的聲音有多大)。

該公司成立於2005年,以布里斯托爾大學的研究為基礎。「他們開發了一種微控制器,可以做很多處理,並且有很多功率和能力可選,可以同時執行很多任務,」康諾克解釋說,「這非常令人興奮。」

2008年,蘋果決定關閉FireWire介面,這一決定徹底打開了USB音頻市場,XMOS開始在這個市場找到了自己的定位。該公司進行了多元化經營,為哈曼·卡頓(Harmon Kardon)和雅馬哈(Yamaha)等大公司工作,也為擁有混音平台的DJ等小客戶服務,然後轉向多通道音頻平台。

康諾克解釋說:「有了一塊處理能力很強的電路板,我們可以產生多達32通道的輸出能力,這樣我們就可以得到非常棒的多通道音頻效果。這種聲音和音頻的專長在聲音開始出現時就把我們引入了這項技術。我們的一位客戶表示,憑藉你所有的專業知識,就應該考慮使用麥克風和捕捉聲音技術,而這正是我們所做的事情。」

2017年,XMOS憑藉其遠場語音介面技術獲得亞馬遜的青睞。康諾克說:「我們仍然是亞馬遜唯一有資格的立體聲解決方案合作夥伴,所以對於任何開發電視、音條和機頂盒類產品,並在真正的立體聲系統中工作的客戶來說,我們是唯一能夠在立體聲系統中消除雜音的技術供應商。這對我們來說真的很重要,也是我們今年在CES上重點關注的事情。同時我們也剛剛通過了百度的測試,這非常令人興奮,我們另外也在與NTT Docomo合作,總體來說,我們正在全球各個地區擴張。」

戶外音頻技術

XMOS目前專註於房間邊緣語音應用,但該公司也在研究其他領域,包括車內語音介面。

「我們在波士頓開發了一種新技術:聲源分離,可以在對話中提取多種聲音,這非常適合汽車環境,」康諾克說。「所以,如果你能想像我可以給你打電話時,即使我在開車,系統會把你能聽到的一切雜音都去掉,只保留我的聲音。孩子們可以在後面大喊大叫,他們也可以正在看一部在線流媒體電影,但對方能聽到的只有我的聲音。」

該公司還對語音技術的未來做出了一個有趣的預測:作為一名個人語音助理(內置到靈活的、可穿戴的智能手機中),它將介於我們現有和目前的大公司提供的語音識別服務之間。

「如果我看看亞馬遜和谷歌(從某種程度上說,還有蘋果和Apple Music),他們都有一種目的,就是他們想賣給我們東西。我更喜歡亞馬遜賣給我的東西,但我不想要的是語音垃圾郵件,一旦這種東西開始出現,會導致用戶遠離語音技術。」

這種解決方案是一種中間地帶,可以過濾掉任何垃圾郵件,並指向具有最相關內容的服務(它將根據用戶的喜好通過人工智慧技術學習這些內容)。

數字版的雙胞胎

這不僅僅是一種理論,XMOS已經在實際中通過對話來來實現它。「這將很快發生,」康諾克說,「所以我們正在考慮合作、完善、購買,以創建那種生態系統。」所以這裡面有很多我們認識的很多人在這個領域工作。它是開放的,已經準備好了,我們想要利用它。」

據康諾克介紹,這將導致公司創造出一位「數字雙胞胎」,她承認這個詞聽起來有點矯情,但很貼切。它會學習並適應用戶使用它的方式。例如,它會知道你不想讓它跟你說話,除非你先開口。

「它不僅能了解我對音樂的喜好,還能了解我對所有事物的喜好。當我想要溝通的時候,我會優先和我的朋友們交談,包括一切在內。」

交流更自然

然而,即使有一個真正的個人助理來過濾任何垃圾郵件,語音識別技術仍然面臨一些阻力。

「當你看到這個」康諾克邊說邊撿起她的智能手機。「它有一個攝像頭,它總是能聽到你的聲音,有感測器來採集大量數據,根據你輸入的一切。因為我們如此依賴它,並且如此接近我們,所以大家不認為這是一個隱私問題。」

「但當你把一個揚聲器放在房間中央時,每個人都會說,『哦,它在監聽我,沒錯,但它還不像智能手機那麼貴。」

康諾克相信,與語音助手相關、可信的內容將是聲音控制被廣泛接受的關鍵。一旦行業將銷售設備置於用戶體驗之上,它就會出現問題,所以XMOS要確保自己處於領先地位,並準備在這種情況下做出正確的反應。

還有自然語言的問題,而不是給人感覺像是命令。Alexa的技能非常有用,但它與另一個人交談時完全不同,目前XMOS的演算法工程師正在努力使交互更加自然,接近人類的語氣。

「你需要感覺到機器能夠理解你的情緒,就像它沒有遇到任何問題,然後它就會溜得起飛。」康諾克說。

這聽起來像是科幻小說,但康諾克說這比我們意識到的程度更接近現實。「我認為這種情況已經發生了,」她說。「我們看到亞馬遜的很多的產品和進展,每個月都會有一些新的東西出現,所以這個領域發展得非常非常快。也許明天會有更自然的產品出現,給我們帶來驚喜。」


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 犀利懟數碼 的精彩文章:

沃爾沃無人駕駛概念車 檢測行人是在喝咖啡還是過馬路
趣味蜘蛛機器人 能自動摺疊能爬坡還能上樓梯

TAG:犀利懟數碼 |