當前位置:
首頁 > 最新 > 高通宣稱其語音識別系統準確率高達95%

高通宣稱其語音識別系統準確率高達95%

騰訊科技訊 據外媒報道,在美國波士頓舉行的Re-Work深度學習峰會上,高通的人工智慧研究人員克里斯-洛特(Chris Lott)展示了其團隊在語音識別計劃方面的新進展。

這種語音識別系統在智能手機或其他攜帶型設備上運行,包含兩個神經網路:循環神經網路(RNN)和卷積神經網路(CNN)。循環神經網路利用其內存來處理輸入信息,而卷積神經網路則模仿人類大腦中神經元之間的聯繫方式。洛特稱,這種語音識別系統識別單詞和短語的準確率達到了95%。

「它可以學習你使用設備的習慣。」他說,「它能夠根據你的習慣來進行個性化設置。」

洛特稱,現在大多數語音識別系統在雲端進行運算過程。手機中的麥克風和晶元,智能音箱如谷歌Home和亞馬遜Echo,以及配置微軟Cortana 語音助手的Windows電腦,可以讓語音識別系統接傾聽一些熱門辭彙,例如「OK Google」或Hey Cortana,從而接受一系列語音指令。但是,它們不會分析這些指令,而只是將這些指令傳輸到運行複雜機器學習演算法的強大遠程伺服器上。

對於某些用戶來說,將其語音數據上傳到雲端,這樣會讓他們擔心隱私方面的問題。亞馬遜Alexa和谷歌Assistant均會錄製語音片段,然後將它們發送出去進行分析。它們會一直保留這些語音片段,直到用戶選擇刪除它們。這兩家公司均表示,它們錄製語音是為了改善其服務,提供更加個性化的語音回答。

但是,在某些情況下,錄製語音無法保護用戶的隱私。在2016年,亞利桑那州調查一宗謀殺案的偵探在被告人的同意下訪問了一台亞馬遜Echo智能音箱中的語音數據。

洛特稱,高通的這種語音識別系統直接在設備上處理數據,這樣做除了可以保護用戶的隱私之外,還具有多方面的好處。由於它不必將數據上傳到雲端,它對於指令的反應速度更快。由於它不需要連接互聯網,因此它變得更加穩定。

「我們努力按照某種神經網路的形式來處理整個端到端系統。」他說,「這樣可以讓用戶與設備的互動變得更加自然。」

洛特的話不無道理。在2016年,谷歌開發了一款離線語音識別系統,它的速度是同時期其在線語音識別系統的7倍。這個離線語音識別系統利用語音數據進行了大約2000個小時的訓練,它的大小為20.3兆,在智能手機上運行,準確率為86.5%。

當然,這種設備端語音識別系統也有自身的局限性。離線工作的演算法無法連接互聯網,並搜索問題的答案。而且,它們無法像雲端系統那樣隨著數據的積累不斷地改進。

但是,洛特認為,高通的解決方案是面向未來的。「現在很多計算過程發生在雲端,但是我們認為這個過程應該直接在設備上進行。」(編譯/樂學)

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 騰訊科技 的精彩文章:

魅族科技組織架構調整 設立銷售中心和市場中心
貝索斯披露殖民月球細節:要建立人類定居點

TAG:騰訊科技 |