當前位置:
首頁 > 科技 > 喧鬧中你能辨識熟人聲音,谷歌AI也想做到這點

喧鬧中你能辨識熟人聲音,谷歌AI也想做到這點

據Ars Technica報道,谷歌研究人員開發出一種深度學習系統,旨在幫助計算機更好地識別和分離出嘈雜環境中的個體聲音。

正如谷歌本周在Google Research Blog上所稱,該公司內部團隊正試圖複製「人類大腦專註於某個聲音來源同時可過濾掉其他聲音」這種能力,就像你在就會上只與某個朋友交談。谷歌的方法中使用了一個視聽模型,所以它主要集中於在視頻中隔離聲音。該公司發布了些YouTube視頻,展示了該技術的實際應用情況。

谷歌表示,這項技術可以應用與使用單一音軌的視頻,並能在視頻演算法中隔離聲音,這取決於誰在說話,或者是讓用戶手動選擇他們想聽到的聲音的人臉。谷歌稱,這裡的視覺組件是關鍵,因為當某人的嘴在動時,這項技術會觀察到,以便能在特定時刻更好地識別在某人的聲音,並為視頻的長度創建更精確的個人語音軌跡。

這篇博客文章寫道,研究人員在YouTube上收集了10萬段「講座和談話」視頻,從這些視頻中提取了近2000小時的視頻片段,並將音頻與人工背景雜訊混合,創造了「合成雞尾酒派對」。然後谷歌通過閱讀人們在每個視頻框架中說話的「臉縮略圖」和該視頻原聲帶的譜圖,訓練技術人員將混合音頻進行拆分。該系統能夠分辨出哪個音頻源在給定的時間內屬於哪張人臉,並為每個揚聲器創建單獨的語音軌跡。

谷歌特別指出,封閉字幕系統是該系統的一個優勢,但該公司表示,它設想了「這一技術的廣泛應用」,並且「目前正在探索將其納入各種穀歌產品的機會」。Hangouts和YouTube似乎是兩個容易起步的地方。當應用到智能眼鏡(比如谷歌眼鏡、語音放大耳塞)中時,不難看出該技術是如何工作的。

幫助像谷歌Home這樣的智能音箱識別個人聲音,這似乎是另一個用例,但是因為這個模型集中在視頻上,它可能與配有顯示器的智能音箱合作效果會更好,比如亞馬遜的Echo Show。今年早些時候,谷歌為「智能顯示設備」(如Echo Show)集成了Google Assistant,但該公司還沒有發布自己的類似硬體產品。

在任何情況下,這種技術的隱私後果似乎和潛在的用例同樣明顯。在上面的例子中,谷歌的聲音隔離遠遠不是安全無憂的,進行更細微的調整後,它可以讓強大的竊聽和監視工具落入壞人之手。

?

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 科技無處不在 的精彩文章:

沒想到小米印度總經理用的筆記本居然是ThinkPad
世界首富談比特幣:它們真的會害死人

TAG:科技無處不在 |