Google 的這個黑科技能給視頻「降噪」，只聽你想聽到的聲音

科技 04-17

一位二次元朋友說他有一種能力，就是在 B 站開彈幕看視頻時，想看視頻就看視頻，想看彈幕就看彈幕，兩者可以自動分離，不會互相干擾。類似的，人類在聽覺上也有一種選擇能力，就是人在集中注意力聽某個聲音時，可以自動忽略其他聲音或噪音，感覺像是把要聽的聲音放大了一樣，這種現象叫做雞尾酒會效應。

這種能力對我們來說好像很自然，但對於計算機可是個不小的挑戰。最近，Google 的研究人員創建了一個視聽模型，可以通過演算法將視頻中的多個聲音分離，得到一個清晰的單個語音。簡單來說，你可以選擇只聽視頻中某個人講話的聲音，而不用擔心被干擾。

結合視覺聽覺信號，識別並分離音軌

利用這種技術製作的視頻可以將特定人物的聲音增強，把其他無關的聲音去掉。在普通的單音軌視頻中，用戶可以點擊自己想關注的人物，或者演算法會結合上下段內容來自動選擇突出誰的聲音。這項技術可以用於增強視頻中的語音，提高視聽效果。

這項技術的原理是結合視頻中的聽覺和視覺信號，以此來識別並分離語音。就像識別唇語的原理一樣，一個人說話時發出的聲音和他嘴部的運動存在某種關聯，所以可以利用這一點，來辨別某段聲音是誰發出的。在視覺信號的幫助下，即使是在多種聲音混雜的環境中，單個聲音的特徵也變得更明顯，更重要的是，你還可以在聽到清晰聲音的同時看到人嘴部的運動，更容易接收並理解信息。

研究人員用 10 萬個高質量的 YouTube 視頻為樣本，從視頻中提取清晰的演講片段，沒有背景音樂、沒有觀眾鼓掌、沒有噪音，並且視頻中只有一個說話的人。他們共提取出 2000 個小時的訓練數據，用這些乾淨的視頻來合成「雞尾酒會」的效果。這樣就可以訓練一個卷積神經網路模型，將合成的視頻分離出多個單獨的音軌，也就是每個人單獨的聲音。將每一幀中嘴部運動的視覺信息提取出來，然後找到聲譜圖中對應的部分。這樣就可以訓練神經網路，從聲音混雜的視頻中，根據人的嘴部運動來提取對應的聲音碎片，最後輸出成具有單獨聲音軌道的視頻，每一個人的聲音都可以進行單獨播放。

可以提高語音識別能力

這個黑科技在語音識別中尤其有用，比如 YouTube 自己的自動字幕，如果視頻中有多種聲音混合，字幕就很難準確顯示，而如果這幾種聲音能夠單獨分離播放，對應的字幕也就更準確，用戶也更容易理解。再往遠處想，這項技術可以運用到 Google Glass 這樣的智能眼鏡中，即使是在紛雜世界，你也可以只關注想關注的人，只聽 Ta 的聲音。除此之外，帶視頻能力的智能音箱可能是未來的大趨勢，有了語音分離能力，語音識別的能力也會更精準、更強大。

這種強大的能力也可能帶來隱私問題，比如間諜電影中經常見到的天眼系統，如果再搭配語音分離的能力，豈不是可以做到視聽上的全能？不過想達到那樣的效果，識別能力就要很精準了。在此之前它的應用可能只是 Google 自己的產品，比如增強視頻智能音箱的語音識別能力，還有讓 YouTube 的自動字幕更智能。

頭圖來源：視覺中國

編輯：Rubberso

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 極客公園 的精彩文章:

※《矽谷》第五季開播，片頭動畫里的隱藏梗千萬別錯過
※迪士尼將為阿凡達主題公園帶來一個「巨無霸」，你想去看看嗎？

TAG:極客公園 |