「眼」來助聽：谷歌視覺-音頻分離模型解決「雞尾酒會效應」

新聞 04-13

雷鋒網 AI 科技評論按：人類很擅長在嘈雜的環境下將其他非重點的聲響「靜音」化，從而將注意力集中在某個特定人物身上。這也就是眾所周知的「雞尾酒會效應」，這種能力是人類與生俱來的。然而，自動化語音分離系統—將音頻信號分離至單獨的語音源—儘管這是一個已經被深入研究過的問題，但是它依舊是計算機系統研究上的一項巨大挑戰。

Google Research 軟體工程師 Inbar Mosseri 和 Oran Lang 於 4 月 11 日發表了一篇關於視覺-音頻語音識別分離模型最新研究成果的博文，雷鋒網 AI 科技評論編譯整理如下。

在解決了「雞尾酒會效應」的《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》論文中，谷歌團隊提供了一個深度視覺-音頻學習模型，來從其發聲者音頻和背景噪音的混合音頻場景中，為特定的發聲對象分離出一個匹配的單一音頻信號。在這次操作中，谷歌已經能夠通過增強特定人物對象的音頻，抑制其他非重點音頻來計算生成針對特定發聲對象的單一音軌視頻了。該方法適用於具有單一（主）音軌的常見視頻，用戶也可以自行選擇傾聽對象來生成對其的單一音軌，或者基於語境由演算法進行對特定發聲對象進行選擇。谷歌相信這種視覺-音頻語音識別分離技術擁有廣泛的應用場景，識別視頻中的特定對象將其音頻增強，特別是在多人視頻會議的場景中對特定發言人進行針對性音頻增強。

這項技術的獨特之處在於，其通過結合分析輸入視頻的音、視頻信號來識別分離所需的單一音軌。直觀來說，例如特定人物對象的音頻與其發聲時的嘴部動作相關聯的，這也就幫助模型系統區分哪一部分音頻（軌）對應著哪一個特定對象。對視頻中的視覺信號進行分析，不僅能夠在多種音頻混合的場景下顯著提升語音識別分離質量（相較於只藉助音頻來進行特定對象語音分離），同時，更加重要一點還在於，它還能將分離後的純凈單一音軌與視頻中的可視對象聯繫起來。

「眼」來助聽：谷歌視覺-音頻分離模型解決「雞尾酒會效應」

在本文的視覺-音頻語音分離識別方法中，輸入是一名或多名發聲對象，同時被其他對象或嘈雜背景所干擾的視頻。輸出是將前面輸入的視頻音軌分解成純凈的音軌，並對應到特定的發聲對象身上。視覺-音頻語音識別分離模型

為了生成視覺-音頻語音分離模型訓練樣本，谷歌收集了 Youtube 上高達 10 萬份高質量學術以及演講視頻。團隊從中提取了音頻純凈的一些片段（例如無背景音樂，聽眾噪音以及其他發聲者音頻干擾），這些視頻片段中僅有一位可見的發聲對象。谷歌花費了約 2000 個小時從中剪輯出，無背景噪音干擾，同時只有單一可見發聲對象的視頻數據，團隊運用這份純凈的數據來生成「合成雞尾酒會效應（synthetic cocktail parties）」—將來自分離視頻源的臉部動作視頻和對應的音頻，以及從 AudioSet 獲取的無背景噪音的視頻混合在一起。

利用這些視頻數據，我們能夠訓練一個多流卷積神經網路模型，為「合成雞尾酒會場景混合體」片段中每個發聲對象分離出對應音頻流（音軌）。輸入到視覺-音頻網路識別系統中的數據具體是指，視頻每一幀中被檢測到的發聲對象的臉部動作縮略圖中提取的視覺特徵，以及視頻音軌的頻譜圖信息。在模型的訓練過程中，網路系統學習分別學習視覺和音頻信號的編碼，然後將它們融合成一個音頻-視覺表現。通過音頻-視覺表現，網路系統學會了為每位發聲對象對應輸出時頻掩碼。輸出的時頻掩碼與雜訊輸入頻譜圖相乘，隨後轉換成時域波形，從而為每一位發聲對象生成單獨的，純凈的音頻信號。更多詳細內容，可以點擊參考谷歌團隊的論文《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》進行查看。

「眼」來助聽：谷歌視覺-音頻分離模型解決「雞尾酒會效應」

谷歌多串流，基於神經網路的模型架構

下面是幾個谷歌團隊通過最新視覺-音頻語音分離技術實現的音頻分離和增強的處理結果視頻示例，視頻中除所需的特定發聲對象外，其他對象（背景）聲音均被「靜音」化已達到所需效果。

視頻示例（截圖）

「眼」來助聽：谷歌視覺-音頻分離模型解決「雞尾酒會效應」

視頻示例（截圖）

「眼」來助聽：谷歌視覺-音頻分離模型解決「雞尾酒會效應」

視頻示例（截圖）

「眼」來助聽：谷歌視覺-音頻分離模型解決「雞尾酒會效應」

為了強調模型對視覺信息的利用，谷歌從 Google CEO Sundar Pichai 的同一視頻片段中截取了兩段截然不同的片段，並將它們進行並排演示。在這個場景下，僅使用音頻中的特徵語音頻率是很難實現音頻分離的，儘管在如此具有挑戰性的案例中，視覺-音頻模型依然能正確地分離視頻中的音頻。

視覺-音頻語音識別分離技術的相關應用

本文的該方法也可應用於語音識別和視頻自動字幕載入。對於視頻自動字幕載入系統而言，多名發生者同時發聲導致的語音重疊現象是一項已知的挑戰，與此同時，將音頻分離至不同的源也有助於呈現更加準確和易讀的字幕。

同時你也可以前往 YouTube 觀看本文中的同款視頻並打開字幕載入（cc 功能鍵），即可比較運用了視覺-音頻語音識別分離技術的視頻字幕識別和 YouTube 原本視頻字幕載入系統表現的差異。

視頻示例（截圖）

「眼」來助聽：谷歌視覺-音頻分離模型解決「雞尾酒會效應」

讀者還可以在谷歌視覺-音頻語音識別分離項目 GitHub 相關頁面查看更多的應用場景，同時谷歌的視覺-音頻語音識別分離技術與純音頻識別分離的視頻結果示例對比，以及其他視覺-音頻語音識別分離技術上最新進展。在谷歌團隊看來，該技術將擁有更加廣泛的應用，團隊也在探索將其整合進谷歌的其他產品中，所以敬請期待吧！

另外，AI科技評論於4月初也編譯Microsoft AI and Research 研究員的一篇利用多束深度吸引子網路解決雞尾酒派對問題的論文，詳細內容可查看《微軟研究員提出多束深度吸引子網路，解決語音識別「雞尾酒會問題」》。

更多資訊敬請關注雷鋒網 AI 科技評論。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※ADSafe軟體暗藏惡意代碼，劫持眾多網站流量
※HoloLens新應用：掃描臉部就能讀出你的心跳

TAG:雷鋒網 |