當前位置:
首頁 > 新聞 > 逆天!MIT新「像素髮聲」系統,完美分離聲與畫(附視頻)

逆天!MIT新「像素髮聲」系統,完美分離聲與畫(附視頻)

逆天!MIT新「像素髮聲」系統,完美分離聲與畫(附視頻)

來源:MIT CSAIL

編輯:小潘、克雷格

【新智元導讀】麻省理工學院(MIT)的計算機科學與人工智慧實驗室(CSAIL)最近研發出一種名為Pixel Player系統,能夠通過大量無標籤的視頻來學習聲音定位,並把聲音與聲源的像素點進行分離。此外,利用Pixel Player系統,用戶能夠對圖像中不同的聲音分別進行音量調節,實現簡單的音頻編輯。

逆天!MIT新「像素髮聲」系統,完美分離聲與畫(附視頻)

Adobe Audition的音頻剪輯霸主地位可能不保了。

最近,MIT的計算機科學與人工智慧實驗室(CSAIL)研發出一種名為Pixel Player系統,能夠通過大量無標籤的視頻來學習聲音定位,更強大的是,Pixel Player能夠把聲音與聲源的像素點進行分離,並完美做到視覺與聲音的同步,「想聽哪裡點哪裡」。

同時,利用Pixel Player系統,用戶能夠對圖像中不同的聲音分別進行音量調節,實現簡單的音頻編輯。

論文地址:https://arxiv.org/abs/1804.03160


像素之聲:完美分離聲與畫,「圖片版Adobe Audition」冉冉升起

通常來講,人類依靠強大的聽覺和視覺能力組合,能夠輕鬆識別和分辨聲音與發出聲音的聲源物體,但對機器來講比較困難,其視覺能力與聽覺能力組合起來達到的識別水準並不如人類。

CSAIL製作了一個視頻Demo,展示了Pixel Player是如何通過點擊圖片就能實現視頻聲音的分離與調節,從而「讓像素髮聲」。

簡單來說,Pixel Player首先通過大量視頻學習定位聲音產生的像素區域,然後將視頻的聲音與發聲的像素點進行分離。這樣,點擊圖片中聲源的位置,就能發出相應的聲音。

點擊圖片中相應的樂器,就能發出對應的聲音,但點擊牆壁、人體等位置則不會發聲(有輕微雜訊)。

Pixel Player系統更強大的地方在於,它不僅能分離圖片與聲音,還能夠對聲音的音量進行調節。

Pixel Player能夠對畫面中樂器演奏的音量進行大小調節,若調到最小位置,則實現消音,起到類似Adobe Audition中的聲音移除效果。

Pixel Player系統像是「圖片版」Adobe Audition,雖然目前功能還遠遠不及後者強大,但其應用前景廣泛。例如,在視頻製作中,可以直接通過對圖像的編輯實現音畫分離,省去了單獨剪輯音頻的過程。


定位視頻、分離音頻,PixelPlayer監聽視頻中每個像素髮出的聲音

摘要

本文提出PixelPlayer,這個系統通過利用大量無標籤的視頻來學習如何定位產生聲音的圖像區域,並將輸入的聲音根據發聲的像素點進行分離。我們的方法利用了可視化和音頻模式的自然同步,在無監督的情況下學習了聯合解析聲音和圖像的模型。在新收集的MUSIC數據集上的實驗結果表明,我們提出的混合-分離框架比將基線系統效果更好。一些定性的結果表明,我們的模型在視覺上學習了真實的聲音,使應用程序能夠獨立地調整聲音源的音量。

1.介紹

這個世界蘊含著豐富的視覺和聽覺信號。我們的視覺和聽覺系統能夠識別世界上的物體,分割被物體覆蓋的圖像區域,並將不同物體產生的聲音進行隔離。雖然聽覺場景分析在環境聲音識別領域得到了廣泛的研究,但在視覺和聲音的自然同步可以為視覺提供一個豐富的監控信號。通過視覺或聲音來識別物體的系統通常需要大量的有標籤數據來訓練。然而,在這篇論文中,我們利用聯合視聽學習來實現在無監督的條件下,通過音頻和視頻的結合來識別產生聲音的物體,並分離來自每個物體的音頻成分。我們將系統命名為PixelPlayer。在一個輸入視頻中,PixelPlayer將相應的音頻分離,並在視頻中對它們的發聲進行空間定位。PixelPlayer使我們能夠監聽視頻中每個像素髮出的聲音。

本文通過利用視覺和聲音之間的自然同步來學習基於視覺的視聽模型。PixelPlayer的輸入是音頻的波形數據,用於預測與此音頻對應的視頻中發聲物體的位置。

圖1顯示了一個本文提出的處於工作狀態的PixelPlayer。在這個例子中,系統使用大量的視頻數據進行訓練,其中包含了使用不同的樂器進行演奏的場景,包括獨奏和二重奏。在每一段視頻中,樂器的種類,它們的位置以及它們如何發聲都沒有任何標籤提供。

逆天!MIT新「像素髮聲」系統,完美分離聲與畫(附視頻)

圖1

在測試階段,輸入(圖1.a)是一段包含幾個不同樂器演奏場景的的視頻I(x,y,t)和單聲道音頻S(t)。PixelPlayer執行視頻和聲音的分離以及發聲定位,將輸入聲音信號分解為不同的聲音組成部分Sout(x,y,t),每一個聲音對應於來自視頻幀中的一個空間位置(x;y)。作為一個例子,圖1.c顯示了從11個像素中恢復的音頻信號。平坦的藍色線條對應於被系統預測無聲的像素。有聲的信號與每個樂器產生的聲音相對應。圖1.d顯示了預測的聲音能量,或來自每個像素的音頻信號的音量。請注意,系統正確地檢測到聲音來自於兩個樂器的位置,而不是來自於背景。圖1.e顯示了像素是如何聚集在聲音信號周圍的。同樣的顏色被分配給產生相似聲音的像素。

將聲音融入視覺的能力將對一系列與視頻識別和處理相關的應用產生重大影響。PixelPlayer分離和聲源定位的能力將可以對每個物體的聲音進行獨立的處理,這有助於聽覺識別。我們的系統還可以促進對視頻進行聲音編輯,例如,對特定對象的音量進行調整,或者刪除來自特定聲源的音頻。

最近有兩篇論文提出通過視音頻結合來對不同源的音頻進行分離。其中一篇提出了如何通過人的外表來解決語音領域的雞尾酒會問題。例外一篇論文演示了一個視聽系統,它將屏幕上場景對應的聲音和屏幕上不可見的背景音相分離。

2.視聽分離與定位

在本節中,我們將介紹PixelPlayer的模型架構,並提出可以根據視頻來分離聲音的混合-分離訓練框架。

2.1 模型結構

本文提出的模型由三部分組成:一個視頻分析網路、一個音頻分析網路和一個音頻合成網路,如圖2所示:

逆天!MIT新「像素髮聲」系統,完美分離聲與畫(附視頻)

圖2

  1. 視頻分析網路:它主要通過視頻幀提取視頻特徵,它可以是用於可視化分類任務的任意網路架構。本文中應用的是ResNet-18的擴展版本,關於這個網路的具體細節會在實驗部分進行詳細的描述。對於一個大小為TxHxWx3的視頻,ResNet模型對每一幀提取Tx(H/16)X(W/16)xK的特徵,在應用temporal池化處理後,可以獲得大小K的幀特徵ik(x,y)。

  2. 音頻分析網路:音頻分析網路使用的是U-Net結構,將輸入聲音分割為K個部分,用Sk(K=1,…,k)表示。經驗發現,使用語譜圖比使用原始波形的效果更好,因此本文所提出的網路使用了聲音的時頻(T-F)特徵。首先,對輸入的混合音頻使用短時傅里葉變換(STFT)以獲得其語譜圖,然後將語譜圖轉換到數頻域,並將獲得的特徵輸入到U-Net網路中,以獲得包含不同聲源的特徵圖譜。

  3. 聲音合成網路:聲音合成網路最終通過獲得的像素級視頻特徵ik(x,y)和音頻特徵sk來預測待預測聲音。輸出的語譜圖是通過基於視頻的光譜圖掩膜技術獲得的。具體地說,一個掩膜M(x, y)可以將像素的聲音從輸入的音頻中分離出來,並與輸入譜圖相乘。最後,為了得到預測的波形,我們將語譜圖的預測振幅與輸入譜圖相結合,並利用Griffin-Lim演算法來重建。

2.2半監督訓練的混合-分離模型

訓練混合-分離描寫的想法是人為地創建一個複雜的聽覺場景,然後解決聲音分離和真實的聽覺場景分析問題。 利用音頻信號具有疊加性的事實,我們通過混合來自不同視頻的聲音來生成複雜的音頻輸入信號。 該模型的學習目標是從輸入的音頻中分離出一個以與視覺輸入相關的音頻。

逆天!MIT新「像素髮聲」系統,完美分離聲與畫(附視頻)

圖3

圖3顯示了在兩個視頻混合情況下的訓練框架。訓練階段與測試階段不同,主要體現為以下兩個部分:1)我們從訓練集中隨機抽取多個視頻,並混合它們的音頻部分,目的是根據相應的視覺輸入來恢復出每一個音頻;2)視頻特徵是通過時空(spatial-temporal)的最大池化方法(max pooling)獲得的,而並非像素級的特徵。值得注意的是,儘管訓練過程中有明確的目標,但仍然是無監督的,因為我們不使用數據標籤,也不對採樣的數據做出假設。

我們系統中的學習目標是語譜圖的掩膜,它們可以是二進位掩膜或比率掩膜。對於而進位掩模,通過觀察目標聲音在每個T-F單元中混合聲音的主要成分,計算出第N個視頻的目標掩膜的值。

逆天!MIT新「像素髮聲」系統,完美分離聲與畫(附視頻)

其中(u,v)表示以T-F為單位的坐標軸,S表示的語譜圖。每一個像素點的sigmoid交叉熵損失函數用來作為學習的目標函數。對於比率掩膜,視頻的真實掩膜是通過目標聲音和混合聲音的振幅比例來計算的。

逆天!MIT新「像素髮聲」系統,完美分離聲與畫(附視頻)

在這裡,每一個像素點L1損失是用來訓練的。要注意的一點是,真實的掩膜值由於一些干擾,不一定一直在[0,1]範圍內。

3.實驗過程與分析

3.1實現細節

我們在模型訓練中的目標是能夠在自然的視頻上學習(包括solos和duets),對驗證集進行定量評估,最後用混合數據解決自然視頻的源分離和定位問題。因此,我們將我們的音樂數據集分成500個視頻進行培訓,130個視頻用於驗證,還有84個用於測試的視頻。其中,500個訓練視頻包含了二重奏和獨奏,驗證集只包含獨奏,而測試集只包含二重奏。

在訓練過程中,我們從MUSIC數據集中隨機抽取N=2個視頻,這些視頻可以是solos、duets或靜默背景。無聲的視頻是通過將無聲的音頻波形與包含自然環境圖像的ADE數據集的圖像隨機配對的。這種技術通過引入更多的無聲視頻,使模型更適合於對象的定位。總而言之,輸入混合音頻可以包含0到4個樂器。我們也嘗試了混合更多的聲音,但這使得這項任務更具挑戰性,而且模型也沒有訓練得更好。

在優化過程中,我們使用一個動量=0.9的SGD優化器。因為我們在ImageNet上採用了預訓練的CNN模型,因此將音頻分析網路和音頻合成器的學習速率設置為0.001,並將視頻分析網路的學習速率設為0.0001。

3.2模型的訓練效果

為了對模型的性能進行定量的評估,我們還使用混合-分離的過程來製作合成混合音頻的驗證集,然後進行分離。

如表1所示,在所有的模型中,NMF通過使用音頻和真實的標籤來進行源分離。其餘的模型都是基於和我們所描述框架相同的深度學習的,通過輸入的視頻和音頻來進行模型學習。光譜回歸是指基於輸入的混合語譜圖,直接通過回歸輸出語譜圖的值,而非輸出語譜圖的掩碼值。從圖中可以看出,二值掩膜的效果最好。

逆天!MIT新「像素髮聲」系統,完美分離聲與畫(附視頻)

表1

如表2所示,是對聲分離性能的主觀評價。從表中可以看出基於二值掩膜在聲音分離中優於其他模型

逆天!MIT新「像素髮聲」系統,完美分離聲與畫(附視頻)

表2

如表3所示,是對視頻-聲音一致性的主觀評價。基於二值掩膜的模型可以最好的地將視覺和聲音聯繫起來。

逆天!MIT新「像素髮聲」系統,完美分離聲與畫(附視頻)

表3

4.結論

在這篇文章中,我們介紹了PixelPlayer,這個系統可以學習如何對輸入的聲音進行分離,並在輸入的視頻中定位對應的發聲源。PixelPlayer是在MUSIC這個數據集上訓練的,它收集了與樂器相關的大量的無標籤視頻。通過使用定量、定性的結果和主觀的用戶研究,證明了我們的多模態學習系統的有效性。希望我們的工作能夠開闢新的研究途徑,通過視覺和聽覺信號來理解聲音源分離的問題。

【加入社群】

新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號: aiera2015_1 入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

人工智慧肉搏戰:商湯和曠視們的商業化征途
DeepMind 最新研究:通過刪除神經元理解深度學習

TAG:新智元 |