MIT提出像素級聲源定位系統PixelPlayer：無監督地分離視頻中的目標聲源

最新 04-12

選自arxiv

作者：Hang Zhao、Chuang Gan、Andrew Rouditchenko、Carl Vondrick Josh McDermott、Antonio Torralba

機器之心編譯

參與：劉曉坤、李澤南

相比單模態信息，多模態信息之間的關聯性能帶來很多有價值的額外信息。在本文中，MIT 的研究員提出了 PixelPlayer，通過在圖像和聲音的自然同時性提取監督信息，以無監督的方式實現了對視頻的像素級聲源定位。該系統有很大的潛在應用價值，例如促進聲音識別，以及特定目標的音量調整、聲音移除等。

論文鏈接：https://arxiv.org/pdf/1804.03160.pdf

項目地址：http://sound-of-pixels.csail.mit.edu/

這個世界上存在視覺和聽覺信號的豐富資源。本文提出的視覺和聽覺系統可以識別目標、分割目標覆蓋的圖像區域，以及分離目標產生的聲音。雖然聽覺場景分析 [1] 在環境聲音識別 [2,3] 聲源分離 [4,5,6,7,8,9] 已被廣泛研究過，但實際上，圖像和聲音之間的自然同時性可以提供豐富的用於定點陣圖像中的聲音的監督信息 [10,11,12]。訓練系統從圖像或聲音中識別目標通常需要大量的監督信息。然而在本文中，研究者利用聲音-圖像的聯合學習來識別圖像中生成聲音的目標，並且不需要任何人工監督 [13,14,15]。

MIT 的研究表明：通過結合聲音和圖像信息，機器學習系統能以無監督的方式從圖像或聲音中識別目標、定點陣圖像中的目標，以及分離目標產生的聲音。該系統被稱為 PixelPlayer。給定一個輸入視頻，PixelPlayer 可以聯合地將配音分離為目標組件以及在圖像幀上定位目標組件。PixelPlayer 允許在視頻的每個像素上定位聲源。

研究人員利用了圖像和聲音的自然同時性來學習圖像聲源定位模型。PixelPlayer 以聲音信號為輸入，並預測和視頻中空間定位對應的聲源信號。在訓練過程中，研究者利用了自然聲音的可加性來生成視頻，其中構成聲源是已知的。研究者通過混合聲源來訓練模型生成聲源。

圖 1：圖中展示了 PixelPlayer 的一個應用案例（輸出視頻結果請查看補充材料）。

在這個案例中，該系統用大量的不同組合的人們彈奏樂器的視頻來訓練，包括獨奏和二重奏。所有視頻都不包含使用樂器的標籤、定位，以及音樂的聽覺性質。在測試時，輸入（圖 1 a）是多個樂器一起彈奏的視頻，其中包括圖像幀 I（x,y,t）和單聲道音頻 S（t）。PixelPlayer 將執行聲音-圖像源分離和定位，分割輸入聲音信號來評估輸出聲音組件 Sout（x,y,t），每個組件對應視頻幀中空間定位（x,y）中的聲源。圖 1 c 展示了 11 個示例像素的復原聲音信號。平直的藍線對應沒有生成聲音的的像素。非平直的信號對應來自每個獨立樂器的聲音。圖 1 d 展示了每個像素的評估聲音能量，或聲音信號的音量。注意，系統準確地檢測到了聲音是來自兩個樂器，而不是來自背景。圖 1 e 展示了像素如何根據它們的組件聲音信號進行聚類。相同的顏色被被分配到生成非常相似聲音的像素。

將聲音整合到圖像中的系統將擁有很廣泛的應用，例如視頻識別和操控。PixelPlayer 的分離和定位聲源的能力將允許更多對目標聲音的獨立操作，並可以促進聲音識別。該系統還可以促進視頻的聲音編輯，例如，特定目標的音量調整，或移除特定目標的聲音等。

與本研究平行的還有近期的兩篇論文 [16,17]，它們也展示了結合圖像和聲音來將聲音分解成組件的應用價值。[16] 展示了人的外觀如何幫助解決語音領域中的雞尾酒會問題。[17] 展示了一個聲音-圖像系統，其可以將屏幕場景產生的聲音和視頻中不可見的背景聲音分離。

論文：The Sound of Pixels

摘要：我們提出了 PixelPlayer，該系統通過大量無標籤視頻數據訓練，來學習定點陣圖像中生成聲音的區域，並將輸入聲音分割成一系列組件，以表徵源於每個像素的聲音。我們的方法利用了視覺和聽覺模態的自然同時性來學習模型，可在不需要額外人工監督的情況下，聯合解析聲音和圖像。在最新收集的 MUSIC 數據集上的實驗結果表明，我們提出的 Mix-and-Separate 框架在圖像的聲音定位任務上超越了基線方法。多項定性結果表明，我們的模型可以在視野中定位聲音，可應用於例如獨立地調整聲源的音量這樣的任務。

圖 2：生成像素關聯聲音的流程：像素級視覺特徵通過對擴張 ResNet 的輸出的 T 個幀進行時間最大池化得到。輸入聲音的頻譜傳遞到一個 U-Net 中，其輸出是 K 個音頻通道。每個像素的聲音由一個聲音合成器網路計算得到。聲音合成器網路輸出一個掩碼，其將被應用到輸入頻譜上，以選擇和該像素相關的頻譜組件。最後，將 inverse STFT 應用到頻譜上為每個像素計算並生成最終的聲音輸出。

圖 3：本文提出的 Mix-and-Separate 模型的訓練流程，以混合兩個視頻為例（N=2）。

虛線框表示圖 2 中詳細描述的模塊。來自兩個視頻的聲音將被加到一起來生成已知構成聲源信號的輸入混合體。該網路被訓練來根據對應的視頻幀分離聲源信號；它的輸出是對兩個聲音信號的評估。注意：這裡並沒有假設每個視頻都包含了單個聲源。此外，這裡沒有提供任何標註。因此該系統可以學習分離獨立聲源，而不需要傳統方法中的監督信息。