Amazing！只需輕輕一點，即可編輯視頻中的樂器聲音

新聞 07-06

選自MIT

作者：Adam Conner-Simons

機器之心編譯

參與：路雪

MIT CSAIL 的研究者創造了一個深度學習系統，可以分離出樂器演奏視頻中的樂器聲音，還能改變音量。

業餘和專業音樂家等可能都需要花費數小時看 YouTube 視頻，來學習如何彈奏他們喜歡的歌曲的某個部分。但是如果有一種方式可以玩轉視頻，將你想聽的樂器單獨分離出來呢？

這就是 MIT 計算機科學與人工智慧實驗室（CSAIL）新 AI 項目的研究成果：一個觀看樂器表演視頻並將特定樂器的聲音分離出來，使之音量更大或更輕柔的深度學習系統。

該系統是「自監督」的，不需要人類對樂器或樂器聲音進行任何標註。

該 PixelPlayer 系統在超過 60 個小時的視頻上進行了訓練，它能夠觀看之前未看過的音樂表演視頻，在像素級別上識別特定樂器，並提取出該樂器的聲音。

例如，PixelPlayer 系統可以觀看大號和小號合奏的「超級馬里奧兄弟」主題曲的視頻，然後分離出每個樂器的聲波。

研究者稱改變單個樂器音量的能力意味著，未來此類系統可幫助工程師提高以前的音樂會片段的音質。你甚至可以想像取出某個樂器的部分，然後預覽把它換成其他樂器聽起來會是什麼樣（如將木吉他換成電吉他）。

該研究團隊在新論文中展示了，PixelPlayer 能夠識別超過 20 種常見樂器的聲音。論文一作 Hang Zhao 稱如果具備更多訓練數據，該系統還可以識別更多種樂器，不過它在處理樂器子類別之間的細微差別時仍可能存在問題（比如中音薩克斯和次中音薩克斯）。

之前分離聲音來源的努力僅僅聚焦於音頻上，這通常需要大量的人類標註。而 PixelPlayer 引入了視覺元素，研究者稱這不需要人類標註，因為視覺提供了自監督。

該系統首先找出聲音來源所在的圖像區域，然後將輸入聲音分離成多個部分，表示來自每個像素的聲音。

「我們期望中最好的情況是系統能夠識別出哪種樂器發出了哪種聲音。」CSAIL 的博士生 Zhao 說道，「我們驚訝地發現，真的可以在像素級別上對樂器進行空間定位。這種做法給了我們更多的可能性，比如只需單擊視頻就可以編輯單個樂器的音頻。」

PixelPlayer 使用「深度學習」方法，即它使用在現有視頻上訓練的「神經網路」找出數據中的模式。具體來說，一個神經網路分析視頻的視覺元素，一個分析音頻，第三個則是「合成器」，將特定像素和特定聲波結合起來以分離不同聲音。

PixelPlayer 使用「自監督」深度學習方法，這意味著 MIT 團隊沒有確切理解該系統如何學習哪個樂器生成哪些聲音。

但是，Zhao 認為，該系統似乎可以識別音樂的實際元素。例如，某些諧波頻率似乎與樂器相關，如小提琴；而急促的頻率則對應木琴類的樂器。

Zhao 稱類似 PixelPlayer 的系統甚至可用於機器人身上，以更好地理解其他對象（如動物或車輛）製造的環境聲音。

他與 MIT 電氣工程和計算機科學系教授 Antonio Torralba、腦與認知科學系教授 Josh McDermott，以及助理研究員 Chuang Gan、本科生 Andrew Rouditchenko 和博士生 Carl Vondrick 一起合作了這篇論文。目前該論文已被歐洲計算機視覺大會（ECCV）接收，該會議將於今年九月在德國慕尼黑舉行。

論文：The Sound of Pixels

Amazing！只需輕輕一點，即可編輯視頻中的樂器聲音

論文鏈接：https://arxiv.org/pdf/1804.03160.pdf

摘要：我們提出了 PixelPlayer 系統，該系統利用大量非標註視頻，學習定位生成聲音的圖像區域，並將輸入聲音分離成多個部分，代表來自每個像素的聲音。我們的方法利用視覺和音頻的自然同步來學習聯合解析聲音和圖像的模型，且無需額外的人工監督。在新收集的 MUSIC 數據集上進行的實驗結果證明，我們提出的 Mix-and-Separate 框架優於聲源分離的多個基線模型。定性結果表明我們的模型可以學習定位視頻中的聲源，並能夠單獨調整聲源的音量。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※卷積神經網路十五問：CNN與生物視覺系統的研究探索
※我們今天想介紹的這篇論文，剛剛中了CVPR 2018最佳論文

TAG:機器之心 |