MIT又出新玩法,利用AI可輕鬆分離視頻中的樂器聲音
本文由人工智慧觀察編譯
譯者:Sandy
均衡器是大概是被用來在音樂中加入低音的一種常用方式,但近日,麻省理工學院計算機科學與人工智慧實驗室(CSAIL)的研究人員研發了一個更好的解決方案。他們的深度學習系統——PixelPlayer——可以通過人工智慧來分離樂器演奏視頻中的樂器聲音,同時還能改變音量,讓它們變得更響亮或更柔和。
經過充分訓練的PixelPlayer系統,以視頻作為輸入,可以對相應的音頻進行分割,識別聲音來源,然後根據每個像素的聲音進行「空間定位」,即識別剪輯片段中產生類似聲波的區域。詳細信息在論文《The Sound of Pixels》中有所解釋,這篇論文已被歐洲計算機視覺大會(ECCV)接收,此會議將於今年9月在德國慕尼黑舉行。
「我們期望中最好的情況是系統可以識別出哪種樂器會發出哪種聲音,」CSAIL的博士生和該論文的共同作者Hang Zhao說道。「結果我們驚訝的發現,真的可以在像素級別上對樂器進行空間定位。這一結果給我們開闢了更多的可能性,比如只需點擊一下視頻就能編輯各個樂器的音頻。「
GIF
PixelPlayer的核心是一個在現有音樂視頻(一個由YouTube提供的714個未經修改的且未標記的數據視頻集)上進行訓練的神經網路。據悉,該系統在超過60個小時的視頻上進行了訓練,它能夠觀看之前未看過的音樂表演視頻,在像素級別上識別特定樂器,並提取出該樂器的聲音。
這只是PixelPlayer多管齊下機器學習框架的一部分。經過訓練的視頻分析演算法從剪輯的幀中提取視覺特徵之後,第二個神經網路——音頻分析網路, 將聲音分成小片段並從中提取特徵。最後,一個音頻合成器網路使用來自兩個網路的輸出來將特定像素與聲波進行關聯。
PixelPlayer完全是自我監督的,這意味著它不需要人類對樂器或樂器聲音進行任何標註。現在這一系統可以識別超過20種樂器的聲音。Zhao稱,如果具備更多訓練數據,該系統還可以識別更多樂器,不過,它在處理樂器子類別之間的細微差異時可能還存在問題,比如中音薩克斯和次中音薩克斯。
研究人員認為PixelPlayer可以幫助進行聲音編輯,或者用於幫助機器人更好地理解動物、車輛和其他物體所產生的環境聲音。
他們寫道:「我們希望我們的工作可以開闢新的研究途徑,通過視覺和聽覺信號來理解聲源分離的問題。」
(文中圖片來自網路)
※Salesforce公布自然語言處理重大進展,一個模型搞定十項任務
※面對中國、歐盟等大力投資量子計算,美國終於按捺不住了
TAG:人工智慧觀察 |