當前位置:
首頁 > 最新 > 人工智慧學會「聽音辨聲」

人工智慧學會「聽音辨聲」

美國麻省理工學院的科研人員開發出一套人工智慧系統,能夠分辨出音樂中不同樂器發出的聲音,並單獨調音。

人們可以藉助均衡器對歌曲旋律中的低音進行調節,但麻省理工學院計算機科學與人工智慧實驗室(Computer Science and Artificial Intelligence Lab,CSAIL)的科研人員帶來了更好的解決方案。他們的PixelPlayer系統使用人工智慧來分辨同一段音樂中不同樂器的聲音,然後對不同聲音進行調整,讓音樂聽起來更洪亮或更柔和。

如果使用音視頻作為輸入數據,經過充分訓練的PixelPlayer系統會分離伴音音頻並識別聲音來源,然後計算圖像中每個像素的音量並對其進行「空間定位」,即識別視頻片段中生成類似聲波的部分。科研人員將在2018年9月的歐洲計算機視覺會議上發表該研究成果。

「我們預期的最好情況是,可以識別出哪些樂器會發出哪類聲音,」CSAIL博士趙航(音)說道:「我們對自己能夠實際上在像素級別對樂器進行空間定位感到驚訝。能夠做到這一點增加了很多可能性,例如只需點擊視頻即可編輯各個樂器的音軌音頻。」

PixelPlayer的核心是基於樂器組合多模態來源(Multimodal Sources of Instrument Combinations,MUSIC)進行訓練的神經網路。這是一個由來自YouTube的714個未經剪輯且未經標記的視頻組成的數據集,其中總時長為60小時的500個視頻被用於訓練,其餘視頻則用於驗證和測試。在訓練過程中,科研人員將演奏者演奏吉他、大提琴、單簧管、長笛和其他樂器的片段饋送給演算法。

這只是PixelPlayer多元機器學習框架的一部分。在經過訓練的視頻分析演算法從視頻片段的幀中提取出視覺特徵後,第二個神經網路(即音頻分析網路)會將聲音拆分為各個部分並從中提取特徵。最後,音頻合成網路會使用來自這兩個網路的輸出將特定像素與聲波關聯起來。

PixelPlayer完全採用自我監督型學習方法,這意味著它不需要人類對數據進行注釋,並且能夠識別超過20種樂器的聲音。研究人員表示,數據集越大,它能夠識別的樂器就會越多,但同時也會在區分樂器子類之間的細微差異方面遇到麻煩。它還可以識別音樂元素,例如小提琴的諧波頻率。

科研人員認為PixelPlayer能夠幫助進行聲音編輯,或者用於幫助機器人更好地理解動物、車輛和其他物體製造的環境音。他們表示:「我們希望我們的工作能夠開闢出新的研究途徑,通過視覺和聽覺信號來理解聲音源分離的問題。」


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 人工智慧快報 的精彩文章:

IBM正在研製通用型深度學習晶元
美國國防部計劃成立聯合人工智慧中心

TAG:人工智慧快報 |