科研人員建立基於小波譜圖和深度卷積網路的音頻場景識別新框架
最新
12-14
近年來,網路上音頻的種類和數量呈現爆髮式增長。相比語音和音樂,音頻中的環境信息更加多樣,受到了國內外研究者的廣泛關注。
音頻場景分類的目的是識別出錄製音頻的特定場景,從而使穿戴式設備、智能機器人感知周圍的環境信息並做出相應反射。傳統的音頻分類任務大都使用短時特徵,如梅爾頻率倒譜係數等。然而,環境信息一般隱藏在不同時長的背景聲中,因此提取多解析度多尺度的特徵是音頻場景分類的關鍵。
近期,中國科學院聲學研究所語言聲學與內容理解重點實驗室博士生陳航艇及其導師張鵬遠等人提出了一種基於小波變換和深度卷積神經網路的場景識別新方法。相關研究成果已被Proceedings of the Annual Conference of the International Speech Communication Association(2018)收錄。
研究人員提出的音頻場景分類系統包括前端和後端兩個模塊。前端採用不同時長和頻率分布的小波濾波器來提取小波譜圖,此濾波器組可以同時捕捉到轉瞬即逝的音頻事件和長時的韻律節奏。後端的深度卷積神經網路結合小卷積核和池化操作,將「高維語義」從原始特徵中抽象出來。
在相關場景數據集上的實驗結果表明,使用小波譜圖和深度卷積神經網路的音頻場景識別表現明顯優於傳統的短時特徵。相比短時特徵,長時的小波譜圖的時間解析度較低,一定程度上降低了存儲和計算的要求。
該研究為音頻場景的分析提供了新的前後端架構,為環境聲音的研究提供了新思路。
基於小波變換和深度卷積網路的場景識別系統(圖/陳航艇)
來源:中國科學院聲學研究所


※細胞乙醯化的輻射增敏研究取得進展
※34年前,我們第一次拍到了哈雷彗星丨科學史
TAG:中科院之聲 |