當前位置:
首頁 > 科技 > 清華大學吳及:音頻信號的深度學習處理方法

清華大學吳及:音頻信號的深度學習處理方法

不到現場,照樣看最乾貨的學術報告!

嗨,大家好。這裡是學術報告專欄,讀芯術小編不定期挑選並親自跑會,為大家奉獻科技領域最優秀的學術報告,為同學們記錄報告乾貨,並想方設法搞到一手的PPT和現場視頻——足夠乾貨,足夠新鮮!話不多說,快快看過來,希望這些優秀的青年學者、專家傑青的學術報告 ,能讓您在業餘時間的知識閱讀更有價值。

人工智慧論壇如今浩如煙海,有硬貨、有乾貨的講座卻百里挑一。「AI未來說·青年學術論壇」系列講座由中國科學院大學主辦,百度全力支持,讀芯術作為合作自媒體。本次承辦單位為中國科學院大學學生會,協辦單位為中國科學院計算所研究生會、網路中心研究生會、人工智慧學院學生會、化學工程學院學生會、公共政策與管理學院學生會、微電子學院學生會。「AI未來說·青年學術論壇」第四期「語音技術」專場已於2019年4月27日下午在中科院舉行。清華大學吳及老師為大家帶來報告《音頻信號的深度學習處理方法》。

吳及,清華大學電子工程系副系主任,長聘教授,博士生導師。清華-訊飛聯合實驗室主任。IEEE 高級會員,中國語音產業聯盟技術工作組組長,認知智能國家重點實驗室學術委員會委員,口腔數字化醫療技術和材料國家工程實驗室第二屆技術委員會委員,中國計算機學會語音對話與聽覺專業組委員。2018-2022 教育部電信類專業教學指導委員會副秘書長,承擔國家重點研發計劃、863、國家自然科學基金、工信部電子發展基金等多項國家科研項目。

報告內容:深度學習方法的引入顯著推動了語音技術的進步。語音識別,語音合成和說話人識別的實際應用都在不斷增長,語音技術已經成為人工智慧的重要組成部分和應用落地的主要方向之一。音頻信號要比語音信號範圍更大,也有很多重要而有趣的研究方向,比如音頻場景分析。對於音頻信號,傳統上的處理方法都可以分為音頻特徵抽取和音頻序列建模兩個主要部分。這個報告討論了將深度學習方法引入音頻信號處理中的一些嘗試和初步結果。

音頻信號的深度學習處理方法

報告主要包括音頻信號領域的研究方向介紹和將深度學習方法引入音頻信號處理中的嘗試和初步結果。

報告首先給出了傳統的音頻信號處理的基本框架,包括音頻特徵提取和特徵序列建模兩個主要部分。即從音頻幀入手進行時頻分析得到特徵,再將多個幀得到的特徵序列進行建模處理。傳統方法通過短時傅里葉變換得到線性時頻譜,再經由梅爾濾波器組得到梅爾能量譜,通過對數處理得到對數譜,還可以進一步處理得到MFCC等音頻特徵。

在特徵提取上,引入深度學習方法,一是在梅爾濾波器組上構造頻域濾波器組的神經網路。如果引入形狀約束,此時濾波器增益、中心頻點和帶寬是三個可學習參數,對於三角窗濾波器可以使用 sigmoid 曲線和直線擬合三角窗,以保證全局可微性,也可以採用高斯窗濾波器或者採用無形狀約束的濾波器。

在頻譜重建任務上,無約束的濾波器組表現得更好,而在音頻場景分類任務上,有形狀約束的濾波器組表現更好。進一步分析學習得到的濾波器,可以發現可學習濾波器組傾向於使用更多的低頻信息。二是改進端到端的音頻特徵提取方法。TCNN (Google, 2015) 提出可以使用時域卷積 時域池化 非線性變換的時域信號處理單元。

WaveNet (Google, 2016) 提出可以使用逐層鄰域卷積 時域池化非線性變換。報告提出了使用神經網路進行傅里葉變換的模塊,通過挑選特定頻點的方式,提高了該模塊的時間效率,通過向可學習頻點中添加相應的初始化條件,優化傅里葉變換模塊中的頻點挑選,並通過為學習基函數添加正弦和餘弦約束條件,來提高該模塊的特徵提取能力。相比於TCNN和WaveNet,該模塊的性能和效率都有了顯著提升。

在特徵序列建模部分也開展了一系列的工作。在複雜音頻場景信號中,某些音頻事件的發生是隨機的,因此類似的音頻幀可以出現在不同位置,稱之為音頻時移形變;針對這個問題,提出了基於傅里葉變換的時間轉移模塊,時頻譜通過序列傅里葉變換和取能量得到特徵譜,再經過特徵降維得到音頻特徵。該模塊可以疊加到 DNN、CNN、LSTM 等不同的神經網路結構,並在音頻場景分類任務中取得了一致的性能提升。

對於由於數據量不足可能導致神經網路模型過擬合的問題,考慮通過隨機分段亂序和隨機跳幀的思想進行數據增廣,提出了基於規則的音頻序列擴充方法和使用隨機跳幀的循環神經網路模型。基於規則的序列擴充即把數據分段並亂序重組,隨機分割增加了序列的多樣性,增大了數據規模,帶來了明顯的性能提升。

隨機跳幀策略可以分層實現,各層之間的跳幀策略可以相同,也可以不同,這一策略對 LSTM 和 GRU 均有效果,並且跳幀概率 p 取值越小,序列多樣性越好,性能越好。

對於神經網路序列建模能力不足的問題,通過給LSTM 每幀的輸出一個權重和重構 LSTM 的記憶單元,提出了基於時間注意力和記憶注意力的 LSTM 模型。兩種注意力機制存在互補性,在音頻場景分類任務上實現了更好的性能。

將上述各種策略加以融合,經過端到端的優化,能夠在計算效率提升約兩個數量級的情況下,在音頻場景分類任務上實現顯著的性能提升。

最後,吳教授總結:深度學習為音頻信號處理提供了新的視角和處理手段;傳統方法可基於聯合優化重新考慮和設計;基於深度神經網路的音頻序列模型,能夠利用音頻信號的特性加以優化;端到端的音頻信號處理在效果和效率方面都有很大的潛力。

留言 點贊 發個朋友圈

我們一起分享AI學習與發展的乾貨

歡迎關注全平台AI垂類自媒體 「讀芯術」


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

歐盟發布AI倫理指南:要負責任且無偏見

TAG:讀芯術 |