思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

新聞 05-04

雷鋒網 AI 科技評論按：為期 5 天的 ICASSP 2018，已於當地時間 4 月 20 日在加拿大卡爾加里（Calgary）正式落下帷幕。ICASSP 全稱 International Conference on Acoustics, Speech and Signal Processing（國際聲學、語音與信號處理會議），是由 IEEE 主辦的全世界最大的，也是最全面的信號處理及其應用方面的頂級學術會議。今年 ICASSP 的大會主題是「Signal Processing and Artificial Intelligence: Challenges andOpportunities」，共收到論文投稿 2830 篇，最終接受論文 1406 篇。其中，思必馳-上海交大智能人機交互聯合實驗室最終發表論文 14 篇，創國內之最。

14 篇論文內容概述如下：

1.抗噪魯棒語音識別在 Aurora4 基準上的機器與人類對比

NoiseRobust Speech Recognition on Aurora4 by Humans and Machines.

By Yanmin Qian, Tian Tan, Hu Hu and Qi Liu.

本篇 paper 已發表在 2018 年的 IEEE/ACM TASLP 上，感興趣的朋友可關注如下信息：

Adaptivevery deep convolutional residual network for noise robust speech recognition.IEEE/ACM Transactions on Audio, Speech, and Language Processing.
By Tian Tan, Yanmin Qian, Hu Hu, Ying Zhou, Wen Ding, Kai Yu.
DOI:10.1109/TASLP.2018.2825432，2018.

雜訊環境下的語音識別一直是一個巨大挑戰。在我們實驗室之前開發的極深卷積神經網路 VDCNN 基礎上，通過引入殘差學習得到 VDCRN 模型以進一步提升模型魯棒性，同時在 VDCRN 模型上開發聚類自適應訓練方法來減少模型在雜訊環境下的訓練和測試間失配。此外，還使用基於未來信息預測向量的新型 LSTM-RNNLM 來改善系統性能。最終所開發的抗噪語音識別系統，在雜訊標準數據集 Aurora4 上達到了 3.09%的詞錯誤率，也是目前在此任務上報道的最好結果。經過分析對比，這個錯誤率已經非常接近真實人類在這個任務上的性能，在抗噪魯棒語音識別研究上具有里程碑意義。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

圖2：極深卷積殘差神經網路結構圖VDCRN

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

圖3：CAT-VDCRN上聚類自適應訓練，包括以特徵圖為基和卷積核為基

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

圖4：不同系統下的WER（錯詞率）比較

如上圖，我們的 5-gram+LSTM+FV-LSTM 的錯詞率已經與人類真實情況非常接近。

2.基於 Focal-KLD 空洞卷積神經網路模型的單信道多說話人識別

FocalKL-Divergence based Dilated Convolutional Neural Networks for Co-ChannelSpeaker Identification.

By Shuai Wang, Yanmin Qian and Kai Yu.

本篇 paper 獲得 IEEE N.Ramaswamy MemorialStudent Travel Grant 獎項，今年僅 2 篇論文獲得該獎項。在 2017 年 9 月，思必馳曾兩次登上大型人工智慧科普類節目《機智過人》，其中一期展示的是聲紋識別技術，而這一片論文，則是對該技術的詳細剖析。

單通道多說話人識別目的在於識別出一段有語音重疊的所有說話人，這也是著名的「雞尾酒問題」的一個子問題。我們針對基於神經網路的單通道多說話人識別框架進行了多種改進：

1）採用空洞卷積學習到更魯棒、區分性更好的深度特徵。

2) 提出了 Focal-KLD 使得訓練過程中給與 hard samples 更多的權重。

3）提出了一種後處理方法來將幀級別的預測匯總為句子級別的預測。實驗結果表明我們提出的系統相對於基線系統取得了明顯的性能提升，在兩個說話人情況下達到 92.47%的正確率，三個說話人時正確率為 55.83%。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

圖5：基於RSR 資料庫的人工混合的單信道多說話人數據

3.用於自適應波束成形的結合神經網路與聚類方法的魯棒隱蔽值估計

RobustMask Estimation by Integrating Neural Network-based and Clustering-basedApproaches for Adaptive Acoustic Beamforming.

By Ying Zhou, Yanmin Qian.

思必馳擁有國內非常領先的前端聲學處理能力，在多麥陣列和前端信號處理、asr方面均有不錯的表現。在前端做了說話人自適應，後端輔以聲學模型的自適應，在不同環境下不同說話人的識別結果有提高。目前思必馳陣列方案包括線性四麥、雙麥等方案，成為聯想電視、熊貓電視、阿里天貓精靈、騰訊聽聽等智能終端設備的共同選擇。

基於隱蔽值（mask-based）的波束形成（beamforming）方法現在在多通道雜訊魯棒自動語音識別研究中受到了廣泛的關注。在已有的 mask 估計模型中，基於神經網路 mask 估計方法有較好的性能，但是這種方法由於需要模擬的數據進行訓練，因此在真實應用場景下存在著訓練與測試不匹配的問題。本文針對這個問題，提出了一個新的非監督框架，利用複數混合高斯模型（CGMM，Complex Gaussian mixture model），估計真實無標籤數據的軟標籤，使得真實數據可以用於mask 神經網路的訓練；除此以外，利用複數混合高斯模型，本文將說話人自適應技術從後端的聲學模型建模引入到基於 mask 估計的波束形成技術，實現了一個說話人相關的波束形成技術。我們提出的方法在 CHIME-4 數據集上進行了驗證，實驗結果可以發現，在真實帶噪的測試條件下，語音識別性能有明顯提升，這種基於非監督方法的神經網路 mask 波束形成技術可以顯著減小訓練與測試的不匹配問題。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

圖 6：不同方法進行自適應的錯詞率結果

如上圖，引入了說話人相關參數的自適應方法進一步降低了幾乎所有集合的識別錯誤率。經過這兩個方法優化之後最終得到最好的結果比 BLSTM-IBM 系統提升了近 15%。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

圖7：前端mask神經網路與後端聲學模型的自適應結合情況下的錯詞率情況

如上圖，即使前端做了說話人自適應，後端聲學模型的自適應仍舊有效。我們提出的與複數混合高斯模型結合的神經網路 mask 估計框架，由於引入了真實的訓練數據可以有效減小模擬與實際環境的不匹配情況，並且由於加入了說話人自適應技術，可以針對特定的說話人得到更好的多麥降噪以及識別效果。

4.用對抗多任務學習的口語語義理解半監督訓練方法

Semi-SupervisedTraining Using Adversarial Multi-Task Learning For Spoken LanguageUnderstanding.

By Ouyu Lan, Su Zhu, Kai Yu.

口語語義理解（Spoken Language Understanding, SLU）通常需要在收集的數據集上進行人工語義標註。為了更好地將無標註數據用於 SLU 任務，我們提出了一種針對 SLU 半監督訓練的對抗對任務學習方法，把一個雙向語言模型和語義標註模型結合在一起，這就減輕了對標註數據的依賴性。作為第二目標，雙向語言模型被用於從大量未標註數據中學習廣泛的無監督知識，從而提高語義標註模型在測試數據上的性能。我們為兩個任務構建了一個共享空間，並為每個任務分別構建了獨立私有空間。此外，對抗任務判別器也被用於獲取更多任務無關的共享信息。在實驗中，我們提出的方法在 ATIS 數據集上達到了最好的性能，並在 LARGE 數據集上顯著提高了半監督學習性能。我們的模型使得語義標註模型更具一般性，且當標註數據顯著多餘無標註數據時，半監督學習方法更加有效。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

圖8：在不同數據集下的不同任務模型的實驗結果

如上圖，我們提出的 BSPM 和 BSPM+D 始終比其他方法取得更好的性能結果。與傳統 STM 相比，我們的方法在全部數據集上顯著提高 99.9%。與簡單多任務模型 MTLe 相比，我們的方法在5k數據集上提升 99.9%，在 10k 數據集上提升 99.5%。與 PSEUDO 方法相比，在 5k 和 10k 數據集上提升 99.8%，在 15k 數據集上提升 95%。實驗表明，當標註數據有限而無標註數據十分充足時，我們的半監督學習模型要更加有效。當語言模型學習無監督知識時，共享-私有框架和對抗訓練使得語義標註模型泛化，在未見過的數據上表現更好。

5.基於深度強化學習的對話管理中的策略自適應

Policy Adaption For Deep Reinforcement Learning-Based Dialogue Management.

By LuChen, Cheng Chang, Zhi Chen, Bowen Tan, Milica Gasic, Kai Yu.

對話策略優化是統計對話管理的核心。深度強化學習被成功應用於提前定義好的固定領域中，但是當領域動態發生變化，例如有新的語義槽被添加到當前領域的本體中，或者策略被遷移到其它領域時，對話狀態空間和對話動作集合都會發生變化，因而表示對話策略的神經網路結構也會發生變化。這將使得對話策略的自適應變得十分困難。本文提出一種多智能體對話策略 MADP(Multi-AgentDialogue Policy), 相比於普通的基於深度強化學習的對話策略，MADP不僅學習更快，也更適合於領域擴展和遷移。MADP 包括一個語義槽無關的智能體（G-Agent）和一些語義槽相關的智能體（S-Agent）。每個 S-Agent 除了有私有參數外，還有相互之間共享的參數。當策略進行遷移時，S-Agent 中的共享參數和 G-Agent 中的參數可以直接遷移到新領域中。模擬實驗表明 MADP 可以顯著提升對話策略的學習速度，而且有利於策略自適應。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

圖9：基於DQN的多智能體對話策略（MADQN）

6.單通道多說話人語音識別中基於排列不變訓練的知識遷移

Knowledge Transfer in Permutation Invatiant Training for Single-Channel Multi-TalkerSpeech Recognition.

By Tian Tan, Yanmin Qian and Dong Yu

本文提出了一種結合師生訓練 TS(teacher-student training)和排列不變性訓練 PIT（permutationinvariant training）的單通道多說話人語音識別的框架。通過使用循序漸進的訓練的方法將多個教師的知識進行集成用於進一步完善系統，利用沒有標註的數據為多說話者語音識別進行領域自適應。實驗表明，TS 可以將錯詞率（WER）相對於基線 PIT 模型降低了相對 20％。我們還在人工混合的 WSJ0 語料庫上進行了評估，相對於使用 AMI 訓練的 PIT 模型實現了相對 30％的WER降低。

7.單通道多說話人語音識別中基於輔助信息的自適應性排列不變訓練

Adaptive Permutation Invariant Training with Auxiliary Information for MonauralMulti-Talker Speech Recognition.

By Xuankai Chang, Yanmin Qian and Dong Yu.

本文提出了在之前的 PIT 語音識別模型上利用輔助信息做說話人自適應，提升單聲道多說話人語音識別的性能。利用混合語音的音調和 i-vector 做為輔助輸入，用說話人組合的性別信息做為輔助任務，使用輔助特徵和多任務學習方法對置換不變數訓練模型進行訓練，讓語音分離和識別模型自適應於不同的說話人組合。另外，我們使用了 CNN-BLSTM 模型，結果證明排列不變性訓練 (PIT)可以容易地與先進的技術相結合，達到提高性能的目的，最終系統相對提升 10%。

8.基於深度混疊生成網路的聲學模型快速自適應方法

FastAdaptation on Deep Mixture Generative Network based Acoustic Modeling.

By WenDing, Tian Tan and Yanmin Qian

深度神經網路的正則化和自適應比較困難。我們深度混合生成網路，提出更高效的自適應方法：首先採用無監督模式提出自適應均值；提出鑒別性線性回歸，當缺乏自適應數據時，能夠估算出一個更魯棒的均值。實驗表明，我們提出的方法均比說話人無關的基線要好；此外對深度混合生成網路自適應結果的可視化標明，鑒別性線性回歸的確幫助了均值從一個全局的點轉換到說話人自身的中心點。

9.基於生成對抗網路數據生成的抗噪魯棒語音識別

GenerativeAdversarial Networks based Data Augmentation for Noise Robust SpeechRecognition.

By HuHu, Tian Tan and Yanmin Qian.

我們提出了利用生成對抗網路生成新的訓練數據來提升魯棒語音識別系統識別性能的方法。利用現有雜訊數據，通過生成對抗網路生成不帶標註的新的訓練數據，並提出了一種無監督的訓練方法來利用這些數據輔助聲學模型的訓練。本文在標準雜訊數據集 Aurara4 上獲得了較為顯著的提升效果。

10.聯合 i-Vector 的端到端短時文本不相關說話人確認

Jointi-Vector with End-to-End System for Short Duration Text-Independent SpeakerVerification.

By Zili Huang, Shuai Wang and Yanmin Qian.

我們嘗試在基於三元組損失函數的端到端聲紋識別系統中引入 i-vector 嵌入。在短時文本無關任務上取得了 31.0%的提升。除此之外，我們提出了困難樣本採樣的方法提升基於三元組損失函數的端到端聲紋識別系統的性能。

11.神經網路語言模型中利用結構化詞向量的快速集外詞合併

Fast OOV Words Incorporation Using Structured Word Embedding For Neural NetworkLanguage Model.

By Ruinian Chen, Kai Yu.

利用句法和形態層面的參數共享來解決神經網路語言模型中的集外詞問題。每個詞的embedding分成兩個部分: syntactic embedding 和 morphological embedding, 而集外詞的 syntactic 和 morphological 的信息可以通過知識獲得，因此可以利用神經網路中已經訓練好的參數，而無需重新訓練模型。實驗表明我們的模型在 PPL 和 CER 指標上均優於基線模型。

12.基於無監督語音識別錯誤自適應的魯棒自然語言理解

Robust Spoken Language Understanding With Unsupervised ASR-Error Adaption.

By Su Zhu, Quyu Lan, Kai Yu.

立足口語對話系統中的語義理解模塊，重點解決後端語義理解對於前端語音識別錯誤的魯棒性不足的問題。我們利用部分參數共享的 BLSTM 架構，提出無監督的語音識別錯誤自適應訓練方法來提升語義理解的魯棒性。本文提出的方法不需要對語音識別結果進行語義標註就可以取得與之匹配的性能水平，可以大大減少人工標註的工作量。

13.音頻到詞語端到端語音識別中的模塊化訓練框架

On Modular Training of Neural Acoustics-to-Word Model For LVCSR.

By Zhehuai Chen, Qi Liu, Hao Li, Kai Yu.

傳統的端到端系統不能使用文本數據進行訓練，導致需要大量標註的聲學數據進行訓練。我們率先提出模塊化的端到端模型訓練框架。一個音頻到音素的聲學模型和一個音素到詞語的語言模型分別基於聲學和語言數據進行訓練，然後進行基於音素同步解碼的聲學和語言模型聯合訓練。實驗顯示，這一框架下訓練得到的端到端模型在取得傳統系統相似準確率的情況下，大幅降低了推測複雜度。

14.雞尾酒會的序列建模

Sequence Modeling in Unsupervised Single-Channel Overlapped Speech Recognition.

By Zhehuai Chen, Jasha Droppo.

雞尾酒會問題的解決需要聲學模型具有強大的序列建模能力。我們在訓練階段為 PIT 模型添加了顯式的序列依賴性，將語言模型信息融入 PIT 模型的組合決策過程中。實驗結果顯示，這兩項技術的加入能夠顯著提升現有系統的準確率，與序列鑒別性訓練和遷移學習相結合，能使最終系統的準確率提升 30%以上。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※安永為Coinbase提供審計及IPO輔導服務
※港科大劉明：深度學習為機器人研究注入新能量，產業需求是新發展的源動力 | CCF-GAIR 2018

TAG:雷鋒網 |