語音識別研究獲進展

最新 08-09

中國科學院自動化研究所智能交互團隊在環境魯棒性、輕量級建模、自適應能力以及端到端處理等幾個方面進行持續攻關，在語音識別方面獲新進展，相關成果將在全球語音學術會議INTERSPEECH2019發表。

現有端到端語音識別系統難以有效利用外部文本語料中的語言學知識，針對這一問題，陶建華、易江燕、白燁等人提出採用知識遷移的方法，首先對大規模外部文本訓練語言模型，然後將該語言模型中的知識遷移到端到端語音識別系統中。這種方法利用了外部語言模型提供詞的先驗分布軟標籤，並採用KL散度進行優化，使語音識別系統輸出的分布與外部語言模型輸出的分布接近，從而有效提高語音識別的準確率。

語音關鍵詞檢測在智能家居、智能車載等場景中有著重要作用。面向終端設備的語音關鍵詞檢測對演算法的時間複雜度和空間複雜度有著很高的要求。當前主流的基於殘差神經網路的語音關鍵詞檢測，需要20萬以上的參數，難以在終端設備上應用。為了解決這一問題，陶建華、易江燕、白燁等人提出基於共享權值自注意力機制和時延神經網路的輕量級語音關鍵詞檢測方法。該方法採用時延神經網路進行降採樣，通過自注意力機制捕獲時序相關性；並採用共享權值的方法，將自注意力機制中的多個矩陣共享，使其映射到相同的特徵空間，從而進一步壓縮了模型的尺寸。與目前的性能最好的基於殘差神經網路的語音關鍵詞檢測模型相比，他們提出的方法在識別準確率接近的前提下，模型大小僅為殘差網路模型的1/20，有效降低了演算法複雜度。

針對RNN-Transducer模型存在收斂速度慢、難以有效進行並行訓練的問題，陶建華、易江燕、田正坤等人提出了一種Self-attention Transducer (SA-T)模型，主要在以下三個方面實現了改進：（1）通過自注意力機制替代RNN進行建模，有效提高了模型訓練的速度；（2）為了使SA-T能夠進行流式的語音識別和解碼，進一步引入了Chunk-Flow機制，通過限制自注意力機制範圍對局部依賴信息進行建模，並通過堆疊多層網路對長距離依賴信息進行建模；（3）受CTC-CE聯合優化啟發，將交叉熵正則化引入到SA-T模型中，提出Path-Aware Regularization(PAR)，通過先驗知識引入一條可行的對齊路徑，在訓練過程中重點優化該路徑。經驗證，上述改進有效提高了模型訓練速度及識別效果。

語音分離又稱為雞尾酒會問題，其目標是從同時含有多個說話人的混合語音信號中分離出不同說話人的信號。當一段語音中同時含有多個說話人時，會嚴重影響語音識別和說話人識別的性能。目前解決這一問題的兩種主流方法分別是：深度聚類（DC, deep clustering）演算法和排列不變性訓練（PIT, permutation invariant training）準則演算法。深度聚類演算法在訓練過程中不能以真實的乾淨語音作為目標，性能受限於k-means聚類演算法；而PIT演算法其輸入特徵區分性不足。針對DC和PIT演算法的局限性，陶建華、劉斌、范存航等人提出了基於區分性學習和深度嵌入式特徵的語音分離方法。首先，利用DC提取一個具有區分性的深度嵌入式特徵，然後將該特徵輸入到PIT演算法中進行語音分離。同時，為了增大不同說話人之間的距離，減小相同說話人之間的距離，引入了區分性學習目標準則，進一步提升演算法的性能。所提方法在WSJ0-2mix語音分離公開資料庫上獲得較大的性能提升。

端到端系統在語音識別中取得突破。然而在複雜雜訊環境下，端到端系統的魯棒性依然面臨巨大挑戰。針對端到端系統不夠魯棒的問題，劉文舉、聶帥、劉斌等人提出了基於聯合對抗增強訓練的魯棒性端到端語音識別方法。具體地說，使用一個基於mask的語音增強網路、基於注意力機制的端到端語音識別網路和判別網路的聯合優化方案。判別網路用於區分經過語音增強網路之後的頻譜和純凈語音的頻譜，可以引導語音增強網路的輸出更加接近純凈語音分布。通過聯合優化識別、增強和判別損失，神經網路自動學習更為魯棒的特徵表示。所提方法在aishell-1數據集上面取得了較大的性能提升。

說話人提取是提取音頻中目標說話人的聲音。與語音分離不同，說話人提取不需要分離出音頻中所有說話人的聲音，而只關注某一特定說話人。目前主流的說話人提取方法是：說話人波束（SpeakerBeam）和聲音濾波器（Voice filter）。這兩種方法都只關注聲音的頻譜特徵，而沒有利用多通道信號的空間特性。因為聲源是有方向性的，並且在實際環境中是空間可分的。所以，如果正確利用多通道的空間區分性，說話人提取系統可以更好地估計目標說話人。為了有效利用多通道的空間特性，劉文舉、梁山、李冠君等人提出了方向感知的多通道說話人提取方法。首先多通道的信號先經過一組固定波束形成器，來產生不同方向的波束。進而DNN採用attention機制來確定目標信號所在的方向，來增強目標方向的信號。最後增強後的信號經過SpeakerBeam通過頻譜線索來提取目標信號。提出的演算法在低信噪比或同性別說話人混合的場景中性能提升明顯。

傳統的對話情感識別方法通常從孤立的句子中識別情感狀態，未能充分考慮對話中的上下文信息對於當前時刻情感狀態的影響。針對這一問題，陶建華、劉斌、連政等人提出了一種融合上下文信息的多模態情感識別方法。在輸入層，採用注意力機制對文本特徵和聲學特徵進行融合；在識別層，採用基於自注意力機制的雙向循環神經網路對長時上下文信息進行建模；為了能夠有效模擬真實場景下的交互模式，引入身份編碼向量作為額外的特徵輸入到模型，用於區分交互過程中的身份信息。在IEMOCAP情感數據集上對演算法進行了評估，實驗結果表明，該方法相比現有最優基線方法，在情感識別性能上提升了2.42%。

由於情感數據標註困難，語音情感識別面臨著數據資源匱乏的問題。雖然採用遷移學習方法，將其他領域知識遷移到語音情感識別，可以在一定程度上緩解低資源的問題，但是這類方法並沒有關注到長時信息對語音情感識別的重要作用。針對這一問題，陶建華、劉斌、連政等人提出了一種基於未來觀測預測（Future Observation Prediction, FOP）的無監督特徵學習方法。FOP採用自注意力機制，能夠有效捕獲長時信息；採用微調（Fine-tuning）和超列（Hypercolumns）兩種遷移學習方法，能夠將FOP學習到的知識用於語音情感識別。該方法在IEMOCAP情感數據集上的性能超過了基於無監督學習策略的語音情感識別。

相關生理學研究表明，MFCC (Mel-frequency cepstral coefficient)對於抑鬱檢測來說是一種有區分性聲學特徵，這一研究成果使得不少工作通過MFCC來辨識個體的抑鬱程度。但是，上述工作中很少使用神經網路來進一步捕獲MFCC中反映抑鬱程度的高表徵特徵；此外，針對抑鬱檢測這一問題，合適的特徵池化參數未能被有效優化。針對上述問題，陶建華、劉斌、牛明月等人提出了一種混合網路並結合LASSO (least absolute shrinkage and selection operator)的lp範數池化方法來提升抑鬱檢測的性能。首先將整段音頻的MFCC切分成具有固定大小的長度；然後將這些切分的片段輸入到混合神經網路中以挖掘特徵序列的空間結構、時序變化以及區分性表示與抑鬱線索相關的信息，並將所抽取的特徵記為段級別的特徵；最後結合LASSO的lp範數池化將這些段級別的特徵進一步聚合為表徵原始語音句子級的特徵。