當前位置:
首頁 > 最新 > 滴滴披露語音識別新進展:基於Attention顯著提升中文識別率

滴滴披露語音識別新進展:基於Attention顯著提升中文識別率

編輯 | Natalie

AI 前線導讀:近期,滴滴的一篇論文被低調提交到了預印版論文平台 arXiv。在這篇名為《A comparable study of modeling units for end-to-end Mandarin speech recognition》的論文中,滴滴公布了其在基於 attention 的端對端中文語音識別技術上取得的最新研究成果。論文中,滴滴 attention 中文語音識別系統直接以常用的 5000 多中文漢字作為建模單元,實現了語言信息和聲學信息的聯合建模。AI 前線第 33 篇論文導讀,將為你帶來這篇論文的精彩解讀。

更多優質內容請關注微信公眾號「AI 前線」,(ID:ai-front)

論文原文地址:

https://arxiv.org/pdf/1805.03832.pdf

據滴滴語音團隊介紹,該模型已經在滴滴相關語音產品中上線,替代了基於長短時記憶單元(LSTM)和連接時許分類(CTC)的語音識別系統,取得了 15%~25% 的相對性能提升。滴滴語音團隊同時指出,雖然在實際應用產品中,基於 attention 的語音識別取得了顯著的性能提升,但仍然有很多問題需要進一步探索。比如在基於 5000 多常用漢字的系統中,可以通過後處理模塊從一定程度上解決集外詞問題,但相較於基於音素的 CTC 系統而言,在集外詞部分卻還存在一定的差距。此外針對中英文混合的情況,如何有效地實現中文和英文部分的統一建模,在 attention 系統中依然是個需要深入研究的課題。

以下是對滴滴 attention 端對端語音識別系統的詳細解讀。

語音識別歷史,從 CD-DNN-HMM 到端到端語音識別

近些年來,伴隨著深度學習技術的發展,語音識別技術也經歷了革命性的變化,基本可以概括為以下三個階段:

基於 DNN-HMM(深度神經網路 - 隱馬爾科夫模型)的語音識別

基於 CTC(連接時序分類)的端對端語音識別

基於 Attention 的端對端語音識別

從 2010 年開始,Dong Yu 以及 Li Deng 等學者首先嘗試並提出了基於 CD-DNN-HMM 的聲學模型,在大辭彙量連續語音識別任務上取得成功,相比於傳統的 GMM-HMM 系統可以獲得超過 20% 的相對性能提升 [1]。此後大量的研究人員投入到基於深度神經網路的語音聲學建模研究中,語音識別取得了突破性的進展。同時,研究者們也在嘗試打破基於 HMM 的主流語音識別框架。

伴隨著 LSTM 等循環神經網路(RNN)等技術的成功,基於深度學習的端對端建模技術逐漸在學術界和工業界中得到了關注,其中一個經典的演算法就是 CTC 演算法。在基於 LSTM-CTC 的建模框架中,CTC 替換了 HMM 結構,深度學習技術實現了對語音整個序列的建模,而非僅僅是狀態的靜態分類。2015 年起, Google、百度等公司已經使用 CTC 模型取得了比傳統混合識別系統更好的性能 [2]。目前,基於 CTC 的識別系統已經在多個公司語音產品上廣泛應用,已經成為了工業界主流語音識別系統。在滴滴語音團隊,在 CTC 語音識別系統技術上,也一直在尋求語音識別技術的下一個突破口。

深度學習技術一直在飛速發展著,從深度學習技術的發展中汲取營養,也一直是語音識別技術取得突破的途徑。近些年來,在機器翻譯領域,基於 Attention 技術的端對端翻譯技術被提出,並很快在大規模的工業系統中得到了應用。在 2017 年,Google 上線了 GNMT(Google Neural Machine Translation)系統 [3],該系統基於 Attention 技術實現了端對端的深層神經網路建模,大幅提升了機器翻譯的性能。最近兩年大家對 attention 機制的 seq2seq 語音識別模型的研究也取得了大幅的進展,在剛結束的 ICASSP 2018 國際學術會議,谷歌公司已經在基於 attention 機制的 seq2seq 英語語音識別任務上,取得了超過其它語音識別模型的性能的表現 [4]。

對於基於注意力機制的 seq2seq 框架中,語音識別任務被定義為不定長的語音序列到不定長的文本序列的 seq2seq 的轉換,同時結合注意力機制,可以通過單個模型,直接學習到語音序列到文本序列的轉換過程,其實現了聲學信息和語言信息聯合學習的功能。因此,其相較於 CTC 模型,對語言模型的依賴更小,甚至可以不需要語言模型。然而,經典的 seq2seq 模型需要以完整的一句語音作為輸入,其輸出時延相比 CTC 模型會大很多;為了能夠滿足實時識別,可以採用 Neural Transducer[5] 的方案,通過把一句話切分為固定長度的語音段的方式,有效減少識別時延。

其實在語音識別任務中,所謂的端對端也是一個相對的概念。如下圖所示,以漢語語音識別為例:

其中 CTC 系統相對 HMM 系統而言,更加地端對端。而基於字的 attention 系統相對於 CTC 系統而言,則可以實現在不加入 N-gram 的情況下也得能夠非常好的性能。

滴滴中文 LAS:以 5000 個常用漢字為建模單元

滴滴基於注意力機制的端到端系統建立在 LAS 端到端架構上,此模型框架最早是由 William Chan 等人提出的 [6]。LAS 架構主要由 3 個部分組成,分別是 Listener(Encoder)、Attender、Speller(Decoder)。

Encoder 的功能與傳統的聲學模型類似,接收輸入語音的特徵序列 X=,並將輸入映射到一個更高級的特徵表示 h^enc, Encoder 通常採用多層循環神經網路的網路結構。Attender 接收 Encoder 傳遞過來的高層 h^enc,並用來學習輸入特徵和模型最後輸出序列 Y=之間的對齊信息。最後,Attender 模塊的輸出到 Decoder。Decoder 按照鏈式法則, 結合之前 Decoder 預測的輸出、Attender 的輸出及 Decoder 自身的網路信息,產生出輸出詞序列的概率分布。

LAS 模型是一個完整的神經網路系統,其可以實現完整的語音序列到對應的文本序列的轉換過程,因此,其訓練及使用相比傳統模型來說要簡單很多。訓練時,不需要像傳統模型那樣把系統區分為單獨的模塊分別進行訓練。同時,由於不需要對齊信息,可以直接使用句子的語音特徵序列及與其對應的文字標註序列來進行整個完整模型的訓練。為了更好的訓練 LAS 模型,滴滴語音團隊在訓練的時候嘗試了各種技巧,包括 schedule sampling、label smoothing、multi-head attention 等。

考慮到滴滴語音的應用場景,滴滴語音團隊重點針對漢語語音識別的 attention 建模展開了研究,尤其是其建模單元的研究。針對 attention 的漢語語音識別而言,可考慮的建模單元包括音節和漢字。為了得到了最為完整的結果,滴滴基於海量資料庫和自身強大的 GPU 機群,通過大量的模型調參工作,最終發現基於大約 5000 多個常用漢字作為基本建模的 LAS 系統能夠得到顯著優於 CTC 系統的識別性能 [7]。

在解碼的時候,直接使用 beam search 來解碼。考慮到可以較容易地獲得大量的文本語料,而通常情況下這些語料都是沒有對應的語音的,在滴滴的 LAS 系統中,滴滴依然融合了基於海量文本語料訓練的 N-gram。在最終的線上系統中,滴滴得到了兩點發現。

第一,在 LAS 中文字模型中,beam size 可以比傳統語音識別模型小很多。在傳統的基於 HMM 框架的語音識別中,由於其模型的不確定性,為防止過早裁剪了最優序列,在解碼過程中常常會保留數千條可能路徑。而在基於 CTC 框架的語音識別中,由於 CTC 模型輸出中有大量 blank,從而可以根據 blank 特性對解碼路徑約束,從而一定程度上提速解碼,但一般依然會保留數千條可能路徑。而在滴滴的 LAS 框架中,只需要保留個位數(如 4 或者 8)的可能路徑,就能得到最優的識別結果。可能候選路徑從數千降低到個位數,一方面帶來的解碼器框架的大大簡化,也帶來了實際線上系統的解碼速度的大幅提升。

第二,解碼過程中,滴滴發現 N-gram 語言模型的最優權重非常低,通常都在 0.1~0.3 之間。作為對比,在 HMM 框架中,N-gram 語言模型的權重一般都是 10-20 之間,在 CTC 框架中,N-gram 的權重一般都在 1.0~2.0 之間。可以看到,LAS 對語言模型的依賴相比傳統模型低很多,甚至在有的產品任務中,可以不需要使用語言模型。

從另外一個角度來看,語音識別的研究,從 HMM 到 CTC,再到 Attention,其演進過程是一直伴隨著的思路就是如何通過一個神經網路模型實現更多地對語言模型層面的刻畫。換言之,則是不斷地嘗試更好的建模框架取代 N-gram 這樣的純基於統計的建模方法。

在滴滴中文 LAS 模型中,使用了 5000 個左右的常用漢字為建模單元。由於漢字較傳統常用的音素建模單元尺度更大,其對訓練數據量的需求也會更大。依託於滴滴數據及強大的 GPU 訓練集群,此基於注意力機制的模型在滴滴的多個語音產品上獲得了很大的性能提升。

根據語音產品對於語音識別的實時性的要求的不同,可以把語音識別任務劃分為實時識別和非實時識別:實時識別要求語音識別系統能快速準確的完成語音流到文本的轉錄,典型的應用有語音輸入法、實時語音轉錄等等,此類任務要求識別能滿足較高的實時性並且能夠快速的返回識別結果;在非實時識別的情況下,可以實現把語音完整存儲下來,識別的時候基本上沒有苛刻的實時性要求,語音質檢等業務就是典型的非實時識別任務。為了滿足實時及非實時兩種業務的需求,滴滴的基於注意力機制的 seq2seq 模型採用了兩套方案。對於非實時識別系統,由於可以得到完整的語音,可以直接使用基於注意力機制的 LAS 模型,輸入為每句的完整語音,LAS 可以直接輸出每句話對應的文本。

對於實時識別系統,滴滴採用了基於注意力機制的 Neural Transducer 模型,按照固定的時間長度截取語音流(比如 300ms)作為一個 Block(時間片段),Neural Transducer 接受當前 Block 的語音信息,結合上一個 Block 的輸出文本信息及神經網路狀態信息,解碼得到當前語音流片段的對應文本。通過這樣的方法有效地控制解碼時延。

滴滴語音團隊指出,在滴滴非實時語音識別任務上,基於注意力機制的 LAS 的模型,能夠得到 25% 的相對性能提升;基於 Neural Transducer 的實時識別方案在滴滴實時識別任務上,得到了 15% 的相對性能提升。另一方面,滴滴的 Attention 模型大小只有傳統 CTC 模型的 1/5 的大小,而且在解碼端弱化了甚至脫離了語言模型的依賴,解碼的實時率性能獲得了顯著提升;在滴滴的一個大流量產品上,解碼時間降為原來的 1/4,服務 QPS 預期提升 4 倍,在線計算伺服器數量也會大大的減少,成本預算直接下降 75%。

參考文獻

[1] G. Dahl, D. Yu, L. Deng, A. Acero. Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition. IEEE Transactions on Audio, Speech, and Language Processing. 2012

[2] H. Sak, A. Senior, F. Beaufays. Long Short-term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling. INTERSPEECH 2014

[3] Y. Wu, M. Schuster, Z. Chen, Q. V. Le, M. Norouzi, W. Macherey, M. Krikun, Y. Cao, Q. Gao, K. Macherey, et al. Google』s Neural Machine Translation System: Bridging The Gap Between Human And Machine Translation. arXiv:1609.08144, 2016.

[4] C. Chiu, T. Sainath, Y. Wu, R. Prabhavalkar, P. Nguyen, Z. Chen, A. Kannan, R. Weiss, K. Rao, E. Gonina, N. Jaitly, B. Li, J. Chorowski, M. Bacchiani. State-of-the-art Speech Recognition with Sequence-to-Sequence Models. ICASSP 2018.

[5] T. Sainath, C. Chiu, R. Prabhavalkar, A. Kannan, Y. Wu, P. Nguyen, Z. Chen. Improving the Performance of Online Neural Transducer Models. arXiv:1712.01807, 2017.

[6] W. Chan, N. Jaitly, Q. Le, O. Vinyals. Listen, Attend and Spell: A Neural Network for Large Vocabulary Conversational Speech Recognition. ICASSP 2016.

[7] W. Zou, D. Jiang, S. Zhao, X. Li. A Comparable Study of Modeling Units for End-to-end Mandarin Speech Recognition. arXiv:1805.03832, 2018

AI前線

緊跟前沿的AI技術社群

如果你希望看到更多類似的優質內容,記得點個贊再走!

┏(^0^)┛明天見!


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI前線 的精彩文章:

工業4.0時代下的數據科學家
FB隱私門再爆內部猛料:哪怕被利用搞恐襲,只要用戶增長就行!

TAG:AI前線 |