搜狗研究員:基於LSTM-RNN的語音聲學建模技術
分享主題
Acoustic Modeling Based on LSTM-RNN in ASR
基於LSTM-RNN的語音聲學建模技術
分享內容
LSTM-RNN可以對長時序列信息進行建模,廣泛應用於語音識別聲學模型建模中。此次主要介紹近期LSTM的一些研究進展包括LC-BLSTM,2D-LSTM等。其中LC-BLSTM採用了雙向LSTM結構,並在訓練和解碼時加入了數幀的未來信息來控制延時,解決了普通雙向LSTM無法用於實時語音識別的問題;而2D-LSTM在時間和頻域兩個維度上進行循環,同時保存時間軸與頻域軸的序列信息,Google和微軟都在大規模語音識別任務上驗證了這類2D-LSTM結構的有效性。
以下相關論文可在觀看分享會前先預讀:
《Improving Latency-Controlled BLSTM Acoustic Models for Online SpeechRecognition》
論文地址:http://t.cn/R0015sz
《Modeling Time-Frequency Patterns with LSTMvs. Convolutional Architectures for LVCSR Tasks》
論文地址:http://t.cn/R0011cU
《LSTM Time and Frequency Recurrence for Automatic Speech Recognition》
論文地址:http://t.cn/R0O5cJn
《Exploring Multidimensional LSTMS for Large Vocabulary ASR》
論文地址:http://t.cn/R00BxQI
《Reducing the Computational Complexity of Two-Dimensional LSTMs》
論文地址:http://t.cn/R00d0xt
分享人簡介
張弼弘,2017年4月畢業於西北工業大學並獲得碩士學位。研究方向是語音識別聲學建模,深度學習,機器學習。目前就職於搜狗。
分享時間
北京時間10月11日 20:00
參與方式
掃描海報二維碼添加社長微信,備註「搜狗」
如果你覺得活動不錯,歡迎點贊並轉發本文~


※如何用 MOOC 組合掌握機器學習?
※UC Berkeley 博士:端到端自動駕駛與自動駕駛前沿研究內容
※從DL到Hinton到GANs再到PyTorch,這裡全都有了!
※PyTorch 合輯 國慶特輯
※GANs合輯 國慶特輯
TAG:唯物 |