百度推出端到端的大規模語音識別系統Deep Speaker

科技 05-12

圖：pixabay

今天，百度研究院發布一條新聞，宣布即將發布的新一代語音識別技術——Deep Speaker，一個端到端大規模識別系統。讓機器人圈帶你預先了解一下Deep Speaker與其他語音識別技術有何不同。

語音識別演算法的目標是從音頻中確定說話者的身份。兩個常見的識別任務是核實（確定說話的人就是要識別的本人）和說話人識別（在一組說話人中對未知語音的身份進行分類確認）。

該技術目前有各種應用。例如，可以使用聲紋來登錄設備，說話人的驗證也可以作為金融交易的額外安全措施。此外，像智能家居助理這樣的共享設備可以利用這種技術來根據當前用戶提供個性化服務。

最近使用神經網路進行語音識別的論文已經改進了傳統的i-vector approach技術（參見Interspeech教程的原始論文或幻燈片）。i-vector approach假設任何話語都可以分解為依賴於說話者和信道變化的一個分量，以及不同於這些因素的另一個分量。i-vector說話人識別是一個多步驟過程，其涉及使用來自多個說話人的數據來估計通用背景模型（通常是高斯混合模型），收集足夠的統計數據，提取i-vectors，最後使用分類器進行識別任務。

有些論文用神經網路替代了i-vector流水線，而其他文獻則針對文本依賴的制度（用戶必須說出相同的話語，例如喚醒詞）或者文本來訓練端到端的說話人識別模型獨立制度（這種模式與言語無關）。我們介紹Deep Speaker，一個端到端的語音識別系統，適用於文本依賴和文本無關的場景。這意味著，當您說出喚醒詞來激活你的家庭助理，或者你在會議中發言時，相同的系統被訓練來識別誰在說話。

Deep Speaker由深層神經網路層組成，從音頻中提取特徵，基於餘弦相似性的時序累加（temporal pooling）和三重損失（triplet loss）。我們探索ResNet啟發的卷積模型和遞歸模型來提取聲學特徵。

百度推出端到端的大規模語音識別系統Deep Speaker

我們使用以前用於人臉識別的triplet loss。在培訓期間，我們選擇一個說話人的話語，並計算一個嵌入（標記為「Anchor」）。然後我們產生兩個嵌入，一個由同一個說話人（標記為「正」）和一個不同說話人（標記為「負」）的嵌入。在訓練過程中，我們試圖使Anchor和積極嵌入之間的餘弦相似性高於Anchor和負嵌入之間的餘弦相似度。

我們展示了Deep Speaker對三個不同數據集的有效性，包括文本依賴和文本無關的任務。其中一個（UID）包括大約25萬個演講者，這是我們最好的知識文獻中最大的。實驗表明，Deep Speaker明顯比基於DNN的i-vector方法更好。例如，Deep Speaker在文本獨立數據集中實現了說話人識別的同等誤碼率（EER）為1.83％，而在100個隨機抽樣候選者之間的說話人識別的準確度為92.58％。相對於基於DNN的i-vector方法，它達到了減少50％的同等誤碼率和60％的精度提高。

百度推出端到端的大規模語音識別系統Deep Speaker

我們在實驗中使用的三個數據集是UID，小度和MTurk。 UID和小度是普通話數據集，MTurk是英文數據集。UID和MTurk是文本獨立的數據集，而小度是依賴於文本的，基於百度的喚醒詞。為了嘗試不同的訓練集大小，我們使用完整的UID數據集（Train250k）和大約五萬個演講者（Train50k）的子集。在評估過程中，選擇一個錨點，然後從測試分區中隨機選擇一個錨點正樣本和99個錨點負樣本。

我們還發現Deep Speaker學習與語言無關的功能。Deep Speaker在識別普通話的演講時，分別獲得5.57％的EER和88％的英文驗證和識別準確率。此外，此外，與普通話訓練相比，先用普通話訓練，然後繼續用英語訓練，將提高英語識別的準確性。這些結果表明，Deep Speaker學習跨語言的聲音特徵，即使這些語言聽起來差別很大。這些結果與Deep Speech 2的結果並行，同一架構可以學習識別跨語種語言。

來源：Baidu Research

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器人圈 的精彩文章:

※3D列印有多強？西子湖畔的這個大會將見分曉！
※谷歌：為何從Scikit-learn轉向TensorFlow
※Facebook最新機器翻譯研究成果—CNN比RNN更有效
※購物機器人加持新零售，商場的新春天來了
※GTC17：百度用「稀疏訓練」使RNN體積降低90％

TAG:機器人圈 |

您可能感興趣

※IDEMIA、英飛凌和pmdtechnologies將合力提供端到端的3D Face人臉識別解決方案
※OCR大突破：Facebook推出大規模圖像文字檢測識別系統——Rosetta
※全網最全 iPad 機型識別|iPad、iPad Air 和 iPad Pro 到底有多大區別？
※Apple Pencil 將可用在 iPhone上/OPPO 人臉識別技術或比 iPhone X 更高級
※語音識別＋FaceID HomePod2有望趕超Alexa
※iPhone X Plus：可橫屏使用面部識別，尺寸比 iPhone X 略大
※宣布Google-Landmarks：世界最大的人造和自然地標識別數據集
※《Avengers: Infinity War》導演表示 Peter Dinklage 在電影中是可以識別的
※谷歌AI圖像識別功能Google Lens上線iOS平台 Android版也快了
※Valve 使用深度學習識別 CSGO 的作弊者；Android Studio 3.1 正式發布
※iPhone8Plus成最後一款搭載指紋識別的iPhone！
※谷歌開源Live Transcribe語音識別轉文字工具
※語音識別開源工具PyTorch-Kaldi：兼顧Kaldi效率與PyTorch靈活性
※Facebook的新AI「Rosetta」會識別表情包，還會刪帖
※東芝選用Cadence Tensilica Vision P6 DSP 提高ADAS晶元的圖像識別性能
※CommanderSong：「惡魔音樂」攻擊智能語音識別系統
※NVIDIA 投資語音識別初創公司 Deepgram
※Google為Android P 引入新的生物識別身份驗證 API
※KITH 除了 NIKE 最近還和 Bergdorf Goodman聯名上了！識別度這麼高適合你嗎？
※華為Mate 20 Pro重要系統更新：支持FreeBuds 2 Pro骨聲紋識別