東北話和川普，機器都能聽懂，吳恩達說的端到端學習究竟是什麼？

新聞 12-29

傳統的語音識別系統，是由聲學模型、詞典、語言模型構成的，而其中的語音模型和語言模型是分別訓練的，而不同的語言也有不同的語言模型，比如英語和中文。

最近崛起的端到端的語音識別系統，從語音特徵（輸入端）到文字串（輸出端）中間就只有一個神經網路模型，成為語音識別領域新的研究熱點。

矽谷密探獨家專訪了Baidu Silicon Valley AI Lab總監Adam Coates，探討了語音和語音識別的新動向。

東北話和川普，機器都能聽懂，吳恩達說的端到端學習究竟是什麼？

傳統的語音識別系統

東北話和川普，機器都能聽懂，吳恩達說的端到端學習究竟是什麼？

（來源：wiki）

傳統的語音識別需要把語音轉換成語音特徵向量，然後把這組向量通過機器學習，分類到各種音節上（根據語言模型），然後通過音節，還原出最大概率的語音原本要表達的單詞，一般包括以下模塊：

特徵提取模塊 (Feature Extraction)：該模塊的主要任務是從輸入信號中提取特徵，供聲學模型處理。一般也包括了一些信號處理技術，儘可能降低環境雜訊、說話人等因素對特徵造成的影響，把語音變成向量。

聲學模型 (Acoustic Model):用於識別語音向量

發音詞典 (Pronnuciation Dictionary)：發音詞典包含系統所能處理的辭彙集及其發音。發音詞典提供了聲學模型與語言模型間的聯繫。

語言模型 (Language Model)：語言模型對系統所針對的語言進行建模。

解碼器 (Decoder)：任務是對輸入的信號，根據聲學、語言模型及詞典，尋找能夠以最大概率輸出該信號的詞串。

傳統的語音識別中的語音模型和語言模型是分別訓練的，缺點是不一定能夠總體上提高識別率。

端到端的語音識別系統

東北話和川普，機器都能聽懂，吳恩達說的端到端學習究竟是什麼？

（來源：吳恩達NIPS 2016演講）

端到端學習的思路則非常簡單：音頻學習演算法轉錄結果；

而現在，我們可以直接通過深度學習將語音直接對標到我們最終顯示出來的文本。通過深度學習自己的特徵學習功能來完成從特徵提取到音節表達的整個過程。

在給定了足夠的有標註的訓練數據時（語音數據以及對應的文本數據），端到端的語音識別方法的效果會很好。

Deep Speech 2

Baidu Silicon Valley AI Lab研發了端到端的能夠識別英文的語音識別系統Deep Speech，之後在此基礎上研發了能識別中英文的Deep Speech 2，Deep Speech 2通過使用一個單一的學習演算法就能準確識別英語和漢語。

東北話和川普，機器都能聽懂，吳恩達說的端到端學習究竟是什麼？

Deep Speech 2這個大規模的深度學習系統需要豐富的標記訓練數據。為訓練英語模式，這個系統使用了11940小時含800萬標註的語音片段，而普通話系統採用了9400小時含1100萬話語標記的講話語音。

Deep Speech 2這種端到終的深度學習，可以利用數據和計算的增加不斷改善語音識別系統。由於該方法是高度通用的，它可以迅速地應用於新的語言。

Deep Speech 2能夠識別方言

Deep Speech 2最早是用英語訓練的，最早只能夠識別英語，但由於Deep Speech 2是端到端的訓練模式，Adam在矽谷密探的採訪中表示，在這個系統建立之後，只需要用中文訓練數據替代英文訓練數據，在經過訓練之後就有了強大的中文識別引擎，就能夠很好的識別中文。

同樣的道理，只要給Deep Speech 2足夠多的方言訓練數據，比如粵語，那麼Deep Speech 2理論上也能夠很好的識別粵語。

能解決中英混合問題

中英混合一度是一個很頭疼的問題，在我們使用Siri的時候，必須要選好一個語言，如果設置成了中文就識別不了英文。

但在我們日常生活中，由於專業術語或者品牌名等原因，有時不得不中英混合。基於同樣的原因，Deep Speech 2也能很好的解決中英混合這個問題，只要我們訓練的數據里同樣是中英夾雜。

東北話和川普，機器都能聽懂，吳恩達說的端到端學習究竟是什麼？

Adam Coates在採訪中表示有一個特別有意思的現象，我們發現很多中文語音識別里經常出現一個明星Angelababy，然後Deep Speech 2就立馬變成英文。

看來Angelababy已經是國際影星！曉明哥的英語要加強啊...

Deep Speech 2的開發難度

Adam Coates表示Deep Speech 2開發過程中，第一大難點就是獲得標記的數據。大家想像中百度應該有大量的數據，然而大部分我們日常APP使用中產生的數據都是沒有標記的，比如我們發了一個語音，對應的中文文本我們往往沒有提供，這些都是沒有標記的數據，無法用於語音識別的訓練。即使有一些標記的數據，我們也不能保證其準確性，而數據清理往往耗費更多的時間。

東北話和川普，機器都能聽懂，吳恩達說的端到端學習究竟是什麼？

Deep Speech 2的開發過程，除了通過把會話片段標記出文字(transcript)作為訓練數據，還使用了大量的朗讀數據（就是提供文本，然後花錢請人朗讀成音頻）。雖然後者的質量不如前者，但是非常便宜，而且能夠獲得大量的數據。

Deep Speech 2這個大規模的深度學習系統需要豐富的標記訓練數據，這個系統使用了11940小時含800萬標註的英文語音片段，以及普通話系統採用9400小時含1100萬話語標記的講話語音。

除了訓練數據的獲取，建立這樣一個高性能計算系統(HPC)也是一個很大的調整。Adam表示他們擁有一個團隊致力於構建深度學習系統。當然也少不了喜聞樂見的調參過程。

Deep Speech 2未來的發展方向

Deep Speech 2已經從Deep Speech的8%的錯誤率提升到了5%，Deep Speech的下一個目標就是繼續降低識別錯誤率，並且處理語音識別的各種極端情況，比如重噪以及交叉談話等場景。

東北話和川普，機器都能聽懂，吳恩達說的端到端學習究竟是什麼？

目前Deep Speech 2隻是純軟體和演算法層面，沒有涉及到硬體相關的優化，在問到是否可以結合硬體來提升Deep Speech 2的性能時，Adam表示結合硬體有提升識別率的可能性，但目前AI Lab沒有嘗試。

Adam把語音識別的噪音環境分成兩大類，一大類是有噪音但是人類能無干擾的聽到目標聲音，第二大類則是有噪音干擾下人耳都聽不清目標聲音，在第一類環境下通過軟體和演算法優化就有很大的提升空間，而第二類則可能需要硬體參與進來獲得超越人類聽力的能力。

語音是未來

在問道最看好未來的下一件大事時(next big thing)，Adam表示非常看好語音的前景。

目前語音識別能力還有提升空間，雖然語義理解、自然語言處理等的進步還需要更多時間，但是語音識別加上非常簡單的自然語言處理就能顯著的改善我們的生活。

Adam舉了一個例子，斯坦福和華盛頓大學等高校的研究表明，用語音輸入代替鍵盤輸入，能提升約3倍的效率。

Adam希望語音識別的持續進步，能夠使得語音成為一個大家真正放心使用的交互方式。

號外：Adam Coates會作為演講嘉賓參加AI Frontier大會，同台演講的還有Google大神Jeff Dean，歡迎讀者們點擊原文鏈接報名參與，近距離接觸來自各大公司的技術大牛，報名鏈接點擊閱讀原文打開，後台回復「人工智慧」將獲得150美元優惠，前20名有效。

請您繼續閱讀更多來自 矽谷密探 的精彩文章:

※當AR進入傳統零售，這款小產品的思路值得借鑒
※林志穎都來參加的創業節目激戰半程，我們來盤點下諸位「失敗者」
※其實，你們都誤會了董明珠
※高考滿分，卻被哈佛、斯坦福拒絕，他要做美版俞敏洪！

TAG:矽谷密探 |

您可能感興趣

※看了這些，你還會說WEB前端學不會嗎？
※Web前端學習路漫漫，說說我對前端學習的一些理解
※這絕對是最詳細的web前端學習路線
※通常寶寶在15~18個月時都會開端學說話，當寶寶對著你很認真的
※怎麼才能四個月把web前端學好學深入找到工作？
※怎麼才能在四個月內把web前端學好學深入？
※中端學生PC如何選配？性價比與升級空間都要兼顧
※web前端學習經驗，不防先定個小目標
※前端學習路線圖，完整前端自學教程＋工具＋框架
※探訪中國最南端學校：學生有32名
※TED|構築「雲端學院」
※前端學習之路——初識AJAX
※UBC校內最高端學區房Eton著名開發商Polygon打造
※2017年，你必須知道的最新web前端學習路線
※前端學習路線分享第三篇：Node.js全棧開發
※專為手機端學習—宣化上人法匯網 dulun1918.com
※2017年 Web前端學習路線初學者必看