語音識別進化簡史：從造技術到建系統

最新 08-03

如果以2019年作為新起點的話，語音識別已經從雙翼飛機時代進入噴氣式飛機時代，下一步的目標無疑就是成為火箭級的產品。

文｜Alter

美國知名投資機構Mangrove Capital Partners在《2019年語音技術報告》中，給語音下了一個宏大的定義——歡迎下一代的顛覆者。

可如果把時間倒退10年，大部分人還是會把「語音交互」定義為一場豪賭，都知道贏面比較大，卻遲遲不敢下注，因為概念的落地還沒有一個明確的期限，當正確的路徑被走通之前，永遠都存在不確定性。

不過在此前的80年里，人類對語音技術的希望從未破滅，就像是在迷宮中找尋出口一般，一遍又一遍的試錯，最終找到了正確的路徑。

漫長的孩提時代

「小度小度，明天天氣怎麼樣?」「小度小度，我想聽周杰倫的歌」「小度小度，我想給爸爸打電話」，諸如這樣的指令每天有幾億次發生，哪怕是牙牙學語的孩子也可以和智能音箱進行流暢的對話。

但在50年前，就職于貝爾實驗室的約翰·皮爾斯卻在一封公開信中為語音識別下了「死亡診斷書」：就像是把水轉化為汽油、從海里提取金子、徹底治療癌症，讓機器識別語音幾乎是不可能實現的事情。

彼時距離首個能夠處理合成語音的機器出現已經過去30年的時間，距離發明出能夠聽懂從0到9語音數字的機器也過去了17個年頭。這兩項創造性的發明均出自貝爾實驗室，但語音識別技術的緩慢進展，幾乎消磨掉了所有人的耐心。

在20世紀的大部分時間裡，語音識別技術就像是一場不知方向的長征，時間刻度被拉長到了10年之久：

上世紀60年代，時間規整機制、動態時間規整和音素動態跟蹤三個關鍵技術奠定了語音識別發展的基礎；

上世紀70年代，語音識別進入了快速發展的階段，模式識別思想、動態規劃演算法、線性預測編碼等開始應用；

上世紀80年代，語音識別開始從孤立詞識別系統向大辭彙量連續語音識別系統發展，基於GMM-HMM的框架成為語音識別系統的主導框架；

上世紀90年代，出現了很多產品化的語音識別系統，比如IBM的Via-vioce系統、微軟的Whisper系統、英國劍橋大學的HTK系統；

但在進入21世紀後，語音識別系統的錯誤率依然很高，再次陷到漫長的瓶頸期。直到2006年Hiton提出用深度置信網路初始化神經網路，使得訓練深層的神經網路變得容易，從而掀起了深度學習的浪潮。

只是在2009年之前70年左右的漫長歲月里，中國在語音識別技術上大多處於邊緣角色，1958年中國科學院聲學所利用電子管電路識別10個母音，1973年中國科學院聲學所開始了計算機語音識別，然後是863計劃開始開始組織語音識別技術的研究，直到百度、科大訊飛等中國企業的崛起。

躍進的少年時代

2010年註定是語音識別的轉折點。

前一年Hinton和D.Mohamed將深度神經網路應用於語音的聲學建模，在小辭彙量連續語音識別資料庫TIMIT上獲得成功。

從2010年開始，微軟的俞棟、鄧力等學者首先嘗試將深度學習技術引入到語音識別領域，並確立了三個維度的標準：

數據量的多少，取決於搜索量、使用量的規模；

演算法的優劣，頂級人才扮演者至關重要的角色；

計算力的水平，關鍵在於FPGA等硬體的發展。

在這三個維度的比拼中，誰擁有數據上的優勢，誰聚集了頂級的人才，誰掌握著強大的計算能力，多半會成為這場較量中的優勝方。於是在語音識別的「少年時代」，終於開始了躍進式的發展，刷新紀錄的時間間隔被壓縮到幾年到幾個月。

2016年語音識別的準確率達到90%，但在這年晚些時候，微軟公開表示語音識別系統的詞錯率達到了5.9%，等同於人類速記同樣一段對話的水平，時任百度首席科學家吳恩達發聲稱百度在2015年末即達到了同等水平；2017年6月，Google表示語音識別的準確率達到95%，而早在10個月前的時候，李彥宏就在百度世界大會上宣布了百度語音識別準確率達到97%的消息。

一個有些「奇怪」的現象，為何在語音識別領域缺少前期積累的中國，可以在極短的時間內實現從無到有，甚至有後發先至的趨勢？可以找到的原因有二：

首先，傳統專利池被挑戰，競爭回歸技術。

語音識別進入深度學習時代，並沒有背負太多的專利包袱，中美玩家們有機會站在了同一起跑線上。

比如2013年百度的語音識別技術還主要基於mel-bank的子帶CNN模型；2014年就獨立發展出了Sequence Discriminative Training(區分度模型)；2015年初推出基於LSTM –HMM的語音識別，年底發展出基於LSTM-CTC的端對端語音識別系統；2016年和2017年將Deep CNN模型和 LSTM、CTC結合起來，2018年推出Deep Peak 2模型，2019年又發布了流式多級的截斷注意力模型……

而在不久前結束的百度AI開發者大會上，百度還推出了針對遠場語音交互的鴻鵠晶元，可以實現遠場陣列信號實時處理，高精度超低誤報語音喚醒以及離線語音識別。

其次，語音識別進入到生態化、產業化的時代。

在Google發布了語音開放API後，對Nuance產生了致命的打擊，不僅僅是Google在產品和技術上的優勢，也來自於Google強大的人工智慧技術生態，例如以TensorFlow為代表的深度學習引擎。

同樣的邏輯，百度在2015年就開放了上百項智能語音專利，與海爾、京東、中興通訊、中國普天等組建了智能語音知識產權產業聯盟，同時PaddlePaddle、Warp-CTC、百度大腦的開放和開源，對中文語音識別有著潛移默化的影響，成為了中國語音識別領域標準的制定者。

除此之外，2018年公布的第二十屆中國專利評審結果中，百度的語音、機器翻譯、無人車相關三項專利獲獎，成為人工智慧領域至今為止在國內專利界獲得的最高級別政府獎項。

其中「語音專利」涉及的新語音識別模型——採用深度學習演算法在24時內對數以百億級的大規模數據進行實時分析，高性能計算，令語音識別技術的準確率達97%，解決了語音識別領域關鍵性、共性的技術難題，被MIT 評為「2016年全球十大突破技術」。

語音識別的話語權，逐漸從大學和機構的實驗室轉移到了微軟、Google、百度等商業巨擘手中，並最終迎來了躍進式發展的十年。或許語音技術的「少年時代」還有很長的路要走，但終究走出了漫漫黑夜，瞥見了黎明的曙光。

語音交互的「誘惑」

需要思考這樣一個問題：為何語音識別在80年的技術長征中，出現了這樣或那樣質疑的聲音，仍然對語音識別如此痴迷？前70年的答案可能是希望，最近10年的驅動因素則可能是龐大蛋糕的誘惑。

先來盤點一下2010年後語音識別走嚮應用的三個過程：

一問一答階段：彼時語音識別在自我學習、邏輯推理方面還有很大欠缺，不能針對同一對話內容展開深入交互，比如你問天氣如何，系統會自動調取天氣數據，接著問明天天氣如何？會調取明天的天氣預報。但今天天氣和明天天氣之間都是各自獨立的對答，不能連接貫通，也未能形成邏輯。

有問有答階段：語音識別開始在問答的基礎上有了對話的屬性，對應的產品有蘋果的Siri、Google Now、百度語音、微軟Cortana等等，彼時仍然停留在「人機對話」，處於機器被動接受人類輸入大量數據階段，不能更深層次理解人的意思，無法實現自學習、自成長，與機器的語音交流還不能像人一樣自然。

自然交互階段：從語音識別到語音交互，不僅有問有答，人工智慧還可以根據上下文邏輯和環境信息，作出個性化的決策或推薦。典型的場景就是智能音箱，亞馬遜、谷歌、百度、阿里等無不開始在智能音箱領域發力，語音識別入口正逐漸撬開內容、IoT等生態，已然是AI入口之爭的主戰場。

印象深刻的是，在《嚮往的生活》第三季中，幾乎每期嘉賓都會主動和小度對話，然後被智能音箱流暢的對答所折服，對比一些智能手機里還處於有問有答狀態的語音助手，自然的語音交互階段已經提前到來。

不難從中看到這樣的變化：剛開始的語音識別還處於造技術的階段，可能僅僅是為了新奇炫酷的體驗，但隨著智能音箱、語音助手等軟硬體應用的普及，解決了一個又一個棘手的痛點，語音交互開始有了成為下一代人機交互方式的可能，進而打造一個以語音為入口的全新操作系統。

可以借鑒腦學界「感官侏儒」的說法，手和舌頭是人類最靈活的兩個部分，從DOS系統到施樂的圖形化界面再到移動設備的觸控交互，無不依賴於手的交互。

而當語音技術和人工智慧同時走向成熟，或許就像《2019語音技術報告》中所描述的：「語音交互扭轉了以往人機交互的存在形態，用戶與設備間基於語音交互的全新關係開始搭建，與之前互聯網向移動互聯網過渡一樣，其對底層平台的全新需求也在醞釀當中。」

甚至不排除語音優先的可能，亞馬遜Alexa首席科學家Rohit Prasad曾直言：「我們希望消除與客戶的摩擦，最自然的方式就是通過聲音。它不僅僅是一個能提供一堆結果的搜索引擎，它還會告訴你答案。」言外之意，語音技術可以幫助人們擺脫文字和屏幕的束縛，提供一種升維的用戶體驗。

巨頭們的新戰場

接過前輩們的衣缽，Google、百度等巨頭並非沒有「私心」。因為在語音交互成為人機交互主流方式的同時，也在重構現有的商業規則。正如李彥宏在《人民日報》發表的文章中所說，「作為引領此次變革的戰略性技術，人工智慧對世界的影響將遠超以往歷次工業革命。」

比如在觸控交互的世界裡，人們與服務的連接通過這樣或那樣的App，生活中也出現了社交、搜索、電商、資訊等領域的諸多超級App，但語音交互是典型的服務找人，諸如搜索、電商、社交、廣告等主流的盈利路徑都將被重構，乃至顛覆現有的市場格局。

一個典型的例子，不管是國內百度的小度助手，還是Google Assistant、亞馬遜Alexa，早已不再滿足於「語音助手」的身份，在功能上開始向語音對話、內容服務、IoT設備管理等方向演進，在場景上覆蓋了家庭、汽車、酒店等等，以語音交互為切入的生態系統早已有了雛形，成為觸控之外的又一個殺手級應用。

同時語音的顛覆性也逐漸浮出水面，原先想要聽一首歌、看一部電影的時候，需要在手機上打開特定的App，手動輸入歌曲或電影的名字，在一連串的搜索結果中找到自己需要的。語音交互的場景下，只需要發出相應的語音指令，設備就可以自動播放你想要的歌曲或視頻，不僅在效率上指數級提升，也在改變音樂或視頻服務方的地位，從前端走向後台的內容供應商。

截止到目前，幾乎所有的互聯網巨頭都對語音勢在必得，尤其是在炙手可熱的智能音箱賽道上，國外出現了谷歌、亞馬遜、蘋果等巨頭林立的局面，國內的百度、阿里、小米直接拿到了90%的市場份額，並且有著一家獨大的趨勢。

在美國，亞馬遜佔據了智能音箱64.6%的份額，而在國內，StrategyAnalytics、Canalys和IDC無不在報告中指出了這樣的事實：去年才正式發力智能音箱的百度，早已成為世界前三、中國第一的品牌。

特別是隨著語音技術的持續深入，巨頭們也開始改變自己的戰略路線，百度就是一個特例。

2016年就在內部形成了「夯實移動基礎，決勝AI時代」的驅動戰略，並確立了AIfirst的公司架構，相繼打造了包括語音技術、圖像技術、視頻技術、NLP、知識圖譜、數據智能以及深度學習等技術研線的AIG，涵蓋全自動駕駛、智能輔助駕駛以及車聯網業務的AIG，業務範圍涉及小度助手、智能音箱等軟硬體語音技術的SLG。

如此，語音技術不僅為人機交互提供了新的可能，也在一定程度上成了巨頭從互聯網跨向AI賽道的「引路人」。

如果以2019年作為新起點的話，語音識別已經從雙翼飛機時代進入噴氣式飛機時代，下一步的目標無疑就是成為火箭級的產品。幸運的是，在這場決定著未來科技生態的戰場上，中國的玩家不再缺席，而是從跟隨者變成了領導者。

未經允許請勿轉載到其他公眾號

請給本公眾號留言獲取內容授權

鈦媒體2018十大作者

品途商業評論2018十佳專欄作者

百家號千分好文出彩創作者

人人都是產品經理年度作者

入駐虎嗅、創業邦、界面等50餘家科技媒體

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！