一文讀懂語音識別史

最新 10-17

語音是最自然的交流方式，但還未能與機器自然交流。自從愛迪生髮明了留聲機，人們就開始了與機器的交談—— 但是主要還是與人交流，而非機器本身。

到20世紀80年代，語音識別技術能夠準確地將口語轉化為文本。2001年，計算機語音識別達到了80％的準確度。從那時起，我們就可以提取口語語言的含義並作出回應。然而，多數情況下，技術仍然不能像鍵盤輸入那樣帶給我們足夠好的交流體驗。

近幾年來，我們取得了巨大的技術進步。語音識別引擎的準確性已經提高了很多，現在達到了95％的準確度，略高於人類的成功的速率。隨著這項技術的進步，語音優先的基礎設施變得越來越重要，因此亞馬遜、蘋果、谷歌、微軟和百度都迅速部署了聲音優先軟體、軟體構建快和平台。聲音為王的時代來了！

現在我們來仔細談談以下兩點：

我們是如何達到當前語音識別技術水平的；

以聲音為基礎的基礎設施是如何發展的。

▍語言識別發展史

語音識別並非新生事物，可追溯至二十世紀50年代，只是過去採用了不同的方式來理解語音。為了更深刻地理解過去幾十年的情況，我試著總結了大量相關文章。

文章來源見文末，這裡特別要提到Chirs Woodford 的《語音識別軟體》，為本文提供了主要依據。

1950/1960

第一個語音識別系統是基於單一模式匹配。這些早期系統的一個很好的例子就是公共事業公司曾採用的自動化系統，讓客戶自動抄表。在這個例子中，客戶給系統的回應只是有限選項列表中的一個字或數字，計算機只需要區分有限數量的不同聲音模式。

它通過將每個聲音塊與其內存中的類似存儲模式進行比較來實現。在1952年，貝爾實驗室的一個團隊設計了能夠理解口頭數字的機器Audrey。

1970

技術進步使基於模式和特徵分析的語音識別系統得以發展，其中每個字被分解成比特位元組並通過關鍵特徵（比如它包含的母音）進行識別。這種方法涉及到將聲音數字化及將數字數據轉換成頻譜圖，將其分解成聲音幀，再分解單詞並識別每一個的關鍵特徵。

為了識別可能說到的內容，計算機必須將每個單詞的關鍵特徵與已知特徵列表進行比對。用得越多，系統就越來越好，因為它集成了來自用戶的反饋。這種方法比以前的方法要有效得多，因為口語的基本聲音成本數量十分有限。

從1971年到1976年，DARPA投資了進行了五年的語音識別研究，目的是做成一台至少能理解1000個單詞的機器。該計劃使卡內基梅隆大學創造了一台能夠理解1,011個單詞的機器。

1980

但是以前的技術仍然不是超精確的，因為言語中太過複雜：不同的人會用不同的方式說出同一個詞，還有許多發音相似的詞（例如two和too）等等。為了進行統計，語音識別系統開始使用統計學方法。在此期間推出的關鍵技術就是Hidden Markov Model（HMM），被用於構建聲學模型和隨機語言模型。

聲學模型表徵音頻信號和語音單元之間的關係，以重建實際發出的內容（特徵→音素）。語言模型基於最後一個單詞預測下一個單詞，例如。與其他詞語相比，「上帝保佑」的後續詞更有可能是「女王」。

此外，還有一個語音字典/詞典，可提供單詞及其發音相關的數據，並聯繫聲學模型和語言模型（音素→單詞）。最終，當前單詞的語言模型得分與其聲學得分相結合，以確定假設的單詞序列的可能性。

1987年，可對語音作出回應的玩具——朱莉娃娃將語音識別技術帶入了普通家庭。

1990

直到20世紀90年代，語音識別系統還是太慢而無法開發有用的應用程序，但是當時推出的微處理器帶來了重大進步，開始出現語音商業應用。

DragonDecitate的Dragon於1990年問世，是首個面市的語音識別產品。1997年，你可以在一分鐘內對系統說出100個字。

2000

計算機語音識別在2001年達到了80％的準確度，但此後鮮有進展。

2010

過去十年里，機器學習演算法和計算機性能的進步帶來了更有效的訓練深層神經網路（DNN）的方法。

因此，語音識別系統開始使用DNNs，更具體地說，是使用一種DNNs的特殊變體，即循環神經網路（RNNs）。此後，基於RNNs的模型表現出比傳統模型更好的精度和性能。事實上，2016年的語音識別準確度達到了90％，Google在2017年6月聲稱已達到95％的準確率。

這太令人震驚了，要知道研究人員估計人類轉錄精度略還低於95％。然而，應小心對待這些公布的結果，因為它們通常是在完美的條件下的測量結果，例如，無背景噪音的錄音和英語母語者的錄音。在「非純凈條件下」的準確度可理解降至75-80％。

當您需要標記數據來訓練演算法時，現在面臨的挑戰是獲得在現實生活中記錄的數千小時的口語音頻，以提供給神經網路並提高語音識別系統的準確性。這就是谷歌，亞馬遜，蘋果和微軟正在通過置入Google Now所做的事情！

每台手機上的Siri和Cortana免費或以便宜的價格銷售Alexa。這都是為了獲取訓練數據！

▍語音基礎設施開發

語音基礎設施開發，可以分為三個必要層次來產生新的應用程序：

硬體允許更多的人使用語音作為介面；

軟體構建塊允許開發人員構建相關的語音優先應用程序；

生態系統能實現有效分配和收益。

語音硬體的發展

Voicelabs將語音優先設備定義為始終在線的智能硬體，其中主借口是語音，包括輸入和輸出。市場上首個語音優先硬體是亞馬遜2014年底推出的Echo。

VoiceLabs2017報告稱，2015年發售的語音優先設備達170萬台，2016年為650萬台，而2017年將會達到2450萬台，因此使用中的語音優先設備有3300萬台。市場上的主要代表是亞馬遜的 Echo（2014年11月）和谷歌的Home（2016年11月）。

然而，新玩家不如湧現：索尼推出了基於谷歌助手（2017年9月）的LF-S50G；蘋果即將推出Homepod（2017年12月）；三星最近也宣布將「即將發布」同類產品；還有Facebook可能會推出觸摸屏的智能揚聲器。

谷歌助手還將來迎來新的播放器，其中包括Anker推出的Zolo Mojo、Mobvoi的TicHome Mini以及Panasonic的GA10。

毫無疑問，聲音優先硬體發展迅猛，且有望增長！

語音軟體的發展

白手起家構建語音應用程序並非易事。Nuance和其他大公司已經向第三方開發者提供語音識別APIs，但使用這些APIs的成本達到歷史新高，卻沒有獲得驚人的成果。

隨著語音識別技術開始取得更好的成果，語音優先應用的潛力越來越大，像谷歌、亞馬遜、IBM、微軟和蘋果以及Speechmatics這樣的大型公司開始以較低價格提供各種API產品。

一些最常用的包括2016年7月發布的Google Speech API，及2016年11月推出的Amazon Lex和Amazon Polly於2016年11月發布。

現在，大量開發者可以以合理的成本開始構建語音優先應用程序。

語音生態系統

隨著越來越多的語音應用和硬體催生了語音的入口，平台不僅要負責分銷和盈利，而且類似於分析和營銷自動化這類第三方服務也變得非常重要。

亞馬遜、谷歌和微軟已經開始建立這樣的生態系統，蘋果也即將開始。整體技能是衡量這些生態系統是否成功的一個好方法：

編譯：vivian

來源：medium

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自輕芒的精彩文章:

※這三間威士忌酒廠的重生是對單一麥芽威士忌愛好者們最好的饋贈
※當紅復古時髦穿搭法，助你輕鬆贏下秋冬季！
※不知道這些AI知識，千萬別說你是AI圈的！
※Google 街景幫助恐曠症患者了解世界
※年輕人都是這麼穿的

TAG:輕芒 |