2016智能語音行業年終盤點：現狀、困境和未來

科技 12-13

國內智能語音行業形成了以互聯網公司為主導的格局，並且在技術上與國外同行相比也是毫不遜色，甚至在大資料庫搭建、實驗布局等方面已開始碾壓後者。

智能硬體小站文|宮永咲

作為目前人機交互最重要的方式之一,語音交互技術的發展可以從兩方面來衡量，一是軟體系統的提升，如識別率和智能度的改進；一方面是與硬體的結合，即最終場景應用的實現——這也是技術成果轉化的關鍵。回顧2016年，智能語音行業在這兩方面都收穫了很多成績。頗值一提的是，得益於智能硬體、物聯網、雲存儲和大數據等相關行業的共同進步，圍繞語音交互技術形成的產業融合效應持續釋放，諸多細分領域下的產品大量湧現。

眼下的十二月，北半球凜冬已至，2016年的時光所剩無多。過去的一年中，科技行業爆發了數不清的熱點事件，令人意猶未盡又滿懷憧憬。既逢歲末，小站君打算與大家一起盤點一下2016年智能語音行業的發展現狀、困境與未來趨勢。

2016智能語音行業年終盤點：現狀、困境和未來

不得不說，本年度的智能語音行業較之往年又有了許多突破，不僅技術上不斷提升，而且應用型產品也是層出不窮，因此我們就從技術和產品的歷史、現狀入手，試著給大家描繪一個行業的發展圖景。

語音技術歷史及全球總體發展水平

確切地講，智能語音技術的主體是語音交互技術，也就是使人能用聲音和機器進行交流的技術。從研究方向來看，這項技術自誕生之日起，人們關注的是語音的識別、合成以及成果應用。幾個方向中，語音識別是重中之重，幾乎整個語音交互技術的發展都是圍繞著語音識別來展開的。

為什麼語音識別如此受重視？答案很簡單：要想和機器交流，首先要讓機器「聽懂」人話，而讓機器聽懂人類語言的關鍵一步，就是語音識別。如果這一步走不好，後續的設想都是空中樓閣。

那麼，怎樣衡量機器是否聽懂了人類的語言呢？簡單來說，實現了機器對語音識別的低錯誤率，基本上就可以保證機器能聽明白了。而錯誤率越低，機器對語言的識別效果就越好。

所以，語音識別技術的進擊之路，就是以不斷提高識別率為己任的過程。

2016智能語音行業年終盤點：現狀、困境和未來

那麼,目前該技術究竟發展到怎樣的水平了呢？別著急，為了讓大家對2016年的語音識別技術有一個更清晰的認識，小站君還要給大家從頭說起。

語音識別研究自上世紀50年代興起以來，在不同時期面臨著不同困境，當然最終也在對這些困境的突破中不斷進步。上世紀50年代到60年代，該研究著眼於單個字詞到連續語音的識別，當時最大的困境是對相關數據的計算能力的低下，這直接導致該時期研究進展極其緩慢。到了70年代，計算機性能大幅提升，之前的問題便不復存在，並且隨著計算機軟硬體技術的高速發展，該研究已不再受困於計算能力，人們便開始將研究重點放在數據演算法的優化提升上，並將這一方向保持至今。

簡單來講，這個方向的問題解決方案是基於一個框架（如下圖），通過對框架內的各部分進行改進，最終向著識別的極限正確率邁進。各部分中，聲學模型和語言模型的構建，則是整個方案中的研究焦點。

2016智能語音行業年終盤點：現狀、困境和未來

聲學和語言模型之所以受到重視，與其自身的特性是分不開的。剛才提到的數據演算法優化，其實主要就是對這兩個模型的構建技術進行提升，這個思路與前文提到的——人們將語音識別技術的研究方向鎖定在識別率的提升上——的思路其實是對應的。

從實際情況看，人們對兩個模型構建技術的研究也是比較漫長和曲折的。從上世紀80年代開始，由於引入了隱馬爾科夫模型（HMM）和NGram語言模型（前者是統計學模型，其後約三十年間聲學模型建構技術的演進均以此為理論基礎；後者至今仍是語言模型建構的主流方式），語音識別建模技術取得很大進展，尤其是80年代末李開復將隱馬爾科夫模型與高斯混合模型（GMM）相結合進行語音識別建模，開發出世界上第一個「非特定人連續語音識別系統」,即SPHINX系統。隨後，主流的GMM-HMM技術框架的發展日益穩定，但語音識別效果難以轉嚮應用化的局面長時期沒有被打破，這意味著語音識別技術又遇到了瓶頸。

轉機出現在2006年。這一年，深度學習的概念被辛頓提出，深度神經網路（Deep Neural Network，DNN）研究因此而復甦。2009年，辛頓和他的學生將深度神經網路應用於語音的聲學建模上並獲得成功。到了2010年前後，微軟研究院的俞棟、鄧力等人將深度學習在圖像領域的突破移植到語音識別領域，使識別錯誤率降低了20%以上。從此，基於GMM-HMM的語音識別框架被打破，人們開始轉向基於DNN-HMM的語音識別模型的研究。

2016智能語音行業年終盤點：現狀、困境和未來

從2011年到2015年，以深度神經網路為基礎的語音識別建模技術迅速發展，也使2016年的語音識別乃至語音交互行業呈現出這樣一個現象：全世界範圍內的企業的建模技術萬變不離「深度神經網路」這一宗，雖大同小異但又各顯神通。下面小站君就向大家介紹各家企業語音識別技術的實際進展。

國內外公司語音技術具體水平如何？

目前來看，具體到行業內部，我們很容易發現這樣一個事實:雖然國內企業的語音識別技術水平在六七年前與國外企業是處於同一起跑線上的,但是隨著近十年來互聯網、尤其是近五年來移動互聯網大潮的助推，國內的智能語音行業形成了以互聯網公司為主導的格局，並且在技術上與國外同行相比也是毫不遜色，甚至在大資料庫搭建、實驗布局等方面已開始碾壓後者。

出現這樣的局面並不難理解。首先，本就屬於前沿領域的智能語音研究需要高效的人才和資金，這與互聯網公司重技術輕資產的基因不謀而合；其次，語音技術成果的轉化在當下的市場環境下，勢必只有藉助互聯網才能惠及大眾，這也與互聯網公司的產品思路不謀而合。

接下來，我們就請出這些大牛公司，來一窺它們在2016年的智能語音領域的亮眼事迹。

特別提示：

1、由於前文已告知語音識別技術發展的大概脈絡，為行文簡潔故，以下介紹中的技術名詞便不作詳解，諸位只需了解其所處的發展地位即可；

2、卷積神經網路（CNN）技術在2012年以前主要被應用於圖像識別領域，後來隨著語音識別研究的進一步深入，人們發現CNN在這兩個領域的使用具有共通性，且CNN對語音識別研究極具借鑒意義。所以，就出現了目前CNN風頭正勁、相關技術大都與CNN結合的局面。

2016智能語音行業年終盤點：現狀、困境和未來

百度

2016年第四季度百度宣布,其已將Deep CNN（DeepConvolutional Neural Network，深層卷積神經網路）識別技術應用於聲學模型的構建中。據稱，這使得識別精度較之前提升了10%。緊接著，2016年11月22日，百度宣布旗下的百度語音在「安靜條件下」的識別準確率達到了 97%。

值得一提的是，身為搜索服務提供商，百度在海量數據的收集上有著先天優勢，這為其語音大資料庫的搭建以及模型的強度化訓練提供了無與倫比的便利。

搜狗

2016年，搜狗分別在不同場合展示了自己的語音識別技術。從目前搜狗相關技術人員對外公布的信息來看，其整體技術方案是對當下主流的DNN、RNN（Recurrent Neural Network，循環神經網路）、LSTM(Long-Short Term Memory，長短時記憶模塊)、LSTM-CTC（Connectionist Temporal Classification，序列短時分類）等建模技術的綜合運用，也就是依據使用場景來選取方案的「見招拆招」的打法。在此基礎上，2016年11月21日，搜狗對外宣布，搜狗語音的識別準確率達到了 97%，並支持最快每分鐘 400 字的聽寫。

2016智能語音行業年終盤點：現狀、困境和未來

同百度一樣，由於搜狗輸入法用戶基數龐大以及搜狗搜索市場份額的快速提升，搜狗在大數據的獲取上也佔盡先機。

科大訊飛

根據目前已披露的信息，科大訊飛當下的技術利器是DFCNN（Deep Fully Convolutional Neural Network，深度全序列卷積神經網路）技術。該技術是針對CNN的傳統思路進行突破後建立的新一代語音識別框架。而在2016年11月23日，科大訊飛宣布，其語音識別成功率達到97%，離線識別率亦達95%。

2016智能語音行業年終盤點：現狀、困境和未來

至此，我們很有必要做一個總結，原因是我們要正視這樣一個問題：三家公司都宣稱自己的識別率達到了97%，意味著什麼？

其實，答案不言自明。首先，雖然各家數據的生成方式各有千秋，但彼此之間的技術走向和差距已不分伯仲；其次，這個情況也揭示了當前行業的技術困境，那就是再實現技術跨越式發展所面臨的阻力，已因為各種不確定因素的存在而大大增加了。就像考試，滿分100分的前提下，從50分考到60分畢竟要比從97分到100分容易的多。

此外，BAT中的阿里和騰訊兩家2016年的智能語音技術概況如下：

2016年年初，阿里提出了「智能解決率」的概念，大意是旗下的智能客服產品「阿里小蜜」每天面對百萬級服務量，智能解決率接近80%，遠高於同類產品的60%的水平；同時，在人機對話語義意圖的精確識別中匹配率提升到了93%。阿里表示，「阿里小蜜」在語音識別上採用的是BLSTM（Bidirectional Long-Short Term Memory，雙向長短時記憶模塊）演算法。

2016年5月，騰訊上線智能語音服務；12月3日，騰訊發布微信語音開放平台。當時騰訊宣稱，後者在垂直細分領域的識別率可達90%以上。然而，具體到技術細節，目前騰訊尚未披露，而有據可查的是騰訊的語音識別框架內依然包含了聲學模型和語言模型。

2016智能語音行業年終盤點：現狀、困境和未來

相較於國內企業的大張旗鼓，2016國外科技巨頭在語音識別技術方面則沉默的有點可怕。唯一亮點是，2016年10月18日，微軟公司人工智慧研發團隊發布公告稱，自己的語音識別技術在Switchboard語音識別基準測試中，字詞錯誤率已由一個月前的6.3%降至5.9%。微軟表示，這是Switchboard語音識別測試歷來最低的錯誤率。這意味著，電腦辨識對話口語字詞的能力首次達到和人類的錯誤率相去不遠的水平。

然而隨後不久，百度語音識別技術負責人對此事發表了評價：這只是一個用極少量的數據對標準化資料庫進行性能檢測的偏學術的行為及成果。

國內外智能語音產品發展現狀

產品是技術在滿足市場需求條件下的衍生物。在了解了相關技術之後，我們也可以結合各個企業的風格，對其產品情況進行理解。

總體上看，雖然智能語音行業有著非常深刻的技術驅動產品的烙印，但是，上升到企業的戰略層面，技術屈從於產品的現實也並不顯得非常突兀。

目前，我們可以梳理出來的智能語音行業的產品現狀是：技術領銜且實力雄厚的大公司在建立服務性質的技術集成大平台，打算以此來搶佔未來人工智慧和物聯網的入口；剩下的企業（尤其是創業型公司，如哦啦語音等）則在打造消費級的成型產品的道路上努力前進，為的是拿實用化的產品佔領市場以及快速變現。

2016智能語音行業年終盤點：現狀、困境和未來

(叮咚音箱A3靈動版)

同樣，像雲知聲的車載智能後視鏡、出門問問的智能語音手錶、思必馳的智能車載語音系統、捷通華聲的智能語音導航系統、靈隆科技的DingDong智能音箱、Focalmax的智能機器人管家等等這類應用於車載、可穿戴及智能家居場景下的產品層出不窮，也不是沒有緣由的。

國外企業基本上也是這個套路，比如蘋果宣布將Siri應用到Apple TV OS和macOS上並開放給開發者（2016年6月）、Nuance宣布推出Contextual Reasoning Framework（情境化推理框架）（2016年10月）、谷歌發布GoogleHome（2016年5月）等。

2016智能語音行業年終盤點：現狀、困境和未來

（Focalmax智能機器人管家）

平台戰略的產品思路是,通過技術組合為垂直領域提供個性化的定製服務,以滿足不同語音應用場景對技術的需求。硬體類產品則是技術成果的實物呈現，有助於用戶對技術產生更直觀的認識。當然，任何技術在產品化的過程中，從研究端到使用端，體驗性打折非常正常。只不過，從目前人們對各類智能語音產品的反饋來看，這個折扣打得有點過頭。

需要明確的是，前述現狀的本質在現有產品的映襯下已經變得非常明顯了：結合使用場景提供高質量的服務，是智能語音技術的終極宿命。

語音技術發展的困境和未來趨勢

說完技術和產品，智能語音的現實處境和發展趨勢其實也已經相當明晰了。

首先，從技術層面看，智能語音行業的發展前景肯定是光明的。目前可見的技術困境來源於：1、對語音識別技術難關的持續性攻克。好的結局當然是最終實現識別率從97%到99%甚至100%的量變引起質變的過程；2、智能語音行業與人工智慧、物聯網、智能硬體、雲存儲和大數據等其他行業在技術協同度上的完美互融，這既是一個現實屏障，也是一個遠景藍圖；3、與其他交互方式在技術上形成鮮明對比並在交互領域一直攻城略地。

其次，從產品角度看，在現有軟硬體條件下最大限度提升使用體驗，是所有相關產品繞不開的問題。當然，由此延伸出的用戶使用習慣教育、產品性價比的優化乃至產業鏈的打造和銷售模式的探索等問題的解決，也需假以時日。

2016智能語音行業年終盤點：現狀、困境和未來

第三、小站君個人覺得最重要的一點是，從本質上講，智能語音是一個交互方式，這就決定了只有在實現了平等交流、甚至機器學會有求於人的前提下，人們或許才能實現使用這個方式的真正目的。畢竟，人類與機器進行交流並不是為了互相傷害。

就像《鋼鐵俠》中的托尼和賈維斯一樣。

寫在最後

1、本文對語音交互技術發展概況的描述思路是瞄準階段性的技術關鍵點，主要是語音識別領域的技術突破情況，故未對語音合成、交互機理等領域進行闡述，這並不代表其他領域不重要。

2、文中觀點為個人觀點，不足之處歡迎各位朋友留言指正；您也可留言發表您的觀點，大家一起交流進步。

智能硬體小站原創，圖片來自互聯網，轉載請註明出處。

請您繼續閱讀更多來自 智能硬體小站 的精彩文章:

※世界上首款配有移動電源的保溫杯：邊充電邊暖手
※根據日出日落自動開合，讓你在清晨迎接第一縷陽光
※連土壤都智能了？看這款智能菜園的核心科技有多牛
※如果你認為這是個包，那就太沒想像力了
※永遠寫不完的筆記本？是的，還可以掃描存儲哦

TAG:智能硬體小站 |

您可能感興趣

※年終盤點：2016年儀器儀錶行業十大技術突破
※2016年魔獸世界年終盤點！
※年終盤點！2016十大母嬰謠言
※年終盤點！2016十大最值得觀看的動漫作品
※全球年終盤點：2016三大關鍵字「亂」「變」「治」
※年終盤點，2016大熱的口紅就是他們！
※賦予3D列印更多附加值，2016年終盤點新材料趨勢
※2016智能汽車業年終盤點：科技公司能做好智能汽車嗎？
※年終盤點：0-3歲寶貝餵養誤區TOP5
※年終盤點：2016中國大數據領域十大美女BOSS
※YouTube做了一份年終盤點，而我只希望2016年原地爆炸
※出街凹造型也該分高低！海報2016年終盤點之最高「衣Q」韓國女愛豆，拼了一年，秀英or水晶，誰更會穿？
※海報2016年終盤點之華語明星最愛單品：小白鞋、小臟鞋、飛行員夾克……都是這些年剁過的手！
※Lady Gaga、朴信惠、吳昕……「瘦下來」遠比「動刀子」更厲害！海報2016年終盤點之瘦身後驚為天人的星星！
※年終盤點：NO1非《西部世界》HBO秒殺公共台
※不到魚死網破誓不休，還是「我就靜靜看你還能作啥妖」？海報網2016年終盤點之引爆娛樂圈的「撕X大戰」！
※海報2016年終盤點：誰才是「韓劇帶貨女王」？全智賢、孔曉振……前方有一大波時髦Look等你鑒定！
※年終盤點之紀錄片 | 勇士並沒有針對誰，然而總冠軍...
※科學傳播沙龍年終盤點