智能音箱硬體和軟體介紹[下] 軟體平台和服務端 [農步祥]

科技 02-06

DingDong 叮咚 LLSS-A1 語音智能音箱

智能音箱硬體和軟體介紹[下] 軟體平台和服務端 [農步祥]

Amazon 亞馬遜 Tap 攜帶型智能音箱 - 和JBL Go Smart對比

所謂智能音箱，首要條件必然是有一個智能化、自動化的人機交互系統。在上文我們介紹了一個「標準」的智能音箱包含的硬體部分。可以看出，目前的智能音箱本身並不需要多麼強悍變態的硬體，普遍只是樹莓派的性能水平。目前最暢銷的智能音箱是亞馬遜Alexa的系列產品，終端銷量已經達到千萬級別，這也說明了智能音箱產品是一種可以和普通藍牙音箱一樣大規模生產的設備。

但是這些簡單的硬體只是驅殼，而基本的操作系統也無外乎Linux和Android等開源操系統基礎上進行針對性定製，音箱從聽取用戶話語到做出相應的語音回復，背後是由一個龐大的雲服務體系所處理的千萬列工作任務線程中的一支，智能語音涉及的知識庫過於龐大，它涵蓋了數學[高等數學的函數知識、統計學基礎]、聲學[聲學的基礎、理論和測量]、計算機學[數字語音信號處理、編程基礎、深度學習]。今天，我們就從軟體和後台服務角度，基於目前開放的資料和公開技術平台簡單介紹音箱到底是如何聽懂人話並說人話的。

自動語音識別[ASR]

智能音箱硬體和軟體介紹[下] 軟體平台和服務端 [農步祥]

語音識別

語音識別是智能語音交互體系中，系統將人說的話轉換成文本文字的過程，和人類交談類似，智能音箱的「思考」首先是如何將說話理解成對應的文字。現在的智能系統和背後的伺服器還無法判斷用戶的話到底是不是對著音箱說的，因此需智能音箱在待機狀態下，麥克風也會保持開機工作，但一般是通過喊特定詞語的方式。

從上一篇硬體分析文章中得知，智能音箱首先通過麥克風和ADC模塊將聲音轉化為數字音頻信號，但是在數字信號生成時，為了讓識別更為快速準確，信號首先會通過硬體或軟體DSP等方式進行以下簡單處理：

1、聲音測向：通過麥克風陣列用於識別語音信息的主要來源方向，便於進一步進行信號增強和降噪等處理；

2、波束形成：在各個方向的麥克風獲得的信號經過加權、延時、求和等處理後獲得的一個有聲場空間指向性的音頻信號，用於抑制主聲音方向以外其他聲音[包括其它方向上其他人同時在說的話]；

3、語音增強：通過數字增益等方式提升語音信號的清晰度；

4、降噪：和手機通話類似，將背景的環境噪音以及音箱自身播放的音頻內容消除；

5，消除混響和回聲：語音信息的聲波在室內會由於牆壁等障礙出現多次反射後出現的混響效果，會嚴重語音識別的精度。

在經歷以上幾個前期處理步驟後轉換成的一個單聲道數字音頻信號，就是智能音箱接下來將要進行的就是將數字PCM數據轉換為文字的工作了。那麼此時的語音信號的特性可以參考一下Soomal各類手機的通話測評文章中常見的單聲道波形圖。

智能音箱硬體和軟體介紹[下] 軟體平台和服務端 [農步祥]

語音識別流程圖

對聲音信號的處理是一個非常複雜的分析工作，首先要將音頻逐步切分成一個個小段[每段約幾十毫秒左右]，然後逐段進行分析並通過聲學特徵提取成一組特徵碼。對語言學來說，單字或單詞的發音由音素構成，各個語言的音素的集合構成了發音的基礎，且不同語言之間有所區別[漢語音素集一般為全部聲母和韻母，英語的常用標準音素集有39個音素]，而音素還能細分成三種狀態。

將這組已經轉換成特徵碼的音頻數據通過比較音素集和狀態集，將幀拼合為狀態，再將狀態拼合成音素。這個過程內容極其複雜，幀拼合成狀態、狀態拼合成音素、音素拼合成字詞的過程需要用存儲了巨大參考數據的「聲學模型」和「語言模型」進行概率的計算，而「聲學模型」的參數建立需要用大量的語音數據進行訓練，還要對付各類地區的口音差異。而語言模型則是通過海量文本的訓練得出的統計規律，讓轉換過程能正確理解特定的語義環境和上下文關聯。通過這些步驟，音頻信號最終轉換成為了文字。由於ASR的詳細流程和工作原理過於複雜，這裡便不展開敘述。

相應的，如此複雜的語音識別技術需要大量的實驗積累，能夠自研聲學模型、語言模型技術的智能音箱廠商很少，一般會通過開源或購買專業廠商的技術服務，比較知名的有Nuance[蘋果Siri、小米等在用]、國內的思必馳等，甚至可以多種識別技術聯合共用。語音到文字的識別過程多數情況下可以通過本地運算完成，例如我們常用的各類語音輸入法就是典型的語音轉文字應用，另一個例子是科大訊飛的語音翻譯機曉譯，它可以依靠離線的神經網路資料庫實現中英日粵多種語言和方言間的相互翻譯。

智能音箱硬體和軟體介紹[下] 軟體平台和服務端 [農步祥]

科大訊飛的多語種智能翻譯機曉譯

另外，聲音特徵識別技術除了識別語句外還有其它大量和聲頻相關的行業應用，並不局限於語音領域，其中一個比較有趣的應用案例就是哼唱曲調識別歌曲，其聲學模型主要是來自音樂的旋律特徵庫，識別成功率率通常也比較高。

自然語言處理和深度學習

自然語言處理的簡寫為NLP，NLP是一個龐大的系統工程，包含了語音的識別和語音生成的部分。在智能語音交互中，NLP另一個最重要的工作是如何應對前面通過用戶語音分析出的文本內容，智能語音的智能家居控制也是目前的一個技術熱點，在理解用戶的文字含義後又要進行電器的控制。電腦如何識別人類語言的語法、語義、語境，甚至還有在不同的語言見進行翻譯，詞義的分歧，句法的模糊性和不規範的用語習慣等。如果依靠單個任務程序對逐字反覆分析，效率極低，要如何儘快識別文字信息，解決的方法涉及到一個時髦的名詞——深度學習。

智能音箱硬體和軟體介紹[下] 軟體平台和服務端 [農步祥]

神經網路 - 圖片來自互聯網

動物的大腦依靠數量巨大的神經元來接收和傳遞五官的感知信息，人的大腦內神經元數量就有140億個，而一個智能手機或智能音箱內的處理器可以運行的線程數量遠遠達不到這個水準。而深度學習就是一個包含多個隱層的神經網路，用來解決無法用常規的計算機處理難以高效高速解決的問題。這樣，一句話、一張圖片就可以通過龐大數量的神經元並行計算更快地獲得結果。目前深度學習系統多由大型科技企業和大學實驗室進行研發，且多數為完全免費開源的項目，已經得到非常廣泛的研究和應用。大家較為熟悉的谷歌、微軟、Facebook等企業都提供了開源的深度學習系統解決方案，而目前最受歡迎、知名度最高的則是谷歌TensorFlow。

深度學習分為學習和應用兩個階段，以TensorFlow在2017年最經典的應用案例——AlphaGo來看，人工智慧理解圍棋規則、學習棋譜和如何下棋等和過去的運算方式有了很大變化。儘管AlphaGo本身只是「圍棋選手」，但身後的DeepMind和TensorFlow已經可以承擔多樣化的複雜運算和判斷應用。可以說是人工智慧、機器學習發展的極大進步，在AlphaGo之後，騰訊等跟進研發的圍棋人工智慧的棋力也達到了職業選手的水準。

智能音箱硬體和軟體介紹[下] 軟體平台和服務端 [農步祥]

NVIDIA Tesla P100 - 圖片來自互聯網

和人的學習一樣，機器的深度學習過程需要時間，而單純依靠CPU的運算並發能力已經不夠，因此目前主流的深度學習都支持nVIDIA的GPU通用運算CUDA技術，GPU架構的特殊性可以勝任超大量的並發計算，效率遠高於CPU平台。例如，哈爾濱工業大學SCIR實驗室的NLP和深度學習的項目，典型的實驗設備是以下這樣的硬體：

智能音箱硬體和軟體介紹[下] 軟體平台和服務端 [農步祥]

哈工大的NLP實驗設備配置

實際上用戶量較大的智能音箱的雲端伺服器也是類似的核心配置，正是由於GPU運算性能在深度學習神經網路大放異彩，也使得NVIDIA的產品重心從桌面PC變成了伺服器領域。神經網路和機器學習後所積累的數據可以很好地部分應用於神經網路計算規模相對更小的單機設備[例如AlphaGo2的伺服器集群規模就要比1代小很多，但仍然是「集群」]。智能音箱和智能語音的消費類產品還在起步階段，需要在線的深度運算網路進行分析運算，還無法離線使用。當然，深度學習主要目的是為了正確理解人的語言，具體的應用功能還需要進行拓展，為了方便智能家電廠商和第三方應用開發，許多智能音箱開放了開發介面，更利於增加許多實用性或趣味性更強的小應用。

文本語音轉換[TTS]

智能音箱硬體和軟體介紹[下] 軟體平台和服務端 [農步祥]

採用人工智慧合成配音的紀錄片《創新中國》

將文本轉換到語音可以說是很常見的功能了，國內互聯網起步的早年間就有大量的電子書閱讀工具軟體。絕大多數音箱不需要通過深度學習網路就能自行將文本轉換成語音輸出至喇叭。要做到接近人聲的流暢自然語序和斷字，尤其是文本量巨大多變的人機語音交互中，還是需要一定的技術功力，目前多數智能音箱對於語音輸出的品質追求普遍不高，但也在逐步改善之中。例如前段時間央視播出的紀錄片《創新中國》中的旁白就採用了人工語音生成，在經過後期處理後已經達到可以接受的水準。另一個正面例子是亞馬遜的Alexa，其自動生成的語音水平就非常驚艷和逼真，遠超微軟和谷歌的產品。

總結和展望

隨著深度學習開源項目的逐步普及，其技術也越來越成熟，因此可以看到小米、阿里雲等企業也推出了自己的智能音箱產品和標準。雖然各廠家的語音識別和深度學習網路的技術原理大同小異，甚至一個廠商可以為不同的智能語音陣營提供產品[JBL、哈曼等]，但作為商業產品，廠商之間的深度學習成果以及神經網路並不是互通共享的，而是處於自立門戶和競爭的狀態，另外智能家電設備廠商對語音接入的興趣普遍不高，京東微聯的語音功能匱乏就是很好的例子。

智能音箱硬體和軟體介紹[下] 軟體平台和服務端 [農步祥]

中國智能硬體產業圖譜 - 圖片來自互聯網

在這個人工智慧市場熱度極高的時期，即使智能音箱並夠智能，也已經有了一定的市場影響力，根絕Canalys的統計，2017年全球智能音箱銷量突破3000萬台，而2018年間則是決定勝負的關鍵性階段，市場規模預計在5600萬以上，而蘋果的智能音箱HomePod也終於在2018年初入場競爭，而比智能音箱硬體本身更重要的是智能語音標準的成敗，各品牌也必然在積蓄實力和用戶基礎，力圖讓自己掌握在手中的技術成為未來人機語音交互的介面標準。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 數碼多 的精彩文章:

※如何將蘋果iPhone X的Face ID應用至國產手機？ [劉延]
※手機市場關鍵詞漲價、全面屏、清庫存 [劉延]

TAG:數碼多 |