當前位置:
首頁 > 科技 > 智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

科大訊飛 VBOX 智能音箱 - 電路板

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

Google 谷歌 Google Home 智能音箱

從2014年起,我們先後通過自購和合作廠商獲得多個智能語音識別「流派」的品牌音箱產品。那麼在接觸和體驗科大訊飛AIUI、亞馬遜Alexa、Google Home 、微軟小娜等實體化的硬體產品後,以及蘋果的智能音箱HomePod即將上市之際,當我們打算總結時,卻發現一直遺漏了一些需要為Soomal讀者們解答的問題:這些智能音箱內部是什麼結構,又是如何工作的?

隨著市場、資金、技術人員的研發投入加大,語音識別交互產業技術也在逐步完善,除了誕生許多配套的軟硬體供應商外,甚至已經有不少數量的開源硬體及開發資源,我們也將通過硬體和軟體兩部分去分析並介紹一個典型的功能完整、支持遠場拾音[FAR]的智能音箱是如何誕生的。

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

基於樹莓派的智能音箱開發組件 - 圖片來自互聯網

從上圖可以看出,一個典型的智能音箱除外殼以外所有的模塊化部件數量並不算多。有1、處理器主板;2、電源和功放電路板;3、揚聲器;4、麥克風;5、可編程MCU電路板;6、LED燈。而7是一個增強低頻量感的被動單元,並不是必要的組件。

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

另一個基於樹莓派的智能音箱開發組件 - 圖片來自互聯網

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

另一個基於樹莓派的智能音箱開發組件 - 圖片來自互聯網

有意參與智能語音交互體驗或者成為音箱硬體、應用的開發者,這些基於樹莓派的智能音箱開發組件並不需要花多少金錢就能獲得。但是要注意的是這已經是2017年的產物,是智能音箱產業開發者們經過無數生產實踐整合出來的產品。智能語音助手的工作流程大致可以分為語音識別[ASR]——語言處理[NLP]——語音合成[TTS]三個步驟,但實際上還需要細分為大量的專業項目,我們就以智能音箱的工作流程來介紹智能音箱內部的重要硬體組成部分。

麥克風陣列

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

DingDong 叮咚 LLSS-A1 語音智能音箱-拆解-麥克風陣列

為了接收語音,智能音箱自然少不了麥克風[Mic]以及模擬信號轉數字的組件[ADC],智能音箱為何一般會做成圓柱形?是因為除圓柱形佔地面積小的優點外,圓柱形可讓多個麥克風協同工作的陣列在箱體中不容易出現死角,還能像人耳那樣辨別聲音的來源和方向。既然是「陣列」,那麼就至少需要兩個以上的麥進行協同工作。Alexa Echo、Echo Dot等就用了7個麥克風,而Google Home、Home mini只用了兩個。當然智能音箱產品中還有一些是通過改變藍牙音箱的內部電路實現智能化,沒有增加麥克風陣列電路的空間。不支持遠距離語音識別、需要通過按鍵操作說話的智能音箱,則往往只有一個麥克風進行拾音。

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

Google Home電路板[黃色圈為MEMS數字麥克風] - 圖片來自ifixit

MEMS數字麥克風:從叮咚LLS-A1的拆解中,我們還可以看從內部到一隻只的麥克風組件,但是在更新的智能音箱內部電路板上,這些小小的動圈麥居然消失了,取而代之的是一種體積極小、集成度更高的MEMS麥克風,它的外形就像一個迷你的時鐘晶振。

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

英飛凌的MEMS數字麥克風組件 - 來自互聯網

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

英飛凌的MEMS數字麥克風組件 - 來自互聯網

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

MEMS數字麥克風組件的結構 - 圖片來自安森美

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

MEMS數字麥克風組件的電路圖 - 圖片來自安森美

除了體積大幅度減小,這些MEMS麥克風組件內部是由MEMS聲音感測器和一個完整的Δ-Σ ADC流程電路的ASIC,這就意味著經過這樣的麥克風可以直接輸出數字音頻PCM信號。市面上的MEMS數字麥克風主要來自AKM、婁氏、英飛凌等專業音頻半導體廠商提供。

核心運算電路

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

DingDong 叮咚 LLSS-A1 語音智能音箱-拆解-全志R16處理器

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

JBL Go Smart 音樂魔方攜帶型語音智能音箱-君正X1000 MIPs處理器

變成數字信號後,進一步的識別和語言處理工作就要通過ARM處理器工作,國內的智能音箱一般採用全志、瑞芯微、AMLogic等小型處理器廠商的低功耗多核心ARM處理器,也有君正等MIPS處理器。由於省去了圖形界面和顯示輸出,因此並不需要強大的處理性能。而美國廠商的智能音箱更偏愛集成度更高的TI、博通多媒體SoC,而聯想的智能音箱甚至用上了英特爾的Atom X86處理器。雖然CPU性能不是最終影響智能音箱使用體驗的關鍵因素,但更好的性能有利於更快地處理語音信息。

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

基於XMOS的麥克風陣列組件 - 圖片來自互聯網

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

基於XILINX FPGA的麥克風陣列 - 圖片來自互聯網

為了測試開發方便、優化語音處理的性能和速度,開源硬體的麥克風陣列所在的電路板還包含了一些可編程晶元,例如FPGA、DSP等,甚至XMOS也提供了這樣的開發板,這些DSP子系統結合CPU通過操作系統的API用於語音的定向、降噪,甚至直接進行語音轉換文本處理,DSP可以更低的功耗代價和更短的運算時間將語音信息轉化為文本,這樣語音信息只要經過陣列這一層電路板,實際上就經過了將模擬信號轉變成一個可以供NLP工作流程的數字語音信號甚至是已經提取出來的文本信息。通過網路發送至雲端進行進一步的計算。通過雲端伺服器獲得的文本通過本地CPU運算轉換為語音,也就是常說的TTS流程。

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

DingDong 叮咚 LLSS-A1 語音智能音箱-拆解-博通AP6210藍牙4.0+WiFI模塊

絕大多數智能音箱系統還支持智能家居功能,此時音箱內部的操作系統通過無線區域網絡輸出特定指令控制已經處於聯網狀態並且通電待機中的智能家電設備。

音頻輸出電路和揚聲器

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

DingDong 叮咚 LLSS-A1 語音智能音箱-拆解-揚聲器x4 四面各一個

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

DingDong 叮咚 LLSS-A1 語音智能音箱-拆解-TI TAS5731M 數字功放晶元

變成數字音頻信號後,接下來自然就是Soomal讀者們最為熟悉的音頻輸出部分了:將數字信號轉換為模擬信號並通過功放和揚聲器[喇叭]輸出語音信息。音頻輸出部分的功率和音質往往最終決定了一個智能音箱的體積和物料成本,通常就是簡單的D類數字功放電路和揚聲器了。

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

谷歌Google Home Max智能音箱 - 圖片來自互聯網

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

JBL Horizon 音樂地平線 藍牙音箱

絕大多數智能音箱對音質並不偏重,只需要一個小口徑的全頻單元就可以解決發聲工作,講究一些的智能音箱還會有多單元分頻、被動單元增強低音等方式提升音質和音效。但也有少數以音質為長項的「音質派」智能音箱,音質成本反而佔了很大比重,例如JBL Horizon Smart和Google Home Max等,而後者售價甚至高達379美元。

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

Amazon 亞馬遜 Echo Dot 智能音箱收發器 - 工作狀態

亞馬遜還考慮到絕大多數用戶都有現成的音箱可用,推出了通過模擬輸出外接音箱將「功能機」變成「智能機」的音箱智能化產品Echo Dot[叮咚也有類似產品]。不過這類產品上市後人們很快就發現一個問題:它們需要傳統的音箱產品保持待機工作,這對於使用待機功耗很低的數字功放音箱或許不是問題,但模擬功放電路設計的音箱甚至甲類功放待機,那就意味著嚴重的耗電暖爐和工作損耗了,這也註定了這類過渡產品市場潛力很小。

LED和顯示

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

RGB LED燈珠 - 圖片來自互聯網

為了提供視覺化的交互信息,智能音箱一般還會有LED燈珠,單LED一般通過閃爍和明暗、呼吸等效果進行工作狀態反饋,圓環狀LED可以表示聲音來源方向等效果,甚至還有類似Google Home那樣的RGB LED,LED通過系統和可編程MCU晶元進行控制。

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

帶屏幕顯示的Amazon Echo Show智能……音箱?

智能音箱硬體和軟體介紹[上] 硬體結構解析 [農步祥]

帶屏幕顯示的Amazon Echo Spot

過去在智能音箱行業對於產品主要還集中在「音箱」屬性上,但從去年底開始又出現了新的趨勢,亞馬遜似乎已經不滿足於燈珠的效果,推出了帶攝像頭、屏幕顯示的亞馬遜Echo Show、Echo Spot等,增加了可視電話通訊、多媒體視頻播放器等更多的用途,這類產品似乎已經不能歸類為「智能音箱了」。

總結

以上的組件加上電源、外殼,就可以組裝成了一個完整的智能音箱。音箱的硬體部分對於智能音箱是否好使起到了地基的作用,造型的美醜、音質的優劣、運算速度快慢等硬體特性決定了用戶對音箱的第一印象的好壞,但是消費後如何保持用戶黏度和長期使用、實用性的功能等等卻並不是硬體能解決的問題,一個音質再好的Google Home也無法遙控家裡的美的空調,這些語音識別應用的技術源頭和隔閡來自何處?下一章中我們將介紹智能音箱的核心技術——軟體系統和語音識別技術的結構。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 數碼多 的精彩文章:

OPPO R11s Plus 智能手機攝像頭實拍 樣張圖集第二期[23P] [Soomal]
Hiby 海貝 R6 攜帶型智能音頻播放器測評報告[二] 擴展功能測評 [Soomal]

TAG:數碼多 |