一段聲音的旅程（四）信號處理五大不安因素-空間

最新 05-10

童鞋們好，又到了秋半仙分享會的時間了！

上次我們扒光了信號處理五大刺頭之一——硬體。什麼？沒看夠？哦，那出門左轉走到底那個房間就是一段聲音的旅程（三）信號處理五大不安因素-硬體。

留下來的同學有福了哈，我們今天繼續開扒，哦不，是開八五大刺頭之二——空間！

GIF

圖片源自網路

首先我們要了解的是，不同的使用場景，空間是不一樣的，而且空間的變化也是不一樣的。每一種空間和變化，都會給信號處理帶來一些負擔。

這裡我們需要回顧一個物理現象——聲音（聲波）的反射及混響。簡單的描述，就是，「發出的聲音」在一個空間中，會不斷反射（不止一次），然後還會和其他的聲音混和在一起，再被麥克風采集回來。

GIF

圖片源自網路

如果我們查看麥克風采集上來的聲音，會發現很多次「發出的聲音」的「回聲」。人耳要區分清楚原聲和回聲，兩組聲音之間需要有150ms左右的間隔。小於這個間隔，人耳雖然無法區分出來，但機器可膈應壞了，可能直接撂挑子不幹了，從而直接影響信號處理的結果。

——「師傅，這和我們語音產品有什麼關係吖？」

——「哎喲八戒，不要著急嘛，本半仙正要解釋呢~」

GIF

圖片源自網路

我們拿音箱這個語音產品的場景做為例子吧。音箱的主要場景是「家庭」，其主功能是播放音樂。假設這個時候音箱在播搖籃曲，而你娃正在尖叫撒潑就是不睡。如果你在此時喚醒音箱「你好二傻——」，那麥克風采集到的音頻就應該包含：

1.「你好二傻」的音頻；

2. 搖籃曲的音頻；

3.搖籃曲的音頻的回聲*N；

4. 噪音——娃的尖叫撒潑聲（噪音不是本大類重點，後面講噪音的時候再單獨說）。

所有這些聲音混和在一起，二傻的內心OS就是：喵了個咪的整老子呢，老子不玩了，你們自己捋清楚了再說！然後二傻無可避免地選擇了——

狗帶……

GIF

圖片源自網路

為了解決這個「回聲」的問題，我們為「信號處理」引入了一個新的「輸入」，這個輸入就是「發出的聲音」。對應到上面的例子，就是揚聲器中播放出來的搖籃曲。仔細看下圖我們發現有一個「迴路信號」。這個「迴路信號」，就是設備所「發出的聲音」，目的是告訴「信號處理」，「哥們兒，這個是二傻我自己說的，麻煩你處理掉，別搞混了哈」。我們把這個過程，叫做「回聲消除」（或「AEC」）。這個功能是語音產品的基礎功能，也是一個經常用到的知識點，要記在小本本里哦~

針對這個知識點，本半仙順道給各位童鞋再開個小灶。因為這一段可能會比較「技術」，不好理解便不要強求，跳過即可。

AEC有一個輸入依賴，就是這一路（或多路）「迴路信號」，也就是「發出的聲音」。如果你是做音箱，就特別要注意，這路信號的目的是給予「信號處理」做為消除參考的，那麼它就需要具備其真實性。

怎麼解釋呢？有的音箱，在設計上，會有一個硬體EQ模塊。「EQ」從本質上來說，就是給音頻加上音效，說白了就相當於圖像處理中濾鏡的作用。所以，可以理解為，EQ處理前後的音頻是不一樣的。有些做音箱的企業，他們可能早年就是做音箱的，低音炮吖、均衡器吖，都是在已有的硬體組合里，然後再在這個基礎之上，增加了一個「智能模組」，模組之上跑一個linux或者android，再跑語音和音樂。所以，如果對於「智能模組」而言，迴路信號，就是智能模組輸出給音箱已有的硬體的信號數據。但是，這個信號會經過原有的硬體進行EQ處理，再播放出來，這個時候，迴路信號就和真正播放出來的音頻信號不一致了，便失去了「真實性」，那麼AEC效果可能就會大打折扣。

GIF

圖片源自網路

另外，所有的信號傳輸都是需要時間的，這是第二個需要注意的關鍵點。對於「信號處理」這個模塊來說，得到「麥克風」的數據和「迴路信號」的數據之間會有一個時間差，做技術的童鞋務必要注意這個時間差。一方面技術上對於這個時間差是有一定容忍度的（時間差太大，那單位時間的信號數據的處理時間就會被拉長，就會影響到上面產品的用戶體驗）。另一方面這個時間需要恆定在一個數值，不能波動過大，可稱其為「同步」，否則也會影響AEC的最終效果。由於真正在做「信號處理」的童鞋和提供「迴路信號」的童鞋一般都不是同一撥人，相互之間並不知道要注意哪些。而且這個點在產品的表現層和其他的問題極其類似，所以非常難被發現。建議在這樣的細節上，童鞋們要多和演算法童鞋多溝通交流。

還有一個要注意的，就是揚聲器的位置。等我們說到腔體時本半仙會詳細說說設備內部的位置關係，而在空間這個類別里我們主要要說的是設備自身可能會藉助外部揚聲器進行發聲的情況。比如，在進行智能後視鏡的硬體設計時，揚聲器是放在在後視鏡里的。而語音的AEC會針對這個場景定位進行優化和適配。但是真實用戶使用的時候，還有可能會把後視鏡連到車機里，使用車裡的自帶音響設備進行播放，這就一下子把聲音的空間給徹底改變了。而且不同的車型，車內空間是不一樣的，聲音的傳播模型都不一樣。這樣一來，車內的環繞立體聲，可苦了語音寶寶。用戶可能因此投訴甚至退貨，搞得各種雞飛狗跳。無獨有偶，智能機頂盒（OTT盒子）也可能存在類似的問題。盒子自己是不發聲的，是由電視來發聲的。盒子和電視揚聲器的擺放位置不同，可能對於語音的效果都會有強弱不等的影響。

GIF

圖片源自網路

繼續聊「空間」。其實AEC也不是完美的，如果混響非常嚴重，AEC也是無可奈何的。因此，語音對於「空間」需要做很多的適配工作。

對於空間的變化，不同的行業，難易度不同。

1.智能汽車。前裝車中的「空間」，指的是「車內空間」。比較煩的是，由於車型不同，空間不同，優化適配工作需要逐一進行。而這其中的難點又在於，如果汽車空間存在變化，比如車窗打開了，天窗打開了，空間就發生變化了。這個時候，聲音的混響效果就會發生變化。若此時，還在播音樂，還打開了空調，還在鬧市區（車多人多），還有個四五十的車速等等，是不是就更頭疼了？

GIF

圖片源自網路

2. 智能電視（這裡指電視上放的麥克風陣列，並不是電視遙控器的方案）。智能電視一般都在家，所處的空間一般偏大。因為家裡會有比較多的家裝，這些都會吸收聲波，所以混響的影響相對會好一點。而且電視的方案，一般是約束在電視正前方120度角的範圍內，基本目標是覆蓋沙發的範圍，所以」定向抑制「也能有效減少一些影響。

3. 智能音箱、智能機頂盒（OTT盒子）。這些設備一般也是在家，但是它們可能出現在家裡的任何一個角落。在一個空間的不同位置里，聲音傳播和混響的效果是不一樣的，所以也可能會發生不同位置，效果不一樣的結果。

秋半仙溫馨提示：

經常會有做產品的童鞋，拿著自己的產品去別的公司演示。演示的房間高概率是一個會議室，而這間會議室混響的嚴重程度，和空間的材質有很大關係。如果會議室好幾面都是玻璃，而且還是木的或瓷的地板，而且會議室里還空蕩蕩的，那就God bless you了。這種情況請盡量避免演示遠距離的功能，因為演示效果可能會遠差於你在自己公司預演時的效果。當然，事情不是一定如此的，只是有這個概率。萬一搞砸了拿不到投資要被扣獎金咋辦？哈哈，如果搞砸了，也千萬不要慌張，把上面的內容用自己的話娓娓道來，然後話題岔到別的功能上就行了。（本半仙真是為各位童鞋操碎了心啊~）

GIF

圖片源自網路

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 全球大搜羅 的精彩文章:

※微單攝影自我摸索—用FE3.5-5.6/28-70套機拍攝花花草草
※方旭與老舍：論一個真愛粉的養成

TAG:全球大搜羅 |