簡述三種常見3D音頻格式,及VR中Ambisonics格式的重要性
Ambisonics對VR而言非常有吸引力
(映維網 2018年12月24日)3D音頻是為VR內容提供沉浸感和臨場感的一個關鍵因素,所以我們有必要理解3D音頻格式,以及它們對音頻內容創建和渲染的應用。下面我們來看一下三種3D音頻格式,並分析Ambisonics對VR音頻的重要性。
1. 多聲道
在基於聲道的聲音表達中,信息單元是揚聲器。每個聲道與揚聲器相關聯,系統在幾個揚聲器上混合各種聲道來實現聲音表達。聲道越多,空間音效感就越強。基於聲道的聲音表達是過去50年,甚至更久遠時所採用的傳統聲音表達方式。立體聲,5.1,7.1格式是基於聲道的水平表示。通過增加額外的過頂揚聲器可以實現3D,如11.1格式(在7.1聲道的基礎上再增加4個天花板揚聲器)。
多聲道音頻表達的一個主要缺點是,它依賴於揚聲器設置,並且每個設置類型需要一個混合,而基於Object和Ambisonics的內容則獨立於揚聲器設置。
2. 基於Object的聲音表達
在基於Object的聲音表達中,信息單元是聲源。場景由幾個聲源及有關其位置和渲染環境等信息組成。系統通過在用戶位置計算所有聲源的組合來實現3D音頻渲染。但它同時需要使用大量的CPU資源。場景越複雜(聲源數量)和越逼真(混響精度),需要的CPU資源就越多。
3. Higher Order Ambisonics (HOA)
與上述兩種聲音表達形式不同,Ambisonics格式不依賴於單個聲源的描述,它能夠再現用戶位置的生成聲場。我們將用於描述聲場的數學形式稱為球面調和函數,而信息單位則是球面表示的組分數(或階數)。組分越多或者階數越高,你獲得的聲場空間呈現精度就越高。
這並不是什麼新概念,它在過去幾十年間一直用於專業音效社區。他們將這種音域的獨立表達稱為B格式,而它實際上是第一階的Higher Order Ambisonics。
4. Ambisonics對VR而言是非常有吸引力的解決方案
谷歌和索尼等VR行業的主要廠商都在擁抱Higher Order Ambisonics(HBO)這個概念,並正在開發相應的商業應用,如將HOA作為默認音頻格式的YouTube360。這種選擇的背後存在幾個原因,最重要的是以下幾點:
- 它提供了最佳的3D音頻逼真感與計算資源平衡。對於B格式(第一階表達)的4聲道,你可以逼真地再現一個3D聲場,而Object的4通道或4揚聲器設置很難做到這一點。
- 它是一種層次結構,具備獨特的可擴展性。你可以選擇相應的空間精度水平來匹配平台資源,如CPU負載和帶寬等等。當你希望提供高端PC或標準智能手機的內容,或者當你有可變帶寬來傳輸內容時,這非常方便。與基於Object的聲音表達相比,如果你沒有足夠的資源來處理完整內容,唯一可用的選項是不處理其中一些對象,而這會導致聲場的完整性發生變化(缺少信息) 。
- 對於錄製的3D音頻內容而言,Ambisonics是再現這種音效的最佳格式,因為真實的音頻世界最好是選擇聲場來表達,而非聲音對象的組合或揚聲器位置。
- 這對頭部追蹤十分友好。在球面調和函數域中,頭部運動將建模為聲場的旋轉,而這是非常簡單的操作。
- 它獨立於揚聲器設置:一個內容可以解碼成任何揚聲器布局。
- 與基於Object的聲音表達不同,Ambisonics保留了內容的完整性。當內容由聲音對象,位置和聲學參數組成時,最終用戶體驗取決於根據所有這些信息重建聲場的演算法。在Ambisonics中,最終的用戶體驗是烘培至內容之中。
5. 總結
我們相信多聲道將逐漸成為不太適合VR音頻需求的傳統格式,而基於Obeject和Ambisonics才是VR所需的格式。我們對未來的看法是:
- 內容創建階段將主要採用聲音對象,將其作為互動式聲場創建的便捷方式,並將略微使用Ambisonics「導入」現實錄音。
- 諸如VR 360度這樣的「錄製」內容渲染將越來越多地選擇Ambisonics格式,因為其可擴展的特性使其非常適合廣泛的平台。YouTube選擇Ambisonics已經說明了這一點。
對於VR遊戲等互動式內容的渲染,基於Object的3D音頻格式非常有意義。但對於由眾多聲音對象組成的複合聲場而言,其渲染需要大量的計算,並需要大眾市場所不一定能提供的資源。就這個問題,我們可以將基於Object的全部或部分表達轉換為Ambisonics,並利用渲染的可擴展性來適配CPU資源。
原文鏈接:https://yivian.com/news/54434.html
※Facebook開源DeepFocus,實現逼真散焦效果
※《無主之地2 VR》的PS VR獨佔期將持續五個月
TAG:映維網VR |