當前位置:
首頁 > 最新 > 《聲臨其境》收官!是時候聊一下聲音數據了

《聲臨其境》收官!是時候聊一下聲音數據了

有一種好聲音,能讓耳朵懷孕;有一種老戲骨,能用聲音表演。

《聲臨其境》,一檔以明星聲音來進行競演的節目,以台詞和配音為切入點,每期邀請四組台詞功底深厚或是聲音動聽的演員和配音演員同台競聲,現場比拼配音能力、台詞功底和與年輕演員的互動搭檔實力。老戲骨們隱藏幕後,只聞其聲,純聲較量。

主打「聲音」的《聲臨其境》,為我們提供了一場聽覺盛宴,讓我們體驗了一把聲音的美妙動人!那麼,在如痴如醉地享受著諸如磁性之聲、霸氣之聲、紳士之聲、迷人女聲、神秘之聲、師父之聲、腔調之聲、感人之聲的時候,你是否意識到,聲音也是一種數據?在《聲臨其境》收官之際,讓我們一起走進聲音數據!

聲音,是由物體振動產生的聲波,可以通過介質傳播並能被人或動物聽覺器官所感知。聲音蘊含信息,動物靠聲音發現危險信號;人能夠精準地發出聲音,並同樣精準地理解聲音。和圖像類似,聲音可以被數字化記錄,被當做一種數據來處理。在本篇推文中,我們將簡要地介紹聲音數據有什麼用,以及如何處理和分析聲音數據。

商業應用

聲音有很多重要的商業應用。包括:

人機交互

1

人們需要操控機器,與此同時,人類製造的機器越來越複雜。人們通過滑鼠和鍵盤操控電腦,通過手指在屏幕上操控手機,通過方向盤等設備操控汽車,每一種機器都有自己特殊的操控程序。操控機器,其實就是人與機器的信息交流,機器接收人發出的指令,人接收機器的反饋。人類最熟練最高效的信息交流方式就是通過語言,讓機器理解人的語言給予了人們無限的想像空間,應用的場景包括智能家居、可穿戴設備、無人駕駛等等領域。

語音轉文字,文字轉語音

2

生活中有很多場景需要將語音轉成文字,微信有語音轉文字的功能,同樣的需求也存在於媒體訪談,會議紀要,自動字幕等。反過來,文字轉語音也同樣重要,機器人客服需要將一些模板文字轉化成語音和人交流,這節約了大量的人工成本。

數字音頻處理

3

對原始的聲音信號進行加工,可以改變原始的聲音。現代的3D電影的配音可以讓觀眾身臨其境,昂貴的專業聲音設備對歌手來說必不可少,智能手機、高檔麥克風通過演算法來進行降噪,例如重要人物的講話都是用多個麥克風,就是為降噪演算法所用。

聲音如何被記錄和表示

在早期,我們曾經使用機械與電磁的手段對聲音進行記錄,形成模擬音頻。身處數字時代,我們把模擬波形轉換成數字信號,記錄在數字媒介上,可以進行大規模的記錄與存儲。

處理聲音數據的一步是,錄音!把聲音信號記錄下來的過程,即完成聲電轉換。傳統的方法通過麥克風等設備把聲音的振動轉化成模擬的電流,經過放大和處理,然後記錄到磁帶或唱片里。數字化聲音的過程實際上是以一定的採樣頻率對來自麥克風等設備的連續的模擬音頻信號進行模數轉換(ADC)得到音頻數據的過程,這一過程是通過音效卡來完成的。

音頻信號是連續的,而計算機只能離散地存儲數據。所以需要每隔一段很小的時間去對音頻信號進行一次採樣及存儲。採樣頻率是單位時間內的採樣次數。採樣頻率越大,採樣點之間的間隔越小,數字化得到的聲音就越逼真,但相應的數據量增大。採樣頻率一般分為22.05KHz、44.1KHz、48KHz三個等級。22.05KHz只能達到FM廣播的音質,44.1KHz則是理論上的CD音質界限,48 KHz已經達到DVD音質。

對於聲音信號來說,想要對離散信號還原,採樣率要達到40KHz以上。另外,人耳無法分辨高於48 KHz的採樣頻率。計算機的語言是0和1,採樣大小記錄每次採樣的樣本值大小的數值的位數,位數越多,所能記錄聲音的變化程度就越細膩,所得數據量也越大!8位音效卡的精度為28,即256個精度單位,會造成較大的信號損失。16位音效卡可以對其進行64K的精度單位進行處理,對於計算機音頻已經綽綽有餘,也是市面上最主流的音效卡。此時音頻信號已經被數字化存儲在計算機中,在播放的過程中需要經過數模轉化(DAC),為模數轉化的逆變化。

聲音作為波的一種,頻率和振幅成為描述波的重要屬性。熟諳中學物理的我們,一定還能回想起相應的知識吧,如果忘記了,就讓小編帶著大家一起複習一下。

圖示 聲音波形圖

聲音是由聲源振動產生的聲波,聲源在1s內振動的次數即為頻率(frequency),頻率的高低決定了音調(pitch)的高低。頻率的單位是赫茲(Hz),人耳的聽覺範圍是20~20,000Hz,而人類能發出聲音的頻率在100~10,000Hz。頻率越高,對應的音調也會越高。大家喜歡的「海豚音」就是由歌手嗓子高頻率振動所發出的聲音!不過這遠遠達不到真正海豚發音的頻率。

圖示《歌手》海豚音巔峰對決迪瑪希pk張靚穎你站誰

不同聲音的頻率在波形方面總是有著與眾不同的特性,這決定了聲音的音色(Timbre)。不同的物體由於其材料、結構不同,發出的聲音音色也不同。例如我們可以區分吉他和鋼琴,即使它們演奏的是同一首音樂。

聲波的振幅(amplitude)指的是聲壓與靜止壓強之差的最大值,以分貝(dB)為單位。聲波的振幅和距離聲源的遠近決定了聲音響度(loudness)的大小:振幅越大響度越大,距離聲源越近響度越大。

音調、音色與響度是聲音的三個主要特徵,我們便是依據這三個特徵對不同的聲音進行分辨。

分析聲音數據的經典方法

前面啰嗦了很多聲音的記錄和存儲,既然聲音是一種數據,應該怎麼去分析它呢?現在有眾多的應用都基於對聲音數據的處理與分析,如科大訊飛的語音識別,網易雲音樂的音樂推薦等。之前我們經過聲電轉換和模數轉換,已經得到了音頻的數字化文件。Python 中的librosa軟體包就是經常用來進行音頻分析的工具之一。

聲音的原始數據為一個一維的時間序列,1分鐘的音頻數據需要記錄的時間序列有多長呢?採樣率為44.1KHz的話,即每秒採集並記錄44,100個點,如下圖所示:

1分鐘即有60×44,100=2,646,000個樣本點,這個數據的大小看起來就有些不那麼好處理了。其次,被記錄下來的是聲音在時間軸上的採樣,不能很好地代表聲音的特徵。音調取決于震動的頻率、響度取決于震動的幅度、音色取決於聲波的波形(如上圖1 millisecond中的形狀),這些信息都很難直接從每秒44,100個點中提取出來。

為了方便的處理這種聲音數據,在處理聲音數據的時候我們都會對聲音數據進行一定的預處理——提取聲音特徵,而不是直接處理分析聲音的原始數據。

目前有許多聲音特徵提取方法,如梅爾頻率倒譜係數(MFCC)、線性預測倒譜係數(LPCC)、多媒體內容描述介面(MPEG7)等。其中MFCC是基於梅爾頻率的,更符合人的聽覺原理,因而是最普遍、最有效的聲音特徵提取演算法。那什麼是梅爾頻率呢?

人耳聽覺對不同頻率範圍的敏感度是不相同的,對低頻聲音要比高頻聲音更敏感一些,這一分界線大約是1000Hz。而梅爾頻率與原始頻率呈對數關係,人耳對音高的敏感度與梅爾頻率是線性的,在提取聲音特徵時模擬人耳聽覺這一性質可以提高識別性能。

提取梅爾頻率倒譜係數(MFCC)有一套標準的流程,如下圖:

圖示 梅爾頻率倒譜係數流程圖

以上為提取梅爾頻率倒譜係數(MFCC)的標準步驟,每一步都有特定的目的,與我們本文的目的無關,就不給大家詳細介紹了,有興趣的同學可以深入地研究。

最後得到的MFCC特徵向量是一個N×M維的向量,其中M的大小與音頻文件的長度以及採樣率相關,長度越長以及採樣率越高,M越大。只考慮靜態係數,即1維幀能量與12維倒譜特徵的話,N為13;進一步考慮一階或二階差分的話N等於26或39。在得到我們需要的特徵向量之後,就可以對其做進一步的數據分析、語音識別等等。

圖示 MFCC示意圖

深度學習與聲音

聲音每秒採集並記錄44,100個點,而傳統的分析方法必須要對原始數據進行變換和壓縮,這就會損失信號。深度學習方法最擅長直接處理原始數據,CNN類方法可以直接處理像素矩陣,來自DeepMind 的WaveNet 網路。

《聲臨其境》是優秀的演員和配音演員進行現場配音的片段,演員們的表演十分精彩,目前可能還沒有能與之媲美的機器演算法。但是現在,機器正在努力模仿人類講話。那麼,究竟怎麼衡量兩段聲音像不像呢?無論是人模仿配音還是機器模仿人類說話。

數字化的聲音是對原始聲波的時間採樣,理論上每個時間點都是一個連續的實數,實際上在計算機中,每一個時間點是用一個16-bit的整數來記錄,也就是說每一個時間點最多有65536個不同取值。一種衡量兩段聲音像不像的辦法就是做誤差平方和,在時間軸上求和。而DeepMind為了衡量機器說話像不像人,把因變數強行分成256個格子,讓機器去預測每一時刻聲音應該在哪個格子中,在每個格子的概率是多少,然後用交叉熵來衡量。

DeepMind 的WaveNet 網路的輸入是什麼呢?對於文字轉語音任務來說,輸入包括兩部分,一部分是文本,另一部分是這一時刻之前的語音,同樣用256個格子的one-hot向量來表示。通過一個複雜的深度神經網路模型,根據這些信息來預測下一個時間點聲音應該落在哪個格子中。和其他的序列模型一樣,在測試的時候沒有真實的語音,就用機器前面生成的語音作為輸入。

我們來看看這個WaveNet模仿人類能夠模仿多好。這裡有兩段測試音頻:「第一班商業航班在1919年來往於美國和加拿大」、「有眾多小運河通過該鎮,碼頭邊眾樹環繞」。分別用參數方法(第一段播放)和WaveNet(第二段播放)生成聲音。能夠明顯感覺到,WaveNet方法在字與字的交接處好一些。

遺憾的是,這個技術還不能應用於生產環境,原因是計算過於複雜。根據github上的實驗報告,原始的WaveNet網路,在一張Tesla K80顯卡(人民幣4萬元左右)上需要大約4分鐘才能生成1秒鐘的音頻。在成本收益的角度來看,深度神經網路還無法打敗已有的方法。現在也有不少研究致力於改進WaveNet的效率,這裡不再贅述。

總結來說,聲音是很古老的信息載體,但聲音數據是很新的一種數據,我們也期待在聲音數據領域出現更多研究成果和應用。

作者:任圖南、陳昱、王晶冰

審稿:水媽

識別下方二維碼成為狗熊會會員!

友情提示:

個人會員不提供數據、代碼,

視頻only!

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 狗熊會 的精彩文章:

以PPT為核心的表達與溝通

TAG:狗熊會 |