淺談語音情感識別技術在互金質檢領域的應用
【導語】隨著科學技術的發展,記錄人類情感或情緒(開心,憤怒,傷心,害怕等)的數據種類變得多種多樣。最早的形式莫過於寫作,人們通過寫作來記錄自己或是他人在某時某刻對某事的情感;照相機的發明(1839年)使得情感又可以以圖像的形式保存,能夠讓觀看者更加直觀地體會被拍攝者的情緒;而錄音機發明(1898年)後,幾乎又可以使聽眾身臨其境般地體會被記錄者的情緒。
隨著以上三種數據(文本、圖像、語音)的數字化,又使得存儲於三種數據形式的情感可以通過相關的數據挖掘技術進行自動檢測識別。對於基於文本和圖像的情感檢測,拍拍貸都已經做過相關研究和應用。本文主要對基於語音的情感識別技術和應用進行簡要的介紹。
- 【技術簡介】 -
語音情感識別技術(Speech Emotion Analysis / Recognition)是語音分析技術的一種,指通過一段語音的聲學特徵(acoustic features)來識別說話人情感的技術。其基本假設是可以使用一系列客觀的、可提取的聲學特徵(聲學特徵往往是跟語音內容和語種無關的)來反映說話人當前的情感狀態。舉個例子來說,當人處於生氣或者憤怒狀態時,交感神經會影響呼吸系統並造成相應的肌肉緊張,從而影響聲帶振動和聲道形狀,進而導致說話聲學特徵的改變。
GIF
- 【演算法】 -
對於任意一種數據的檢測或是識別任務,無論是結構化數據、圖像數據、文本數據等,其基本框架往往都是特徵提取加分類器結構,即便是目前流行的以CNN為代表的深度學習神經網路,也只是將特徵提取部分自動化了而已(由一系列卷積核自動提取的特徵代替人工設計的特徵)。語音作為一種一維時序信號也不例外,對於它的分析、檢測、識別演算法往往也是這種框架,但是音頻特徵往往並不是直接從時域提取,而是依靠聲譜圖(語譜圖,Spectrogram)提取。
下圖是聲譜圖提取過程示意圖:
聲譜圖提取過程示意圖
1是原始的一維語音時序信號,首先對其進行時域分幀(frame),每幀約20-30毫秒(一般認為在此時間段內的聲學特徵比較穩定),幀與幀之間往往還有50%的時間重疊(overlap);2是對幀內的語音信號做短時傅里葉變換(STFT),得到其頻譜圖(spectrum);最後3由多幀頻譜圖組合生成圖3的聲譜圖,其中縱軸是頻率,橫軸是時間。
在聲譜圖的基礎上,我們可以提取一系列短時特徵(short-term feature)。在各種短時特徵中,最常用的便是梅爾頻率倒譜係數(Mel Frequency Cepstral Coefficents,MFCC)。
梅爾頻率倒譜係數描述了人耳頻率的非線性特性,能夠反映人對語音的感知特性。根據人耳聽覺機理的研究發現,人耳對不同頻率的聲波有不同的聽覺敏感度,人類聽覺的感知只聚焦在某些特定的區域,而不是整個頻譜。人耳就像一個濾波器組一樣,對頻率是有選擇性的,它只關注某些特定的頻率分量。仿照人耳的非線性特徵,梅爾濾波器在低頻區域有很多的濾波器,分布比較密集,但在高頻區域,濾波器的數目就變得比較少,分布很稀疏。
梅爾濾波器,低頻區域較多,高頻區域較少
梅爾頻率倒譜係數的簡要計算過程是:
1. 在聲譜圖上,使每幀的頻譜圖通過梅爾濾波器(Mel-Filters),從而得到梅爾頻譜圖(Mel-Spectrum);
2. 對梅爾頻譜圖做倒譜分析(Cepstral Analysis),便可以得到此幀音頻的梅爾倒譜係數。
標準梅爾倒譜係數只反映了靜態特性,語音的動態特性可以用這些靜態特徵的差分譜來描述,常見的有一階差分(1D)和二階差分(2D)特徵。
除了梅爾倒譜係數以外,常用的短時特徵還有過零率(zero crossing rate),能量(energy),能量熵(entropy of energy),音高擾動(jitter,pitch perturbations),聲音強度(voice intensity),響度擾動(shimmer,loudness perturbations)等。除了短時特徵,在某些場景還可以提取語音信號的中時特徵(mid-term feature),既在中時時間窗內求取短時特徵的統計特徵,例如均值和方差等。
對於情感模型的訓練數據,我們選擇了開源語音情感資料庫Berlin Database of Emotional Speech(Emo_DB),它共有500段音頻數據,由10位演員錄製(5男,5女,年齡在30歲左右),標註的情感有七種:中性(neutral),開心(happiness),憤怒(anger),傷心(sadness),害怕(fear),厭煩(boredom),反感(disgust)。我們選取了其中的五種比較常見的情感(中性,開心,憤怒,傷心,害怕)的408段音頻數據提取聲學特徵來訓練模型。模型採用四層神經網路結構,輸入層為提取的聲學特徵,中間兩層隱藏層,輸出層為五種情緒的概率值(softmax)。
- 【場景應用】 -
十年間,拍拍貸積累了大量的語音數據,主要形式是各個業務場景下的電話錄音數據。目前,情感識別技術已經被應用在電話業務相關場景中,對於一通電話,我們首先分別對坐席線路和客戶線路的語音數據進行靜音檢測(VAD)來劃分有效語音片段;然後再對各個有效語音片段進行情感分析,得到五種情緒的概率分數;最後將情緒分數作為輸入(X)送入各種後續模型場景當中(Y)。對於坐席和客戶,我們有不同的分析場景:
1. 對於坐席線路,我們重點分析坐席是否在通話中有不良的情緒,將情緒分數作為語音質檢模型輸入的一部分,進一步綜合判斷坐席是否存在違規現象。此外,還可以結合歷史數據建立模型,來預測坐席近期的服務滿意度、是否會離職等等。
2. 對於客戶線路,我們重點分析客戶在通話期間情緒隨時間的變化,特別是通話開始和結束的情緒變化(是否經過坐席的溝通,客戶的情緒有了好轉跡象),以此來評估客戶的滿意程度和坐席的服務質量,並且還會以此生成客戶的傾向特徵標籤。
電話場景中的情感識別應用
目前,情感識別技術作為電話質檢類應用(質檢機器人)的重要組成部分已經上線,該應用日均覆蓋錄音量2萬通。對比人工檢測,已經達到10倍的效率提升,約25%的準確率提升。情感分析技術在其他場景的應用開發也在排期規劃中。
- 【總結】 -
本文簡要介紹了基於語音的情感識別技術及其應用場景。語音情感識別是拍拍貸在語音分析的首次嘗試,可以為各種場景模型提供語音維度的額外信息,進而提升相應場景模型的效果。猶如開篇提到的記錄人類情感的三種數據(文本、圖像、語音),對於一段視頻數據,我們現在可以從三個維度來綜合判斷被記錄者表達的感情:
1. 對話文本的情感分析(通過語音轉寫提取);
2. 人像面部表情的提取;
3. 語音情感的識別。
未來我們會嘗試開發實時的情感識別技術,對違規坐席的通話進行實時干預,提升客戶體驗。同時我們也會在其他語音分析技術方面做更多的嘗試,充分挖掘已有音頻數據的價值。
- 【參考文獻】 -
[1]https://baike.baidu.com/item/%E8%AF%AD%E9%9F%B3%E5%88%86%E6%9E%90/1999308
[2]http://www.fon.hum.uva.nl/praat/
[3]http://www.scholarpedia.org/article/Speech_emotion_analysis
[4]https://developers.vokaturi.com/getting-started/overview
[6]http://kahlan.eps.surrey.ac.uk/savee/
[7]https://zhuanlan.zhihu.com/p/23305179?refer=waytoai
[8]https://blog.csdn.net/zouxy09/article/details/9156785
[9]http://www.speech.cs.cmu.edu/15-492/slides/03_mfcc.pdf
[10]Theodoros G. pyAudioAnalysis: An Open-Source Python Library for Audio Signal Analysis[J]. Plos One, 2015, 10(12):e0144610.
[11]https://en.wikipedia.org/wiki/Spectrogram
[12]https://baike.baidu.com/item/%E7%85%A7%E7%9B%B8%E6%9C%BA/1733?fr=aladdin
[13]https://baike.baidu.com/item/%E5%BD%95%E9%9F%B3%E6%9C%BA/78941?fr=aladdin
你可能還喜歡


TAG:拍黑米 |