當前位置:
首頁 > 最新 > 阿里巴巴論文提出針對影視作品的語音情感識別信息融合框架

阿里巴巴論文提出針對影視作品的語音情感識別信息融合框架

機器之心發布

作者:陶菲/Fei Tao、劉剛/Gang Liu、趙情恩/Qingen Zhao

語音領域的頂會 ICASSP 2018 將於 4 月 15-20 日在加拿大阿爾伯塔卡爾加里市舉行。據機器之心了解,國內科技巨頭阿里巴巴語音交互智能團隊有 5 篇論文被此大會接收。本文對論文《An Ensemble Framework of Voice-Based Emotion Recognition System for Films and TV Programs》進行了介紹。

歡迎大家向機器之心推薦優秀的 ICASSP 2018 相關論文。

論文:《一種針對影視作品的語音情感識別信息融合框架》(An Ensemble Framework of Voice-Based Emotion Recognition System for Films and TV Programs)

論文鏈接:https://arxiv.org/abs/1803.01122.pdf

摘要:情感識別(即識別開心、憂傷等)現在愈來愈受到人們的關注,因為它可以提升人機交互界面的用戶體驗,進而提升產品的用戶粘性,並在心理醫療健康方面等具有獨特價值。基於語音的情感識別尤其具有現實意義,因為基於語音的人機交互界面具有相對較低的硬體要求。但是,在現實中,周圍環境中存在著許多雜訊,這些雜訊將會降低系統的識別性能。在本文中我們提出了一套包含多個子系統的複合情感識別框架。這一框架會深入挖掘輸入語音中與情感相關的各個方面的信息,從而提高系統的頑健性。

研究背景

在現實生活中,基於語音的人工智慧系統處在複雜的場景當中,因而會面臨各種各樣的挑戰。對於情感識別來說,主要的挑戰來自於兩個方面:1. 周圍存在背景雜訊,因而傳統的特徵提取,比如在整句話層面上提取統計參數的方法將受到嚴重干擾; 2. 用戶說話的方式比較隨意,不能如實驗室中那樣很好地控制輸入語音,有時候用戶會有一些發出一些非語音的聲音,比如哭聲,笑聲,咳嗽聲等,這些聲音有些與情感有關,有些則完全無關。面對這兩個挑戰,我們提出了一套複合情感識別框架。這套框架會對底層和高層特徵進行識別,因此可以對一些背景雜訊有一定的頑健性;同時這套框架也會利用注意力模型(attention model)學習特徵序列中重要時間點的特徵,以及利用語音中的文本信息對情感信息進行分類——這些機制可以有效避免用戶的非語音聲音或者長靜音對識別的干擾。

複合情感識別框架

在本文中,我們提出了一套複合的情感識別框架。這一框架由若干子系統組合而成,其中包括基於整句話(utterance level) 底層特徵 (low level descriptor) 的識別系統,基於整句話高層表述的識別系統,基於序列特徵的識別系統,以及基於語義信息的識別系統(見 Fig 1)。

Fig 1 The proposed ensemble framework for emotion recognition

其中,基於整句話底層特徵的識別系統為一個深度神經網路,採用多任務訓練 (multitask learning) 方式進行訓練 (見 Fig 2),採用的特徵為從 opensmile 提取的 Interspeech 2010 LLD 特徵集。在這個神經網路中,我們在 trunk 部分有兩層隱層(hidden layer)(每層 4096 個神經元),在 branch 部分,每個任務有一層隱層(1024 神經元),之後有一層 柔性最大激活函數(softmax)。其中我們的神經元均使用精餾線性單元(rectified linear unit)。

Fig 2 The multitask learning DNN

基於整句話高層表述的識別系統也是採用一個深度神經網路,同樣也是採用多任務訓練方式進行訓練。採用的特徵為 200 維 iVector(從一個由 4000 小時語音訓練的語音識別 (ASR) 系統中提取)。這裡我們採用的網路結構與底層特徵識別系統的神經網路相同,唯一的區別為,這個一個系統在 trunk 部分每一層只有 1024 個神經元。

基於序列特徵的子系統採用遞歸神經網路,對輸入序列進行建模,在遞歸神經網路上採用基於 attention model 的加權池化層 (weighted pooling)(見 Fig 3),將輸入的一個序列提取成一個高層表述。基於這個高層表述進行分類。這一子系統也採用多任務訓練方式進行訓練。這一遞歸網路與上述神經網路的大致結構相似,區別為在 trunk 部分,我們使用了 RNN,並且在 RNN 上利用 attention based weighted pooling layer 來提取高端表述(high level representation)。

Fig 3 The attention based weighted pooling RNN

上述三個子系統中的多任務訓練,我們採用三個任務,情感識別為主任務(權重為 1),說話人識別(權重為 0.3)和性別識別(權重為 0.6)為輔助任務。在多任務訓練中,由於系統可以看到更多的任務信息,可以更好地檢視輸入的特徵,因此可以更好地訓練神經網路。

除了上述三個子系統外,還有一個子系統是基於文本的子系統。該子系統採用支持向量機(support vector machine),使用了從語音識別系統中獲取的文本。這一系列子系統的識別結果會通過線性相加組合起來,從而得到最後的結果。

實驗

我們在多模情感識別競賽 2017 數據集(MEC 2017) 上測試這一套框架。MEC 2017 數據集是採集自影視作品,其中包含了許多背景雜訊(汽車雜訊,工廠雜訊等等),以及說話人的非語音聲音(哭聲、笑聲等等)。其中各類情感的分布如下。

根據 MEC 2017 的建議,我們採用無權重平均 F-score(MAF)和準確率作為我們的衡量標準。考慮到資料庫中的數據不平衡性,我們主要關注 MAF 指標。

實驗中,我們採用兩套系統作為參照系統,一套是 MEC2017 建議的 random forest 系統,還有一套是利用 Interspeech 2017 特徵集搭建 DNN 的情感識別系統。具體實驗結果如下:

由實驗結果可以看到,我們提出的這一套框架,可以遠遠超過參照系統(分別增加了 11.9% 和 7.8% 準確率)。即使四個子系統的識別率參差不齊,最後組合之後的結果依然超過了所有的子系統,可以推測這個過程中全面檢視輸入信息,可以很有效的提高識別準確率和系統頑健性。

結論

我們將這一套系統應用於中文的影視作品資料庫上。之所以應用到這一資料庫上,是因為影視作品中的場景比較接近現實生活。結果顯示,我們的系統可以全面超越現有的基於深度學習的前沿系統。這一成功,可以說明我們的這一套框架可以有助於在現實中實現情感識別。

本文為機器之心發布,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

我們常聽說的置信區間與置信度到底是什麼?
谷歌推出神經網路可視化庫Lucid,推進模型的可解釋性工作

TAG:機器之心 |