阿里巴巴論文提出針對影視作品的語音情感識別信息融合框架

最新 04-12

機器之心發布

作者：陶菲/Fei Tao、劉剛/Gang Liu、趙情恩/Qingen Zhao

語音領域的頂會 ICASSP 2018 將於 4 月 15-20 日在加拿大阿爾伯塔卡爾加里市舉行。據機器之心了解，國內科技巨頭阿里巴巴語音交互智能團隊有 5 篇論文被此大會接收。本文對論文《An Ensemble Framework of Voice-Based Emotion Recognition System for Films and TV Programs》進行了介紹。

歡迎大家向機器之心推薦優秀的 ICASSP 2018 相關論文。

論文：《一種針對影視作品的語音情感識別信息融合框架》（An Ensemble Framework of Voice-Based Emotion Recognition System for Films and TV Programs）

論文鏈接：https://arxiv.org/abs/1803.01122.pdf

摘要：情感識別（即識別開心、憂傷等）現在愈來愈受到人們的關注，因為它可以提升人機交互界面的用戶體驗，進而提升產品的用戶粘性，並在心理醫療健康方面等具有獨特價值。基於語音的情感識別尤其具有現實意義，因為基於語音的人機交互界面具有相對較低的硬體要求。但是，在現實中，周圍環境中存在著許多雜訊，這些雜訊將會降低系統的識別性能。在本文中我們提出了一套包含多個子系統的複合情感識別框架。這一框架會深入挖掘輸入語音中與情感相關的各個方面的信息，從而提高系統的頑健性。

研究背景

在現實生活中，基於語音的人工智慧系統處在複雜的場景當中，因而會面臨各種各樣的挑戰。對於情感識別來說，主要的挑戰來自於兩個方面：1. 周圍存在背景雜訊，因而傳統的特徵提取，比如在整句話層面上提取統計參數的方法將受到嚴重干擾； 2. 用戶說話的方式比較隨意，不能如實驗室中那樣很好地控制輸入語音，有時候用戶會有一些發出一些非語音的聲音，比如哭聲，笑聲，咳嗽聲等，這些聲音有些與情感有關，有些則完全無關。面對這兩個挑戰，我們提出了一套複合情感識別框架。這套框架會對底層和高層特徵進行識別，因此可以對一些背景雜訊有一定的頑健性；同時這套框架也會利用注意力模型（attention model）學習特徵序列中重要時間點的特徵，以及利用語音中的文本信息對情感信息進行分類——這些機制可以有效避免用戶的非語音聲音或者長靜音對識別的干擾。

複合情感識別框架

在本文中，我們提出了一套複合的情感識別框架。這一框架由若干子系統組合而成，其中包括基於整句話（utterance level) 底層特徵 (low level descriptor) 的識別系統，基於整句話高層表述的識別系統，基於序列特徵的識別系統，以及基於語義信息的識別系統（見 Fig 1)。

Fig 1 The proposed ensemble framework for emotion recognition

其中，基於整句話底層特徵的識別系統為一個深度神經網路，採用多任務訓練 (multitask learning) 方式進行訓練 (見 Fig 2)，採用的特徵為從 opensmile 提取的 Interspeech 2010 LLD 特徵集。在這個神經網路中，我們在 trunk 部分有兩層隱層（hidden layer)(每層 4096 個神經元)，在 branch 部分，每個任務有一層隱層（1024 神經元），之後有一層柔性最大激活函數（softmax)。其中我們的神經元均使用精餾線性單元（rectified linear unit）。

Fig 2 The multitask learning DNN

基於整句話高層表述的識別系統也是採用一個深度神經網路，同樣也是採用多任務訓練方式進行訓練。採用的特徵為 200 維 iVector(從一個由 4000 小時語音訓練的語音識別 (ASR) 系統中提取）。這裡我們採用的網路結構與底層特徵識別系統的神經網路相同，唯一的區別為，這個一個系統在 trunk 部分每一層只有 1024 個神經元。

基於序列特徵的子系統採用遞歸神經網路，對輸入序列進行建模，在遞歸神經網路上採用基於 attention model 的加權池化層 (weighted pooling)(見 Fig 3)，將輸入的一個序列提取成一個高層表述。基於這個高層表述進行分類。這一子系統也採用多任務訓練方式進行訓練。這一遞歸網路與上述神經網路的大致結構相似，區別為在 trunk 部分，我們使用了 RNN，並且在 RNN 上利用 attention based weighted pooling layer 來提取高端表述（high level representation）。

Fig 3 The attention based weighted pooling RNN

上述三個子系統中的多任務訓練，我們採用三個任務，情感識別為主任務（權重為 1），說話人識別（權重為 0.3）和性別識別（權重為 0.6）為輔助任務。在多任務訓練中，由於系統可以看到更多的任務信息，可以更好地檢視輸入的特徵，因此可以更好地訓練神經網路。

除了上述三個子系統外，還有一個子系統是基於文本的子系統。該子系統採用支持向量機（support vector machine)，使用了從語音識別系統中獲取的文本。這一系列子系統的識別結果會通過線性相加組合起來，從而得到最後的結果。

實驗

我們在多模情感識別競賽 2017 數據集（MEC 2017) 上測試這一套框架。MEC 2017 數據集是採集自影視作品，其中包含了許多背景雜訊（汽車雜訊，工廠雜訊等等），以及說話人的非語音聲音（哭聲、笑聲等等）。其中各類情感的分布如下。

根據 MEC 2017 的建議，我們採用無權重平均 F-score（MAF）和準確率作為我們的衡量標準。考慮到資料庫中的數據不平衡性，我們主要關注 MAF 指標。

實驗中，我們採用兩套系統作為參照系統，一套是 MEC2017 建議的 random forest 系統，還有一套是利用 Interspeech 2017 特徵集搭建 DNN 的情感識別系統。具體實驗結果如下：

由實驗結果可以看到，我們提出的這一套框架，可以遠遠超過參照系統（分別增加了 11.9% 和 7.8% 準確率)。即使四個子系統的識別率參差不齊，最後組合之後的結果依然超過了所有的子系統，可以推測這個過程中全面檢視輸入信息，可以很有效的提高識別準確率和系統頑健性。

結論

我們將這一套系統應用於中文的影視作品資料庫上。之所以應用到這一資料庫上，是因為影視作品中的場景比較接近現實生活。結果顯示，我們的系統可以全面超越現有的基於深度學習的前沿系統。這一成功，可以說明我們的這一套框架可以有助於在現實中實現情感識別。

本文為機器之心發布，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※我們常聽說的置信區間與置信度到底是什麼？
※谷歌推出神經網路可視化庫Lucid，推進模型的可解釋性工作

TAG:機器之心 |