用情緒識別聽懂音樂,這家公司做到了!
智東西(公眾號:zhidxcom)
編 |花弧
導語:音樂網站Deezer主導一項利用AI來識別歌曲所傳達情緒的項目,AI可從音軌和歌詞兩個維度判斷歌曲所傳遞的情緒。
智東西9月29日消息,Deezer(音樂網站)研究者在Arxiv.org 上發表論文《基於深度神經網路對音頻歌詞進行情緒檢測》,基於對音頻信號和音軌歌詞的多模態情緒檢測,可識別歌曲所傳遞的情緒。
人類的耳朵可以毫不費力地感知歌曲所傳達的情感,比如Eric Clapton』s 的Tears in Heaven所流露的憂鬱、Led Zeppelin的Whole Lotta Love 所傳達的激情。機器也想如此。 為了讓機器表現得更像人,Deezer 的研究人員開發了一款可以識別音軌情緒的人工智慧系統。
「過去二十年,研究界一直都很關注對音樂的情緒檢測」,他們寫道,「這項研究主要關注音軌的音頻信號和歌詞,並使用多模態情緒檢測對其進行分析,最終是要使程序聽到音軌就能自主判斷其所傳達的情緒。」
心理學研究表明,在分析音樂所傳達的情緒時,歌詞也應被考慮進去。Deezer研究團隊據此設計了一個神經網路,分別輸入音頻信號和基於160萬句歌詞訓練Word2Vec embeddings(Word2Vec是在2013年Google開發的一套詞嵌入方法)。
為了教會AI判斷歌曲的情感,他們基於百萬歌曲數據集(Million Song Dataset ,MSD)——一個採用音樂網站LastFM標籤的音樂數據集,其中部分標籤是標記情緒的——和14000個描述情緒的英文單詞來挑選用於訓練AI的情緒標籤,這些單詞主要關注情感色彩(從消極到積極)和興奮程度(從平靜到精力旺盛) ,他們用這個資料庫來選擇上述標籤進行訓練。
因為 MSD 的標籤比較泛化,並未考慮音頻信號和歌詞的細節,所以Deezer研究團隊基於歌曲的元數據對歌曲重新進行分類。該研究團隊還對應歌詞長度從相應位置提取歌詞。
基於以上步驟,最終得到一個數據集,數據的60%——18,644條注釋音軌——將用來訓練模型,40%將用來校驗及測試模型。
相較依靠詞庫來識別情感的經典系統,深度學習模型在興奮程度檢測方面更有優越性。 針對情感色彩檢測,深度學習模型稍遜經典系統——研究人員注意到,基於歌詞的深度學習方法往往表現不佳——但能比肩基於特徵的工程學方法。
「尤其在進行情感色彩預測時,我們的模型在揭示並利用音頻與歌詞的相關性上表現優異。」研究人員寫道,「在對音樂進行情緒識別時,研究和優化卷積神經網路能暫時定位負責情感色彩和興奮程度的區域。」
針對後續研究,他們建議:使用帶有標籤的數據集,來判斷音軌中情感的模糊程度;或者利用一個由大量未標記數據訓練而來的無監督模型。 他們認為,這兩種方法都能」顯著提高」未來模型的預測準確性。
原文來自:venturebeat


※股價飆升145%!華裔女老闆挂帥,英特爾老冤家上演驚天大逆轉
※聯想劉軍:聯想兩大轉型進入攻堅期!
TAG:智東西 |