當前位置:
首頁 > 新聞 > 哈工大秦兵:機器智能中的文本情感計算

哈工大秦兵:機器智能中的文本情感計算

雷鋒網 AI 科技評論按:2018 全球人工智慧與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,得到了寶安區政府的大力指導,是國內人工智慧和機器人學術界、工業界及投資界三大領域的頂級交流盛會,旨在打造國內人工智慧領域最具實力的跨界交流合作平台。

CCF-GAIR 2018 延續前兩屆的「頂尖」陣容,提供 1 個主會場和 11 個專場(仿生機器人,機器人行業應用,計算機視覺,智能安全,金融科技,智能駕駛,NLP,AI+,AI 晶元,IoT,投資人)的豐富平台,意欲給三界參會者從產學研多個維度,呈現出更富前瞻性與落地性相結合的會議內容與現場體驗。

秦兵,女,哈爾濱工業大學計算機學院教授、博士生導師。哈爾濱工業大學社會計算與信息檢索中心副主任。中國中文信息學會理事、中國中文信息學會語言與知識計算專委會副主任、社會媒體處理專委會情感分析工作組組長、信息檢索專委會常委,國家重點基金項目負責人。在頂級國際會議 ACL、COLING、EMNLP、IEEE TKDE、IEEE TASLP等國內外重要期刊及會議上發表論文60餘篇,擔任多個會議領域主席以及多個期刊和會議的審稿人。主持多項國家自然科學基金以及國家科技部863項目。同時和多家互聯網企業開展合作,多項研究成果進入企業產品。獲中文信息學會錢偉長中文信息處理科學技術獎一等獎、黑龍江省技術發明二等獎。

秦兵教授的現場演講內容雷鋒網 AI 科技評論回顧如下。

主持人 劉挺:CCF-GAIR 大會我去年也參加過,今年辦得比去年更成功、規模更大,已經成為中國人工智慧風向標,每個會場的參會人數也說明這個方向的火爆程度,今天是第三天開會還能坐滿整個會場,說明大家對自然語言處理的關注。

自然語言處理自起步以來,一直做事實型文本,特別是以新聞報道為主要處理對象,最近這十多年來,由於社交媒體的興起,越來越多學者開始研究人在互聯網上表達的情感,今天我們請來哈爾濱工業大學社會計算與信息檢索中心副主任秦兵教授。秦老師多年從事自然語言處理的研究,獲得國內第一個關於文本情感分析方面的自然科學基金重點項目。作為社會媒體處理專委會情感分析專業組的組長,秦兵教授擔任今年SMP 2018大會程序委員會主席,這個大會也會和雷鋒網合作,歡迎大家 8月2-4日去哈爾濱。

下面我們以熱烈的掌聲歡迎秦老師作文本情感分析方面的報告。

秦兵:大家上午好!感謝雷鋒網和劉挺教授的邀請,今天我報告的題目是:機器智能中的文本情感。

大家也知道,人工智慧目前已進入迅猛發展階段,總體可以分為三個階段,第一個階段是計算智能的階段,這個階段計算機和人類相比是能存會算,它的超大存儲量、超高計算速度,這方面完勝人類。第二個階段是感知智能,以語音識別、圖像識別為代表的技術迅猛發展。大家也看過很多電視節目,包括「機智過人」、「最強大腦」;人和機器比圖象識別,機器已經可以和人類相媲美甚至在某些方面超過人類。第三個階段是認知智能,這個階段需要機器能夠思考,能夠具有情感,這個階段考驗的是智能是否有情商,也就是說情感在人工智慧認知階段還是非常重要的。

人工智慧中的情感計算也不是現階段才提出來的,最早在人工智慧之父明斯基就提過「我們的問題不是怎樣才能讓機器智能有情感,而是機器智能怎麼能沒有情感。」微軟全球執行副總裁沈向洋說「我們的智能不光有IQ,還需要有情感」。斯坦福人工智慧實驗室主任李飛飛也曾說過「情緒和情感是人工智慧的未來」。

何為情感?嚴格定義來講就是情感是人對客觀事物是否滿足自己需要而產生的態度體驗。機器對於情感的要求就是機器情感計算,也就是機器理解人類的情感和生成情感的能力。所以賦予計算機情感計算能力的研究引起了學術界和企業界的廣泛關注。很多人都看過電影《她》,人機戀愛出現在科幻電影中,未來也許會出現在我們的生活當中。

機器情感怎麼獲得?怎麼和人進行交流?它首先要獲取人類的情感資源,比如它要去了解或學習如何識別情感、產生情感。社會媒體是觀察人類情感的有效窗口,也就是說我們每天在社交媒體上的各種活動,包括購物、聊天、社區、資訊、生活等等,這些都流露出人在某些方面的情感資源。我們可能平時沒有意識到,實際上這種資源大量存在,而且社交媒體中不僅有大量的文本資源,還有大量的情感資源。比如微博、大眾點評,微博上經常出現一些喜怒哀樂情緒的發布,大眾點評中經常是我們對產品、服務的評價,這裡面有大量豐富的情感文本資源。社會媒體中的文本情感計算就是要結合社會媒體中除了文本,還有用戶和群體信息,然後對文本情感進行分析、處理和歸納,使得情感分析具有更好的針對性和精準性。

今天的報告主要從情感計算的六個維度來講:


一、情感分類

首先從情感分類的角度出發,比如說人類的情感是多樣性的,我們經常能想起來的詞或者看到的詞,比如喜極而泣、抱頭痛哭、捶胸頓足、七情六慾、五味雜陳等等,表達了我們的喜怒哀樂。實際上多年來也有很多人在這方面做了很多研究,比如七情六慾分為好、惡、樂、怒、哀、懼、欲等。此外,還有人從高興、悲傷、憤怒、恐懼、厭惡、驚奇等進行分類。

對於情感分類,一般來講有粗粒度情感分類,粗粒度情感分類主要用來判斷文本整體情感傾向,表明一個人對某件事或對某個物體的整體評價。情感計算中大多採用兩種,一種是傾向性分類,即褒、貶、中的分類,還有一種是微博中經常出現的情緒分類,表示個人主觀情緒的喜、怒、悲、恐、驚。

有了這麼多類別體系,又有傾向性分類或情緒分類,分別針對我們對不同的產品、不同的服務,甚至表達的是我們個人的不同情感,無論它怎麼劃分或者劃分的顆粒度有多細,總體來講它是一個分類任務,也就是說傳統的文本分類任務適用於情感分類,文本的情感分類可以看成是一種特殊的文本分類任務。那麼傳統文本分類是通過訓練樣本、特徵提取+機器學習模型,訓練好參數,對未知樣本進行分類預測。對於情感分類,考慮到特定的情感資源,相對於傳統文本分類,有了更多可利用的知識。

隨著深度學習的發展,也給文本情感分類帶來很多生機。這些年出現很多關於深度學習和情感分析相結合的情感類別預測任務。在深度學習過程當中可以加入情感資源,包括語言學的約束、情感辭典的信息,加入之後可以使情感分類和深度學習結合得更充分。

剛才講的是粗粒度分類,便於我們從整體上把握用戶對情感、對世界、對產品的整體傾向。還有一種分類叫細粒度情感分類,所謂細粒度即針對評價對象及其屬性的情感傾向,比如「iPhone10很不錯,除了貴,買不起,新的 iWatch 可以買一個,跑步就不要帶手機了」。這裡面有兩個評價對象,第一個評價對象的評價是 iPhone 很不錯,但是很貴,在購不購買上持否定態度,對於 iWatch 來講,評價對象認為跑步時可以不用帶手機,所以相對於 iPhone 來講,更傾向於買 iWatch。我們做細粒度情感分析時就要分別把不同的評價對象抽取出來,把評價詞語、情感類別分別判定出來,這樣我們就可以細粒度分析一個產品、服務甚至情感。

當然,這種分類任務要結合文本當中不同的評價對象,所以面向評價對象的情感分類有很多種方法,比較典型的可以利用上下文信息,採用神經網路中的注意力機制,使某個評價對象和詞語能更好地尋找到搭配,從而來判斷。我們在 EMNLP2016 上發表的一篇論文就介紹了我們的成果。

面向評價對象的情感分類,可以落地很多應用,比如現在網路上有很多文本,海量的評論,比如評論手機,具體來講是華為手機,我們在評論時按照細粒度分類,可以把評價對象、評價詞、屬性抽取出來,進一步構建出評價手機體系的維度空間,也就是說你可能事先對某一個產品或某一個分類不知道從哪些角度去了解它,或者從哪些維度去分析它,但我們可以通過細粒度情感分類把這個體系歸納出來,同時對每一個粒度進行打分,比如圖中紅色和藍色的區別就是褒貶,顏色的不同表示它們打分值,這樣用戶可以在購買時進行評價,比如華為手機、蘋果手機或其他類型的手機。同時我們還可以把這些評論總結出來,比如評論的極性分布,剛才是細粒度的,總體來講有多少人是評價正面的,有多少人評價是負面的,這是粗粒度的,這些都可以給用戶提供全方位評價體驗。

粗粒度情感分類是為商家了解用戶對產品的評論,政府了解公眾輿情提供參考。細粒度情感分類可以提供所評價的產品或服務的精準畫像,為商家和用戶提供不同的評估。


二、隱式情感

無論是你聽別人的話,還是自己表達情感時,可能未必會使用情感詞。情感表達中有20%-30%是沒有情感詞的,它屬於隱式情感,而隱式情感多使用事實型陳述和語言修辭表達,從隱式情感分布來講,有事實型,有比喻型,有反問型,其中事實型情感佔72%。採用事實型情感,比如一個人住到酒店,他在發微博時說「桌子上有一層灰」,這沒有任何情感詞,但實際上已經表達了他的不滿,這就是事實型表述。再看褒義描述,「從下單到收到貨不到24小時」,表明他稱讚快遞速度很快,但沒有明顯的表達詞,這些都屬於事實型表述。

這種事實型描述怎麼挖掘?這種事實型表述出現很頻繁,這個時候我們可以採用上下文,比如我說「桌子上有一層灰,很不高興」,就可以把「桌子上有一層灰」定義為貶義的。或者找不到上下文的話,也可以在其他文當中找到跟它相似的語句,再判定情感,通過藉助周圍上下文的分析進行推理,得到這句話的情感,這是一種解決策略。同時,我們也可以藉助某種知識,比如快遞多長時間算快,或者說這個人身高1.8米,我們有個常識,一米幾以上就算高個兒,類似這樣的知識可以幫助我們進行隱式情感分析。

除了事實型之外,還有一種是修辭型的,修辭型的更難區分,「拿機器人和人相比,「你咋這麼聰明呢?」平常你可以聽到別人這麼誇你或者這麼諷刺你,但有的時候光看語言的話,我們很難判定是誇你聰明還是笨。此外,還有隱喻的方式,比如一個人去旅遊勝地愛琴海,他在描述中說「此乃西方文明的搖籃」,這就是一種比喻,這種比喻包含很多讚賞,這種修辭型怎麼表達出來?或者怎麼把大量的存在於我們生活當中的隱式情感挖掘出來,這需要很多知識,從資源的角度來講,大連理工大學林鴻飛老師有一些隱喻語料庫,山西大學王素格老師有一些隱式情感語料庫,分別對事實型和修辭型隱式情感提供了一定幫助。當然,語料庫只是提供某些支持,隱式情感是一種含蓄的表達方式,隱式情感表達因為缺少情感詞的指引,所以需要尋找新的特徵與表示方法。而且要結合目標,比如我們說到玫瑰花、紅豆、月亮,說到這些詞的時候會聯想到哪些情感,這些和知識和上下文都會通過分析推理獲得隱式情感的語義。


三、情感溯因

分析情感的目的是什麼?這些情感產生的原因又是什麼?比如他是因為什麼高興、因為什麼傷心、因為什麼憤怒,我們需要情感溯因,也為了大家更好地觀察產品、體會服務以及體察對方的情感。從原因來看,一般是「情」出有因,這裡有一個例子看著懂事的女兒每天被病痛折磨著,自己卻不能為她捐腎,想到自己無能為力,張志英泣不成聲」。我們可以進行溯因,也就是要知其然,也要知其所以然,知道了原因之後,比如你知道一個人有潔癖,忍受不了桌子上有一層灰,下次她再看到一個地方的桌子上有一層灰,可能她沒有表達出來,但你能預期到她會生氣。

文本情感的原因發現方法,比如哈工大深圳研究院的徐睿峰老師做過一些工作,也有語料庫,一般是按照類似問答系統研究的方式,這裡面有情感詞、有原文,通過記憶網路判別這個文章中哪句話是原因,通過類別判斷是或不是。

另外一種是群體,除了文本情感原因,社交媒體上也有很多值得我們發掘的原因,比如長江郵輪傾覆這件事中有很多悲哀的情緒,但是為什麼還會有喜悅的成分呢?大家也會疑惑,我們通過此事件分析,對長江郵輪傾覆事件的喜悅實際上是由於沉船內部有生命跡象和載客458人,救起8人,由這些子事件導致大家覺得有希望的情感,所以表達出來了喜悅,這也是情感原因的發現方法,從社交媒體上通過子事件進行分析。


四、個性化

通過進一步分析我們可以知道人和人是不同的,同一對象,不同人立場不同,可能表達出不同情感;相同對象,不同人表達相同情感,用詞風格不同。比如男生和女生對待某一件事的時候可能分歧很大,所以在情感計算中要加入用戶特徵,比如用戶畫像技術,這裡面包括自然屬性、社會屬性、興趣屬性、心理屬性等。一般立場不同,情感可能會不同,比如去年廣為人知的「青島38元大蝦」和「哈爾濱天價魚」事件,關於青島38元大蝦,「在南方的東北妹子」評價說「米飯按粒賣,我不得不傾家蕩產么!」關於哈爾濱天價魚中的評價是「北方人覺得南方小小氣氣,南方人覺得北方人沒素質」。此外,人們的用詞風格也會不同,這裡有兩個人,一個人很容易用非常誇張的詞,比如「這個車太漂亮了」,另一個人會說「還行吧」,他所說的「還行吧」對他來講就是很好了。我們用兩個人發表的文章進行對比,不同的人發表的文章在情感分值差異性上會有不同,用詞風格也如此,同一篇文檔,比如這個人發表的文檔相似度很高,他評價車、評價服裝時都會使用很誇張的詞。如果跟另外一個人來比較,文章用詞的相似度就很低。

我們在神經網路分類中融入用戶和產品的向量和矩陣表示信息,然後把它融入已有神經網路框架,應用到文本情感分類任務,這一部分內容的論文發表在 2015 年的 ACL 上。


五、領域問題

我們在不同的領域都存在遷移的問題,以圖書和電子領域為例,每個領域的評價對象都不同,不同領域的評價表達千差萬別,不同領域中的同一情感表達極性不同。比如「簡單」這一詞,情節簡單和上手簡單表達的情感就不一樣。這需要我們進行跨領域的情感研究,也就是進行模型遷移過程,通常在情感分析領域的遷移,一是利用領域無關的詞和領域相關詞的鏈接關係,再進行分別聚類。在神經網路當中,通過神經網路的隱層參數盡量提取與情感相關、但與領域無關的詞的特徵來分類。


六、情感生成

實際上我們一直分析的是人類的情感,我們一直很期待機器是不是能產生情感,也就是說機器有情感嗎?有三觀嗎?目前機器是沒有自主意識的,而指定情感類別的情感生成可以做到,比如說我們可以根據指定的情感類別生成情感表達,也可以在聊天機器人當中根據轉移概率進行變換,此外也可以對情感表達進行潤色和風格轉換。

評論文本生成很簡單,只要你輸入一個用戶名、產品名,輸入打分、偏好,就可以生成相應的文本情感表達,大家可能會經常會在產品評論中看到一些機器生成的評論,有些時候可以判別出是機器生成的,有的時候判別不出來。

在聊天系統中可以情感回復生成,例如上一句話說「我的狗丟了」,然後生成一個生氣的回復,我們在這一部分加入情感類別因素,向量和矩陣疊加起來,生成新詞帶入到下面,所以生成的下文是「誰讓你不管好!」這是明顯的表達生氣情感回復。

此外,我們可以進行文本的情感極性變換及潤色,比如原句是「服務不周,而且極其粗魯」,可以修改為「服務到位,而且非常清爽」。還可以進行文章的潤色,比如「兩隻狗在樹邊玩耍」,我們可以把它修改為「兩隻狗在樹邊玩耍,享受童年的快樂」。

情感文本生成邁出機器發出情感的第一步,在聊天系統中可以進行情感互動,自動生成評論文本可以豐富用戶的表達方式,比如一個人不善表達,但他對這個東西打分非常好,我們可以幫助他生成一段文字,豐富他的表達方式。

總的來講,情感分析已經發展了很多年,已經落地產生了很多應用,產生巨大價值,比如在社會輿情方面、電子商務方面,如大家經常看到的淘寶網等等,再比如在傳統行業方面,比如幫助ZARA進行服裝設計改進,此外在金融等特定領域都發揮了巨大的作用,這是一個很接地氣的方向,同時也具有很多技術挑戰。

我們來看一下能否進行詩詞鑒賞。例如一個高考題目,關於一首杜甫的詩,「韋曲花無賴,家家惱煞人」,描寫春色的美。「綠樽須盡日,白髮好禁春」是說在這樣的日子需要喝酒,需要好好享受春天的氣息。「石角鉤衣破,藤梢刺眼新」描述他已經不顧衣服被石角鉤破,欣賞藤梢冒出的新芽。「何時占叢竹,頭戴小烏巾」表達什麼時候能頭戴小烏巾歸隱山林。問題是談談詩的最後兩句表達了詩人怎樣的思想感情。參考答案是對於春色的描述表達出作者的喜愛之情,因此產生對歸隱山林的隱士生活的嚮往。情感分析中用了很多其他技術,包括古詩詞、隱喻等等,能表達情感和背後隱藏的歸隱山林的心情,什麼時候·機器的情感分析也能進一步分析出這種情感,同時又能像剛才孫茂松老師介紹的古詩詞一樣,能夠生成帶有指定情感的古詩詞也是情感分析未來需要探索的。

最後總結一下。情感是人類的高級思維方式;機器可以通過學習理解人類的情感模式,了解人類的情感;情感溯因可以幫助更深入理解人類情感動機;機器可以藉助指定情感類別方式生成情感文本;鑒賞類或文學作品賞析情感計算值得我們繼續探索。真正具有自主意識的情感智能還未到來。謝謝大家!


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

生於數據長於B端,這家「國家隊」背景的金融科技公司如何應對「千面」場景?
蘋果叕申請自動駕駛專利了!一旦應用,乘客們就有福了

TAG:雷鋒網 |