當前位置:
首頁 > 最新 > 社交網路話題的發現與演化

社交網路話題的發現與演化

━━━

在微博、朋友圈、臉譜網和推特等新型社交媒體的環繞下,人們已經習慣通過智能手機或個人電腦等電子設備將現實世界中發生的事件信息分享到網路虛擬世界中。我們的每一次發布、分享、關注、轉發、評論、點贊,都會在社交網路中留下數據痕迹,最終形成大量的用戶生成數據(UGC)。對這些具有海量、動態、多源特點的數據在話題或事件層級進行深入分析,能夠幫助回答一個對個人用戶和輿情監控、市場決策等都至關重要的問題:網上都在聊什麼?

這其實相當於討論如何發現話題並跟蹤話題的演化情況。在回答這個問題前,我們首先需要確定什麼是話題,明確話題發現與演化任務的處理對象是什麼,有何特點,以及話題的表現形式又是什麼。

話題作為一個比較抽象的概念,沒有較為準確的定義,這裡我們採納方濱興院士等著《在線社交網路分析》(2014)一書的定義:話題是指一個引起關注的事件或者活動,以及所有相關的事件和活動。其中,事件或者活動是指在一個特定的時間和地點發生的一些事情。由該定義可以看出,話題與事件的界限並不明晰,特別是在一些關於話題發現和演化的研究中,並未對話題與事件進行區分,有些文獻直接指出可以將話題細化為一個事件,有些文獻在表述中聲明二者可以進行互換;同時,話題或事件的相關研究使用的模型與方法基本相同,因此,在討論話題的發現與演化時,筆者在後文敘述中對兩類概念亦不做區分。

承載用戶表達內心觀點、想法的載體主要是文字,因此,為了發現社交網路中用戶在聊些什麼,話題發現與演化任務處理的對象以文本數據為主,當然圖片、視頻、音頻、各種元數據等其他數據類型也可以用於檢測話題及其演化。作為新興的網路媒體,社交網路不同於以往的媒介形式,其數據有其獨有的一些特徵,包括數據海量、種類多樣、更新快速等。

━━━

發現話題,可以看成是對內容的一次概括,其作為語義層次的概念,並無具體的表現形式,因此,各類話題發現方法得到的話題表現形式各異,有以文檔聚簇表示的,有以詞語分布表示的,也有以時間、地點等要素描述的。我們將其按技術思路的差異進行分類,分為基於聚類的檢測模型、基於隱含語義分析的檢測模型、基於突發性的檢測模型。

傳統的文本挖掘研究認為,話題發現即對文檔集進行歸類,以形成不同話題的子集,在此場景下,聚類演算法成為首選方法。使用聚類方法,則默認假設每篇文檔只與一個話題相關,聚類的目標就是將不同的文檔自動地按話題進行歸類,形成一組有關話題的聚簇,每個聚簇包含若干篇文檔,對應一個話題。在進行聚類時,按照對文檔的不同表示形式,可將文檔表示為向量形式或詞語的共現圖形式,然後對文檔或詞語集合進行歸類,形成不同話題,此類方法基於聚類思想,因此可以分為基於向量空間的聚類與基於詞項共現圖的聚類。

基於向量空間模型的聚類模型將文檔向量化,便於比較文檔相似度,而文檔表示方法還可以是其他形式,有學者使用了基於詞項共現(Term Co-occurrence)圖的話題檢測模型,該模型使用詞項共現分析技術,核心思想是以詞項之間的共現程度反映其語義關係,在話題發現模型中,詞項共現可以表示兩個詞項同屬於一個話題的概率大小,如圖 1所示。

話題作為一個抽象的概念,來自文檔等內容承載的客體,但高於這些客觀實物,是用戶對於語義的一種簡化表示。一般來說,用戶可以將一個文檔簡單表示為幾個話題,如人們閱讀文獻資料時,習慣於將內容總結為幾個要點的形式,將此過程進行數學化表示,則可以將人們閱讀文檔後所獲得話題視為具體文檔的一種降維表示,文檔由成千上萬的詞語特徵表示轉換為由數量較少的若干個話題特徵表示。基於此思路,則可以導出基於隱含語義分析(Latent Semantic Analysis)的話題發現模型,話題在此即作為文檔中的隱含語義。

根據該模型實現技術細節的區別,可以將基於隱含語義分析的模型分為代數方法與概率方法。發現話題相當於進行一次文檔的降維表示,因此可以使用經典的降維技術,而在後續的研究中,得到較多應用的是基於非負矩陣分解(NMF)的方法。這兩種代數方法僅從形式上與前述文檔生成的過程加以對應,但無法給出合理的物理解釋,因此有學者提出了概率化隱含語義分析(PLSA)模型,應用概率方法對文檔生成過程進行建模。隨後提出的隱含狄利克雷分布(LDA)模型將模型參數進一步概率化,形成了完善的分層貝葉斯圖模型。LDA模型基於詞袋模型思想,因此在該類模型中也認為文檔中的詞語具有可交換性(exchangeability),即每個詞在文檔中都是獨立的,交換詞語順序不改變文檔的語義,該模型沒有考慮詞語的順序(上下文)信息,雖然丟失了部分信息,但簡化的語言模型有助於計算機處理。LDA模型應用方便,易於擴展,可解釋性強,相關研究人員基於LDA模型針對不同應用場景提出了大量的擴展與變型模型,類LDA模型已成為話題發現領域的主流方法。

另外,我們經常在日常生活中觀察到這樣一個現象:當某個話題或某件事情引起大眾的廣泛關注時,與公眾相關的一些行為等特徵會表現出異常性,如2003年的「非典」時期,由於謠傳「食鹽可以防治該疾病」,因此全國各地的食鹽銷量劇增。由此可知,某些特徵的異常變化可以反映一個話題或事件的發生。在社交網路中,由話題或時間引起的特徵突發性也很明顯,例如,在一場足球比賽前後100小時內,關注社交網路的頻率會劇烈上升。這便是基於突發性的話題檢測模型的動機:以突發性實現對話題的間接發現。

為了對社交網路進行更為完善的話題建模,有必要綜合使用各類信息進行話題挖掘,此時,社交網路就可以被視為一個感測網路,用戶、話題標籤、位置、博文、詞語等均可作為一個感測器,感知周圍環境的變化,如用戶可以感知其本身的文本發布、轉發、活躍粉絲、關注用戶、@用戶、回復等的變化,來判斷是否有新的話題發生。用戶、話題標籤、位置、博文、詞語等根據各自之間關係可以連接構成一個異構網路,異構網路(見圖2)使用了較為完整的信息,能夠更準確地定位話題的發生。

━━━

發現話題、對話題進行總結,以上都是在數據是靜態的情況下進行的,而面對社交網路實時更新的特性,關注其上的動態性更有利於及時掌握用戶的情況,為相關應用提供決策支持,因此,需要提出話題演化的模型與演算法,跟蹤社交網路中話題的變動情況。話題演化的核心在於,在靜態話題分析的基礎上引入時間維度,描述話題的變化情況,著重回答這些問題:話題所處的狀態如何?(是剛興起、處於高潮階段還是走向滅亡?)話題從何而來?(當前話題是新興話題還是從某個話題演變而來?)到哪裡去?(又會引發那些新的話題?)其中,對於話題狀態,可以通過分析話題的強度來反映話題處於哪個階段;而對於話題的來龍去脈,則可以通過話題的內容演化來回答。

要判斷話題中的內容演化情況,較為樸素的思路是衡量相關特徵的變化,如衡量文檔的前後差異,若差異過大,則可以判斷有新話題發生。衡量差異性的方法很多,對於文本以詞語分布的形式表示,可以利用Kullback-Leiber Divergence(KL散度)進行衡量,如果文檔以關係圖的形式表示,則可以使用圖編輯距離衡量不同時間窗口內圖的拓撲結構的差異。此外還可以利用社交網路等數據中共有的一些信息,構建話題隨時間變化的演化信息,如使用文檔直接共有的作者信息來建立不同話題之間的聯繫。

除此之外,還存在其他關聯信息可供使用,如社交網路中存在的轉發、點贊、評論關係,科研合作網中的引用關係等。例如,根據關注的時間窗口之間的關係,可以將話題演化模型分為3種(見圖3):獨立的演化模型,每個時間窗口單獨進行話題發現;累積的演化模型,學習當前時間窗口及其以前的所有窗口的文檔,用於發現當前時間窗口的話題;引用感知的演化模型,考慮當前時間窗口內文檔引用以前時間窗口的文檔,進行話題發現。

話題演化中還有一類現象值得關注,這就是話題的周期性,一個周期性話題是指以一定的時間間隔重複出現的話題。與周期話題並存的還有兩類話題:一類是突發性話題,指僅存在一段時間的話題;還有一類是背景話題,即由雜訊引起的話題,存在於任意時間段。話題之外的信息也可以用於彌補內容信息的內容不足,如存在某些話題,本身的文本內容信息不足或沒有穩定的文本內容模式,此時,單獨關注文本信息不足以發現有關話題,可以藉助話題所在的上下文環境輔助進行話題發現,如利用用戶信息,當用戶對於某個話題關注度較為穩定時,此時,文本內容的變化不會影響對該話題的發現與跟蹤。

━━━

話題內容上的變化告訴我們用戶關注點的遷移,而關注話題的強度演化,可以得知話題所處的狀態,例如是大眾都關注的話題,正處於關注高峰,還是已經在網路上討論了一段時間,關注的用戶不是很多?話題強度可以幫助我們選擇最重要的話題,提供更有價值的信息。

刻畫強度演化一方面可以對歷史數據進行分析,發現重要事件;另一方面可以對話題的走勢進行預測,如對於處於萌芽階段的話題,預測其是否會引起公眾廣泛關注,對於可能成為熱門的話題,則應予以重點關注。

分析歷史數據時,衡量一個話題強度的最樸素的思路是計算該話題下相關文檔的數量,但文檔數量可能包含非相關文檔等雜訊信息,因此,可以同時考慮多種類別信息,如用戶的影響力、文檔的質量(來源是否權威、內容本身是否嚴謹等)、內容的類別(不容內容用戶關注度不同)、用戶對於該話題的興趣等因素。另外。科研引用網路或社交網路中文檔之間或用戶之間的關係也可以用來衡量話題的強度,例如一篇論文的被引次數越多,則說明該論文影響強度越強,也就越重要。強度演化預測時則可以基於歷史數據使用線性回歸模型或分類模型進行建模。

總的來說,隨著社交網路的蓬勃發展,研究社交網路中話題的發現與演化有助於實現從無序數據到有用知識的跨越與升級,幫助我們了解社交網路上到底發生了什麼,從而進一步了解用戶的意見、傾向、情感等。這一方面能夠方便用戶自身選擇感興趣的內容,防止「信息荒漠」問題,另一方面也可以為輿情監控、商品推薦、市場決策等後續應用場景提供決策支持,具有重要的現實意義。

致謝:感謝國家重點研發計劃項目「大數據知識工程基礎理論及其應用研究」(項目編號:2016YFB1000901)和國家973計劃課題「社交網路個體行為分析」(課題編號:2013CB329604)的支持。

專家簡介

吳信東:合肥工業大學和路易斯安娜大學教授。

汪萌:合肥工業大學計算機與信息學院教授。

李磊:合肥工業大學計算機與信息學院副教授。

介飛:合肥工業大學計算機與信息學院博士研究生。

>>>本文為原創,轉載請回復。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 悅智網 的精彩文章:

這就是終極電網電池嗎?

TAG:悅智網 |