當前位置:
首頁 > 科技 > 想讓假新聞無所遁形?用這三重關係來檢測吧

想讓假新聞無所遁形?用這三重關係來檢測吧

全文共2058字,預計學習時長4分鐘

今天我們要研究一個日益普遍的問題:如何檢測正在社交網路上傳播的假新聞?暫時不從計算機科學的角度考慮,一些重要的檢測因素可能如下:

· 講的是什麼(新聞的內容),或者是怎麼講的(雖然假新聞可以通過模模擬實新聞故意誤導用戶)。

· 刊登在哪裡(源出版物的可信度和權威性)。例如,《金融時報》中的某些內容會比《洋蔥》中的內容更可信。

· 誰在傳播新聞(比如轉發它的用戶帳戶的可信度——他們是機器人嗎?)。

現有的大多數檢測演算法都側重於從新聞內容中尋找線索,但這些線索一般是無效的,因為假新聞通常會模模擬實新聞而故意誤導用戶。

因此,我們不應只看內容,更應關注社會背景:比如發布人和傳播信息的用戶。TriFN是我們開發的假新聞檢測系統,它關注到了新聞、發布人和社交網路用戶之間的三重關係。

我們最擅長的是通過發布人、新聞內容和社會參與之間的三重關係來學習有效的新聞特徵,從而對假新聞進行分類。

數據表明,將發布人和用戶納入檢測範圍確實有助於虛假新聞的檢測。

輸入

輸入因素包括:發布人l,社交網路用戶m和新聞文章n。利用一個由含t個單詞的辭彙表,可以計算出一個詞袋特徵矩陣。

對於m個用戶,有一個m×m鄰接矩陣,如果i和j是朋友,則為1,否則為0。

我們還知道哪些用戶共享了哪些新聞,矩陣編碼了這一信息。

矩陣同樣也編碼了「哪些人發布了哪些新聞」這一信息。

對於某些發布人,我們可以知道他們的黨派傾向。本文中,使用了來自mediabiasfactcheck.com的傾向評級,我們僅採用「左偏差」、「最小偏差」(中性)和「右偏差」值(忽略中間區域的左中心和右中心值),並在發布人黨派標籤矢量中將它們分別編碼為-1,0和1。並非每個發布人都會有傾向評級。我們想要給在矢量中的此類發布人的條目中添加「-」,但由於我們做不到這一點,因此獨立的矢量會對我們是否為發布人p提供傾向評級進行編碼。

但至少有件事我們可以做主:一個被標記的新聞數據集會讓我們得知新聞真假與否。(這裡我們只涉及到新聞的內容,而不管社會背景)。

嵌入框架的三重關係

TriFN會獲取所有這些輸入信息,並將它們與假新聞二進位分類器組合在一起。鑒於用戶數量和新聞數量都很龐大,我們可以預料到,一些原始輸入是相當大的,因此,作者會大量使用非負矩陣因式分解法來降維,以學習潛在的空間嵌入(稍後會詳述)。

TriFN整合了:

· 新聞內容嵌入

· 用戶嵌入

· 用戶與新聞交互嵌入

· 發布者與新聞交互嵌入

· 由被標記的假新聞數據集訓練的線性分類器進行的預測

從圖片上看, 它是這樣的:

新聞內容嵌入

讓我們詳細研究下非負矩陣因式分解法(NMF)是如何降維的。

還記得新聞文章的詞袋草圖嗎?這是一個n x t矩陣,其中n是新聞文章的數量,t是辭彙表中的單詞數量。NMF嘗試學習潛在的嵌入,這些嵌入會在較小的空間中捕獲矩陣中的信息。

在一般情況下,NMF尋求將一個(非負)矩陣M分解為兩個(非負)矩陣W和H(或本文中使用的D和V)的乘積。這對我們有什麼幫助?我們可以選擇維度d來控制潛在空間的大小,並將矩陣分解為新聞文章的d維表達式,以及辭彙表中單詞的d維表達式。這意味著有形,因此以所需的形結束。一旦我們學會了如何表示一篇新聞D,我們就能將它們運用到TriFN的新聞內容嵌入中。

我們想儘力使接近,同時保持和的敏感度以避免過度擬合。我們可以用一個正則術語來實現它。所以,整體優化如下所示:

用戶嵌入

對於用戶嵌入,存在類似的NMF應用程序,但在這種情況下,我們會將鄰接矩陣拆分成一個用戶潛在矩陣和一個用戶相關矩陣。所以此時,我們要用NMF來學習具有mxd . dxd . dxm形的,最後會生成所需的mxm形。

還有一個用戶間關係矩陣,它控制著的貢獻。基本的概念是,任何給定的用戶將只分享一小部分新聞,所以樂觀的情況(分享一篇文章)應該比消極的情況(沒有分享)更重要。

用戶與新聞交互嵌入

對於用戶與新聞交互嵌入,我們希望能獲取用戶特徵與新聞標籤之間的關係。我們的直覺是,信用低的用戶更容易傳播假新聞。那麼我們如何得知用戶信譽呢?在《社交媒體中的用戶可信度測量》一文的基礎上,作者將此建立在與其他用戶的相似性上。

首先,用戶被分組,同組用戶都傾向於分享相同的新聞。然後根據每個組的相對大小給出一個可信度評分。小組得到的可信度評分適用於組內用戶。你可能會疑惑,這個過程中會不會有機器人帳戶被創建,然後合作傳播虛假新聞。然而,若假設我們有可靠的可信度分數,那麼我們希望能設置一些參數,使高可信度用戶的潛在特徵接近真實新聞,使低可信度的用戶的潛在特徵接近假新聞。

發布者與新聞交互嵌入

上文中,我們用矩陣編碼了「哪些人發布了哪些新聞」這一信息。 接下來,讓成為該信息的標準化版本。我們想要找到一個加權矩陣, 將新聞發布者的潛在特徵映射到相應的黨派標籤向量上。

它看起來像這樣:

半監督線性分類器

利用被標記的數據,我們還學習了一個加權矩陣,將新聞潛在特徵映射到假新聞標籤。

把上述嵌入公式整合

總目標是,使用上述每個嵌入公式的加權組合來查找矩陣,以及整合所有已學矩陣的正則化項。

它看起來像這樣:

以這樣的方式訓練它:

評估

TriFN通過利用FakeNewsNet BuzzFeed和PolitiFact數據集,對幾種最先進的假新聞檢測方法進行評估。

它在二者上都有良好表現:

留言 點贊 發個朋友圈

我們一起分享AI學習與發展的乾貨

編譯組:紀宣羽、趙璇


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

SQL和Python的集合操作對比:適合的就是最好的!
這15個有趣的數據集,你可能聞所未聞

TAG:讀芯術 |