社交媒體要怎麼做UGC內容風控?
圖片來源@Unsplash
文|吳懟懟
早年,Facebook曾聯合部分知名高校的學者做過一項研究:以689003名用戶的好友動態信息流作為研究樣本,通過修改信息分發的演算法,人為區分出消極情緒偏向或積極情緒偏向的內容,強方向性地給研究樣本中的用戶進行曝光。
研究結果表明,獲取更多消極傾訴偏向的用戶,在發布動態等行為上也更偏向消極情緒,反之亦然。有的研究者把這種現象稱之為「情緒蔓延」,簡而言之,在社交媒體上你給人們曝光什麼,人們的心智也會隨之發生改變。
由此可見,社交媒體的影響力早已超出普羅大眾的普遍認識,這些基於社會化網路的內容生產與交換平台早已在經意或不經意間給我們帶來了深遠的影響。
著名的《連線》雜誌創始主編凱文·凱利在其成名作《失控》中曾表明一個犀利的觀點,他認為人類歷史曾經發生四次認知顛覆,其中就包含了來自弗洛伊德的研究理論:我們的意志不是一個獨立的個體,它其實是多股意見和不同意識的綜合體,實際上我們連自己的意識都不能完全主宰。
所以也不難理解,為什麼全球範圍內的社交媒體在內容管控上都在走向強幹預。在信息爆炸的今天,如果社交媒體的內容走向過度傾向負面,那麼集體意識走向失控的風險就會無比放大。
不同媒介的機器輔助審核
隨著市場與行業的升級,社交媒體中信息傳播的媒介與形式呈現了多樣化、創新性的發展趨勢。視頻、音頻媒介的廣泛流行給內容審核工作帶來了新的挑戰,直播、去中心化的UGC內容相對以熱門推薦演算法主導的資訊流又有更高的即時性要求。
不過,得益於人工智慧及演算法技術近年來的迅猛發展,利用機器,互聯網行業已經發展出基於不同媒介維度的輔助解決方案。
文本內容:最基礎的處理工作是匹配詞庫進行分類處理,現有的詞庫按風險嚴重程度可以劃分為涉政詞與敏感詞兩大分類。尤其可能涉及政治違規的關鍵詞需要嚴格進行處理,而敏感詞中除了明確公眾普遍不可接受的辭彙外還有大量在不同場景下有不同語義的敏感詞,如果完全統一處理就很容易給用戶帶來體驗損害。
舉個例子,「約」一詞就需要根據其實際的辭彙組合以及語境來進行判斷,「明天去看電影,約嗎?」就不是需要處罰的語句。在此基礎上就衍生出利於上下文內容判定語義的語義分析,以及根據聚類分析判斷與垃圾文本的相似性的結果判定。
圖片內容:機器對圖片類型的內容審核,其底層是圖片識別的技術應用。所有的物品圖像都有它的圖形特徵,圖片識別則可以以其基礎特徵為基礎進行判斷。以足球為例,其球狀圓形球形以及遍布五邊形的圖案就構成了其基礎特徵,圖片識別通過演算法提取圖像的特徵值,計算特徵值的相似度匹配物品圖像原型。
以此為基礎邏輯,圖片內容的各個場景得以被辨識並應用到內容審核中,比如下圖以網易易盾的圖片檢測的產品介紹為例示意其應用場景。
(網易易盾的圖片識別應用場景)
音頻內容:音頻內容審查包括音頻與視頻兩個類型媒介的內容提取。音頻識別的技術基礎建立在以聲學模型建立的發音模版,通過匹配發音模版判斷出語種和對應表義,輸出可被計算機理解的語言結果。
在內容審核應用上,一種通用方法是將語音識別為文本信息後復用文本內容的判斷模型。在語音識別中,面臨音頻背景音嘈雜的場景還需要進行降噪,而多音軌發音場景下要實現準確識別也是一大難題。
視頻內容:視頻動畫的實現終究是基於畫面幀的連續播放,故對於視頻畫面內容的處理,目前通用的解決方案是截取畫面幀進行識別,最終復用的是圖片識別模型判斷涉黃、暴力、血腥等違禁內容。一個僅僅幾分鐘視頻所擁有的圖片幀數量極多,其中截幀的頻次越高,數量越多,該視頻出現違禁內容的風險越小。
可見,以上幾種不同媒介的機器審核目前於業界已經有基礎方案。但實際應用可是複雜多樣,機器審核無法完全解決諸如多音軌語音、完整圖案干擾、文本植入變異敏感詞、視頻「閃現」違禁內容等場景的問題,其終究起到的是輔助審核的作用。根本邏輯即是通過機器審核剔除明確違規的內容,剩下的內容最終交由人工審核判定分發。
UGC內容風控設計
與熱門推薦演算法導向的「資訊」、「內容」向產品不同,微信、QQ及一眾新興社交軟體的UGC動態內容生產高並發,用戶體驗有更高的時效性需求,如何把握用戶體驗和內容審查就成為其風控的一大要點。以下選取QQ、陌陌、Soul、Uki四款社交軟體,以色情維度的信息為例,測評其在內容風控上的產品設計。
發布動態
在動態社區中,「聊騷」這樣一個敏感詞的判定標準上,4款軟體有不同的定義。除了Soul已然將其判定為不可發布與傳播的內容外,其他三者均能進行發布分發。而在非文本媒介上,行業標杆QQ與Soul已實現較為完善的內容風控,尤其Soul在發布明顯可判定為「色情」的圖片、音頻、視頻內容後,其發布賬號會在內容審核後直接被採取封號處罰。
而Uki與陌陌在動態社區的內容風控上顯然有所不足,兩者的圖片內容發布也會先經過機器審核,在圖片識別為違規內容會阻斷髮布直接刪除內容。但實測中在Uki發布一段嬌喘音頻會先分發到社區,在獲得8分鐘時間的分發經人工審核後方被通知內容違規進行刪除,其審查邏輯是審查即時性的「先發後審」。
而實測中的陌陌對音頻、視頻的審查最為寬鬆,自期違規音頻、視頻內容發布後的數個小時後,其違規音頻、視頻內容都未進行刪除處理,甚至可通過其小程序進行分享。
(陌陌通過其K歌功能發布音頻內容)
(陌陌的違規視頻動態自發布後數小時內無任何處理)
經以上實測,目前正進行整改的Soul在內容審查上的判定標準與懲處力度最為嚴厲,4款社交軟體中在動態社區中達到了4種媒介的完善審查機制的僅為QQ與Soul。UGC內容行業要升級審查機制,繞不過真正「先審後發」的實現途徑,尤其陌陌與Uki因為審查不嚴所帶來的內容審查風險就極易失控。
價值觀仍然是一根金線
上文之所以一直強調機器審核的輔助定位和「先審後發」的重要性,究其根本是因為如果在缺乏強有力的人工審核主導作用下,就無法實現內容全面風控,陌陌與Uki的實測案例就應該印證了這一點。
不同的敏感內容基於表達主旨有不同的表義,以「聊騷」這一敏感詞內容為例,所涉及內容在社區網站是否視為違禁,取決於網站運營者基於自身價值觀導向所制定網站規准。又例如當用戶在社區中發表對美麗嚮往又不裸露的「性感」內容時,如果單憑機器思維統一以違禁方式進行處理,那麼對用戶體驗而已無異為一場災難。
在這種場景下,唯有運營者依據制定出合理且大眾公認的性暗示程度標尺進行判定,才能達到用戶體驗和內容安全的和諧平衡。
人工強幹預除了保障內容全面風控,其另一重要工作就是引導內容社區的價值觀走向。在新時代環境下,網站開發者思考如何遵循政策倡導迭代產品尤為關鍵。以部分網站中推行的青少年模式為例,就是近年來創新地將產品功能設計與內容運營相結合的成功案例。
經過近年來網信辦領導下的一系列整頓後,尤其短視頻領域內眾多社交媒體內部已建立堅實的內容審核編輯責任制,組織架構上突出「人」在內容風控上的主導地位,如「快手」、「抖音」等社區的內容調性和審核標尺的進步最為直觀。
但仍有部分已建立內容審核編輯責任制卻落地不到位,擁有較多資源卻又在新媒介內容審核上技術投入不足,以致內容審查機制鬆懈的網站就需要繼續努力,肩負起更多的社會責任。仁以為己任,不亦重乎?
※樂視網現金流僅能維持基本運營,對賈躍亭的債務追償無實質進展
※經濟學模型剖析獨角獸OYO:曇花一現還是顛覆創新?
TAG:鈦媒體APP |