全棧式內容風控，UGC內容平台的生死大事

最新 08-18

令UGC頭部平台焦慮的，不是流量，而是內容審核

UGC內容平台，無論是資訊類、社交類、還是視頻類，在贏得了網民的支持（流量暴增）之後，隨之而來的，是頻繁的監管審查、違規處理，諸如約談、整頓、關停。

凡事物極必反，經濟繁榮表象下深藏泡沫，而內容產業的繁榮下則是亂象叢生，受利益驅使，黑產自然不會放過內容平台這塊肥肉，平台成了間接作惡工具，自然給企業帶來源源不斷的麻煩、損失。

2018年4月4日，國家廣電總局約談今日頭條、快手相關負責人，要求其將網站上涉及低俗、暴力、血腥、色情等內容的節目立即下線。7月，短視頻行業又迎來一輪最嚴監管，多達15款短視頻App被下架。其中包括嗶哩嗶哩、洋蔥視頻等用戶耳熟能詳的短視頻分享平台。

2018年，令UGC平台最焦慮的不是流量，而是合規，是內容風險。Facebook目前在全球擁有7500個內容審查員；年初今日頭條內容審核已超過4000人，預計未來突破1萬人；快手多次被約談，勒令整改，不得不擴充審核隊伍，2018年4月宣布緊急擴招3000名內容審核員。

當然，除了大平台，小平台也一樣，內容風控是當下互聯網業務發展最急迫也是最棘手的問題。

（1）監管合規難

主要是涉政、違禁、暴恐、色情四大類內容，將直接導致平檯面臨約談、整頓、罰款乃至關停等監管風險。

（2）商業損失

UGC平台充斥大量廣告導流、欺詐廣告，導致用戶體驗變差、用戶流失、平台受損。

導流廣告和欺詐廣告，往往由黑產所為。隨著互聯網行業發展，網路欺詐無處不在，黑色產業鏈已發展為成熟體系。企業反欺詐面臨著黑產技術水平與專業程度不斷提高、缺乏全局風險數據支撐、專業反欺詐人才不足等實際難題，在黑產面前，損失不言而喻。

內容上出了問題，不僅會導致企業停擺，更會讓股市瑟瑟發抖，令投資人睡不好覺。此前，在被點名、約談乃至下架之後，B站股市飄綠，隨後不得不將內容審核上升到戰略級。

在內容百花齊放的時代，內容風控自然成了各平台不可避免的發展課題。

對於內容風控的進化階段，我認為有如下四個：

無人監管：平台必將頻頻遭遇監管冷板凳待遇。

全部人工審核：面對黑產時，他們是機器作案，快速更新欺詐手段，更新設備號。人工必然是疲於應付，卻收效甚微。

機器+人工審核：這是部分公司採用的方式，但受限於策略與模型上的規則簡單，導致機器漏殺誤殺嚴重，人工變成了對機器審核的再次檢驗，效率不僅沒有提升，準確率也不高。

全棧式AI審核：基於人工智慧演算法，海量內容資料庫，建立全棧式的內容及場景模型覆蓋，結合用戶行為畫像，確保內容防護面面俱到，內容識別高效與準確。

內容大爆炸的時代，違規內容、欺詐內容呈指數級增長，在內容審核上，有些是人工無法逾越的，比如：人不能24小時工作，內容審核團隊也不能無限制擴編。

此外在效率上，人工看圖片可以快速掠過，看視頻和音頻卻無法快進，效率就會大打折扣。而機器可以在音視頻上節省大量時間，比如：在音頻識別上，將聲音轉化成文字，再識別文字內容。再比如：面對黑產操縱的欺詐廣告，可以採用全局的風險數據支撐和強大的反欺詐技術，實現精準識別。

所以，應付五花八門的內容風險，自然要採用更前瞻的人工智慧技術加全棧式的內容風控策略。

機器智能審核的準確率取決於數據量、演算法、模型。當數據量不夠多時，自然會漏殺，當策略模型和演算法不準確時可能會誤殺。AI過濾就是通過對海量數據的深度學習，再結合演算法對特定場景建立相應的分析模型，最終把不同內容形式的不良內容過濾和攔截掉。

當然，對於不同內容形式，所需的技能與策略也不一樣，下面我來一一講述。

在文本識別上，人工智慧技術可以通過深度學習與智能文本語義分析，識別同一詞在不同語境中的風險。比如：針對大麻一詞，「雨很大麻煩車開慢一點」是正常，「在美國大麻違法嗎」就屬於違禁。

文本識別重在要同步網安和網信辦合規要求，建立違規敏感詞庫，一般要建立數十萬級詞庫，涵蓋各類敏感信息。

在對色情文本的識別上，則體現在分類模型的建立上，比如：區別什麼是色情、什麼是低俗、什麼是辱罵，因為不同平台的審核標準不同，不同的分級要區別對待。

文本識別，還有一個很重要的功能就是識別聯繫方式。現在的聯繫方式（微信、QQ、手機、網址、百度搜）以及各種變體，可謂五花八門。對此，通過機器學習建立上萬種聯繫方式變體特徵庫就顯得很重要。

圖片識別同樣有各種細分需求，拿涉政圖片來說，就得分普通、漫畫、雕塑、惡搞、負面涉政等。圖片識別重在建立資料庫，以及針對不同類型進行模型訓練。

拿暴恐來說，同樣是槍支，細化到場景，有單純的槍支圖片，但是遊戲人物拿著槍支算不算？

這就涉及到對不同的槍支圖片進行細分，分別建策略模型，確保遊戲槍支不被誤殺。

色情圖片識別，也需要分級，性感、色情、重度色情要區別對待，其次是場景，直播、視頻、電商、社區、遊戲，不同的場景下的色情要分別對待，海外一些平台非常重視兒童裸露色情，所以就得有兒童裸露的策略模型，而國內審核上一般不視為色情。

2. 音頻識別

一般語音識別在語音直播、FM電台、語音消息、語音文件、視頻直播中都有用到。語音過濾可以利用人工智慧將語音轉文本，再識別文本中的涉政、色情、廣告等內容。語音識別又涉及到不同語種，比如：普通話、英語、藏語等。

此外，還有一些是特殊化的語音識別，比如：嬌喘識別是通過深度學習與語音檢測技術，識別嬌喘、呻吟等非說話色情。

3. 視頻識別

視頻識別是對視頻內容中的畫面、聲音、文字進行全方位分析過濾，視頻包括短視頻、長視頻、視頻直播等多種場景。

人工智慧技術對視頻的審核過濾，會將視頻進行拆分，將視頻進行畫面截幀，從而過濾圖片，圖片中的字幕則利用OCR字幕來過濾。視頻標題通過文本過濾模型來檢測，視頻語音則單獨採用語音模型過濾。

全棧式AI內容風控需要具備哪些特徵？

互聯網發展至今，需要內容風控的場景越來越多，更新迭代也快，從文本、圖片，到長視頻、短視頻，直播答題火了一陣後，抖音風生水起，內容的場景越多，對內容審核的AI技術及場景化應用的要求也更高。我認為做到全棧式AI內容風控需要具備三個方面：

（1）橫向來講，在內容形式上要做到全域覆蓋

內容主要有五類：文本、圖片、音頻、視頻、網頁。

文本要合規，音視頻也要合規，各種形式的內容風控都要抓起來。文本比較單一，但視頻中有圖片、標題、字幕、語音，它又是一個綜合了多種形式的內容，它的審核要更複雜。在音頻內容中有聲紋識別，還有非說話色情，比如：嬌喘等等。在內容形式上要覆蓋足夠寬廣，才不會造成誤殺漏殺。

（2）縱向來講，在垂直場景上要做到深度應用

風控是細化到場景的，對場景的理解與場景化建模能力要求很高，拿圖片涉政場景來講，有正常照片、雕塑、漫畫，每一個場景都需要單獨的模型。遊戲直播平台會要求把槍支分為槍支和遊戲槍支，那麼遊戲槍支就需要單獨建分析模型。

在特殊時期，坦克這一類型也是需要被識別過濾的，還有不良行為，比如：抽煙、喝酒等，人工智慧技術非常考驗對場景的理解與技術應用。

（3）結合用戶行為畫像，從源頭識別欺詐用戶

前文中提到的內容風險除了有監管不合規外，還有一類是商業損失。造成商業損失的內容，如廣告導流、欺詐廣告是由專業的黑產團隊所為。

正常用戶所發布的內容，我們通過機器的深度學習來識別，但黑產發布的內容通常是通過設備號批量註冊賬號，批量發布信息，令人防不勝防，這時候就需要我們結合設備指紋與用戶行為畫像分析來進行反欺詐。

行為畫像是採用行為序列、關聯圖挖掘、風險傳播演算法等時域關聯分析技術對用戶做行為分析。比如：用戶在登錄時顯示沒問題，但是每隔幾分鐘登錄一次，可能就是問題用戶。再比如：用戶登錄沒問題，但行為有問題，頻繁發違規內容，這樣綜合判定該用戶是有問題的。

用戶畫像主要是對用戶歷史行為進行記錄，對其每一次的網路行為也進行記錄，最終結合啟動、註冊、登錄、再到業務行為，把這幾個步驟關聯起來建立用戶行為畫像，確保識別效果更準確。

用戶行為畫像是反欺詐中的關鍵點，以聲紋識別舉例來說，在平台上識別出欺詐廣告的賬號，會把其聲紋記錄下來存在聲紋黑名單庫中，下次即使該用戶更換了設備再進行詐騙，依然可以通過聲紋比對識別出來。

一般一台設備是一個人使用，不同的聲紋使用同一台設備，並且出現違法內容時也可以判斷為有問題的用戶。聲紋識別是通過聲紋檢索比對技術，進行聲紋聚類、關聯，發現線上、線下語音廣告與欺詐行為。

橫向的內容層、縱向的場景層、加上從源頭對用戶行為的分析，全棧式AI內容風控，其實是建立了一個多維防禦空間來攔截和過濾違規內容與欺詐用戶，從而防範業務風險，避免更大的損失。

增長得越快，背後的風險也越大。UGC內容平台，小步快跑的同時，別忘了，先好好活著。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

TAG: |

全棧式內容風控，UGC內容平台的生死大事

來自內容的風險主要有兩類

內容風控的四個發展階段

如何構建一個無懈可擊的全棧式AI內容防護？

1. 文本識別

2. 圖片識別