今日頭條 7 年，好的演算法還可以做什麼？

知識 08-01

作者 | 唐小引

封圖 | CSDN 付費下載自東方 IC

出品 | CSDN（ID：CSDNnews）

在《How Google Works》一書中，前 Google CEO 及 Alphabet 董事長 Eric Schmidt（埃里克·施密特）分享了一則對於 Google 而言非常尷尬的往事：「在 Google 搜索引擎的快速發展階段，與成人話題相關的內容成為搜索熱點……美國最高法院法官波特·斯圖爾特曾這樣對色情網站下過定義：『只要用 Google 搜索一下，就知道色情網站是什麼了。』」

對此，Google 特別安排了一組工程師，通過技術手段來解決這種影射的情況 —— 「他們找到了一種理解圖像內容的方法，並可以通過用戶使用圖像的方法來界定圖像所處的背景」。

這就是 Google 搜索的一大特性 —— 「SafeSearch（安全搜索）」過濾器的由來。

與演算法無處不在的 Google 搜索遭遇過同樣問題的還有 Facebook、微信以及今日頭條。新聞大亨默克多曾直指「Facebook 和 Google 通過演算法使低俗的新聞來源變得流行」，而在國內，一方面，是互聯網巨頭們的產品因低俗低質內容而讓用戶產生困擾、詬病的更是不止一二，另一方面，是針對互聯網中層出不窮的低俗低質內容，微信、今日頭條們用零容忍的態度及龐大的人工審核團隊，譬如微信在今年僅兩個月的時間便封禁及處理了近 4 萬發送低俗內容的賬號。

而誕生 7 年，已經成為一大國民級應用的今日頭條，近期推出了一種用演算法反低俗的解決方案 ——「靈犬反低俗助手 3.0」。

今日頭條 7 年，好的演算法還可以做什麼？

靈犬 —— 機器學習反低俗的產物

據今日頭條官方介紹，「靈犬反低俗助手」脫胎於今日頭條反低俗模型，是一款檢測內容健康度的小程序，目前用戶可以直接在今日頭條內搜索使用（註：微信小程序正在審核中）。在經過 1.0 到 3.0 的持續迭代中，「靈犬」已經實現了文本、圖片識別功能，不僅能夠識文斷字、鑒別圖片，還可以自我進化，在「靈犬 3.0」中，文本識別的準確率已提升至 91%。

為什麼會用技術來反低俗？在「靈犬反低俗助手 3.0」的發布現場，位元組跳動人工智慧實驗室總監王長虎對此講道：「在移動互聯網時代，UGC 和自媒體的湧現，使內容創作和消費，實現了幾何指數級的海量增長。僅以今日頭條平台為例，每天發布的內容就超過 60 萬條。」這就給審核低俗內容帶來了極為嚴峻的挑戰。儘管相比於人，機器計算快、存儲大、穩定性較高，然而一直以來，機器始終需要人給它寫程序、下指令做具體的事情，「機器扮演的角色是執行」。

但在過去的十年里，技術領域出現了最大的技術進步 —— 機器學習。「機器學習，顧名思義，機器能夠通過自我學習，從而實現自我進化。機器的邊界變得更大了，能做的事情更多了。在機器學習的狀態下，人只需要提供充分、具體的樣本，機器經過訓練就能總結出一套判斷準則。」

而靈犬，便是機器學習反低俗的產物。

今日頭條 7 年，好的演算法還可以做什麼？

位元組跳動人工智慧實驗室總監王長虎

另一方面，靈犬以極其輕量用完即走的小程序形態呈現，對此，在接受 CSDN（ID：CSDNnews）採訪時，位元組跳動人工智慧實驗室總監王長虎表示：「小程序這個形態相對較輕，並且穩定，能夠供用戶比較長期地使用，同時，靈犬也是今日頭條推出的第一批小程序之一。」

從去年 3 月首次上線，到今天 3.0 發布這一年半的時間裡，靈犬一直在馬不停蹄地迭代：

2018 年 3 月，靈犬首次上線，支持檢測文字和文章鏈接；
2018 年 5 月，靈犬完成服務升級，增加反色情短文本模型和反謾罵模型，將準確率從 73% 提升至 82%；
2019 年 2 月，「靈犬 2.0」正式上線，除了反色情低俗模型，加入反暴力謾罵和反標題黨模型，覆蓋了主要的低俗低質內容類型，整體識別準確率接近 85%。

同時，用戶使用起來也是非常地簡單，只需在「靈犬反低俗助手」小程序中選擇「文本識別」、「圖片識別」，前者輸入一段文字、文章鏈接，後者上傳圖片或圖片鏈接，即可快速獲得鑒定結果，如果命中特定詞表，會顯示「須交由人工審核」。據今日頭條官方統計，截止 2019 年 6 月，「靈犬反低俗助手」的使用人次已經超過了 300 萬。

今日頭條 7 年，好的演算法還可以做什麼？

前台操作很簡單，讓用戶毫無門檻地直接使用，但看不見的功夫都在後台，「靈犬」是如何實現「反低俗」的？王長虎在現場為我們全方位地剖析了靈犬背後的技術原理。

今日頭條 7 年，好的演算法還可以做什麼？

演算法如何反低俗？剖析靈犬的技術原理

一、我們先看文本識別

機器如何判斷文本低俗？一個簡易的方案就是分詞，做詞表，但這會導致機器只能看錶象、詞表容量有限容易被繞過、更新頻率必須要高等問題。對此，靈犬採用了自然語言處理（NLP）技術，在其核心的文本分類模型上，進行了三次大版本迭代。

今日頭條 7 年，好的演算法還可以做什麼？

從 1.0 採用「詞向量」和「CNN」，2.0 應用「LSTM」及「Attention」，到最新的第三代靈犬中，採用了當下炙手可熱的 Google Bert 模型及半監督學習技術，每一次的更迭，準確率都在大幅提升。

在 3.0 中，更是使用了專用中文語料，訓練數據集總量為 1.2 T，相當於 20 倍百度百科或 100 倍維基百科的數據總量，包含了 920 萬個樣本，文本識別準確率也從第一代的 75% 提升至 91%。

今日頭條 7 年，好的演算法還可以做什麼？

Bert 自橫空出世以來便備受矚目，它為 NLP 指明了發展方向，那便是「通過預訓練模式，充分使用大量的無標註語言數據，利用自監督模型，發揮 Transformer 特徵吸收能力強的特點，來對語言知識進行特徵編碼。用這些知識來促進很多下游 NLP 任務的效果，以彌補有監督任務往往訓練數據規模不夠大，無法充分編碼語言知識的困境。」

在談到第三代靈犬的技術選型時，王長虎表示：「Bert 模型提出了一種大的模型結構（參數量是之前模型的 10 倍多，計算量也提高了 10 倍多），以及通過監督學習對天然超大規模語料建模，使得對語義的刻畫更為準確。而半監督技術，能引入更多非標註語料，使得模型的魯棒性更好。」

不過，當前在人工智慧領域預訓練語言模型的 PK 戰可是分外地激烈，譬如 Google 新模型 XLNet 在各項基準測試中都優於 Bert，Facebook 又緊隨其後開源了 RoBERTa 預訓練模型，導致行業內 XLNet 和 Bert 到底選誰之風正盛。

對此，王長虎向 CSDN（ID：CSDNnews）分享了為什麼靈犬 3.0 會選用 Bert：「這之中既有公開的實驗對比，也有內部的應用驗證。XLNet 我們其實也做了跟進，綜合結論是和 Bert 效果相近，包括 Facebook 最新的 RoBERTa 模型和我們的實驗結論很多都是一致的，對於在選型上我們還會繼續借鑒。同時，靈犬後續將著力解決對更多類型語料的覆蓋，使得適用性更廣。」

二、圖片識別

再看圖片識別，王長虎表示，圖片識別一般面臨非均衡、類內方差大、不可窮舉等問題，尤其是「圖像識別的特徵提取，無論是初級特徵的形狀、顏色、紋理，還是高級特徵中的語義，其數量都是無限的」，由此導致，面對龐大的數據，對於圖片反低俗來說，窮舉法是不太可行的。

因此，靈犬 3.0 使用深度學習解決方案，對深度學習非常依賴的數據量、算力、模型三方面要素進行了針對性的優化：

數據層面：積累了上千萬級別的訓練數據。
深度學習在當下非常地炙手可熱，但其也很依賴於數據，其性能也與可用來訓練的數據量密切相關。對此，王長虎如此說道：「深度學習能夠取得成功的主要原因在於互聯網時代的大數據以及硬體發展帶來的計算力的提升，在大量的數據中，深度學習的模型可以學習到更具泛化性和判別性的特徵表示。然而，深度學習的可解釋性較差，推理的能力還有待研究，在一些數據收集比較困難的任務上，深度學習也會遇到瓶頸。我們也在持續地研究相關問題，持續地改進靈犬反低俗的能力。」
模型層面：針對許多困難樣本進行模型結構調優，包括多尺寸、多尺度、小目標等。

為了使得各個比例的圖片都能很好地被識別，靈犬採用了多桶模型，在不增加預測時間的情況下，提升模型的準確率；為了應對人在圖片中的面基佔比變化較大問題，引入特徵金字塔結構，對不同尺度的物體，提高模型提取一致特徵的能力；為解決在圖片背景中出現小範圍問題區域，設計了分割輔助分類網路，使得模型能夠更專註於問題區域。

今日頭條 7 年，好的演算法還可以做什麼？

計算力層面：利用分散式訓練演算法以及強大的 GPU 訓練集群，加速模型的訓練和調試，利用模型壓縮技術，提升模型的預測速度。

除了上述之外，靈犬還建設了比較完善的模型迭代系統。通過「數據收集—數據標註—數據清洗—模型訓練—模型評估—badcase分析」這一套完整的流程，實現持續優化。

今日頭條 7 年，好的演算法還可以做什麼？

反低俗的複雜性 —— 我們仍然面臨哪些技術難點？

在我們文章開篇所講的 Google SafeSearch 也不是一蹴而就的，Google 用了幾年的時間進行了持續研發，施密特在書中如此講道：「在 SafeSearch 的研發過程中，我們基於圖像內容得出了數百萬種用戶使用模式，利用這些模式，我們判斷圖像與搜索請求相關性的能力得到了提升。」後來，在不斷的更迭中，Google 不僅用 SafeSearch 解決了屏蔽色情網站內容的問題，還將這一技術應用在了更廣泛的範圍。

「靈犬反低俗助手」同樣如此。

王長虎表示，機器學習是一個「學無止境」的過程，同時，低俗判斷不是一個機器能夠輕易完成的事情，「即使對人來說，低俗的定義也是相對籠統的，沒有辦法精確地定義什麼是低俗。而如果沒有一個精確的區分準則，就沒有辦法給計算機寫出執行步驟讓它去判斷。」

對於技術模型來說，清晰、無歧義、不帶感情色彩的文字，高清、無碼、不具有太多延伸意義的圖片，自然是比較好識別的，但是現實中會有很多複雜情況，導致需要人工判斷，譬如，漢語的多義和歧義、語言之外的情感表達等，以及在圖片方面，機器通過識別肌膚裸露面積來判定是否違規，會從一定程度上讓一些具有歷史意義和藝術性的照片受到波及。

「機器只是把文字當成符號，從表面去理解它。就像蓋房子的磚塊一樣，機器只能把這些磚塊羅列和堆積起來，不完全知道某些磚塊可能比另一些磚塊更為重要，有些磚塊需要轉換一下角度來看，或者跟別的磚塊搭配在一起看才合理。而在圖片角度，技術一刀切的局限在許多美術作品中體現得淋漓盡致，像許多知名的藝術作品，如果完全交給機器來判斷，機器通過識別畫中人物的皮膚裸露面積，便會認為這幅畫是色情低俗的。這個時候，就需要人工來審核判斷。」王長虎如是說道。

面對在實際操作中，低俗判斷問題的複雜性和不同判斷方式的局限性，當技術暫時還難以制定標準，並且標準也會因環境不同而變動時，靈犬採取了不斷進化技術模型，並結合技術和人工判斷兩種方式的解決方案。

今日頭條 7 年，好的演算法還可以做什麼？

技術反低俗的下一城

在已經實現了文本、圖片識別的基礎上，靈犬還將上線語音、視頻識別功能。不過，王長虎表示：「靈犬其實只是今日頭條技術反低俗的一個簡化版本，受限於小程序體裁和模型應用條件，它還不夠完美，也不能完全反映出今日頭條反低俗系統的真實情況和全部面貌。」

當前，在今日頭條內部，以靈犬為代表的反低俗系統已經在廣泛地應用，同時在內容審核方面，眾所周知的，今日頭條有著近萬人的專業審核團隊。並且，今日頭條內部還搭建了包含色情、低俗、標題黨、虛假信息、低質等在內的數百個技術模型，結合人工、技術手段，有效提升了內容審核的效率和準確度。

靈犬可以說是今日頭條反低俗系統由內部向行業開放的一大信號，無需下載所有用戶便可以直接使用。同時，王長虎向 CSDN 表示：「我們已經在規劃做進一步的開放，將靈犬和頭條創作者後台打通，提示創作者，更方便創作者使用。我們也歡迎第三方跟我們合作，一起來幫助行業提升標準。」

今日頭條 7 年，好的演算法還可以做什麼？

【END】

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 CSDN 的精彩文章:

※5G 興起，物聯網安全危機四伏
※蘋果收購英特爾手機晶元業務；西門子將在華建立 5G 研發中心；React Native 0.60.4 發布 | 極客頭條

TAG:CSDN |