快手AI技術副總裁鄭文：為什麼說AI是短視頻平台的核心能力

科技 07-23

本文轉載自快手AI技術副總裁鄭文CSDI演講

量子位授權發布 | 公眾號 QbitAI

7月初舉辦的中國軟體研發管理行業峰會（CSDI）上，快手AI技術副總裁鄭文針對AI技術在短視頻領域的應用做了精彩演講。他介紹了人工智慧技術是如何在快手整個業務流程中發揮作用，以及互聯網公司如何從0開始成功推進一個AI項目。

鄭文是美國斯坦福計算機系博士，研究方向主要集中在計算機圖形學和電影特效方面，畢業之後在美國從事機器學習和計算機視覺相關研究，2016年回國後加盟快手，現任快手AI技術副總裁。

以下是演講內容，有刪節：

大家好，我是來自快手的鄭文，今天與大家分享一下快手在AI技術應用上的一些經驗。

首先，介紹一下快手的使命：用科技提升每一個人獨特的幸福感。這裡有兩個關鍵詞，一個是「每一個人」，一個是「獨特」。

「每一個人」是指我們不會只針對某一個群體的人或者某一個區域的人，而是希望提升所有人的幸福感。

「獨特」是指我們尊重不同人群、不同背景的人，他們的價值觀，他們的審美觀，不會因為一群人的審美傾向去歧視或區別對待另一群人的審美。

目前，快手通過記錄的方式來達到提升每一個幸福感的目標。在內容消費端，用戶有看到更廣闊世界的需求；在內容生產端，相信每個人都有表達自己的慾望。所以，我們提供一個平台，可以通過記錄自己，分享自己的日常點滴，進而去消除每個人的孤獨感，提升幸福感。

表面上看，短視頻平台似乎與AI技術沒有什麼關係。但實際上，人工智慧技術是連接內容生產端與內容消費端的核心能力。為什麼這麼說？今天就跟大家分享一下快手在這方面的實踐。

一、AI技術貫穿於快手從內容生產到內容分發所有過程

目前，快手已經積累了超過50億條短視頻以及數億用戶，面對如此大的規模，將每個人的注意力有效分配到海量的豐富內容，而非聚集在少數爆款視頻上，通過人工的方法是行不通的，必須通過人工智慧技術。

快手在AI技術上投入非常大，人工智慧技術對解決內容與用戶匹配的問題非常關鍵，貫穿於從內容生產到內容分發的所有過程。

1、內容生產環節：AI技術讓記錄形式更有趣

內容生產環節，通過AI技術可以把記錄這個形式變得更加有趣。例如，我們上線了一些爆款特效，如「變老」表情、肢體識別舞蹈遊戲、AR換臉特效，這些玩法背後是快手對最先進AI技術的開發，包括人臉關鍵點、人體姿態估計、手勢識別、背景分割等。

AI技術在這一環節的應用難點在於，快手用戶覆蓋面非常廣。據不完全統計，快手用戶手機型號超過5萬種，包含很多中低端機型，怎麼讓最先進的AI演算法在這些機型裡面運行起來是非常有挑戰性的。

為此，我們自主開發了一個深度學習引擎，針對每種機型的硬體配置進行專門優化，進而可以在這個基礎之上開發各種AI技術，目前我們有做過橫向比較，快手自研的引擎與其他開源引擎相比，有非常高的提升。

2、視頻內容理解：讓AI看懂視頻

在視頻內容生成、用戶將視頻上傳到快手後端以後，我們會讓機器根據視頻的內容進行一些理解，提取視頻中的一些基本信息，比如識別視頻中人臉的年齡、性別，甚至表情、顏值等等。

機器也會進行圖像分類，例如場景識別、物體跟蹤、圖像質量評估、OCR文字識別等。通過音樂識別，我們能夠實現音樂的版權保護。在快手，語音識別也是非常重要的一部分，通過機器將語音轉化為文字，然後從文字當中得到這個視頻想表達的含義。

通過人臉、圖像、音樂、語音這些信息，機器能夠提取最高層的語義，從而識別視頻的感情。

3、用戶理解：讓機器深度洞悉用戶

對快手用戶，機器也同樣需要做一些理解。首先我們可以根據用戶註冊的信息，以及他使用當中的一些情況得到一個基本信息，比如年齡、性別、地域、是否使用Wifi等，同時用戶在使用快手過程中也會產生大量的行為數據。這些信息都會被送入到一個深度學習的模型當中去訓練，從而得到一個用戶向量，來描述這個用戶，並從向量當中預測這個用戶到底喜歡什麼東西，以及他和其他用戶之間的關係。

4、視頻與用戶的雙向匹配

50億的視頻與數億用戶向量匹配在一起，就能夠產生一個萬億級的大數據。用戶使用APP的過程中，用戶使用數據會輸送到日誌系統，以秒為單位實時更新線下的模型，這些模型再發送到排序引擎進行更新，保證內容分配的多樣性，控制視頻之間的流量分配差距。

用戶的行為數據也會輸送到我們的推薦引擎里，去索引用戶現在有可能想看的東西。此外我們還有一個線上的預測模型，預測他現在的興趣是什麼，再根據機器對用戶的理解，以及對跟用戶有關係的人的理解，去推薦視頻。

二、AI項目如何從0到1

人工智慧相對來說是一個比較新的技術，現在可能還沒有一個非常成形的流程，但是根據我的經驗，大概把整個過程分成幾個階段。為了表述清楚，我畫了一個流程圖，實際執行的過程有可能會在每個階段之間進行反覆。

首先，我們要弄清楚解決的是什麼問題，然後針對這個問題去進行技術的預研究，預研的過程有可能需要反覆修改問題。這兩步都確定下來之後要開始收集數據、訓練模型，去做相應的功能開發，最後進行產品化，產品化之後還要上線迭代，迭代過程中可能會產生問題，需要重新去構建模型開發。

1、問題定義：從產品出發，數據A到數據B

現在大家講到AI可能更多談到的是深度學習技術裡面的監督式學習技術，這類技術解決的問題就是把數據A映射到數據B。比如人臉識別技術中，數據A是人臉圖片，數據B就是這個人的ID。這個問題就是要解決，通過人臉圖片怎麼知道這個人是誰。

現在所有的AI項目大概都可以歸納成這樣一個問題。所以，首先要搞清楚數據A和數據B分別是什麼。同時要從產品本身的需求出發，明確產品需要做到什麼樣的程度，比如門禁系統的人臉識別和手機上的人臉識別，數據、限定條件等都是有差別的，兩個產品對技術的要求也是不一樣的。

2、技術預研：數據複雜度、關係複雜度與數據量

解決問題定義之後，我們就會去做一些技術調研，確定現代技術的邊界在哪裡，包括什麼技術是能做的，能做到什麼程度，以及做到這個程度需要多少代價。

技術的確定，首先要考慮數據本身的複雜度。比如我們剛才說的人臉，數據的複雜度相對較低，因為人臉五官比較固定。而在人體識別中，四肢之間的關係是會變化的，相對來說複雜性就要提升一個量級。

另外就是關係的複雜度。如果做人臉識別，數據A到數據B的映射關係是非常直接的。但是如果你要去識別一個視頻里有沒有暴力內容，這個關係就會非常複雜，它不僅僅是機器看到的圖象後聯想到什麼概念，可能還需要很多輔助信息，包括很多人才能夠理解的常識性的東西，會有很多壁壘。

3、數據收集：數據質量很重要

確定了問題以及技術方案後，就可以收集數據了。一般來說AI項目的大部分時間都是在做數據，甚至有的時候問題還沒產生就開始有意識地收集數據，因為說不定將來有些問題的解決會有用。數據質量越好，你做出來的東西質量也越好。

首先，數據量需要充足。通常，越複雜的問題，或者說問題的多樣性越大，所需要的數據量越大，數據量決定了你需要花多大的代價做這個事情。

接下來，要對收集到的數據做標記，如果數據上有大量的標記錯誤，這個數據基本上就沒法用，所以需要進行數據清洗，一遍遍地進行數據糾錯，提升數據質量。

數據分布也很重要，必須滿足產品要求的所有應用場景。比如，人臉識別如果需要識別側臉，那麼數據當中就需要有足夠的側臉數據，否則分布就不夠好。

4、模型訓練：準確評價模型

數據準備好以後，就進入訓練模型的環節。這裡的關鍵是你怎麼去評價這個模型。

首先，測試集的設計非常重要，測試模型用的數據和用來訓練模型的數據必須是完全分開的，測試時一定要用模型沒看過的數據去檢驗這個演算法做得好不好。

測試數據的選擇也是非常重要的，不同的測試數據有可能導致你檢驗的結果完全相反，所以這個設計必須以產品要求的應用作為出發點，就是需要涵蓋哪些不同的CASE，針對每個CASE都要有一些不同的測量數據，最後才能得出結論，這個技術是不是能夠滿足產品需求。

另外模型設計也需要考慮性能要求，比如是在手機上線，還是在一個後端伺服器上線，兩者對計算資源的消耗要求不一樣。手機上可消耗的資源會受到限制，那麼模型就要做得非常小。

5、工程開發：基礎架構保證高性能，輔助演算法完成最後10%

模型訓練後、產品上線前，還需要有一定輔助的工程。比如在後端上線，要有一個基礎的深度學習特定集群，一般都是CPU集群。如果是在手機端上線，需要在手機上有一個引擎，像快手自己開發的YCNN引擎就是屬於這種基礎架構，對模型和技術的性能有著很大影響。

另一方面，除了AI升級的演算法本身，一些傳統演算法的輔助也非常必要。例如AlphaGo，大家通常知道這是深度學習的成果，其實也結合了例如蒙特卡洛樹搜索之類的傳統演算法才能達到它當時的成績。很多時候解決問題，除了深度學習提供的模式識別能力，還要依賴推理、搜索等其他能力的輔助。

6、產品化：好的產品能化腐朽為神奇

工程開發結束就可以產品化了，一個好的產品設計是可以化腐朽為神奇的。很多技術有時並沒達到一個非常好的狀態，但可以用一些好的設計去規避技術缺點，發揮技術的長處。這個流程可能是在最後階段，但是實際用戶體驗設計在問題定義的時候就已經開始了。

像一些用戶反響很好的短視頻特效，常常所用的技術仍有很多的局限性，但通過優秀的產品設計，卻能揚長避短，把最終的用戶體驗做得很好，給用戶帶來驚喜。

7、版本迭代：持續改進

產品上線後，還需要對版本進行迭代，修復上線過程中發現的一些問題。這裡需要強調的一點還是數據，數據佔據了AI項目大概四分之三以上的時間。上線以後第一時間就要開始收集數據，因為這才是用戶在使用時候的數據，是最貼合應用場景的數據，所以也是最重要的數據。

最後介紹一些我們在人工智慧技術方向的未來規劃。今年4月份，我們和清華大學共同成立了未來媒體數據聯合研究院，針對人工智慧技術、多媒體大數據未來發展的一些研究進行合作。大致可以分為：怎麼更好地利用數據，以及怎麼提出更高效的演算法這兩個方面。AI演算法的兩個引擎，一個是演算法，一個是數據，這兩個引擎如果能夠做得好，就能把AI的技術推得更遠，我們期望能夠在人工智慧技術發展中貢獻我們的力量。

—完—

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章:

※數據工廠里的年輕人
※這份NLP研究進展匯總請收好，GitHub連續3天最火的都是它

TAG:量子位 |