快手烏鎮黑科技揭秘:深度結合產品,讓人工智慧「接地氣」
關注並標星36氪
每天3次,打卡閱讀
更快更深刻洞察互聯網商業
━━━━━━
一直以來,作為短視頻平台,快手在大眾視野中似乎與人工智慧技術並無關聯,但在烏鎮互聯網世界大會上,等待體驗快手人工智慧技術的參展觀眾排成了長長的隊伍,成為展區的焦點。
現場觀眾主要對快手的三個展示內容產生了興趣:1.通過掃描自己的臉,可以搜索到快手平台上的「雙胞胎臉」,找到「世界上另一個你」;2.「快手平安系統」——國家預警信息即時推送系統;3.類似蘋果「Animoji」效果,能讓卡通形象富有人臉表情的快手「萌面」魔法表情。那麼這三個功能是如何實現的呢?
其實在這些展示的背後,是快手人工智慧技術的支撐。而研發這些技術的正是快手的多媒體內容理解部門(MultiMedia Understanding),簡稱MMU。據該部門負責人李岩介紹:團隊由近百名演算法工程師和應用工程師構成,聚焦在多媒體內容的理解與應用,服務於視頻創作、推薦、搜索、版權及商業化。
揭秘:烏鎮黑科技是如何實現的?
本次烏鎮展會上,快手多媒體內容理解部門提供了展區三項展示的關鍵技術支撐。 「遇見世界上的另一個你」項目通過人臉識別在海量的視頻庫中找到與測試者長相相似的用戶,讓測試者如同找到了「平行世界的自己」,而這背後是快手基於多年積累的深度學習技術,使用數十億量級的公開人臉數據讓機器來學習人臉的特徵表達。目前,快手在自建的數十億級人臉檢索平台上可以達到實時精準匹配。
每當自然災害發生時,總會有快手用戶在第一時間上傳一線現場視頻,快手的「平安系統」項目,通過快手的多媒體理解技術,能夠分析海量視頻內容中出現的場景、物體等,利用特徵表達技術聚合相關內容,過濾與事件無關的內容,自動聚合篩選用戶上傳的災情、突發事故相關視頻,助力防災救災的信息收集與方案制定。
快手的「萌面」智能魔法表情,則通過人臉關鍵點檢測、實時重建人臉三維模型等技術,代替iPhone X等手機的3D結構光攝像頭,在普通安卓手機上實現蘋果手機的「Animoji」卡通表情的效果,在不暴露臉部信息的同時展現細微的表情變化,實現了通過改進軟體突破硬體的限制。
根植於業務的實力AI團隊
作為國民級的短視頻APP,如今快手擁有超過70億的視頻,1.5億日活,每天新增1500萬視頻。面對如此多的數據,快手需要面對兩個問題,一是處理海量的新增視頻內容,二是兼顧到上億用戶的看見和被看見的需求,「被看見」這一需求特別要包括生產「長尾視頻」的用戶,而不僅僅是生產爆款視頻的網紅。
為此,快手構建了一套基於 AI 的技術解決方案,包括從視頻內容生產、到視頻理解、用戶理解,以及最後的分發系統的每個環節。
為了實現這套方案,快手多媒體內容理解部門也組建成立。目前團隊主要通過對人臉、圖像、音樂、視頻四個維度實現對多媒體內容的感知,並融合感知內容和知識圖譜,實現對視頻高層語義及情感的理解,從而讓機器高效看懂海量內容。這些核心技術服務於快手在內容安全、原創保護、視頻創作、視頻推薦、視頻搜索及商業化等方面的業務需求。
MMU部門如今有近百名成員,由演算法工程師、應用工程師構成,部分核心成員畢業於卡耐基梅隆、京都大學、清華、中科院等知名院校。快手平台海量的數據以及由數千塊GPU構成的強大算力,為團隊成員研發提供了堅實的基礎。
比較特別的是,通常各家用內容數據來訓練模型,而MMU部門在其基礎上,融合用戶行為數據。在綜合訓練後,能獲得比純內容模型更好的性能,對視頻有了更好的理解,對多媒體內容理解和分析的演算法有較大提升。
讓技術落地,用AI技術解決真實業務問題
也許有人好奇快手是什麼時候開始進入Al賽道的?據36氪了解,快手在8年前就開始在機器學習和大數據處理方面進行積累。而與BAT的通用型Al不同的是,快手深扎在多媒體領域,很早就在利用Al技術來提升短視頻體驗,將Al貫穿在整個產品使用流程中。從短視頻內容生產、消費和分發的各個環節上,都應用了快手的Al技術。
隨著近年人工智慧技術的發展浪潮,業內普遍達成了這樣的共識:人工智慧產業缺乏的不是演算法,而是如何找到最適合最有效的場景,且更好地轉化成工程手段。在快手,最核心的業務就是視頻,不同於圖片信息,對視頻的理解是一個多模態的問題,再加上海量用戶的行為數據就更是一種更加複雜的多模態問題。所以多模態的研究對於快手來說是非常重要的課題,這也是MMU部門研發的重要方向。
一方面,多模態技術將實現更好的記錄。如今快手在利用語音識別打造字幕生成、通過語音合成實現個性化配音、根據視頻內容自動生成音樂、通過2D圖像驅動3D建模實現Animoji特效等方面已經取得了諸多成果。
快手希望通過多模態技術,讓過去只存在於專業拍攝、剪輯工作室的技術特效,可以在手機端輕鬆實現,真正讓技術的進步惠及普通用戶,使記錄的過程變得更加便捷、有趣。
另一方面,多模態技術也將通過精準理解視頻,讓用戶發布的視頻能夠被更多感興趣的人看到,實現更好的分享。在視頻理解方面,快手有兩個重點,第一是強調音頻和視覺的多模態綜合的建模,而不是僅僅是單獨的視覺或者音頻。舉例而言,一個男子表演口技的視頻中,如果關閉聲音,僅憑畫面信息並不能理解他是在做什麼,可能會覺得是在唱歌或唱戲,這說明人們對世界的理解一定是多模態的理解,而不僅僅是視覺的理解。
第二,快手有非常多的用戶數據,快手通過融合行為數據和內容數據進行綜合建模,同樣大小的數據標註量,利用海量的用戶行為數據,能夠獲得比純內容模型更好的性能,進而在多媒體內容理解和分析方面的演算法研究獲得非常大的進展,實現更好的理解視頻。
李岩說:「基於場景去研究Al,思考也會更加深刻。通過Al與實際業務相結合,將業務中遇到的真實問題通過Al去解決,不僅提高了部門效率,更能釋放出Al在公司中的價值。」
快手CEO宿華曾指出,希望構建一個以Al等前沿科技為核心的基礎設施,用科技去提升每個人獨特的幸福感;促進記錄和分享,促進創造和交流,促進表達和共鳴,促進理解和成長。讓每一個人都有被看到的機會。
對於快手的願景,也許已經如我們看到,在加速落地中。


※北京公積金貸款新政認房又認貸 房地產市場或受影響
※擴大本地生產+增開千家門店,華為大舉進攻印度市場
TAG:36氪 |