當前位置:
首頁 > 科技 > 快手 CEO 宿華:透過 50 億條視頻 用 AI 提升每個人的幸福感

快手 CEO 宿華:透過 50 億條視頻 用 AI 提升每個人的幸福感

快手 CEO 宿華:透過 50 億條視頻 用 AI 提升每個人的幸福感


摘要:為避免「信息繭房」效應,在用戶最感興趣的內容之外,快手還在更廣闊的領域挖掘用戶可能感興趣的內容。

5 月 19 日,2018 年中國圖靈大會(ACM TURC 2018)在上海舉行,產學研各界集聚一趟,分享計算機領域的最新技術進展,並探討當社會前沿科技的問題和跨領域的發展趨勢。快手創始人兼 CEO 宿華在題為「AI 如何提升幸福感」的演講中描述了快手滿載技術與人文的一面。

此外,快手 AI 技術副總裁鄭文也出席了該大會,與 ACM 圖靈獎得主、有「互聯網之父」之稱的 Vinton Cerf 教授,ACM 圖靈獎得主、哈佛大學 Leslie Valiant 教授,澳門大學副校長倪明選教授,商湯科技聯合創始人、CEO 徐立,資深傳媒人楊瀾共同探討人工智慧的未來。

宿華提到最早在谷歌的工作經歷讓他開始接觸到機器學習,在解決問題中不斷認識和理解人工智慧,在搜索引擎中利用 AI 匹配問題和答案。後來的工作中,他不斷思考「AI 應該用來解決什麼樣的問題」,直到在快手創立之後,這個答案越來越清晰和具體——提升人類的幸福感。

關於幸福感,宿華是這樣定義的,記錄可以提升人們的幸福感:一個是看見別人,一個是被別人看見。每個人心中都有這樣的渴望,希望自己的狀態,自己的情感,自己的靈感,能夠被更多的人看見,被更多的人理解。我想記錄是其中最關鍵的一環,是能夠使得每個人幸福感都得到提升的可能的方案。

快手 CEO 宿華:透過 50 億條視頻 用 AI 提升每個人的幸福感

經過 7 年的創業,快手平台的日活躍用戶量已經達到 1 億,用戶累計發布短視頻超過 50 億條,每天有 150 億條視頻被播放,用戶日均使用時長超過 60 分鐘。在這背後,快手後天的工作人員們需要面對一個前所未有的難題——每天新增千萬條量級的、內容各異的視頻,以及更為重要的將內容匹配到特定的用戶手裡。

「過去的視頻平台,庫里每天新增的視頻從來沒有突破過千萬量級的,這在歷史上都是沒有過的。」宿華說道。

快手需要面對的問題可以拆解為兩個,一是處理每天海量的增量視頻內容,二是兼顧到每個用戶需求,包括長尾用戶。為此,快手提出了一套基於 AI 的技術解決方案,包括從視頻內容生產、到視頻理解、用戶理解,以及最後的分發系統的每個環節。

在內容創作環節,宿華介紹,快手提供了魔法表情、整體姿態檢測、AR 特效等不同模塊來豐富內容記錄的形式和效果,這些實時效果的實現來自於人體姿態估計、視覺慣性里程估計、手勢識別等技術的運用,以及快手自主研發的搭建的 YCNN 深度學習推理引擎支持。

快手 AI 技術副總裁鄭文舉例,快手會通過深度學習演算法來檢測用戶拍攝的場景類別,並據此選擇最適合的濾鏡效果來提升視頻的質量。通過人體關鍵點識別技術,快手能夠為用戶的肢體加上特效,比如讓虛擬的火球跟隨人手的位置進行運動,此外還有很多人臉裝飾貼紙、AR 模型等基於 AI 技術的特效,讓每個用戶的記錄形式更加豐富多彩。

快手 CEO 宿華:透過 50 億條視頻 用 AI 提升每個人的幸福感

在視頻理解層面,快手基於視頻多模態分類、描述、檢索演算法,對視頻中的人臉、圖像、音樂、語音進行多個維度的解讀,從高層語義不斷進階到情感識別層面。在系統底層,快手建立了多機多卡深度學習訓練推理平台和數據標註平台。

在數據標註環節,宿華提到,快手並不是純粹地從內容出發,還包括基於用戶的行為數據。「快手的核心優勢得益於我們是一個社區,社區裡面每天有上億的人在幫我們標註,他們的點擊點贊行為,他們的關注行為,他們的轉發行為,他們的播放時長,他們人和人之間相互的關係,網狀的關係,就在幫助我們更好的理解用戶,我們不是純粹從內容出發的,我們還有行為數據。」

在用戶理解層面,快手在海量用戶和 50 億視頻中間建立起一套雙向感知系統。從早年的 Linux 人工干預方式,進化到當下的基於深度學習的實時在線學習推薦系統,快手能夠做到理解用戶的實時行為,並不斷挖掘用戶的潛在興趣。

基於用戶實時行為的理解,快手通過前端的在線推薦以及後台的秒級更新模型的日誌系統實現精準匹配的內容分發。在鄭文參與的論壇環節,關於演算法的智能推薦也引起了一些爭議,大眾普遍認為智能推薦只會根據用戶的興趣愛好推薦內容,久而久之用戶就會被自己關心的事物圍繞,從而失去對外界的整體認知,形成「信息繭房」效應。

對此,鄭文分享了快手的推薦機制:快手的推薦給用戶的內容,絕非僅僅用戶最感興趣的部分,而是會考慮到內容的多樣性,在更廣闊的領域發現感興趣的內容。

例如某一位用戶對足球感興趣,那麼後台 AI 系統除了給他推送足球和其他球類甚至其他類別體育運動相關內容,還會對同樣喜歡足球的群體進行分析,找到他們除了足球以外還有哪些興趣點,從而把這些興趣點相關內容也推送給這位用戶,幫助用戶不斷拓展興趣邊界,打破「信息繭房」,也與其他人建立更強更深入的連接。

快手 CEO 宿華:透過 50 億條視頻 用 AI 提升每個人的幸福感

最後,宿華提出了一系列對於短視頻與 AI 的未來研究方向的思考,在這之中他對於「多模態信息融合的視頻理解」最感興趣,他提到,這裡的理解不僅在內容層面,還包括對於視頻中人物隱含在表情、聲線里的情緒、情感等。

以下是宿華在 2018 年中國圖靈大會(ACM TURC 2018)的演講全文,經極客公園編輯。

宿華:在座的各位老師、各位同學、各位朋友,上午好。

大概 12 年前,我剛加入谷歌,開始接觸、學習和應用機器學習的技術,主要為解決搜索引擎當中的一些問題,學了很多前人的推導公式,學了很多的模型、思想。

後來我思考,AI 應該用來解決什麼樣的問題,不是數學上的問題,而是說為社會、為人類應該解決什麼問題,想了很長時間有了一個答案。在這些年實踐的領域中,我想明白了不管我們做什麼樣的技術,最後都應該用於提升人類的幸福感,或者是做到幸福感的改善。AI 當然是當下最火最熱的技術,下面我給大家分享的就是我這些年是怎樣去用 AI 解決幸福感的問題。

首先有一個觀察,我們發現記錄是可以提升人們幸福感的,因為對於記錄來講,每一份記錄都有兩類人:一個是記錄的產生者、記錄者,一個是記錄的觀察者。

對於觀察者來講,通過別人的記錄可以看到更廣闊的世界,在城市裡可以看到鄉村農產品生產,在鄉村裡可以看到國外的世界,土耳其的熱氣球、非洲的小孩可以和中國人交朋友,在日本的留學生可以和自己在中國的家人、朋友交流。

一個是看見別人,一個是被別人看見。我們想每個人心中都有一個渴望,希望自己的狀態,自己的情感,自己的靈感,能夠被更多的人看見,被更多的人理解,我想記錄是其中最關鍵的一環,是能夠使得每個人幸福感都得到提升的可能的方案。

快手是 2011 年成立的,我們幹了 7 年的時間,一路上經歷了非常多的挑戰,經歷了日活在 1 億量的網路社區。我們怎麼做的呢?

我們在用科技的力量去提升每一個人的幸福感,我們在嘗試讓每一個人都能夠記錄自己的生活狀態,每個人都有機會留下自己的記錄呈現給這個世界,每個人都能夠讓世界發現自己,每個人都能夠因此消減一點點的孤獨感,提升一點點的幸福感,從而能夠提升整個社會幸福感的總和。

我們在這條路上已經走了七年的時間,直到上周,我們大概累計有 50 億條視頻。50 億條視頻是什麼概念?

快手用戶平均每天能夠產生一千萬到兩千萬條視頻。中國有兩千多個縣,我們能夠拍到每個縣,在座的各位你們的家鄉每個縣都能夠看到數千條量級的視頻。用戶在任何時刻打開快手,都可以看到任何一個地方。這 50 億條視頻,幾乎都不重複。並非某些視頻的庫雖然很大,但是大體是同一個電影、或者綜藝的剪輯;在快手產生的、留下來的 50 億條視頻,都是生活中活生生的、新鮮的生活狀態,形形色色的人,形形色色的事。

我們剛才講,其實幸福感需要讓我們每一個人都可以看見,被這個世界發現,能夠讓自己的情緒情感被別人知道,被人感知,被別人看到,被別人理解。但是 50 億的量級是非常龐大的量級。我們過去的視頻平台,庫里每天新增的視頻從來沒有突破過千萬量級的,這在歷史上都是沒有過的。所以在座的這些內容、這些視頻,和那些觀察者之間匹配的時候,實際上以前說照顧好頭部就可以了,可是面對 50 億的生活片段,我們怎麼把長尾的用戶照顧好,真的能夠讓每一個人都得到一些關注,每個人都消減自己的孤獨感,這實際上是非常艱難的課題。

我在十幾年前,在谷歌的時候就研究這個問題,我們做很好的匹配,做很好的信息的分發。實際上我們整體是在用 AI,用機器學習的技術在嘗試去解決。

歷史上的其他的視頻平台不是那麼需要,特別是每個視頻數量沒有那麼多的時候,如果每年只新增兩百部電影,三百部電視劇,每一個電影、每一個電視劇,或者每一個綜藝節目,我們都可以用人工標註的方式把它分析、理解的特別清楚。但是,每天新增千萬量級視頻,不可能找人標出來,也不能找編輯去像傳統的媒體按板塊分發。我們想要去照顧長尾用戶、想要去照顧每一個人,這樣的平台,我們更加無法挑選那些頭部的,極少數的熱的視頻給大家看。

那麼我們的解決方法是什麼?是用 AI,應用在四個環節。第一個環節內容的生產,是記錄的產生環境。第二個環節,如何讓這些人去理解視頻。我是 80 後,80 後從小就喊理解萬歲,我相信理解也是機器今天能夠做的一個主要的方向之一,讓機器像我們人類一樣能夠理解這個世界,能夠理解每一個人,讓機器理解每一個生活的片斷,這也是快手公司在做的事情,基於這樣的理解,我們後面才會有整個很好的分發,有一個更好的平台去照顧到每一個人。我們理解每一段視頻,每一個視頻片斷,我們要理解每一個用戶的偏好,理解每一個用戶潛在的偏好,最後才能做一個很好的分發視頻。

第一個模塊在記錄,下面一個視頻,今年 4 月份、5 月份上線的一個魔法表情,能夠快速模擬一個人,從年輕到老去的過程。第二個是整體的姿態檢測,裡面還有 AR 的玩法,實際上他背後是基於我們自己研發的一套 3D 系統的 AR 系統,我們 YCNN 的深度學習系統,這個深度學習系統它的核心優勢就是能夠在非常低端的手機上,跟我們一起實現跨平台,不止在安卓、iPhone 上運行的效率提高,同時能夠把模型做得非常小,速度做得非常快。

最重要的是做了非常多的視頻中的記錄的玩法,解決人體姿態識別的問題,人臉關鍵點檢索問題,視覺慣性里程計,還有手勢識別。

讓機器理解這些視頻是什麼內容,當一個生活的片斷上傳過來以後,我們立即會將一系列的信息拿掉,比如檢測有幾個人,進一步需要檢測是男人還是女人,是老人還是小孩,是中國人還是外國人,能夠把之間的關係理解,就變得越來越難。我們除了跟人有關的識別,還做了大量圖像方面的,有場景的識別,是在會場還是在操場,是在家裡或辦公室,我們做了很多的場景識別。

更進一步、更難一點的,在做飯、做菜,還是在釣魚,各方面場景的場所,還有他正在做的事,是在賽車,還是在大馬路上騎自行車,還是卡車、轎車,有更多的更高級的識別。當然我們還做了顏值識別,比較好玩,目前線上還沒有這個應用。

這其中還有和語音有關的理解,就是我們經常發現一個視頻,他裡面很多信息是包含在音頻裡面,特別是傳遞情緒,人類的很多情緒是在聲音裡面,再轉化為語速、語調起伏,或者他用得配樂,就是音樂本身的情感屬性,我們做了大量的音樂的結構化的理解。我們最高的並發大概是 20 萬,在快速的語言裡面,有幾十萬的並發的、實時的語音識別的需求,我們到現在為止,還是僅用自己自研的,因為 20 萬的並發率,對機器的要求特別高,找第三方的話,不願意投入機器。

另外可以快速的語音識別還有一個難點,我們的場景是生活場景,它不是收音乾淨的。在生活中可能有兩個人在說話,可能有汽車在叫,可能在操場裡面,或者在教室,整個是一個複雜的場景,這裡面我們怎樣能夠做到最好的,速度要最快的語音識別,幾十萬部的並發識別,對我們來說也是一個非常大的挑戰。從全球板塊來講,我們會接受一定程度上的識別率的下降,但是要讓性能和讓場景的適應性更好,這是快手目前面臨的問題之一。在底層,我們有自己研發的,一個大規模並行的機器學習的平台,是做模擬訓練和推理,也包括做一些數據的標註。

當然對快手來講,我們做視頻內容的理解,很大程度上得益於我們是一個社區,社區裡面每天有上億的人在幫我們標註,他們的點擊點贊行為,他們的關注行為,他們的轉發行為,他們的播放時長,他們人和人之間相互的關係,網狀的關係,就在幫助我們更好的理解用戶,我們不是純粹從內容出發的,我們還有行為數據。但是如何把用戶的行為數據和內容清晰組合在一起,特別是把內容裡面的視覺加上時間軸以後進行連續的視頻分析,再加上深度的分析,再加上用戶的行為分析,整個多模的集成組合在一起,也是一個非常有意思的課題。

第三個部分是理解用戶,當然這裡面的用戶並不是內容的記錄者,是指看內容,當你拿出你的手機,打開一個 APP 的時候,我們希望幫助你發現這個世界,這時候對平台來講,我們需要理解你的興趣偏好,更主要的我們還需要理解你潛在的興趣,就是你過去還沒有探索過,但是你可能會喜歡的方向和領域把它挖掘出來,才能幫你探索更大的未知領域。

在快手,我們也是得益於我們做的是一個社區,舉個例子,其實在日常生活中,我們怎麼去擴展自己的興趣偏好,一個是隨機的,不小心看到的、很好玩的,比如我當年為什麼會選擇做 AI,真的是不小心碰到了有一個團隊在做機器學習的應用,我跟他們聊了以後很感興趣,從此走上了這個路,這是一個非常隨機的狀態。還有一個做法是問朋友,比如在你的朋友圈裡面,或者你的室友、你的同學,到處說我昨天打了棒球,很好玩,你要不要一起來玩一下,我剛學了一個 C++語言不錯,要不要一起來學一起,朋友告訴你,幫助你擴展你的興趣偏好。

在快手我們利用類似的邏輯去做,就是在一個大的社區裡面,總有那麼一些人跟你很相似,但又不完全一樣,跟你相似又關注他們喜歡的東西,他們喜歡的那些跟你偏好不一樣的東西,你極大的可能會喜歡,我們嘗試去擴展興趣的時候,去理解一個用戶群偏好的時候,我們會應用到裡面,盡心去做,這樣可以幫助每一個人,你不是一個人在探索,是有社區裡面成千上萬的人跟你相似又不同的人在探索,同時你幫助其他一些跟你相似而不同的人去探索,這樣我們可以更好的理解一個人的潛力。

接下來就是視頻分發,我們的記錄能夠更好的產生,在內容、視頻、生活片斷中會最好的理解,在用戶的偏好,潛在的興趣,能夠可以更好的挖掘的基礎之上,我們才能做一個更好的分發系統。這個分發系統可以真正照顧長尾,能夠讓更多的人找到自己喜歡的人,找到喜歡自己的人,能夠讓更多的人被看見,讓我們看見更大的世界。

我們現在已經進化到的用實時的方法做整個的日誌系統,可能有同行知道,早年我們都是用一些偏 Linux 的方法去做,到現在線上已經能夠實時的運行深度學習的方法,並且還不是一個模型,可能是一個層疊的組合的複雜的模型。但是事實上能夠做到標值的響定,用戶的每次行為,事實上在一秒鐘以後,就能夠反應到視頻中去,能夠給用戶更好、更准、更廣闊的世界,等待用戶去發現。

未來我們還有很多想要研究的方向,這裡面列了其中一些,我自己最感興趣的是多模態信息融合的視頻理解,我覺得總有一天我們的機器能夠像人類一樣理解一個視頻,我自己有一次看到一個特別有意思的視頻,那個視頻很短,是一個男生和一個女生走在一起,擁抱,然後分開。看到那個視頻的時候,我是能夠理解他們是一對情侶,他們應該是最後一個擁抱,不清楚什麼原因分開了。我當時就想說,是不是機器有一天也能夠理解到這一層,我在理解這個視頻的時候,我發現有兩個人,我發現他們擁抱了之後,發出的聲音是包含了非常悲傷的情緒,他們分開的時候又很決絕,我們就得到了這樣一個結論。也許有一天我們做的人工智慧系統,能夠像我一樣,像人類一樣去理解生活中的片斷,能夠更好的理解人類的情緒、情感,甚至是靈感。我很期待那一天的到來。

對快手來講,我們是要構建一整套的以 AI 技術為核心的基礎設施,能夠用科技的力量提升每一個人獨特的幸福感覺,能夠讓每一個人更多更好的感受這個世界,也能夠更好的被這個世界所感受到,這是快手最想做的事情。謝謝大家。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 極客公園 的精彩文章:

快手CEO宿華:透過50億條視頻 用AI提升每個人的幸福感
滴滴順風車業務停業整改一周;虎牙上市,遊戲直播第一股;蘋果將推信用卡,購買自家產品可提供貸款

TAG:極客公園 |