當前位置:
首頁 > 最新 > 慧川智能發布首款視頻理解API,要讓AI真正取代「剪片子」的人類?

慧川智能發布首款視頻理解API,要讓AI真正取代「剪片子」的人類?

慧川智能CEO:康洪文

據康洪文介紹,這款API可利用深度學習技術,對一段完整輸入的視頻中所涵蓋的圖像和視頻流進行模式識別、拆解和結構化,從而對視頻內容實現精確到每一幀的處理。

康洪文向雷鋒網表示,智影·視頻理解API目前已向第三方開發者、媒體、內容製造者等群體開放使用。值得注意的是,該款API還有一個重要意義在於,可實現視頻內容的結構化。所以,這款API的開放在當前視頻內容理解相對處於空白狀態下來看,頗具意義。

又一個從學術界走向產業界

左:慧川智能創始人康洪文 右:CMU大學計算機科學和機器人研究所教授金出武雄

說起慧川智能的初創團隊,其實也有點意思:創始人康洪文,CMU博士,曾在微軟研究院工作,研究方向主要為AI及視頻理解;CTO黃健,賓州州立大學博士,曾與康洪文同為微軟研究院同事,此前曾在Google工作,研究方向為NLP和機器學習;首席架構師劉曦,與康洪文同為CMU博士,曾在Conviva工作,研究方向主要為雲計算和視頻大數據。

CMU作為計算機排名世界第一的學府,已經給學術界和產業界輸送了非常多優秀的人才。像計算機視覺鼻祖金出武雄,現任微軟全球執行副總裁的沈向洋等,皆來自於此。巧合的在於,康洪文在CMU和微軟都有分別「師從」金出武雄和沈向洋的經歷。

除去這些光彩的「緣分」,還得一提的是,2015年,三位初創成員就已有過一段與視頻AI處理相關的創業經歷。兩年過後,康洪文、黃健和劉曦又因為一些行業態勢走在了一起,開啟了二次創業。

「目前短視頻非常火」

「就視頻而言,90%的功勞歸屬於創意,只有5%有賴於"體力 。很多人就是被這些5%的體力給牽制住了。」康洪文向雷鋒網如此說道。

了解到這一行業現象,一與康洪文研究方向和從業經歷有關,二則是與湖南衛視的合作讓其對此深有體會。往往一檔大型綜藝節目,一個小時的視頻,背後往往需要上千個小時的幕後剪輯工作。康洪文發現,在這裡邊,其實有很多繁瑣的工作是完全可以依賴機器來完成的,並且機器的速度和效果會更快更好。

於是,康洪文開始和湖南衛視、浙江衛視等有了合作,幫他們做了一些簡化工作流程的系統和產品。而智影正是在這些系統之上衍生出來的一款AI產品。

不過,這還不夠。

「目前短視頻非常火」,康洪文有點興奮。

從這一行業大趨上來看,短視頻終將爆發不是沒有道理。然而,AI業界對文本、圖像的處理技術和演算法已漸趨成熟,但對視頻信息的理解卻暫時處於空白狀態。業內甚至有人認為「視頻是一種暗物質」,機器無法知道視頻里究竟有哪些內容,或者視頻之間有哪些聯繫。「它們佔了全網90%的存儲空間,然而這種結構化的數據卻完全沒有。」

市場的痛點就此形成。這一切都讓一直深耕在CV領域的康洪文感覺到,既是挑戰,也是機遇。

2分鐘視頻,人力4小時剪輯、機器只要30s,效果一樣,如何做到?

康洪文給雷鋒網列了這樣一項數值,2分鐘的視頻,人類需要花費4小時在素材的收集、剪輯和渲染上,直至整個視頻出爐,而智影可在30s內自動生成這段視頻並達到相同的效果。

如何實現?

智能視頻技術的學術積累

在1990年以前,學術業界開始有了一些關於視頻合成技術和物體檢測識別的討論和研究。2000年以後,特別是2005年左右,整個學術業界開始泛起了對視頻合成,視頻內容理解的研究。據Google學術查閱的資料表明,在2005年以前,關於視頻內容理解這一項就有4530條結果的收錄。近十年來,這一學術搜索結果已增至17000條。同理,視頻合成、物體檢測識別、機器學習和NLP的理論研究也正如大家感受到的一樣呈井噴態勢。

這些學術研究成果確實給AI業界的創業者們搭起了架子。

視頻數據結構化的優勢

此外,托賴初創團隊在CMU的學術研究成果,以及在Facebook、微軟、Google等科技巨擘的從業經歷,慧川智能可以從各個公開的數據源里獲得全網的數據,並藉助自身AI演算法的積累對其進行內容結構化的處理。

據康洪文介紹,慧川智能在此其中還實現了一項新的Research成果,也是今日康洪文在CCF-GAIR 2017會場上發布的重頭戲:根據輸入的一段完整視頻,機器能夠利用深度學習對其涵蓋的圖像和視頻流進行模式識別,拆解和結構化,從而對視頻內容實現精確到每一幀的處理。比如,在20-40幀出現了一輛蘭博基尼汽車,在60-95幀出現了一段兩個人在對話。之後,從100-120幀,是一輛商務客機滑行出來直至結束......

這種演算法可幫助機器很好的理解視頻內容,從而實現更高精確度的視頻的智能化處理。

所以,在數據結構化相對空白的行業態勢下,相較其他公司而言,這點算是慧川智能的一大優勢。

背後的CV、NLP、機器學

不過,視頻數據結構化只能算是關鍵助力劑的一種,讓智影做到如上小標題的成績依然離不開架構在智影背後的機器學習、CV、NLP和信息檢索貢獻。

具體的運行原理可看這張圖:

據康洪文介紹,智影的運行流程有以下4步:

文本分析· 素材匹配· 在線剪輯、預覽· 雲端視頻渲染

其中關鍵的基礎步驟在前面2個。在一個擁有足量信息和內容的資料庫里,當一篇文章被上傳到機器里,在NLP和機器學習的幫助下,機器會先對其進行文本分析,抓取文本中的如時間、地點、人物、事件等關鍵要素,並予以理解。接續,機器會進入「素材匹配」階段。因為這些素材本身是不帶標籤信息的,所以系統需要進入其中找到這些相關信息。比如,在全網所有的圖片、社交媒體、視頻片段和原聲廣告中,將某個特定的人出現的場景都截取出來,這其中就需要CV的助力。完成了兩項最基礎也最難的工作之外,機器就能接續實現在線剪輯、預覽和渲染,直至生成整個視頻。當然,整個過程都免不了機器學習的支持。

「相對其他公司來說,智影這款API產品在物體識別的範圍、種類、精度和穩健性上都算是最領先的。」康洪文頗有底氣的如此表述。

內容視頻化會給未來產業結構帶來哪些影響?

當問及這個問題時,康洪文向雷鋒網表示,這是一個很大的問題。

「它應該會帶來整個產業結構的改變。」康洪文拿Google舉了個例子。

Google之所以能成為Google,一大原因在於其對文本的結構化處理的能力。以Google Search為核心,在其周圍還有Index技術、Adwords業務等,所有這些都建立在對文本的深度理解之上。

然而,隨著用戶越來越依賴大信息量的視頻內容,並逐漸習慣短視頻對文本和圖像的取代,在目前視頻內容暫時還缺失結構化方案的過渡階段,在行業發展到一定程度之後,必然會產生一類對視頻內容提供結構化或標準化處理的方案商公司。

而這個過程有趣的地方在於,提供AI技術方案商的公司不會「閉門造車」或「自個玩自個」,他們會逐漸將自己的應用開放給第三方開發者,媒體甚至所有人(慧川智能已經將智影開放出去了)。當「信息視頻化」發展到一定規模之後,必將有更多的人參與進來並使用這些產品,這一過程又將產生足量的數據,反過來即會刺激整個行業的爆發性增長,直至巨頭的出現。

康洪文說,「如果我們是賦能的一方的話,肯定會創造更大的價值。」

結語

談及未來可能會遭遇的競爭,康洪文表現的非常自信,「因為任何一家AI公司,同一種演算法是不可能立馬被應用在其他領域之上的。每個應用領域都能催生很多的技術細節,所有公司都需要持續不斷的去解決技術上出現的挑戰和困難。它跟產品經理時代,或者運營驅動產品的公司不一樣,不是看了它的產品模式就能學會的。」

事實上,目前國內也有一些創業公司在做一些消費級視頻的AI應用,如給視頻信息做標籤化從而達到精準廣告投放的效果。在康洪文看來,這些技術應用更多的是一種「任務驅動」。機器可能會對命令型任務完成的很好,但仍然不會增加對視頻內容的理解。

隨著機器學習能力的增強,AI在一些專項任務上已經表現出超越人類的特質,如AlphaGo對弈,CT圖像的識別,圖片情景的分類等。一直以來,人類對AI的理解是僅限於做一些機械化的工作,但在康洪文看來,隨著機器人對專項任務的本質的理解加深之後,就能獲得創造力的延伸,如譜曲機器人可達到以假亂真的程度,機器人寫詩超過人類等等。AI在其「可做事情」和「不可做事情」之間,界限正變得慢慢模糊。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 推酷 的精彩文章:

德國電子政務通信系統組件存在多個嚴重漏洞可導致政府交換數據泄露
台灣 Gogoro 2 電動摩托車開始交車,預購數破 13000 台創紀錄
浪潮湧動,門窗企業該轉型革新還是堅守傳統?
EASYDOM系列教程之DOM 簡介
將遺傳演算法應用於智能投顧,諸葛量化將為用戶提供量化策略自動生成系統

TAG:推酷 |

您可能感興趣

大眾的「PPT」,老炮兒的「片子」
說一口「京片子」的法國時尚繆斯,GUCCI對她都欲罷不能?
只要你有32台iPhoneXR,就可以拍出這麼絢的片子了!
Plus版《海蒂和爺爺》,這麼美的片子不能我一個人看
《世界奇妙物語》才能球,說一部結局高能反轉的片子,主人公的才華你壓根猜不到!
醫生及患者通用:如何用手機翻拍X線片,磁共振片子,CT片子進行網路求醫、病例討論及保留資料
京片子VS普通話,看到題目一臉懵,網友:答案讓我懷疑人生!
為啥這部片子能獲得這麼多五星好評?因為它真實
群友推薦:密室虐殺,變態巨人,這部片子顛覆你的想像力
這片子播完,孫紅雷總算有了一部可以和黃磊相提並論的大作
人工智慧影像技術助力醫學發展 AI幫醫生「看片子」只需幾秒鐘
這六部片子可以說是爛片中的爛片!能不跳看完全部的話我服你
你要的詩和遠方,可能就在這部片子里!
劉德華和王祖賢才是最佳cp,看完這七部片子就知道了,網友:我服
延禧攻略,一部能看出職場套路的片子?對於此片你們如何看待?
宮崎駿:幽靈公主整部片子是以人類大自然動物三者之間展開的!
總看偉光正的電影也厭煩,推薦幾部結局是反派勝利的片子
總結爛片的四大基本特徵,教你如何避免爛片子!
用好這三種濾鏡,會讓你的片子更加出彩!
評《災難藝術家》——也許片子是災難的,但是拍片子的人是純粹的