慧川智能康洪文：AI讓視頻更簡單

新聞 07-25

在AI 與各行各業相融合的行業大背景下，AI+視頻可以碰撞出什麼樣的火花？

7月8日，在由中國計算機學會（CCF）主辦、雷鋒網與香港中文大學（深圳）承辦的第二屆CCF-GAIR全球人工智慧與機器人峰會AI+專場上，慧川智能CEO康洪文重點介紹了AI在視頻的創作以及內容理解兩方面的技術，希望能讓視頻創作者、以及其他視頻領域從業人員的工作更加簡單。

杭州慧川智能科技有限公司旗下的產品名為智影。智影基於在計算機視覺、自然語言處理及大規模雲計算三方面的技術，目前提供兩個功能：一個能將輸入視頻進行結構化理解，並提供細化到幀級精確度標籤（時間、地點、人物、事物、事件）的視頻內容理解API；以及一個基於此技術，能夠將腳本文字快速轉化為短視頻的雲平台。在用戶輸入一篇文章、一個鏈接或者一個關鍵詞後，它將基於人工智慧技術，自動搜索合適的圖片及視頻素材，並配以人工智慧合成的語音，最後融合成一條短視頻，當然，用戶還可對產出的短視頻在線進行調整。

團隊方面，CEO康洪文為美國卡耐基梅隆大學計算機、人工智慧專業博士畢業，曾在微軟研究院，Intel研究院工作，其視頻方面的工作應用於微軟的Windows操作系統，並取得了視頻分析合成的美國專利。聯合創始人劉曦為美國卡耐基梅隆大學計算機專業博士畢業，曾在美國視頻大數據公司Conviva工作任首席架構師。聯合創始人Sean Huang是美國賓州州立大學計算機博士，曾就職於谷歌購物，任技術帶頭人。

慧川智能已獲得數千萬人民幣融資，由清流資本投資。

現場，康洪文向雷鋒網解釋了慧川智能如何使得全網視頻結構化，雷鋒網進行了不更改原意的整理：

雷鋒網：我們目前的主要盈利方式是怎樣的？

康洪文：目前慧川智能主要通過付費的方式、將API提供出來給第三方，比如媒體平台、個人需求者等。讓他們直接對接素材庫，我們負責提供視頻理解這個服務。

雷鋒網：慧川領導團隊是如何搭建起來的？

康洪文：我們團隊成員很早就一起工作了，相互認識併合作了10年以上。目前智影底層的系統得益於團隊近3年來的技術積累。

雷鋒網：黃健博士的NLP技能是具體怎樣落地到AI+視頻的呢？

康洪文：比如當對一篇文章進行自然語言處理時，去具體理解分析其存在的包括人物、時間、地點等關鍵元素，之後再與素材庫進行匹配對接。類似的NLP技術和核心思想也已經用到我們的視頻結構化工作裡面，因為我們注意到視頻無外乎就是另一種信息的呈現方式。

雷鋒網：可以聊聊資金的具體使用方向嗎？

康洪文：我們由清流資本投資。方向主要投入在人員與技術上，技術方面，目前主要用於基礎框架的搭建，比如視頻理解、數據結構化與收集等。

雷鋒網：智影最核心的支撐技術是什麼？

康洪文：我們有三大核心技術支柱——計算機視覺、自然語言處理，以及大數據云計算平台。

雷鋒網：通過上傳文章或圖片的形式，來製作視頻，會不會產生由於資料源短缺而使視頻質量不達標的情況？

康洪文：資料稀少的問題，正是我們可以解決的。比如我說斯里蘭卡人頭攢動的機場、熱帶海洋氣候的景象、當地鮮艷服裝，你在腦海里就能想像出具體場景。你能做到這樣，是因為你之前有相關類似經歷。而我們推出的AI也能達到如此，甚至更好。因為機器是有大數據的，它可以從龐大的素材庫里搜索對方的各類特質。

雷鋒網：當AI可以從大數據上獲得情景再現，如果希望在視頻中加入主觀情緒色彩呢？

康洪文：細微情緒這方面在目前是稍難的，但在一定程度上也可以做到，即情感分析。比如說我們講到特朗普，可能85%對他的言論都是否定的，15%是正面的，這種情感的識別和分析對於自然語言處理現在來說已經是非常成熟了。

雷鋒網：當視頻生成後，有沒有具體的評測機制對其判斷優劣？

康洪文：我們有一個類似谷歌的標準，去定義視頻的合成質量—— 一是我們匹配素材的相關度，一是整個視頻製作出來後的質量。我們希望的目標是能夠在未來的幾個月，做到相當大部分自動生成視頻是高質量的、用戶可以直接拿來用的一個質量水準。

同時，我們目前的系統是交互系統，用戶是可以在視頻自動生成基礎之上再進行修改的。而作為一個客觀度量方式，就是觀測用戶有多少次修改，我們會有針對性地降低這個修改數量。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※專訪平安科技首席科學家肖京：平安智能化的甜蜜與辛酸
※香港科技大學楊強教授：深度學習如何擁抱遷移學習？
※SIGGRAPH 2017：一窺 AR/VR 最新趨勢

TAG:雷鋒網 |

您可能感興趣

※慧川智能康洪文：打造一個「AI＋視頻雲平台」的中央廚房