盛開互動CEO曾祥永博士：智能交互未來一定是多模態融合

新聞 09-30

日前，蘋果發布的iPhone X手機讓人臉識別技術大火，你的微信與微博肯定也被各種段子刷屏了。那麼，人臉識別在國內的應用情況怎樣？在門羅公園重點關注的科技企業中，北京盛開互動是一家在業內頗具實力的企業。他們自主研發了一個可以識別人臉、物體等2000類常見物品與100種常見場景的人工智慧平台——SKEye。

那該平台在智能硬體與智能機器人上的應用情況怎麼樣？國內的計算機視覺類創業公司需要注意些什麼？門羅公園記者帶著不少疑惑拜訪了盛開互動的CEO曾祥永博士，請他為大家做了一些分享。

盛開互動CEO曾祥永博士：智能交互未來一定是多模態融合

北京盛開互動科技有限公司CEO曾祥永博士

曾祥永博士從事計算機視覺與智能交互技術研發應用十餘年，主要研究關於面向智能產品和智能應用的視覺識別開放平台。

門羅公園

曾祥永：您好，門羅公園的讀者朋友們好！盛開團隊在視覺識別與智能交互領域深耕超過15年，在傳統機器學習和深度學習技術方面都有較為豐富的積澱。我們也是國內率先把人臉識別、表情分析、手勢跟蹤、運動分析及圖像識別等視覺交互技術應用到體感遊戲和娛樂體驗的團隊。

盛開互動CEO曾祥永博士：智能交互未來一定是多模態融合

阿U幻鏡

2015年，我們開始將視覺技術應用於兒童智能硬體與智能機器人。例如我們為兒童智能硬體產品「阿U幻鏡」提供了塗鴉畫、任意畫、字母識別、數字識別、七巧板識別、卡片識別、繪本識別及實物識別等全套圖像識別演算法。此外，我們還針對其硬體性能與應用場景做了特別的演算法優化，能在限定條件下流暢與穩定地運行，產品的用戶體驗也取得了非常好的反饋。

盛開互動CEO曾祥永博士：智能交互未來一定是多模態融合

阿U兔機器人

在兒童智能機器人方面，我們深度參與了機器人阿U兔（原名阿U兔智）的研發，為其提供了包括離線人臉識別、常見物體識別及整套交互系統，讓這款產品成為具備「認人識物」視覺能力的家庭機器人。

2016年下半年，我們開始把盛開視覺識別SDK與API提供給數十個家服務機器人行業的企業進行測試與評估。目前已有三十餘款智能產品在接入試用與正式應用，其中包括康力優藍的小優、智能管家的布丁豆豆、雷動雲合的雷大白、上海元趣的好兒優、深圳銳曼的小曼、深圳大愚的大力、南京阿凡達的i寶等家庭陪伴與教育機器人，還包括康力優藍的優友、進化者的小胖、木爺的酷奇、眾德迪克的阿蘭以及卡雷爾、歡樂飛等商用服務機器人。此外，還有多款移動應用和微信公眾號也接入了盛開人臉和物體識別技術。

盛開互動CEO曾祥永博士：智能交互未來一定是多模態融合

應用案例

門羅公園

曾祥永：2017年5月，我們正式向外推出SKEye人工智慧開放平台，聚焦生活場景與終端應用，針對智能交互實現了包括人臉檢測、人臉識別、人臉分析及物體（2000類生活常見物品）與場景（100種常見場景）等目標的實時識別，賦予了各種智能交互產品與應用終端的視覺能力。

SKEye聚焦「人機交互」，核心優勢在於可用、易用、精準快速。通過多平台SDK與API，支持多種硬體（ARM /X86）和系統（Andriod/Linux/ Windows），能夠提供友好的接入服務。

大家知道，視覺技術正在越來越多地應用到各個不同的領域，例如工業、安防、監控、金融、醫療、自動駕駛、無人商超及泛娛樂等。視覺的基礎是圖像，視覺技術與應用場景及應用目的是強關聯的。家用機器人與商用機器人分別服務於家庭和公共場合，在這些小場景或特定場景下，「人機交互」是機器人的首要任務，「身份認證」是次要任務。也就是說「為交互而識別」，而交互的流暢性至關重要。

在人臉識別方面，為了達到「盡量快、足夠准、低功耗」的目標，SKEye特別針對基於深度學習的模型大小、計算複雜度、識別率及響應時間進行了優化，推出了可在中低配置的硬體本地實時運行的人臉識別離線SDK。其人臉檢測、關鍵點定位、人臉比對及屬性分析全套模型的容量大小在18MB以內。在機器人布丁豆豆（RK3128）、小優（RK3188）等ARM平台上均能實現流暢的多人人臉識別與人臉分析，在雷大白和大力（RK3288）及以上配置上的表現更佳。

盛開互動CEO曾祥永博士：智能交互未來一定是多模態融合

布丁豆豆機器人進行多人人臉識別

在物體識別方面，SKEye特別針對生活常見物品進行了深度學習建模。我們通過機器人APP與手機APP不斷收集和整理數據，從後台分析用戶喜歡拍什麼物品或希望機器人能識別什麼物品，不斷迭代訓練識別模型。我們之所以做「常見物品」識別，是為了讓機器人具備一定的「視覺常識」，並希望未來所有的機器人都具備這種「常識」。

接下來，我們將持續迭代優化離線人臉識別、常見物品識別以及特殊物品識別的能力，以友好的服務和優惠的價格，服務更多的智能產品和智能應用公司，讓小夥伴們的產品都具備更強的視覺智能和視覺常識。

盛開互動CEO曾祥永博士：智能交互未來一定是多模態融合

常見物體識別

門羅公園

曾祥永：相比傳統單一的交互模式，我們更重視多模態融合技術。它融合了視覺、聽覺、觸覺、嗅覺等多種交互方式，表達效率和表達的信息完整度更高，是智能交互的發展趨勢，而且智能交互也是服務機器人場景化不可或缺的環節。在開放式人機交互中，尤其是多輪人機對話，涉及到語音識別、圖像識別、語義分析、情感分析、動作捕捉等多個維度時，研發難度就非常大了，目前尚未有很好的成果與應用。而在限定場景的條件下，針對性的研發和應用多模態融合技術，以達到人機交互智能性和體驗性顯著提升的效果，還是值得期待的！

盛開互動CEO曾祥永博士：智能交互未來一定是多模態融合

多模態融合技術

門羅公園

曾祥永：近年來，人工智慧獲得了社會大眾的廣泛關注，政府也將其提升至國家戰略層面。人工智慧的快速發展，使得視覺識別技術被廣泛應用。除了安防、金融及醫療等「嚴肅性」應用，還有服務機器人、手機應用及新零售等眾多「泛智能」應用。由於中國人口多、市場大，任何一個細分或垂直場景，都有可能做大。所以，國內CV（計算機視覺）類創業公司，只要能夠將自身技術與客戶數據及應用場景結合好，發展機會還是很大的。

雖然人工智慧的發展非常快速，但目前仍處於探索階段，各個領域的角逐主要還是集中在技術上。而盛開互動的基因是從事「泛智能」領域的技術創新，我們也會不忘初心，堅持視覺識別與智能交互技術的研發，不斷努力保持自身在「人機交互」場景中的優勢，致力於成為一家領先的和接地氣的CV企業。

門羅觀點

視覺識別發展至今，已成為智能交互技術至關重要的部分。盛開互動經過多年的研發沉澱，其核心產品已應用在數十款智能產品上，且已經受住市場和用戶的考驗。目前，他們還在積極探索研發新的智能交互方式。我們也有理由相信，盛開互動會在接下來的時間裡，在努力拓寬各種智能產品的研究範圍與應用領域的同時，還將與社會各界共同推動人工智慧的發展。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※功成身退：Yoshua Bengio宣布即將終止Theano的開發和維護
※UCSB研究發現計算機與人類視覺差異，用人眼搜索策略提升計算機視覺

TAG:新智元 |