視頻智能理解是「體量最大」的人工智慧
和圍繞人類生活的其他事物相比,人工智慧半個多世紀曆時並不算長。從一開始的神學家,科學家討論,到後來的所有行業都布局人工智慧,人工智慧技術高度普及,高調而全面的進入人類的生活。屬於人工智慧的這部「簡史」,高效而垂直。現代社會很快從已經達成共識的「萬物互聯」走向探索「萬物智能」,人工智慧將更加浸入式、碎片化地嵌入生活。
在人工智慧的眾多類別中,哪一項應用範圍最廣泛,最為「包羅萬象」?4月25日,在由鎂客網主辦,蘇州市科學技術局指導的以「AI創新帶來的智能革命」為主題的M-TECH論壇上,小視科技聯合創始人,上海交通大學副教授倪冰冰指出,視頻智能理解是「體量最大」的人工智慧。
視頻智能包含人臉識別、動作識別、物體檢測、媒體製作、視頻推薦等內容。這項技術也正在與市場相結合,在安防監控、輔助駕駛和社交媒體中探索新的發展空間。甚至成為了一些行業的技術制高點,並引導著行業的發展方向。
倪冰冰教授認為,目前,智能視頻也面臨著諸多挑戰。例如:時序問題突出、目標尺度變化大、視頻體量大等等。面臨亟待解決的難題,小視科技的AI研發團隊提出了幾大創新。
一是行為識別。基於時序特徵金字塔,提取多時間尺度運動特徵,通過深度遞歸神經網路-LSTM提取多時間尺度運動特徵。這一研究獲得了由谷歌、斯坦福等國際頂尖人工智慧研究機構主辦的,國際最大規模視頻行為識別競賽,挑戰難度最高的THUMOS』15行為檢測國際競賽中,獲得視頻檢測小組國際第一名。
二是行人重識別。從雙路LSTM網路入手,取代傳統的取幀、識別方法,解決跨攝像頭行人重識別的問題。目前此項技術已在跨相機客流實時分析系統中應用。支持客流大數據的展示和百路以上監控視頻,行人重識別準確率超過95%。
三是群體計數。針對人像大小變化大,單一解析度模型無法適應的問題,基於單路CNN卷積神經網路人群密度估計演算法,自適應多路CNN卷積神經網路人群密度估計演算法,通過Switchable-CNN,實現自適應子網選擇,解決Model Averaging問題。其典型應用案例是世博會場景下的人數統計系統。在規模最大,人數最多的WorldExpo』10資料庫中,達到誤差5%以內的國際最佳精度。
四是將輕量化深度網路運用於人臉識別、活體檢測。目前已運用到人臉識別門禁閘機,智能訪客機等安防產品中。
倪冰冰教授在發言還提及到了視頻從識別到生成的問題。「視頻智能內容製作是人工智慧的新戰場」。
以上這些技術創新,已經分別在商圈客流實時分析、實時行人、車輛檢測,智能醫療影像等領域實施和應用,並獲得了良好的反饋。作為新工業革命的最新驅動力,人工智慧不僅在走科技的最前沿,同時也在全面下沉。下沉至產業,細分市場,和場景結合,去解決問題,這也正是小視科技力求的行業+AI的發展方向。
文章源自《鳳凰科技》,圖片源自網路


※里根老臣出任白宮經濟顧問,力挺稅收政策及強勢美元
※打擊網路數據欺詐黑產 整合行業力量成為趨勢
TAG:起點創匯 |