當前位置:
首頁 > 新聞 > 阿里iDST的CVPR論文:剁手有了新方法,明星同款邊看邊買

阿里iDST的CVPR論文:剁手有了新方法,明星同款邊看邊買

雷鋒網 AI 科技評論按:CVPR是近十年來計算機視覺領域全球最有影響力、內容最全面的頂級學術會議,由全球最大的非營利性專業技術學會IEEE(電氣和電子工程師協會)主辦。今年CVPR審核了2620篇文章,最終收錄783篇,錄取率29%。阿里巴巴集團數據科學與技術研究院 iDST 和人工智慧研究院 AI LAB 也有多篇論文被收錄。

本文就是對阿里巴巴 iDST 視頻分析團隊的 CVPR 2017論文「 Video2Shop: Exact Matching Clothes in Videos to Online Shopping Images 」(從視頻到電商:視頻衣物精確檢索)的解讀,文章作者為阿里巴巴方廣、磐君、思淘。

阿里巴巴 iDST 視頻分析團隊在這篇論文中圍繞視頻電商業務場景,提出了一個在線視頻衣物精確檢索系統。該系統能夠滿足用戶在觀看影視劇時想要同時購買明星同款的需求。整個系統採用了目前最先進的衣物檢測和跟蹤技術,針對明星同款檢索中存在的多角度、多場景、遮擋等問題,提出可變化的深度樹形結構(Reconfigurable Deep Tree structure),利用多幀之間的相似匹配解決單一幀檢索存在的遮擋、模糊等問題。該結構可以認為是對現有attention模型的一種擴展,可以用來解決多模型融合問題。

論文技術在天貓魔盒視頻中應用


業務場景及研究問題:視頻電商中的衣物精確匹配

早在 2014 年,阿里與優酷土豆發布視頻電商戰略,稱未來可以實現邊看邊買,使得視頻電商的概念,繼微博電商,朋友圈電商之後浮出水面。電商平台擁有少量商品,而視頻網站具有巨大的流量,二者結合是發展的必然結果。電商平台可以藉助視頻網站的流量來實現導流和平台下沉,而視頻網站則需要通過廣告點擊和商品成交來實現流量變現,因此二者的結合可謂一拍即合。視頻電商的商業主旨是打造以視頻為入口的購物服務,視頻中出現所有物體都可能是商品,提供包括邊看邊買、明星同款、廣告投放等服務,它集娛樂、休閑、購物於一體,給用戶構造出一種「身臨其境」情境營銷,或者是明星同款的衝動式消費。視頻電商目前已經不是停留在概念層次了,視頻網站向電商的導流轉化也一直在不斷的嘗試中。

然而影視劇中的服飾存在較大的差異性和異構性, 同一個目標往往展現出較大的差異。服飾購物圖像通常具有雜亂、多樣的背景, 而且常在戶外拍攝。多樣化的背景可能是建築物,街道、風景、汽車等多種情況。由於自然場景下受到光線、角度、大小、分 辨率、幾何學和光度學的變化等影響,使得服飾呈現出現的外形極為複雜,即使是同一件服飾也會出現變化較大的效果。同時在線網站為更好地展示服飾的效果,通常聘請時尚模特穿著所售商品,模特/人物姿勢變化也是導致服飾變化的一個重要因素。 由於以上這些因素,使得視頻明星同款搜索成為了一個極具挑戰性的技術問題。

網路結構及技術細節

AsymNet網路結構:整個Asymnet深度神經網路結構如圖1所示。當用戶通過機頂盒(天貓魔盒)觀看視頻時,該網路將從電商網站(淘寶、天貓)檢索到與之匹配的衣服,並推薦給用戶。為忽略複雜背景對檢索結果的影響,更準確的進行服裝定位,我們首先應用服飾檢測技術,提取得到服飾區域一組候選框。然後對這些候選框進行跟蹤,得到明星同款在視頻中的的運動軌跡。對於衣物候選區域和運動軌跡我們分別利用用圖像特徵網路(IFN)和視頻特徵網路(VFN)進行特徵學習。考慮到服裝的運動軌跡,衣物精確檢索問題被定義為不對稱(多對單)匹配問題,我們提出可變化的深度樹形結(Reconfigurable Deep Tree Structure),利用多幀之間的相似匹配解決單一幀檢索存在的遮擋、模糊等問題。後續本文將詳細介紹模型的各個部分。

圖 1 Asymnet深度神經網路結構

圖像特徵網路(IFN):傳統CNN網路要求輸入圖像為固定的227x227(因為CNN網路中的卷積層需要有一個確定的預定義的維度)。在視頻電商業務場景中,因為衣物檢測候選框為任意大小,尺度變化很大,傳統CNN網路無法進行有效的特徵學習。針對這一問題,我們利用空間金字塔池化結構(SPP)體系結構,如圖2所示。它通過空間池聚合最後一個卷積層的特徵,從而使池區域的大小與輸入的大小無關。

圖 2 Asymnet圖像特徵網路(IFN)

視頻特徵網路 (VFN):為了更好的考慮視頻的空間序列模式,進一步提高衣物檢索的性能。基於 LSTM,我們提出了視頻特徵網路 (VFN),如圖3所示。其中實驗驗證明兩層堆疊式 LSTM 結構能夠在視頻特徵學習中得到最佳性能。

圖 3 Asymnet視頻特徵網路 (VFN)

相似性網路:明星同款匹配不同於近似衣物檢索,精確匹配要求完全一致。在完全一致的 要求下,傳統的通過相似性計算來進行檢索的方法,不能滿足明星同款精確匹配要求。已有的方法通常將精確匹配問題轉換為一個二分類問題,但這種方式適應性差,只能利用單一時刻的視頻幀。為了能夠利用整個衣物運動軌跡,我們提出了如下的可變化的深度樹形結構(Reconfigurable Deep Tree structure)將匹配問題轉換為邏輯回歸問題。匹配網路擬採用基於混合專家系統的邏輯回歸網路。該結構可以認為是對現有attention模型的一種擴展,可以用來解決多模型融合問題。

圖 4 Asymnet相似性網路

整個模型的目標函數是綜合考慮每一幀的匹配結果,得到基於整個衣物運動序列和電商衣物的相似性,整個系統可以建模為對如下目標公式進行求解:

類似於attention機制,我們提出如下後驗概率模型,來對上式進行求解:

得到如下梯度並採用端到端方式進行網路學習。


試驗結果

我們利用業務數據和最新的衣物檢索方法進行了對比,試驗結果如下表所示。相對於alexnet,Asymnet在前20的檢索精確率指標上,其性能幾乎提高了進一倍。相對於其他2種網路CS 和RC, 我們發現RC的性能略優於CS,因為RC具有較強的識別能力差異較小(採用多任務學習)。甚至在對於某些類別(無明顯差別)RC在精確率上甚至略好於AsymNet,但是總的來說AsymNet比目前現有的方法擁有更好的性能。因為Asymnet可以處理現有的視頻的時空動態變化,並結合自動視頻幀的自動調節爐排判別信息的融合策略。

論文下載鏈接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Cheng_Video2Shop_Exact_Matching_CVPR_2017_paper.pdf

CVPR 2017 後續報道、更多近期學術會議現場報道,請繼續關注雷鋒網 AI 科技評論。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

通用 CEO Mary Barra:2020 年前發布新電動汽車架構和娛樂系統,支持 OTA 更新
王勁首曝景馳研發進展,除了展示路測視頻,還帶來了這些內部消息
越過4K直奔8K生態建設 夏普以8K直播WBO世界拳王爭霸賽決賽
Model 3 事關成敗:它是特斯拉的增長發動機,也是一次大考
這位創建「藍蓮花」的清華教授總結了一本《黑產黑話寶典》

TAG:雷鋒網 |

您可能感興趣

PNAS:大數據方法研究HIV包膜蛋白藍圖 有望開發新型HIV疫苗
一種改良的CRISPR/Cas9基因編輯方法
Supreme x LV 最易上手客制方法?!這雙DIY給我瓶噴漆我也行!
PNAS:開發出一種更好的HIV唾液測試方法
Supreme x LV 最易上手客制方法!這雙DIY給我瓶噴漆我也行!
根據實物或圖片用PROE/CREO畫出3D檔的方法
RED VELVET節目公開吵架解決方法!成員大讚Irene隊內和平維持者
PhotoShop做一個福字,PS做福字的方法
搞笑GIF:以前的方法都Out了,這個才是高大上
撲朔迷離的黑色版本OFF-WHITE x Nike Air Force 1迎來官方發售!入手方法告訴你!
Whelen案例,六西格瑪設計DMADV方法
蘋果 VS.Iomega:為什麼創新方法很重要
TFBC「偽區塊鏈」概念飯票,將面臨TFBOYS官方法律責任追究
ACS Nano:開發出一種迄今為止最簡單最靈敏的HIV側流免疫測定方法
CodeWarrior IDE使用Tips-使用burner將elf文件轉換生成HEX和BIN文件的方法和步驟詳解
UC Berkeley提出特徵選擇新方法:條件協方差最小化
如何讓代碼沒有Bug?GitHub排名第一的項目提出了一勞永逸的方法
jQuery UI API 類別-方法(Methods)
如何讓你的代碼沒有Bug?GitHub排名第一的項目提出了一勞永逸的方法
iPhone電池無處換?蘋果想了個新方法