阿里 FashionAI 數據集:用知識重建構造「時尚+AI」的巴別塔
雷鋒網 AI 科技評論按:《聖經 ·舊約·創世記》第 11 章記載,人類希望能聯手共建通往天堂的巴別塔,但因為各種族語言不通,計劃因此失敗。而在時尚領域,人工智慧同樣面臨巴別塔難題,專業人士、機器智能和普通消費者之間存在信息阻滯和溝通不暢。
客觀科學和主觀時尚,這兩個概念看似互相矛盾,實際上從某種程度上也反映著傳統行業與全新技術的鴻溝。如何用機器能理解的邏輯語言,清楚地定義、規範和傳遞一個行業、尤其是時尚行業的 benchmark? 在阿里巴巴「圖像和美」團隊和香港理工大學紡織及服裝學系的這次深度合作中,我們或許能找到答案。
7 月 4 日至 6 日,由阿里巴巴「圖像和美」團隊聯合香港理工大學紡織及服裝學系、英國紡織協會聯合舉辦的「人工智慧與時尚紡織大會」學術會議在香港理工大學舉行,同期包括學術主題演講、2018 FashionAI 全球挑戰賽決賽答辯會及線下 FashionAI 概念店體驗活動等多項內容。這一事件在雷鋒網學術頻道 AI 科技評論旗下資料庫項目「AI 影響因子」中有相應加分。
2018 FashionAI 全球挑戰賽自今年 3 月發起,共吸引全球 42 個國家和地區的 5272 支隊伍共 6594 名選手參與,爭奪 134 萬的人民幣獎金池。
7 月 5 日答辯會當天,來自西安交通大學、馬里蘭大學、北京郵電大學、中科院深圳先進技術研究院、唯品會等高校及企業的 10 支隊伍進行了現場展示及答辯環節。
FashionAI 全球挑戰賽英雄榜
最終,早稻田大學博士研究生李瑋特的單人團隊 bilibili 摘得關鍵點賽道的冠軍獎項;來自西安交通大學的禾思眾成團隊在服飾屬性賽道獲得冠軍。
服飾關鍵點定位賽道冠軍——bilibili
服飾標籤屬性識別賽道冠軍——禾思眾成
針對本次比賽,中科院計算所研究員、中科院智能信息處理實驗室常務副主任山世光博士作為 FashionAI 全球挑戰賽的決賽評委代表向雷鋒網 AI 科技評論表示,本次 FashionAI 受到眾多高校及研究機構的關注,除了阿里天池平台本身的影響力以及誘人的獎金激勵外,AI 對於時尚行業的滲透,本身也是一個在學術界逐步受到重視的問題。「隨著人工智慧特別是計算機視覺的進步,AI 未來會在零售、電商等應用中得到更多的體現。」
根據賽制介紹 [1],FashionAI 全球挑戰賽的兩大賽道分別為服飾關鍵點賽道及服飾屬性賽道,前者專註於女裝的服飾關鍵點定位。基於服裝設計知識,賽事組委會定義了一套服飾的關鍵點,並梳理了在女裝 6 大專業類別(上衣、外套、褲子、半身裙、連身裙、連身褲)下的具體定義,要求參賽者設計演算法進行定位預測;而後者基於數據集所構建的女裝標籤知識體系,要求選手在屬性維度和屬性值兩個層面對單主體(單人模特或單件平鋪)服飾商品進行局部屬性識別。
這兩大賽道的設置,反映的是認知時尚的兩大基礎問題。據阿里巴巴副總裁、淘寶事業部技術總經理兼阿里巴巴大文娛優酷高級副總裁兼 CTO 庄卓然的介紹,阿里巴巴於今年年初和香港理工大學一起開始投入到該領域的建設,一同梳理服飾領域的知識和規則,並將成果製作成這個嚴謹、實用、符合商業場景的服飾數據集,與 FashionAI 全球挑戰賽同期發布。
這個業界首個同時滿足服飾專業性和機器學習要求的大規模高質量數據集 [2],包括服飾關鍵點定位、服飾基礎屬性識別等任務。據介紹,前者的關鍵點定義源自服裝設計原理,目前覆蓋女裝 5 大類部件,共 41 個細分類目,24 種關鍵點,總計 10 萬張標註圖片;後者通過對基礎屬性的專業整理,構建了一個層次化的標籤分類體系,目前覆蓋女裝 5 大類部件,41 個細分類目,8 個維度 54 個標籤,總計 25.7 萬標註圖片。數據集中使用的所有圖像數據全部來源於電商真實場景,從各個季節、類目等維度的上億的服裝數據中採樣得到,從而保證了數據的多樣性。
服飾,特別是女裝,是淘寶上最大的商品類目。2017 年雙十一當天,服飾領域的成交佔比超過 30%,阿里巴巴深知用戶在服飾時尚領域巨大的消費能力,也密切關注互聯網和技術在其中能創造的商業價值。
阿里巴巴資深演算法專家雷音(賈夢雷)所帶領的阿里巴巴「圖像和美」團隊從 10 年前就開始在淘寶做圖像的檢測和搜索,彼時主要針對的是商家圖片版權保護、虛假廣告宣傳等。
正如庄卓然所言,「識別」只是計算機視覺的一部分。如果要進一步做到感知和交互,進一步拉通消費和生產,只靠技術是遠遠不夠的。雷音也深刻地意識到淘寶今天所面臨的困境,是消費者和平台、和商家無法用達成共識的語言溝通商品需求的問題。「單單連衣裙類目就有 2000 萬件商品,產品數量非常龐大,但還是有很多用戶抱怨找不到自己想要的商品,」雷音介紹道,阿里巴巴在時尚角度的數據重組依然有很大的提升空間,這樣才能讓消費者很好地表達自己的需求,並通過這些表達接觸到對應的數據。
數據重組是 FashionAI 的重要組成部分。只有讓機器能理解人類所表達的內容,把數據進行有效的分類,才能讓消費者熟悉穿搭行業的認知,進行更有效的需求表達。
在一個主觀的世界裡去做客觀的事情並不容易,而首當其衝的便是要讓機器懂得時尚界的語言。
「讓機器理解衣服,核心是製作服飾圖像數據集。[3] 」 雷音認為,將從業者的知識轉化為機器可以理解的邏輯語言,首先要從數據集入手,用足夠的數據讓機器明白各種服飾的區別和特性。
而要構建一個時尚與人工智慧結合的數據集,讓機器擁有「時尚之心」,便涉及到 FashionAI 要做的核心內容:知識重建。原有的時尚知識體系僅停留於專業人士之間的溝通和交流,往往存在不完備和二義性兩大問題。也就是說,同一層次的概念可能存在不少模糊地帶,而且不一定能覆蓋實用場景的各種情況,這是追求邏輯的機器絕對不能「理解」和「容忍」的問題。更棘手的是,專業人士與非專業人士的認知並不統一,存在工業設計知識、平台運營知識及大眾營銷知識標準不統一的問題。
在整個知識體系的重建中,雷音總結了三條重要的經驗,這不僅對於時尚行業,對於任何一個傳統行業用 AI 賦能的過程都具有借鑒意義。
首先是,知識要實現人和人的溝通,既要符合行業常識,也要符合消費者的認知。「圖像和美」團隊希望能夠將這套知識體系做到「通用」,做到可溝通可理解,因此與香港理工大學及其它專業院校進行了密切合作,力求在消費者和專業人士的溝通中尋求知識體系的統一和平衡。以「波西米亞風」為例,雖然行業的風格體系中存在這個類目,但由於消費者缺乏相應的概念和認知,團隊最終並沒有將這一風格納入分類定義中。
其次,知識要方便機器與人的溝通,盡量實現邏輯上的互斥和完備。機器是 0 和 1 的世界,因此要儘可能地消除中間的模糊地帶,並且能涵蓋所有可能的情況。比如,半身裙的定義是「下半身穿著服飾,最上不超過下胸線,襠部以下中線無收緊縫合」,而褲子的定義是「下半身穿著服飾,最上不超過下胸線,襠部以下中線有收緊縫合」,這就能滿足邏輯完備和互斥的情況。
第三點是理解「視覺可分」和「感官可分」的區別。一種體系如果沒有足夠多的合適樣本進行學習,那麼團隊也需要做出取捨。以「西裝領」為例,從專業人士的角度可劃分為 9 種領子,但「圖像和美」團隊與香港理工大學團隊考慮到,對於普通消費者而言,肉眼看不出這 9 款領子的區別,且無法找到這麼多細粒度過高的數據,因此在分類上也做出了取捨。另外,女性服飾的視覺刺激點非常多,可以在西裝領的分類上適當精簡,但男士服飾視覺刺激點較少,領子的分類需要更加細化,這也是「圖像和美」團隊與專業人士進行反覆協調和溝通所達成的共識。
此外雷音也提及了非常重要的一點是,這個過程中要避免結構化雜訊的情況。比如在夏天搜索「圓領」的衣服,結果可能會大量呈現「T 恤」,這便是結構化雜訊的問題,為了將「圓領」與冬天的「毛衣」數據也能相關聯,需要保證「圓領」在各種類別的服飾中均得到採樣。在這個過程中,團隊需要藉助知識和模型校驗檢查是否引入不合理的相關性,並藉助共性部分與標籤相關性的強弱來判定是否為雜訊。
為了更好地理解時尚行業,原本只穿運動服的典型程序員雷音飛到上海定製了幾萬元的高定西裝,第一次懂得了什麼叫「適合自己的衣服」;跑遍了杭州銀泰城的每一家服裝店,和店員們聊穿衣搭配的經驗體會……由於深入了解了時尚行業對於材質和面料的壟斷「潛規則」,這幾年來雷音再也沒買過打折的衣服。對於時尚的理解一天天加深,雷音也感慨,「機器能學到的是規則,學不到的是創意,我們希望能在這個過程中讓消費者能逐漸從熟悉規則到欣賞創意。如果機器能更好地用機器語言理解 Fashion,實際上也是幫助更多的消費者提升審美水平,增進對時尚行業的理解。」而 FashionAI 全球挑戰賽的應運而生,也是希望能讓更多的人關注到這個將改變行業的數據集,一同攜手關注機器認知時尚的基礎問題,共同推動AI 技術在時尚產業的落地。
但在雷音看來,如果把整個時尚 AI 行業理解為一場球賽,挑戰賽就相當於「踢點球」,在主辦方給予的有限條件內完成規定的任務;但這離學會真正的「踢足球」還很遠,即從科研的角度來思考整個行業知識的重構問題。對於行業來說,他們要做的還有很多。
因為溝通的問題,《聖經》中的巴別塔儘管得到了多種族的人類協作,依然無法通天。但阿里巴巴「圖像和美」團隊的 FashionAI 數據集,正是希望能從知識重建做起,構建 Fashion 和 AI 結合起來的知識體系,構建一個「人工智慧+時尚」的巴別塔。
參考資料:


※谷歌計劃禁止從第三方網站安裝 Chrome 擴展程序
※專訪論答CEO王楓:用AI創造1000萬個好老師
TAG:雷鋒網 |