當前位置:
首頁 > 科技 > AI challenger發起中國首次零樣本學習演算法大賽,發布零樣本數據集

AI challenger發起中國首次零樣本學習演算法大賽,發布零樣本數據集

火遍全球的AI challenger又派發數據集福利啦!

去年,由創新工場、搜狗、頭條聯合主辦的AI Challenger(以下簡稱AIC)全球AI挑戰賽吸引了來自65個國家近萬團隊參賽。今年,AIC預熱賽零樣本學習(zero-shot learning)競賽即日起開始比賽。

零樣本學習競賽同樣發布大規模圖像屬性數據集,包含78017張圖片、230個類別、359種屬性。與目前主流的用於zero-shot learning的數據集相比,圖片量更大、屬性更豐富、類別與ImageNet重合度更低。

創新工場AI工程院運營副總裁吳卓浩表示,因為在很多情況下人們難以獲得足夠的有標註的數據來訓練識別或預測模型。受人類學習能力的啟發,零樣本學習(zero-shot learning)希望藉助輔助知識(如屬性、詞向量、文本描述等),在沒有任何訓練樣本的情況下學會從未見過的新概念。這具有重要的研究意義和廣泛的應用場景,被認為是實現大規模物體識別的一個重要方式。瞄準這個國際前沿課題,AI Challenger帶來了目前世界最大的零樣本學習數據集、以及國內首次零樣本學習競賽。


最具挑戰的AI識別方法

零樣本學習是當前最具挑戰的AI識別方法之一。簡單來說就是識別從未見過的數據類別,即訓練的分類器不僅僅能夠識別出訓練集中已有的數據類別,還可以對於來自未見過的類別的數據進行區分。這是一個很有用的功能,使得計算機能夠具有知識遷移的能力,並無需任何訓練數據,很符合現實生活中海量類別的存在形式。

傳統的「零樣本學習」方法首先是讓智能體(Agent)對類別進行語義理解。將類別標籤利用輔助知識(如屬性)嵌入到語義空間中,再利用訓練集中的數據學習這種從圖像到語義的映射關係。此後,即使遇到新的類別,只要提供了該類別的語義知識,模型即可識別該類別,這就是零樣本學習。

例如識別一張斑馬的圖片,但在訓練時沒有訓練過斑馬的圖片。那麼我們可以通過比較這張斑馬圖片中包含的屬性和各個類別的屬性定義,進而在屬性空間中找到與該測試圖片相近標籤,即為該圖片的標籤。

而零樣本學習的意義也顯而易見:在傳統圖像識別任務中,訓練階段和測試階段的類別是相同的,但每次為了識別新類別的樣本需要在訓練集中加入這種類別的數據。一些類別的樣本收集代價大,即使收集到足夠的訓練樣本,也需要對整個模型進行重新訓練。這都會加大識別系統的成本,零樣本學習方法便能很好的解決這個問題。


將來未知語言也能翻譯

早期的零樣本學習研究可以追溯到2008 年,Larochelle 等人針對字元分類問題提出了零樣本學習(zero shot learning)方法,並且識別準確率達到了60%。2009年Lampert 等人提出了Animals with Attributes數據集和經典的基於屬性學習的演算法,才真正打開零樣本學習的關注度。

北大碩士趙波表示,在一些場景下,如細粒度物體識別、任意語言之間的翻譯等,難以獲得足夠的有標註的數據來訓練識別或預測模型。因此,零樣本學習具有重要的研究意義和廣泛的應用場景。受人類學習能力的啟發,零樣本學習希望藉助輔助知識(如屬性、詞向量、文本描述等)學習從未見過的新概念。目前零樣本學習被認為是實現大規模物體識別的一個重要方式。

以下是零樣本學習的幾個潛在應用場景。

1.未知物體識別 —— 例如,模型在「馬」、「牛」等類別上訓練過,因此模型能夠準確地識別「馬」、「牛」的圖片。當模型遇到「象」這個新類別,由於從未見過,模型無法作出判斷。傳統解決方案是收集大量「象」的圖片,與原數據集一起重新訓練。這種解決方案的代價高、速度慢。然而,人類能夠從描述性知識中快速學習一個新概念。例如,一個兒童即使沒有見過「象」,當提供他文本描述「象是一種的大型食草類動物,有長鼻和長牙」。兒童能夠根據描述快速學會「象」這一新類別,並能在第一次見到「象」時識別出來。零樣本學習與之類似,在沒有任何訓練樣本的情況下,藉助輔助知識(如屬性、詞向量、文本描述等)學習一些從未見過的新概念(類別)。

2.未知語言翻譯 —— 比如說要進行三種語言之間的翻譯,按照傳統的方法需要分別訓練六個網路,在日語和韓語之間沒有那麼多樣本的情況下,訓練英語特徵空間日語,韓語特徵空間英語這兩個網路,那麼就可以自動學會韓語特徵空間日語這個翻譯過程。

3.未知類別圖像合成 —— 近年來,對抗網路GAN被用於圖像合成,取得了以假亂真的效果。但傳統圖像合成僅能合成見過的類別的圖像。零樣本圖像合成希望模型能夠合成從未見過的類別的圖像。目前已有一些演算法通過條件GAN網路實現了零樣本圖像合成。

4.圖像哈希 —— 傳統圖像哈希演算法利用一些訓練樣本來學習針對某些類別的哈希演算法。但這些學習到的哈希演算法無法用於新類別。零樣本圖像哈希,希望在已知類別上學到哈希演算法能夠運用到新的未知類別上。一些基於屬性的零樣本哈希演算法已經被提出。


AI Challenger的「野心」

「數據是AI的燃料,開放數據集,才會更好地推動AI產業的進步。去年底,創新工場董事長兼CEO、人工智慧工程院院長李開復在北京舉辦的AI Challenger頒獎典禮上如此描述舉辦「AI Challenger全球AI挑戰賽」的初心。

按照最初設定的目標,「AI Challenger全球AI挑戰賽」首先要建設緊貼前沿科研任務需要的數據集,再者是要建立超大規模的高質量數據,第三個目標是要打造開放的世界級平台。

「人工智慧發展的必經之路之一是「教會」機器認識我們的世界,這也是為什麼有了互聯網發展過程中所積累下來的海量標註數據,才促成了最近這一波人工智慧技術和應用的突破。但是,讓機器認識世界的挑戰仍然非常大,因為在很多情況下人們難以獲得足夠的有標註的數據來訓練識別或預測模型。「創新工場AI工程院運營副總裁吳卓浩表示,受人類學習能力的啟發,零樣本學習(zero-shot learning)希望藉助輔助知識(如屬性、詞向量、文本描述等),在沒有任何訓練樣本的情況下學會從未見過的新概念。這具有重要的研究意義和廣泛的應用場景,被認為是實現大規模物體識別的一個重要方式。瞄準這個國際前沿課題,AI Challenger帶來了目前世界最大的零樣本學習數據集、以及國內首次零樣本學習競賽。

在初步打開影響力的基礎上,大賽執委、創新工場人工智慧工程院副院長王詠剛表示,希望在2018年,AI Challenger能吸引更多國際、國內的高水平參賽團隊,並建立演算法、代碼、論文、數據、比賽的分享和交流平台。此次零樣本學習演算法大賽,正是將賽事常規化,技術分享平台化的一個有力嘗試。據主辦方透露,除了AIC大賽,類似的零樣本學習競賽的小型賽事將按季度舉辦,貫穿全年,用更高水準、更多樣化的比賽形式,打造出成為一個真正連接人才、AI、數據的優質平台。


附:

競賽獎勵:

以下提及金額為稅前金額,詳細規則請參考《競賽選手報名協議》

冠軍:30,000人民幣,頒發獲獎證書

亞軍:10,000人民幣,頒發獲獎證書

季軍:3,000人民幣,頒發獲獎證書

雙周冠軍:3,000人民幣

雙周亞軍:2,000人民幣

雙周季軍:1,000人民幣

數據集下載地址:https://challenger.ai/datasets

此次數據集和競賽,由北京大學博雅特聘教授、博導、國家傑青王亦洲教授,復旦大學付彥偉教授,創新工場AI工程院,在AI Challenger平台聯合推出。


背景知識:

經典零樣本學習方法介紹

最經典的零樣本學習方法是Lampert 提出的直接屬性預測模型(DAP)。如下圖所示,模型中屬性訓練是在傳統特徵提取的基礎上的進行的,首先使用顏色直方圖、局部自相似直方圖、SIFT 和PHOG 等6 種方法來提取樣本圖像的底層特徵,這幾種特徵包含了圖像的顏色、形狀和紋理等方面,所以通過這種特徵提取方法得到的特徵可以良好的表達圖像中的信息。這幾種圖像特徵不僅適用與線性分類器,而且在非線性分類器中也能達到良好的表現。在DAP方法中,通過上述的特徵提取方法得到樣本的圖像特徵後,將特徵用於屬性分類器的訓練,然後將訓練得出的模型用於屬性的預測,最後採用貝葉斯方法推算測試樣本的類別。近年來深度特徵的使用大幅提高了零樣本識別的準確率。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之能 的精彩文章:

一千四百公里與十萬感測器:南水北調背後的智能化力量

TAG:機器之能 |