連LeCun都推薦的Fashion-MNIST數據集,是這位華人博士的成果
允中 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
上周六,量子位在報道中提到德國時尚圈的科學家,推出一個名叫Fashion-MNIST的數據集。這個數據集里都是衣褲鞋包,但它的目標是替代MNIST。
隨後我們發現這個數據集引發了好多研究人員的關注,包括大名鼎鼎的Yann LeCun——他周日在Facebook上推薦了這個數據集,也引發了很多的討論。
更令我們意外的是,量子位周日收到了Fashion-MNIST數據集作者的來信,而且是一封中文來信!嗯,就是那種閱讀起來毫無壓力的純正簡體中文~
直到這個時候,我們才意識到這個最近非常火的數據集,雖然出自一家德國公司,但是主要的作者是一位華人:肖涵(Han Xiao)。
「這個項目是為機器學習人工智慧領域提供一個更有挑戰性、更有趣的MNIST替代數據集」,肖涵博士再次談到這個項目的意義。
對於這個數據集的表現,他提到:「我也收到了很多國內AI研究員良好的使用體驗,他們表示在MNIST上區分不開的演算法(0.1%之差)可以在Fashion-MNIST上很好的區分開來。」
最重要的是,肖涵博士告訴量子位,他已經在GitHub上為這個數據集增加了中文文檔(README.zh-CN.md)。本文最後,量子位也會摘錄部分其中的內容。另外,通過這個地址即可前往訪問Fashion-MNIST數據集的更多詳情:
github.com/zalandoresearch/fashion-mnist
關於肖涵博士,量子位也簡單的查詢了一下相關背景。他目前是德國公司Zalando旗下研究院NLP組的高級研究科學家。肖涵在慕尼黑工業大學獲得碩士及博士學位,此前本科畢業於北京郵電大學。(下面放一張真人秀)
肖涵博士
最後,我們摘錄Fashion-MNIST的中文文檔部分內容如下。
FashionMNIST是一個替代MNIST手寫數字集的圖像數據集。 它是由Zalando(一家德國的時尚科技公司)旗下的研究部門提供。其涵蓋了來自10種類別的共7萬個不同商品的正面圖片。FashionMNIST的大小、格式和訓練集/測試集劃分與原始的MNIST完全一致。60000/10000的訓練測試數據劃分,28x28的灰度圖片。你可以直接用它來測試你的機器學習和深度學習演算法性能,且不需要改動任何的代碼。
這個數據集的樣子大致如下(每個類別佔三行):
為什麼要做這個數據集?
經典的MNIST數據集包含了大量的手寫數字。十幾年來,來自機器學習、機器視覺、人工智慧、深度學習領域的研究員們把這個數據集作為衡量演算法的基準之一。你會在很多的會議,期刊的論文中發現這個數據集的身影。實際上,MNIST數據集已經成為演算法作者的必測的數據集之一。有人曾調侃道:」如果一個演算法在MNIST不work, 那麼它就根本沒法用;而如果它在MNIST上work, 它在其他數據上也可能不work!」
Fashion-MNIST的目的是要成為MNIST數據集的一個直接替代品。作為演算法作者,你不需要修改任何的代碼,就可以直接使用這個數據集。Fashion-MNIST的圖片大小,訓練、測試樣本數及類別數與經典MNIST完全相同。
寫給專業的機器學習研究者
我們是認真的。取代MNIST數據集的原因由如下幾個:
MNIST太簡單了,很多演算法在測試集上的性能已經達到99.6%!不妨看看我們基於scikit-learn上對經典機器學習演算法的評測 和這段代碼: 「Most pairs of MNIST digits can be distinguished pretty well by just one pixel」(翻譯:大多數MNIST只需要一個像素就可以區分開!)
MNIST被用爛了。參考:」Ian Goodfellow wants people to move away from mnist」(翻譯:Ian Goodfellow希望人們不要再用MNIST了。)
MNIST數字識別的任務不代表現代機器學習。參考:」Fran?ois Cholle: Ideas on MNIST do not transfer to real CV」 (翻譯:在MNIST上看似有效的想法沒法遷移到真正的機器視覺問題上。)
其他
文檔中還詳盡描述了數據獲取、類別標註、如何載入數據、評測等信息,另外作者還建立了一個討論的聊天室。
目前相關論文已經在arXiv上發表,地址在此:
https://arxiv.org/abs/1708.07747
—完—
加入社群
量子位AI社群7群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot2入群;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進群請加小助手微信號qbitbot2,並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。(專業群審核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
量子位QbitAI
? ? ? 追蹤AI技術和產品新動態
點擊展開全文
※香港科技大學教授馮雁:How to Build Empathetic Machines
※Google無人車之父Thrun最新演講:AI將讓人類更富創造力
※前沿:多了性染色體、毀了生育能力,怎麼辦?
※談科學研究「給青年茶學生的八封信」
※EMNLP最佳論文公布,「讓發明自己語言的AI說人話」上榜
TAG:量子位 |
※不僅BBVA!Bankia,Ibercaja相繼嚴查西班牙華人賬戶!
※向全體華人致敬!CLOT CHINESES Capsule 系列即將發售
※Marvel 宣布將推出首位華人超級英雄「Shang-Chi」獨立電影
※Reggio Emilia選舉新市長,請華人都投Roberto Salati一票
※吳亦凡《Like That》創新高,登頂Billboard榜的首位華人歌手
※從CVPR 18談談華人研究者的Leadership
※納米界的「神話」 —Charles M.Lieber和他的華人子弟們
※陸奇入職YC中國,首個YC孵化的華人團隊Strikingly上線了
※One Nation One China!英國留學生華人走上街頭聲援祖國
※由華人主編的《Cell Biology and Toxiclogy》進入快速發展階段!
※Lil Pump 涉歧視華人新曲《Butterfly Doors》音樂錄影帶發布
※華人驕傲Vivienne Tam的履歷,定義了什麼是國際頂尖設計師
※「史上最強」Levi』s 501出自華人之光!Feng Chen Wang x Levi s 501聯名系列還不快來見識一下!
※韓華人壽收購ROX Tigers戰隊,更名HLE繼續征戰LCK
※華人公司Zoom超過Lyft 成為今年科技IPO市值第一名
※海外華人併購組織Allen Market入局區塊鏈
※華人運通攜手Protean Electric和威孚集團推動輪轂電機量產落地
※洋蔥集團旗下辦公室小野作為唯一受邀華人赴美參加Palylist Live
※洋蔥集團旗下辦公室小野作為唯一受邀華人赴美參加Palylist Live
※華人設計師品牌 Wen Pan 榮獲 Fashion Scout 2020年春夏賽季優勝獎