當前位置:
首頁 > 最新 > 連LeCun都推薦的Fashion-MNIST數據集,是這位華人博士的成果

連LeCun都推薦的Fashion-MNIST數據集,是這位華人博士的成果

允中 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

上周六,量子位在報道中提到德國時尚圈的科學家,推出一個名叫Fashion-MNIST的數據集。這個數據集里都是衣褲鞋包,但它的目標是替代MNIST。

隨後我們發現這個數據集引發了好多研究人員的關注,包括大名鼎鼎的Yann LeCun——他周日在Facebook上推薦了這個數據集,也引發了很多的討論。

更令我們意外的是,量子位周日收到了Fashion-MNIST數據集作者的來信,而且是一封中文來信!嗯,就是那種閱讀起來毫無壓力的純正簡體中文~

直到這個時候,我們才意識到這個最近非常火的數據集,雖然出自一家德國公司,但是主要的作者是一位華人:肖涵(Han Xiao)。

「這個項目是為機器學習人工智慧領域提供一個更有挑戰性、更有趣的MNIST替代數據集」,肖涵博士再次談到這個項目的意義。

對於這個數據集的表現,他提到:「我也收到了很多國內AI研究員良好的使用體驗,他們表示在MNIST上區分不開的演算法(0.1%之差)可以在Fashion-MNIST上很好的區分開來。」

最重要的是,肖涵博士告訴量子位,他已經在GitHub上為這個數據集增加了中文文檔(README.zh-CN.md)。本文最後,量子位也會摘錄部分其中的內容。另外,通過這個地址即可前往訪問Fashion-MNIST數據集的更多詳情:

github.com/zalandoresearch/fashion-mnist

關於肖涵博士,量子位也簡單的查詢了一下相關背景。他目前是德國公司Zalando旗下研究院NLP組的高級研究科學家。肖涵在慕尼黑工業大學獲得碩士及博士學位,此前本科畢業於北京郵電大學。(下面放一張真人秀)

肖涵博士

最後,我們摘錄Fashion-MNIST的中文文檔部分內容如下。

FashionMNIST是一個替代MNIST手寫數字集的圖像數據集。 它是由Zalando(一家德國的時尚科技公司)旗下的研究部門提供。其涵蓋了來自10種類別的共7萬個不同商品的正面圖片。FashionMNIST的大小、格式和訓練集/測試集劃分與原始的MNIST完全一致。60000/10000的訓練測試數據劃分,28x28的灰度圖片。你可以直接用它來測試你的機器學習和深度學習演算法性能,且不需要改動任何的代碼。

這個數據集的樣子大致如下(每個類別佔三行):

為什麼要做這個數據集?

經典的MNIST數據集包含了大量的手寫數字。十幾年來,來自機器學習、機器視覺、人工智慧、深度學習領域的研究員們把這個數據集作為衡量演算法的基準之一。你會在很多的會議,期刊的論文中發現這個數據集的身影。實際上,MNIST數據集已經成為演算法作者的必測的數據集之一。有人曾調侃道:」如果一個演算法在MNIST不work, 那麼它就根本沒法用;而如果它在MNIST上work, 它在其他數據上也可能不work!」

Fashion-MNIST的目的是要成為MNIST數據集的一個直接替代品。作為演算法作者,你不需要修改任何的代碼,就可以直接使用這個數據集。Fashion-MNIST的圖片大小,訓練、測試樣本數及類別數與經典MNIST完全相同。

寫給專業的機器學習研究者

我們是認真的。取代MNIST數據集的原因由如下幾個:

MNIST太簡單了,很多演算法在測試集上的性能已經達到99.6%!不妨看看我們基於scikit-learn上對經典機器學習演算法的評測 和這段代碼: 「Most pairs of MNIST digits can be distinguished pretty well by just one pixel」(翻譯:大多數MNIST只需要一個像素就可以區分開!)

MNIST被用爛了。參考:」Ian Goodfellow wants people to move away from mnist」(翻譯:Ian Goodfellow希望人們不要再用MNIST了。)

MNIST數字識別的任務不代表現代機器學習。參考:」Fran?ois Cholle: Ideas on MNIST do not transfer to real CV」 (翻譯:在MNIST上看似有效的想法沒法遷移到真正的機器視覺問題上。)

其他

文檔中還詳盡描述了數據獲取、類別標註、如何載入數據、評測等信息,另外作者還建立了一個討論的聊天室。

目前相關論文已經在arXiv上發表,地址在此:

https://arxiv.org/abs/1708.07747

加入社群

量子位AI社群7群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot2入群;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進群請加小助手微信號qbitbot2,並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

量子位QbitAI

? ? ? 追蹤AI技術和產品新動態


點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

香港科技大學教授馮雁:How to Build Empathetic Machines
Google無人車之父Thrun最新演講:AI將讓人類更富創造力
前沿:多了性染色體、毀了生育能力,怎麼辦?
談科學研究「給青年茶學生的八封信」
EMNLP最佳論文公布,「讓發明自己語言的AI說人話」上榜

TAG:量子位 |

您可能感興趣

不僅BBVA!Bankia,Ibercaja相繼嚴查西班牙華人賬戶!
向全體華人致敬!CLOT CHINESES Capsule 系列即將發售
Marvel 宣布將推出首位華人超級英雄「Shang-Chi」獨立電影
Reggio Emilia選舉新市長,請華人都投Roberto Salati一票
吳亦凡《Like That》創新高,登頂Billboard榜的首位華人歌手
從CVPR 18談談華人研究者的Leadership
納米界的「神話」 —Charles M.Lieber和他的華人子弟們
陸奇入職YC中國,首個YC孵化的華人團隊Strikingly上線了
One Nation One China!英國留學生華人走上街頭聲援祖國
由華人主編的《Cell Biology and Toxiclogy》進入快速發展階段!
Lil Pump 涉歧視華人新曲《Butterfly Doors》音樂錄影帶發布
華人驕傲Vivienne Tam的履歷,定義了什麼是國際頂尖設計師
「史上最強」Levi』s 501出自華人之光!Feng Chen Wang x Levi s 501聯名系列還不快來見識一下!
韓華人壽收購ROX Tigers戰隊,更名HLE繼續征戰LCK
華人公司Zoom超過Lyft 成為今年科技IPO市值第一名
海外華人併購組織Allen Market入局區塊鏈
華人運通攜手Protean Electric和威孚集團推動輪轂電機量產落地
洋蔥集團旗下辦公室小野作為唯一受邀華人赴美參加Palylist Live
洋蔥集團旗下辦公室小野作為唯一受邀華人赴美參加Palylist Live
華人設計師品牌 Wen Pan 榮獲 Fashion Scout 2020年春夏賽季優勝獎