一個耗資數百萬的AI數據集，和它背後的90後超人們

最新 09-25

李根發自凹非寺

量子位報道 | 公眾號 QbitAI

不夠智能的人工智慧，往往被調侃成「人工智障」，但不是所有人都清楚知道「智障」的原因。

1994年出生的巨丹，屬於清楚知道原因的那部分人。

這個23歲的化工大學化學專業畢業生，從第一份實習工作開始，核心任務就是人工智慧中「人工」的那部分，現在她是一個AI視覺數據集審核團隊的leader。每當一個新成員加入，她總會引用她的leader曾經向她解釋的話：人工智慧人工智慧，先有人工才有智能，有多少人工才會有多少智能。

「人工要不夠，就會從智能變智障。」

超人90後

巨丹領導的是一個12人規模的團隊，完全由來自北京高校的實習生組成，專業不限，年齡不限，被核心在意的只有實習的時間。

今年立夏前後，他們開始了每天為期8小時的工作，主要內容就是為審核已被初步標註的數據集。其中一部分人閱讀速度快，被分到了審核「看圖說話」的工作，另一部分人則較為細心，於是領到了複核「人體骨骼關鍵點」標註的任務。

數據標註公司給他們開發了專門的審核平台，這些大學在校生人手一個帳號，他們需要審核的工作對象，要麼是那些被框定的人物，要麼是被標出14個人體骨骼節點的圖像。

這是個枯燥的工作，但不時發生一些小趣事。

在驗收中，有一張圖片的「描述」寫道：一個男孩拿著話筒坐在椅子上。但審核驗收的同學認為如此秀氣的一個女孩兒，怎麼就被描述成「男生」了？理所當然駁回讓標註組返工。

然而來自標註組的電話隨之到來，電話那頭一臉懵逼地反問說：難道鹿晗不是男孩嗎？圖片中拿著話筒端坐的人物正是鹿晗呀。

這樣的例子還有很多，有時也確實是標註組的「錯誤」。比如有一張圖片里，他們把王俊凱標註成了李宇春……

其實參與標註、審核驗收的都是94、95年出生的年輕人，他們正是鹿晗和王俊凱影響輻射範圍里的核心群體，但機械、重複的審核工作，對於青春偶像的認知變得更為「客觀」、「理性」和「AI化」。

這樣的工作任務日復一日，持續進行了很久，甚至在上線日期緊迫的前幾周，他們這12人小組還在周末加班加點，以保證首批數據集如期推出。

5個月辛苦工作後，巨丹等到了第一批反饋。

9月4日，AI Challenger（全球AI挑戰賽）數據集正式上線。數小時後，有參賽選手完成了第一波數據集評價，參與這個視覺數據集打造並最終審核驗收的產品經理梁睿收到反饋：「數據集很贊，竟然有針對圖片的如此豐富的中文場景描述，前所未見」。

聽到這樣的評價，23歲的巨丹為之前的辛苦工作感到值得。她告訴量子位，一線負責數據集審核驗收的工作並不輕鬆，但收到這樣的反饋會讓他們由衷開心。

作為數據集審核驗收組組長，巨丹比同組其他人更明白數據集的意義和價值，其中大部分來自程序員和工程師的「言傳身教」。

畢業於康奈爾大學、本職為創新工場AI工程院產品經理的梁睿告訴她，人工智慧之所以被稱為人工智慧，就是先有人工再有智能，如果人工付出不夠，就會變成人工智障。而人工的多少，最後反應為數據集質量的高低。

儘管巨丹並無法詳述數據集具體如何讓AI演算法更智能，但她知道核心原理：「數據不好，就會影響牛逼技術的產生」。

巨丹從事這份工作已有1年多的時間，她表示現在看到的世界「與眾不同」，比如在商場人群密集區，她滿眼望去都是「人體骨骼節點」的圖像，哪些屬於上肢，哪些又屬於下肢，哪些很清晰，哪些又被遮擋住了……她好幾次這樣看著就自己笑出聲來，覺得自己擁有了一項「超人」的新技能。

之前有外界對這樣的工作表達過悲觀，認為數據標註審核完全就是新時代的富士康工作，但顯然巨丹不這樣認為，她覺得有站在前面研發演算法和技術應用的人，也不能缺像她一樣的背後服務者，即便看起來沒有那麼光鮮。

AI Challenger數據集驗收中

巨丹的觀點也得到倪笑海認同，後者是Face++的第4號員工，也是此次AI Challenger提供的三個視覺數據集之一圖像中文描述數據集的標註團隊負責人。

倪笑海正在打造起一支數據標註方面的正規軍，他常對自己的團隊說，他們所做的工作可以說是「數字工人」，也可以看做AI前線的認知者，在每一個領域的數據標註中，他們都會因此成為對該領域AI化結合認知最深刻的人。

數據標註的工作，確實不輕鬆，但也並非外界想像的缺乏前景。

耗資數百萬

在Face++，倪笑海承擔了這家全球聞名的人臉識別公司光鮮背後的那部分工作，他出身金融財務專業，被印奇、唐文斌和楊沐等人拉攏參與創業，「負責了技術之外所有的事情」。

現在，倪笑海最核心的工作，是為Face++每一個垂直領域的開拓鋪墊基礎、準備好數據糧草。在Face++，每一名博士都會配備3-4名數據標註人員當助手。而倪笑海領導的300人規模的團隊，有些類似於京東壯大過程中的「京東物流」。

這一次給AI Challenger提供圖像中文描述數據集標註服務，倪笑海動用了團隊中的250人，其中200人標註，50人檢查，從2月份正式開工啟動，直至近期才基本結束，歷時超過7個月時間。

但這還未計入「標準定義」時期的時間。倪笑海認為，這才是一個數據集標註最具挑戰的部分。

原本這個數據集標註項目2016年10月就開始尋找團隊接手，但在公開標註市場找尋一圈之後，並沒有在「客服和運營轉型」而來的標註公司中尋得滿意的供應商。

於是創新工場投資公司Face++的標註團隊進入主辦方視野，希望藉助經驗豐富的Face++標註團隊來實現借圖像中文描述數據集」標註這一具有挑戰的任務。

實際的標註工作並沒有馬上開始，AI Challenger組委會與Face++標註團隊聚在一起，又花了一個月多時間進行任務的「重新定義」。如果不把這個標準工作變成一個可標準化執行的工作，那後期一定問題不少。例如標註的數據會偏，訓練出來的模型準確性也會大打折扣。

他認為這個前期定義的需求，需要「產品經理」式的人物定義和梳理，把每一個「描述點」摳清楚。

這也是人類傳授機器「智慧」、使其更加「智能」的過程。

比如在最初的設想概念中，圖像中文描述數據集中標註「描述」的任務，原始概念是「看圖說話，描述圖片中的場景」。

但在實際情況出發，這是一個無法標準化完成的任務，因為每一個標註人員之間的主觀重心不同、關注點不同，最後描述出的圖片可能也會差別巨大。於是在正式啟動標註前，組委會和標註團隊會花很多時間去明確「場景描述」里的主體，哪些主體需要描述，哪些可以忽略，如何量化描述的正確度。

主幹線索明確後，還需要通過多個主觀描述讓機器演算法在學習中找到「客觀」，於是在多組對比嘗試後，最終選用了5人獨立描述1張圖片的方式，確保描述的多樣性。這是一項對於標註團隊來說前所未有的任務。

因為之前的數據集標註，更偏向於垂直領域的演算法或自家技術的自檢自查，但這次更多出於產業化去做事，試圖覆蓋學術界到產業界，從落地的角度去看問題，於是標註起來的普適性要求更明顯——涉及場景更多，需要的圖片數據更廣泛，而按照關鍵詞分類，場景數量超過了250個。

倪笑海還透露，在溝通「定義」的過程中，他可以感受到AI Challenger執行委員王詠剛的期望：希望能夠傾力投入，從無到有打造一個中文世界的數據集和競賽，讓更多人才和AI交流愈加活躍起來。

量子位請倪笑海對比AI Challenger和ImageNet、MS COCO等數據集，他表示現在後二者在垂直領域上的高精尖地位還無法馬上被撼動。此次的數據集建設，創新工場、搜狗、今日頭條等主辦方致力於廣泛參與和影響力，但在將來持續的數據集建設中，超過ImageNet等經典數據集並非沒有可能。

關於未來的規劃，AI Challenger執行委員兼創新工場AI工程院副院長王詠剛說，主辦方將會花幾年時間，建成一個具有世界級影響力的科研數據集和競賽平台。今年的「圖像中文描述」、「人體骨骼關鍵點」、和「翻譯數據集」在各自的領域，都形成了獨特的優勢。但這僅僅是一個開始。接下來，主辦方將與最頂尖的學者一起，為最前沿的科學研究建設更多頂級數據集。

然而這並不意味著一切輕而易舉，背後的付出很容易被忽略。

王詠剛告訴量子位，這次AI Challenger的數據標註，光成本就花費了數百萬元，嚴格時間投入超過7個月，熟練標註員工投入400人。至少從數據集的角度將，這已是中文世界最具標誌意義的AI開發大賽。

數據集

在AI狂飆突進的這幾年中，最成功也最經典的數據集，非李飛飛和她的ImageNet莫屬。

ImageNet誕生於2009年，在2017年CVPR宣布合併到kaggle，在這8年歷程中，完全改變了AI研究的認知、方法，以及留下一個全新的數據集驅動的AI世界。短短7年內，ImageNet優勝者的識別率就從71.8%提升到97.3%，超過了人類，並證明了更龐大的數據可以帶來更精確的結果。

很多人都將此視作當今這輪人工智慧浪潮的催化劑。更為關鍵的是，「數據集重新定義了AI從業者對模型的思考方式。」

參與ImageNet挑戰賽的企業遍布科技行業的每個角落。2010年的第一場競賽優勝者都出任了百度、谷歌和華為的高管。馬修·澤勒（Matthew Zeiler）利用2013年贏得ImageNet挑戰賽時的程序創辦了Clarifai公司，目前獲得了4000萬美元風險投資。

2009年以來，數十個新開發的人工智慧研究數據集已經引入了計算機視覺、神經語言處理和語音識別等子領域。如何打造一個ImageNet一樣的經典數據集，成為後來者最核心討論的關鍵。

在中科院自動化所研究員王亮博士看來，打造ImageNet一樣的經典數據集，至少要有三方面的核心投入。

一方面是數據規模，至少是100萬級以上的規模，這樣才更有說服力；

二是多樣性，能夠有不同場景下的覆蓋，比如人臉識別中，光照、表情、各種角度的多樣性是否豐富，都會影響最後結果的準確性和泛化；

三則是數據最好接近真實應用，這樣不僅對於學術研究有正向作用，對於技術和產品研發落地，也能不斷補足演算法開發。

這位國家模式識別重點實驗室副主任坦承，做到以上幾方面並不容易。

在以往國家模式識別重點實驗室的研究中，他們通常的做法是先找可共享的數據集，再不行就自建數據集，但自建則意味著精力和成本投入，即便國家項目中有專門為數據集創建留出的預算，但承擔上限也極為清晰，他們尚未有超過50萬元規模的投入，這其中還不包括採集相關的費用，真是一件耗時費力的事情。

此外，更便利的方式是和企業合作，企業中的數據集偏嚮應用，規模和場景也符合，但涉及企業版權、保密等原因，企業開放數據需要機會和運氣。

這是王亮博士對此次AI Challenger飽含期待的原因之一。也是這個AI挑戰賽從無到有背後最大的挑戰。

發起這樣的比賽，不僅要投入時間、金錢、人力等各種資源，還要找到並說服合作企業開放數據，而且從結果看，最後搜狗和今日頭條開放的數據，也在中國互聯網史上堪稱前所未見。

在AI challenger宣布推出後的第二天，賽事發起人李開複寫下了一篇題為《從1983到2017，我的幸運與遺憾》的文章，詳細回顧了1983年至1988年李開復的博士研究往事。

當時在卡內基-梅隆大學攻讀計算機博士學位的他，從無到有用統計學的方法，通過建立大型的資料庫提升語音識別準確率，並打破了導師堅持的專家系統的研究方式。這讓26歲的李開復一戰成名。不僅是當年《商業周刊》評選的「1988最重要科學發明」，也讓李開復破格留校，成為卡耐基-梅隆大學的助理教授。

其間幸運的是，李開復的博士導師瑞迪（Raj Reddy）給予了這個當時「離經叛道」的學生莫大的支持和鼓勵，這點陣圖靈獎得主、CMU終身教授，不僅在精神上表現出「和而不同」的風度，而且在資料庫打造和計算資源支持方面，提供了共計30萬美元的研發經費支持。

「這在30多年前，我還是一個AI科研人員的時代，能接觸到真實世界裡如此海量的數據，是個遙不可及的夢想」，談到這次開放出來的數據集李開復說：「我當年受惠於瑞迪教授的幫助和指導，今天也非常希望能給更多和我一樣的年輕人，創造研究機會和條件」。

—完—

點擊展開全文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章:

※AI通過了藝術創作圖靈測試，你根本分不出來作者是不是人
※有了這個新框架，任何遊戲都能變身AI訓練場
※GeekPwn重金招募人工智慧黑客
※特斯拉悄悄搞出無人車AI晶元，已經投產測試，而且沒帶英偉達
※Perceptln獲三星數百萬美元投資，將切入自動駕駛領域

TAG:量子位 |