當前位置:
首頁 > 最新 > 一個耗資數百萬的AI數據集,和它背後的90後超人們

一個耗資數百萬的AI數據集,和它背後的90後超人們

李根 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

不夠智能的人工智慧,往往被調侃成「人工智障」,但不是所有人都清楚知道「智障」的原因。

1994年出生的巨丹,屬於清楚知道原因的那部分人。

這個23歲的化工大學化學專業畢業生,從第一份實習工作開始,核心任務就是人工智慧中「人工」的那部分,現在她是一個AI視覺數據集審核團隊的leader。每當一個新成員加入,她總會引用她的leader曾經向她解釋的話:人工智慧人工智慧,先有人工才有智能,有多少人工才會有多少智能。

「人工要不夠,就會從智能變智障。」

超人90後

巨丹領導的是一個12人規模的團隊,完全由來自北京高校的實習生組成,專業不限,年齡不限,被核心在意的只有實習的時間。

今年立夏前後,他們開始了每天為期8小時的工作,主要內容就是為審核已被初步標註的數據集。其中一部分人閱讀速度快,被分到了審核「看圖說話」的工作,另一部分人則較為細心,於是領到了複核「人體骨骼關鍵點」標註的任務。

數據標註公司給他們開發了專門的審核平台,這些大學在校生人手一個帳號,他們需要審核的工作對象,要麼是那些被框定的人物,要麼是被標出14個人體骨骼節點的圖像。

這是個枯燥的工作,但不時發生一些小趣事。

在驗收中,有一張圖片的「描述」寫道:一個男孩拿著話筒坐在椅子上。但審核驗收的同學認為如此秀氣的一個女孩兒,怎麼就被描述成「男生」了?理所當然駁回讓標註組返工。

然而來自標註組的電話隨之到來,電話那頭一臉懵逼地反問說:難道鹿晗不是男孩嗎?圖片中拿著話筒端坐的人物正是鹿晗呀。

這樣的例子還有很多,有時也確實是標註組的「錯誤」。比如有一張圖片里,他們把王俊凱標註成了李宇春……

其實參與標註、審核驗收的都是94、95年出生的年輕人,他們正是鹿晗和王俊凱影響輻射範圍里的核心群體,但機械、重複的審核工作,對於青春偶像的認知變得更為「客觀」、「理性」和「AI化」。

這樣的工作任務日復一日,持續進行了很久,甚至在上線日期緊迫的前幾周,他們這12人小組還在周末加班加點,以保證首批數據集如期推出。

5個月辛苦工作後,巨丹等到了第一批反饋。

9月4日,AI Challenger(全球AI挑戰賽)數據集正式上線。數小時後,有參賽選手完成了第一波數據集評價,參與這個視覺數據集打造並最終審核驗收的產品經理梁睿收到反饋:「數據集很贊,竟然有針對圖片的如此豐富的中文場景描述,前所未見」。

聽到這樣的評價,23歲的巨丹為之前的辛苦工作感到值得。她告訴量子位,一線負責數據集審核驗收的工作並不輕鬆,但收到這樣的反饋會讓他們由衷開心。

作為數據集審核驗收組組長,巨丹比同組其他人更明白數據集的意義和價值,其中大部分來自程序員和工程師的「言傳身教」。

畢業於康奈爾大學、本職為創新工場AI工程院產品經理的梁睿告訴她,人工智慧之所以被稱為人工智慧,就是先有人工再有智能,如果人工付出不夠,就會變成人工智障。而人工的多少,最後反應為數據集質量的高低。

儘管巨丹並無法詳述數據集具體如何讓AI演算法更智能,但她知道核心原理:「數據不好,就會影響牛逼技術的產生」。

巨丹從事這份工作已有1年多的時間,她表示現在看到的世界「與眾不同」,比如在商場人群密集區,她滿眼望去都是「人體骨骼節點」的圖像,哪些屬於上肢,哪些又屬於下肢,哪些很清晰,哪些又被遮擋住了……她好幾次這樣看著就自己笑出聲來,覺得自己擁有了一項「超人」的新技能。

之前有外界對這樣的工作表達過悲觀,認為數據標註審核完全就是新時代的富士康工作,但顯然巨丹不這樣認為,她覺得有站在前面研發演算法和技術應用的人,也不能缺像她一樣的背後服務者,即便看起來沒有那麼光鮮。

AI Challenger數據集驗收中

巨丹的觀點也得到倪笑海認同,後者是Face++的第4號員工,也是此次AI Challenger提供的三個視覺數據集之一圖像中文描述數據集的標註團隊負責人。

倪笑海正在打造起一支數據標註方面的正規軍,他常對自己的團隊說,他們所做的工作可以說是「數字工人」,也可以看做AI前線的認知者,在每一個領域的數據標註中,他們都會因此成為對該領域AI化結合認知最深刻的人。

數據標註的工作,確實不輕鬆,但也並非外界想像的缺乏前景。

耗資數百萬

在Face++,倪笑海承擔了這家全球聞名的人臉識別公司光鮮背後的那部分工作,他出身金融財務專業,被印奇、唐文斌和楊沐等人拉攏參與創業,「負責了技術之外所有的事情」。

現在,倪笑海最核心的工作,是為Face++每一個垂直領域的開拓鋪墊基礎、準備好數據糧草。在Face++,每一名博士都會配備3-4名數據標註人員當助手。而倪笑海領導的300人規模的團隊,有些類似於京東壯大過程中的「京東物流」。

這一次給AI Challenger提供圖像中文描述數據集標註服務,倪笑海動用了團隊中的250人,其中200人標註,50人檢查,從2月份正式開工啟動,直至近期才基本結束,歷時超過7個月時間。

但這還未計入「標準定義」時期的時間。倪笑海認為,這才是一個數據集標註最具挑戰的部分。

原本這個數據集標註項目2016年10月就開始尋找團隊接手,但在公開標註市場找尋一圈之後,並沒有在「客服和運營轉型」而來的標註公司中尋得滿意的供應商。

於是創新工場投資公司Face++的標註團隊進入主辦方視野,希望藉助經驗豐富的Face++標註團隊來實現借圖像中文描述數據集」標註這一具有挑戰的任務。

實際的標註工作並沒有馬上開始,AI Challenger組委會與Face++標註團隊聚在一起,又花了一個月多時間進行任務的「重新定義」。如果不把這個標準工作變成一個可標準化執行的工作,那後期一定問題不少。例如標註的數據會偏,訓練出來的模型準確性也會大打折扣。

他認為這個前期定義的需求,需要「產品經理」式的人物定義和梳理,把每一個「描述點」摳清楚。

這也是人類傳授機器「智慧」、使其更加「智能」的過程。

比如在最初的設想概念中,圖像中文描述數據集中標註「描述」的任務,原始概念是「看圖說話,描述圖片中的場景」。

但在實際情況出發,這是一個無法標準化完成的任務,因為每一個標註人員之間的主觀重心不同、關注點不同,最後描述出的圖片可能也會差別巨大。於是在正式啟動標註前,組委會和標註團隊會花很多時間去明確「場景描述」里的主體,哪些主體需要描述,哪些可以忽略,如何量化描述的正確度。

主幹線索明確後,還需要通過多個主觀描述讓機器演算法在學習中找到「客觀」,於是在多組對比嘗試後,最終選用了5人獨立描述1張圖片的方式,確保描述的多樣性。這是一項對於標註團隊來說前所未有的任務。

因為之前的數據集標註,更偏向於垂直領域的演算法或自家技術的自檢自查,但這次更多出於產業化去做事,試圖覆蓋學術界到產業界,從落地的角度去看問題,於是標註起來的普適性要求更明顯——涉及場景更多,需要的圖片數據更廣泛,而按照關鍵詞分類,場景數量超過了250個。

倪笑海還透露,在溝通「定義」的過程中,他可以感受到AI Challenger執行委員王詠剛的期望:希望能夠傾力投入,從無到有打造一個中文世界的數據集和競賽,讓更多人才和AI交流愈加活躍起來。

量子位請倪笑海對比AI Challenger和ImageNet、MS COCO等數據集,他表示現在後二者在垂直領域上的高精尖地位還無法馬上被撼動。此次的數據集建設,創新工場、搜狗、今日頭條等主辦方致力於廣泛參與和影響力,但在將來持續的數據集建設中,超過ImageNet等經典數據集並非沒有可能。

關於未來的規劃,AI Challenger執行委員兼創新工場AI工程院副院長王詠剛說,主辦方將會花幾年時間,建成一個具有世界級影響力的科研數據集和競賽平台。今年的「圖像中文描述」、「人體骨骼關鍵點」、和「翻譯數據集」在各自的領域,都形成了獨特的優勢。但這僅僅是一個開始。接下來,主辦方將與最頂尖的學者一起,為最前沿的科學研究建設更多頂級數據集。

然而這並不意味著一切輕而易舉,背後的付出很容易被忽略。

王詠剛告訴量子位,這次AI Challenger的數據標註,光成本就花費了數百萬元,嚴格時間投入超過7個月,熟練標註員工投入400人。至少從數據集的角度將,這已是中文世界最具標誌意義的AI開發大賽。

數據集

在AI狂飆突進的這幾年中,最成功也最經典的數據集,非李飛飛和她的ImageNet莫屬。

ImageNet誕生於2009年,在2017年CVPR宣布合併到kaggle,在這8年歷程中,完全改變了AI研究的認知、方法,以及留下一個全新的數據集驅動的AI世界。短短7年內,ImageNet優勝者的識別率就從71.8%提升到97.3%,超過了人類,並證明了更龐大的數據可以帶來更精確的結果。

很多人都將此視作當今這輪人工智慧浪潮的催化劑。更為關鍵的是,「數據集重新定義了AI從業者對模型的思考方式。」

參與ImageNet挑戰賽的企業遍布科技行業的每個角落。2010年的第一場競賽優勝者都出任了百度、谷歌和華為的高管。馬修·澤勒(Matthew Zeiler)利用2013年贏得ImageNet挑戰賽時的程序創辦了Clarifai公司,目前獲得了4000萬美元風險投資。

2009年以來,數十個新開發的人工智慧研究數據集已經引入了計算機視覺、神經語言處理和語音識別等子領域。如何打造一個ImageNet一樣的經典數據集,成為後來者最核心討論的關鍵。

在中科院自動化所研究員王亮博士看來,打造ImageNet一樣的經典數據集,至少要有三方面的核心投入。

一方面是數據規模,至少是100萬級以上的規模,這樣才更有說服力;

二是多樣性,能夠有不同場景下的覆蓋,比如人臉識別中,光照、表情、各種角度的多樣性是否豐富,都會影響最後結果的準確性和泛化;

三則是數據最好接近真實應用,這樣不僅對於學術研究有正向作用,對於技術和產品研發落地,也能不斷補足演算法開發。

這位國家模式識別重點實驗室副主任坦承,做到以上幾方面並不容易。

在以往國家模式識別重點實驗室的研究中,他們通常的做法是先找可共享的數據集,再不行就自建數據集,但自建則意味著精力和成本投入,即便國家項目中有專門為數據集創建留出的預算,但承擔上限也極為清晰,他們尚未有超過50萬元規模的投入,這其中還不包括採集相關的費用,真是一件耗時費力的事情。

此外,更便利的方式是和企業合作,企業中的數據集偏嚮應用,規模和場景也符合,但涉及企業版權、保密等原因,企業開放數據需要機會和運氣。

這是王亮博士對此次AI Challenger飽含期待的原因之一。也是這個AI挑戰賽從無到有背後最大的挑戰。

發起這樣的比賽,不僅要投入時間、金錢、人力等各種資源,還要找到並說服合作企業開放數據,而且從結果看,最後搜狗和今日頭條開放的數據,也在中國互聯網史上堪稱前所未見。

在AI challenger宣布推出後的第二天,賽事發起人李開複寫下了一篇題為《從1983到2017,我的幸運與遺憾》的文章,詳細回顧了1983年至1988年李開復的博士研究往事。

當時在卡內基-梅隆大學攻讀計算機博士學位的他,從無到有用統計學的方法,通過建立大型的資料庫提升語音識別準確率,並打破了導師堅持的專家系統的研究方式。這讓26歲的李開復一戰成名。不僅是當年《商業周刊》評選的「1988最重要科學發明」,也讓李開復破格留校,成為卡耐基-梅隆大學的助理教授。

其間幸運的是,李開復的博士導師瑞迪(Raj Reddy)給予了這個當時「離經叛道」的學生莫大的支持和鼓勵,這點陣圖靈獎得主、CMU終身教授,不僅在精神上表現出「和而不同」的風度,而且在資料庫打造和計算資源支持方面,提供了共計30萬美元的研發經費支持。

「這在30多年前,我還是一個AI科研人員的時代,能接觸到真實世界裡如此海量的數據,是個遙不可及的夢想」,談到這次開放出來的數據集李開復說:「我當年受惠於瑞迪教授的幫助和指導,今天也非常希望能給更多和我一樣的年輕人,創造研究機會和條件」。

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

AI通過了藝術創作圖靈測試,你根本分不出來作者是不是人
有了這個新框架,任何遊戲都能變身AI訓練場
GeekPwn重金招募人工智慧黑客
特斯拉悄悄搞出無人車AI晶元,已經投產測試,而且沒帶英偉達
Perceptln獲三星數百萬美元投資,將切入自動駕駛領域

TAG:量子位 |