曠視COCO獲獎團隊親述:我們是如何兩年拿下7個冠軍的
郭一璞 假裝發自 慕尼黑
量子位 報道 | 公眾號 QbitAI
即將年滿7歲的曠視,最近給自己送了一個生日禮物,計算機視覺頂級賽事MS COCO的Detection(並列)、Panoptic、Keypoints和Mapillary Panoptic四個項目的冠軍,繼去年三冠一亞之後,連續兩年成為該賽事上全球表現最佳的公司。
量子位在出結果後採訪到了曠視科技參加COCO比賽的團隊。
今年COCO很艱難
今年帶隊的除了曠視科技首席科學家、研究院院長孫劍之外,還有去年的冠軍領隊、曠視科技研究院Detection組負責人俞剛博士,另外還有十餘位同學,大部分是實習生。
從5月中旬啟動比賽,到8月結束,曠視COCO小分隊從確定團隊分工、定方向到逐步優化,歷時三個月,蟬聯冠軍王。
不過,聊到這四個冠軍的成就,俞剛博士似乎並沒有特別激動,他對今年的比賽有兩個字的評價:艱難。
團隊成員華中科技大學博士在讀的余昌黔說,艱難到個別時候晚上十點睡下,兩三點又要從床上爬起來,再做一波實驗。
不僅艱難,曠視的一個遺憾是演算法沒有達到內部定下的量化目標。
這場景很熟悉,讓人想起學霸同學聲稱自己考砸了,結果分數出來是年級第一的故事。
去年奪冠後,曠視把目標定得過高了,在實際比賽中並沒有預料中那麼好。曠視COCO團隊實習生、北航研二在讀的殷斌一同學對量子位說,在他參加的項目里,團隊自己拆分出驗證集測試,得分超過80,但實際挑戰集卻只有76分,讓大家不得不費盡功夫,0.1分0.1分的向上提。
至於如此艱難的原因,一方面是COCO「走不動了」,達到了一個飽和狀態;二是演算法上面還有比較長的路要走,需要更多極致的創新來突破現有的技術水平。
好在雖然艱難,但這並不妨礙他們拿到四個項目的冠軍。
自己的數據集
COCO數據集因為數據難度以及標註誤差,導致演算法越來越飽和了。曠視自己內部開始研究檢測任務的後續方向,建立了兩個內部數據集。
俞剛博士介紹了曠視的兩個和COCO有關的數據集:
第一個是CrowdHuman,包含大量多人重疊照片,專門針對COCO比賽中人人人人人人人人山人海的檢測。
第二個數據集目前還在搜集中,曠視內部的名字叫做COCO++,緣起於COCO的「指鹿為馬」現象,因為COCO只有80個標籤,難以覆蓋世間萬物,所以比如當它見到一頭鹿的時候,因為沒有鹿這個標籤,只好標註成馬。因此,曠視準備做COCO++這樣一個數據集,希望能夠覆蓋世界上99%的物體,減少出現這類差錯的機會。
COCO:中國隊對戰中國隊?
關於COCO的另外一個話題就是:包括曠視、商湯、北郵、滴滴等在內,拿冠軍的都是中國隊,全無谷歌、Facebook等美國大公司的身影。
這一點俞剛博士覺得與國內的AI發展氛圍和創業公司特點分不開。
一方面國內AI熱潮正處風口浪尖,發展氛圍更好,投入的資源人力足夠多,政策也支持,國內研究AI的熱情空前高漲,「從人才潛力這個角度講,中國不會比歐美差,我們需要更好的環境、更好的團隊氛圍來釋放人才潛力,這也是曠視科技研究院一直在做的事。」
另一方面則得益於國內創業公司的資源傾斜。大公司業務廣,牽扯多,在COCO比賽這類項目上,單點投入不夠集中;而創業公司單點投入更集中,一旦決定參加COCO,團隊力往一處使,比賽過程更高效,成績自然會比大公司要好。
得勝武器:人才培養
COCO這類比賽,最離不開的是人才。
俞剛博士也這麼認為,他把曠視今年拿下四個冠軍歸因於對人才的培養。
一方面,曠視內部一直在培養新人,人才不斷檔,才能支撐比賽陣容;
另一方面,曠視也一直有足夠的技術積累,每天刷arXiv分享優質論文是技術團隊內部的必修課,並且需要分析提煉論文中值得學習的內容,而非簡單的複製別人開源的成果,讓團隊整體也有提升。
或者說,COCO比賽對曠視的價值就在於帶新人練級。
雖然去年的奪冠神器Brain++已經內部應用,但COCO成績離商業落地還沒有那麼近。因此,參與COCO的團隊也是實習生為主,就像騰訊互娛的校招新人會自己做小遊戲一樣,比賽對曠視更重要的是人才培養,是曠視人才戰略的一部分。
所以,COCO比賽中,他們採取了以老帶新的方式來培養團隊。經驗豐富的研究員指導年輕研究員,傳授經驗;年輕人也可以在比賽的過程中獲得自己的經驗體會,提升認識和理解,還可以有新的成果出現。
殷斌一同學對此有深刻的感悟。
在學校的時候,殷斌一苦於學校的計算、數據集等資源限制,渴望更好的平台。
COCO開始前兩個月,還是北航研一學生的殷斌一剛剛來到曠視實習,彼時的他,剛剛開始自己在深度學習、計算機視覺領域的學術研究生涯,雖然擅長代碼,本科時還拿過ACM區域賽銀牌,但對演算法一竅不通。
在曠視團隊參與COCO的過程中,殷斌一逐漸搞清楚了數據、模型、測試等過程,明白了從頭到尾的整體方法邏輯。現在,他已經能夠自己獨立跑程序、訓練模型,完成整一套過程了。
而另一位團隊成員余昌黔已經在曠視實習一年多了,開學季這幾天,他剛剛在華中科技大學開始自己的博士生涯。
在COCO的workshop中,他不僅見到了敬仰已久的大神Ross Girshick和何愷明,還上台演講,被主辦方稱讚比人標的ground-truth結果都好,收穫了在場全世界各國參賽者的一片歡呼。
Ross Girshick 為曠視團隊頒獎
研究&落地雙管齊下
在曠視內部,研究和落地同步進行著。
落地做實用,比如在手機端運行AI程序,限制在手機的硬體水平之上,模型更小,對用戶體驗追求更高;
而研究則是探求物理極限,可以盡量用大模型,用大量硬體。
參加比賽是以老帶新,用最快速度培養出更多新秀去做產品;
而專做產品的人也要參與研究,把眼界放長遠,提升自己的判斷能力,培養自己對於技術方向的想法,而不僅僅局限於眼前,才能為自己謀取更高的成長天花板。
這是俞剛博士分享的曠視人才觀。
這一點也反映在了COCO團隊的組建上。
曠視在組建COCO參賽團隊時,先根據新人的興趣點、愛好特長來分組,如果缺人,再去協調其他團隊。之後COCO的成果也會反映在商業落地上,去年的奪冠秘籍Brain++就已經在內部應用了。
能用大量商業資源推動研究,同時研究成果能迅速反哺實際應用,這真是計算機科學家們最好的時代。
實習生:博士,碩士,甚至高中生
曠視的COCO隊員余昌黔和殷斌一都是實習生。
殷斌一此前也有在其他科技公司實習的經歷,不過並非在研究部門,而是實際商業落地部門,主要工作是寫業務代碼,沒有做研究的機會,「搬磚」的意味更強一些。
而在曠視,能享受充足的研究資源,隨時隨地請教大牛,在前輩們的push下迅速成長,是他在別處無法獲得的巨大收穫。
時至今日,已經成為COCO冠軍團隊成員的他在學校依然行事低調,還沒有把這個在校外獲得的成就告訴導師和同學。
余昌黔則已經碩士畢業,對科研有著更深一層的認識。他說,曠視科技研究院滿足了他對理想研究院的所有期望:團隊氛圍非常好,周圍大牛雲集,工作也很自由。
並且曠視研究院這類企業研究院的方向也與讀碩士、博士也不衝突:都是為了得到優秀的研究成果、能公開發表,企業研究院還有更好的硬體與數據資源。
前面兩位是碩士和博士,但絲毫不過誇張的是,曠視還有過不下十位正在讀高中的實習生。
第一位高中實習生的名字叫做范浩強,當時他在人大附中讀高三,因為信息學奧賽的優異成績已經被保送到了清華,而當時他的信息學教練正是曠視科技CTO唐文斌。
欣賞范浩強才華的唐文斌對他發出了邀約:
「我要去開一家公司,叫曠視科技,你要不要來?」
就這樣,高中生范浩強成為了曠視的前10號員工之一。清華本科畢業之後,他終於「轉正」成了正式員工。
有了一個范浩強,就會有更多高中生,他們以學長帶學弟的方式,紛紛來到曠視實習(很遺憾,暫未聽說有學妹)。
俞剛博士介紹,來曠視實習的高中生各地都有,他們都不需要高考,或是已經參加競賽保送了,與其高三無所事事,不如來學點東西;或是準備申請國外的本科,實習中如果有研究成果,也更容易的拿到國外高校的offer。
在曠視呆過的實習生們,轉正率非常高。如果繼續升學深造,大多數也能去不錯的學校,迄今為止已經有三位實習生去了斯坦福。
不過,雖然前面提到的幾位實習生都是名校背景,但曠視也並不是只要名校生。
俞剛博士說,主要還是看求職者的閃光點,比如是否擅長代碼,學習新知識的能力是否優秀等。有這些亮點,便值得加以培養。
One More Thing
俞剛博士還透露,今年曠視的冠軍模型會在遷移到TensorFlow之後開源,預計會是今年年底前後。
—完—
加入社群
量子位AI社群28群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。


※小米距告別破發還差2分錢
※中國AI公司公開擊敗谷歌微軟,這次是Yi+AI視覺團隊
TAG:量子位 |