深度學習集體瓶頸,產業化加速時代CV研究出路在哪裡?| CVPR 2017
ImageNet比賽結束了。
夏威夷當地時間7月26日,CVPR 2017最後一天,李飛飛教授等學者在ImageNet workshop上緬懷過去8年計算機視覺(CV)發展的ImageNet時代,同時宣布挑戰賽最終歸於Kaggle。
同一天上午,WebVision也公布了第一期獲獎名單。
WebVision競賽由蘇黎世聯邦理工、Google Reasearch、卡耐基梅隆大學等共同組織,在官方口徑里,其使命便是接棒ImageNet比賽。但相較而言,WebVision所用數據集直接從網路爬取,沒有經過人工標註,含有大量噪音之外,數據類別和數量也遠大於ImageNet。
所以,ImageNet為什麼結束?WebVision將如何推動CV發展?CV學術與應用研究的出路又在哪?帶著這些問題,雷鋒網AI科技評論與多位計算機視覺專家進行了交流。
在CVPR研討會上,李飛飛教授作為谷歌研究院代表暨比賽贊助方,向碼隆科技演算法團隊頒發了WebVision冠軍獎項
為何CVPR 2017沒有驚喜?六天會議過程中,CVPR 2017的論文成果通過oral presentation、workshop、poster、spotlight等環節普遍都得到了展示,但業內人士普遍認為,「今年並沒有一個特別讓人興奮、驚喜的成果出來。」香港中大-商湯科技聯合實驗室林達華教授解釋稱,包括「Densely Connected Convolutional Networks」等最佳論文在內,我們看到了很多不同的網路設計的想法和切入角度,這些紮實的工作推動了現有體系、架構的一步前進,但是,卻普遍缺乏一個根本性突破(fundamental breakthrough)。
關於計算機視覺和模式識別的研究,過去數年依靠ImageNet數據集之下,通過深度學習該領域獲得長足的發展。但是,如WebVision主辦方成員李文博士指出,依賴於數據標註進行訓練,這也是過去到現在CV研究到達了瓶頸的原因。因為,很多實際場景中是沒有大規模標註數據的,如果WebVision希望推動半監督或無監督學習進行圖像理解的初衷能夠實現,將更符合現實的應用。
地平線機器人技術創始人及CEO余凱接受雷鋒網採訪時指出,「現在的深度學習其實是一個有問題的框架,基本是用大數據和很多標註數據來訓練,這過去幾年很成功,但不代表是正確的方向。」余凱表示,現在的計算機視覺的系統是一個(特徵為)training system的訓練,而不是一個learning system,我們要從training system變成learning system,讓機器主動,並結合數據的結構、時間空間結構去學習,而不是被動地用人工訓練來標註它。「在自動駕駛領域尤其重要,因為駕駛中永遠有好多corner case,這些在訓練數據集裡面是沒有的。」
對於當前CV研究現狀,林達華教授指出,「如今似乎是有新的成果誕生但又有所停滯的狀態,就像當年deep learning流行起來之前幾年的狀態——雖然各種思路百花齊放,但是很多核心問題都尚未取得新的突破性進展。」
不過,面對今年來自全球各地超過五千人的參會盛況,林達華教授說道:「現在處於承前啟後的階段,大家都非常關注計算機視覺這個領域。目前很多研究組都在積極開拓新的問題和方向,我相信未來一兩年內能夠在多個方向實現新的突破。」
以大公司,比如騰訊AI Lab的兩篇論文為例——「Deep Self-Taught Learning for Weakly Supervised Object Localization」,提出依靠檢測器自身不斷改進訓練樣本質量,破解弱監督目標檢測問題中訓練樣本質量低的瓶頸;以及「Diverse Image Annotation」,用少量多樣性標籤表達盡量多的圖像信息,該目標充分利用標籤之間的語義關係,以使得自動標註結果與人類標註更加接近——都強調了模型的自主學習和理解的方法的突破。
尋找下一個「突破」的方向和出路在今年的CVPR上,錄取論文涉及的領域佔比最高的五類是:計算機視覺中的機器學習(24%)、物體識別和場景理解(22%)、3D視覺(13%)、低級和中級視覺(12%)、分析圖像中的人類(11%)。
所謂的「突破」,即是大家都迫切希望解決這個問題,但是暫時又沒有很好的方法來解決,那麼就看誰提出了很好的方法。從今年CVPR的成果來看,data set的研究依舊火熱;不過,林達華教授指出,到現在,ImageNet基本上做到一個極限了。「當一個事情的標準做到98%、99%的時候,從學術的角度來說,這個事情做到這個程度,學術界的使命差不多終結了。」
所以,無論是新升級的WebVision競賽,還是大公司的研發——對於做學術的人來說,如何尋找新的挑戰?
林達華教授向雷鋒網AI科技評論介紹,在其實驗室的研究下,總結起來CV領域的突破方向主要有三個,而它們各自的未來和面臨挑戰是怎樣的呢?
方向一:做更大更有挑戰性的數據集在WebVision的workshop上,Google科學家介紹了他們如何用300Million的3D圖片做deep learning。而在更早之前,雅虎被收購前也發布了一個「YFCC 100M」,資料庫達到億級。
不過,這些數據最大的問題是,上億的數據集,像ImageNet那樣把標籤做好,幾乎是不可能的事情。在數據量龐大的情況下,帶來新的挑戰是:怎麼提供標籤?同時,每個領域的AI應用都需要各自領域的數據集,是需要每一個領域都標註一個自己的ImageNet?顯然這樣的效率難以被產業界接受。
所以,現在大家也不選擇提供標籤了,比如Google可能就直接通過data採集了一些標籤。只是也沒有完全百分百能夠確認標籤是對的,就在於校驗一下準確率達到70%、80%。WebVision比賽最重要的特點就是採用的非人工標註, 而是通過特定的標籤在互聯網上搜索1000個類的圖片, 這樣就容易引起圖像和標籤含有大量的錯誤信息(雜訊)。這不同於「乾淨」的ImageNet數據,圖片內容和對應的標籤都非常單一和清楚。
「那麼,怎麼樣使用這些有噪音的數據?這其實是帶來了一個非常大的挑戰。我們內部拿現有的視覺模型和學習方法在有噪音的數據集上測試過,發現不用說20%,哪怕是10%的錯誤標籤都會對性能產生嚴重的破壞。」林達華教授說道。
理論上說,如果有十倍以上的數據量,以及一個好的方法的話,機器識別和理解的水平必定要超越原本ImageNet的水平,但目前只能達到不相伯仲的結果。那麼問題就來了:是要投入一些資源,繼續做一百萬級的標註數據,還是就想辦法去解決上億的數據集問題?
「這是一個很open的領域。」沒有標註,就沒標準參照,機器怎麼處理這種帶噪音數據?如何把握機器識別的準確性呢?……這些都是有待探索的問題。
作為本次WebVision第一名獲獎得主,碼隆科技首席科學家黃偉林博士向雷鋒網AI科技評論表示,所以,要實現這個突破, 需要發展半監督(semi-supervised),甚至無監督(unsupervised)學習。這就需要設計更好、更優化的損失函數(loss functions), 來減少模型訓練對標籤數據的依賴。 對於更複雜的圖像分割任務, 最重要的應該發展弱監督(weakly-supervised)學習演算法,以盡量避免像素級別的標註。
在這個過程中, 最近很火的生成式對抗網路(Generative Adversarial Networks,GAN),可以自動生成大量的人工樣本,這些人工樣本對訓練缺乏樣本和標註的圖片數據有很大幫助,為解決多層次圖像理解提供重要的思路。 另外,如何利用少量的圖片數據和標籤來訓練足夠優化的深度模型也是重要的一個課題, 而課程學習(curriculum learning)對提升模型的泛化能力非常有效。
不過,如果擴展到更廣闊的計算機視覺應用領域,業內人士會覺得,這還不太夠。這就是下一個方向需要解決的問題。
「就是說我覺得計算機視覺要和robotics結合在一起,它是用時間的維度去看場景的變化,什麼是前景什麼是背景區,什麼是一個物體,什麼是形狀。最後理解到的結果應該是有空間信息的語義識別理解,現在都還很少,都是用弱監督、生成對抗的方法去做。」地平線機器人技術創始人及CEO余凱指出,
「所以我覺得研究方法要改變,研究的目的要改變。目的要改變是指,研究的空間和場景的關係,這尤其對自動駕駛特別重要。」
所以,這裡不是指NLP領域的所謂結構化數據。在自動駕駛領域中,林達華教授指出,很多人做自動駕駛的預測時,需要做路線的檢測、三維重建等,這些許多任務當中的每一個,從傳統學術的研究角度,是分開研究的。但是,實際中要解決這些問題,比如駕駛,就是個綜合的問題,人開車時也不會把任務分成若干個方向分別做判斷。
以往的圖像分割,每一次分割用一次CNN這樣的方法,並不能綜合處理這些任務。比如,通過地圖,周邊環境明明存在一個空間結構,圖像分割並不能將這些結構性空間考慮全面,「單純的語義分割,比如一張圖中標出這50萬個像素是路,另外80萬個像素是建築物,這是無法直接指導駕駛的。」
林達華教授表示,從學術的角度看,只有把結構數據融合在一個幾何的框架下面,才能知道客觀世界是什麼——前面多少米是人、 是建築,前面的車開得多快……這才是實際有用的成果。
「所以,所謂的結構就是有多個不同的方面,相互之間是有著數學上、語義上、物理上的各種聯繫。在多種補充結構相互聯繫的系統裡面,用系統的角度,帶著結構的角度,去系統地觀察,把不同的視覺聯合在一起解決問題,我覺得也是一個現在正在開始推進的方向。」
方向三:做視頻領域的ImageNet
承接上述結構數據處理的問題繼續展開想像,就會發現,整個CVPR 2017中,視頻理解相關的研究大約只佔整個會議論文不到30%的水平,但實際中這個問題的應用卻是極其廣泛。人臉識別、監控、互聯網視頻、自動駕駛等,全部有巨大商業價值的視覺數據,都是以視頻的形式存在的,不是一幀一幀的。
視頻相對與圖像而言,最重要的一點就是多了一個維度:時間軸。怎麼去利用這一個新的維度,利用時間的關係……
據了解,今年就有很多大公司、研究小組都做了新的視頻數據集(video dataset),包括Facebook、Google、伯克利大學等。「大家都去爭取當video domain的ImageNet,誰能夠脫穎而出?現在還不好說,這是百家爭鳴的戰國時代。」林達華教授說道,「但是,video是一個非常重要的方向,這也是我們實驗室過去兩年也在持續投入的。」
挑戰:學術與商用疊加的距離WebVision在今年的CVPR大會上開設了一個專題,上面提出了 Visual understanding and learning from web data 的挑戰。平安科技首席科學家,平安科技人工智慧總工程師劉飛解釋稱,也就是說,今年的挑戰分為兩項:第一項還是關於圖像分類,另一項挑戰是關於遷移學習的。
前面大家都意識到了無監督學習、半監督學習等重要和困難,不過從產業界觀察學術進步的角度看,劉飛指出,遷移學習恐怕才是比較有新意的、更大的挑戰。「遷移學習是為了解決在一類環境下學習到的模型能用於一個全新環境下缺少樣本數據的機器學習的問題,遷移學習是提升機器學習泛化能力的一個出路。如果遷移學習的技術有較快發展進展,那麼以後深度學習技術將會比較快速和廣泛地部署到各個領域的商用場景。」
但是,實際應用中,很多時候對圖像的處理不只是視覺問題,更多也涉及到需要NLP交叉結合的研究。結合實際應用處理的經驗,劉飛稱,
WebVision如今提到的視覺理解目前還只是字面意義上的,可能會通過今後幾年提出的新挑戰來體現。真正的視覺理解更加大的挑戰應該是理解圖像內容的語義內涵,而不僅僅是檢測定位、分類這些任務,還要理解圖像表達出的人類高級知識範疇的內容,例如一副圖片是表達出一個社會事件、一次個人聚會,或是一副什麼風格的藝術作品等等,這些都是以往人類用語言表達出的內容。
無獨有偶,騰訊AI Lab計算機視覺總監劉威博士接受雷鋒網AI科技評論採訪時也指出,
現在互聯網上的數據很多都是視覺與文本信號共同出現,譬如騰訊視頻,不僅有視頻信息,還有音頻信息,還有相應的字幕、評論和彈幕等信息。如何挖掘或者學習他們之間的相關性也是業界的研究熱點。
近年來計算機視覺+NLP相結合,出現了很多熱點的研究問題,譬如圖像文本匹配、圖像描述生成、圖像問答等。今年的CVPR的其中一個keynote也是邀請了NLP領域斯坦福大學的知名教授Dan Jurafsky,討論了language方面的研究進展。因此,多個交叉領域的研究,更能推動研究成果在實際業務場景中的應用。
所以,討論完這些方法論後,對於「未來要實現這個突破,還要經歷一個怎樣的創新期?」這個問題,跨領域機器學習的技術融合,例如計算視覺、自然語言處理、語音識別等的融合;以及學術界與產業界的進一步研究合作,是業內人士普遍希望推進的路徑。
同時,中國互聯網公司的眾多創新,大多還停留在應用層面或技術層面。而美國創新科技的研究,往往是從理論的根基出發,建立一套完整的思維方式,這也是為什麼美國,尤其是矽谷,在過去數十年一直引領創新的原因:他們有能力也有意願從基礎研究出發,與大學、研究機構保持密切關係,共同完成學術創新和商業化。
如商湯科技CEO徐立所言,AI的火熱都不是一夜時間的事情,雖然看起來像是一夜梨花開,但更重要是一直以來源頭創新工作的厚積薄發。在本屆CVPR,商湯科技與香港中大-商湯科技聯合實驗被共同錄取23篇論文,這個數量遠高於BAT。「現在,基礎研究不能丟,才能帶來足夠的時間窗口。AI的發展需要產業和研究相結合,以定義問題,解決問題。」


※獨家 | 英偉達「把 AI 帶到計算機圖像」,三大新品亮相 SIGGRAPH 2017
※「穿上軍裝」之終極反轉:票圈二維碼到底靠不靠譜?
※Oculus談向第三方頭顯開放內容平台:計劃內,但還未準備好
※對話海雲捷迅李華:傳媒、教育、醫療等本土行業大戶都在選型 OpenStack,開源雲計算的春天到了么?
※三星 S8/S8 開始支持谷歌 Daydream VR 平台
TAG:雷鋒網 |
※NVMe加速取代SATA,WD推出DC SN630和CL SN720兩款NVMe SSD
※ARM發布三款新產品,進入5G時代,加速AR-VR
※AMD 7nm CPU/GPU加速 今年底推出
※加速癌症ADC新葯研發,Sutro擬7500萬美元IPO
※加速360度視頻創作,英偉達推出VRWorks 360 Video SDK 2.0
※華為雲刷新深度學習加速紀錄:128塊GPU,10分鐘訓練完ImageNet
※3天上手,30天精通!——深度學習FPGA加速器設計
※大朋VR攜手終極科技發布4G/5G直供電VR一體機,加速線下/共享VR發展
※英特爾公布Nervana NNP-T深度學習訓練加速器:台積電16nm工藝、32GB HBM2內存
※SK海力士1ynm DRAM將在2019年Q1開始供貨,恐加速DRAM價格下滑
※MWC 2018觀察:AI+5G加速VR/AR成為互聯網新介面
※AMD推出適用AI和HPC的MI60/MI50加速器
※NVIDIA Tesla M4 低功耗設計加速卡 深度學習
※Intel第三代加速卡登場,助力交付5G網路服務 | MWC 2019
※7nm EUV工藝 AMD RDNA2要上硬體光追加速
※加速快過F1?品鑒BMW全新HP4 RACE
※NVIDIA發布PhysX SDK 4.0下載,物理加速引擎正式開源
※Intel發布二代至強W處理器:28核加速4.6GHz TDP大降50W
※AMD發布高頻版EPYC 7371:16核心、最高加速3.8GHz
※百公里加速4.5s內的SUV排行TOP3,最快僅需3.1s