曠視科技孫劍:物體檢測中很難用函數逼近去解決的幾大問題
2月8日,由北京市經濟和信息化委員會和海淀區人民政府共同主辦的「2018北京人工智慧產業高峰論壇暨北京前沿國際人工智慧研究院成立大會」舉辦。北京前沿國際人工智慧研究院在大會上宣布正式成立,李開復博士為首任院長。
在會上,深知無限人工智慧研究院首席科學家、歐洲科學院院士漢斯·烏思克爾特,創新工場董事長李開復,曠視科技首席科學家孫劍,商湯科技CEO徐立等發表了演講。孫劍帶領的團隊於2015年獲得圖像識別國際大賽五項冠軍,研發的「深度殘差網路」 (ResNet)和「基於區域的快速物體檢測」 (Faster-RCNN)技術已經在學術界和工業界廣泛應用。AlphaGo Zero的一個模塊,即是出自曠視科技的深度殘差網路ResNet。在演講中,孫劍表示,儘管依靠深度神經網路計算機視覺技術有了突破,但是還有很多問題很難用函數逼近去解決。
以下為孫劍演講實錄,經黑智編輯整理:
今天我主要講一些科研方面的內容,講一些對人工智慧的現狀和今天能做什麼,過五年能做什麼,和我們今天不能做什麼,以及為了克服一些困難,我們應該朝哪個方向進行深入研究。
人工智慧分成幾個大的板塊,其中很大一塊是曠視科技正在做的計算機視覺方向。為什麼要做計算機視覺?其實和語音識別/自然語言處理比起來,它有非常多的應用場景,尤其是最近一兩年非常熱的應用場景,就算我們公司專註於做計算機視覺,我們也只能聚焦在若干個場景里。目前有幾個感知的核心問題,檢測、分類、分割等問題。分類問題有幾大變革,從做SBM轉向卷積神經網路,它是一個非常長的過程,走到這一步是不容易的。
人工智慧的核心技術是深度學習。為什麼叫深度學習?具體來說就是網路層數非常多,比如我們在若干年前只可以做七八成,過了幾年可以做成二十幾層,是非常大的突破。2015年,當時我還在微軟亞洲研究院,我們團隊做了一個工作,第一次把網路推進到152層。可以把圖像識別做到在特定的一個非常大的數據集上有所突破,這個是在建這個資料庫之初所有人都想不到的。這背後意味著什麼?我們今天是一點一滴做出來的,並不是說這些演算法是幾十年,還可以作出這些效果。其中也包括數據不夠大的問題,我們在這個過程中訓練量不夠的問題。我們自己得到一個啟發,我們的網路結構優化並不是非常友好,所以導致很難呈現或者運用非常深。
最近的研究進展,我們自己也有很多解釋,比如損失曲面的分析方法。自此之後大家開始設計網路,從12年到16年,有各種各樣的網路出來。最新的狀況,包括谷歌和我們都有一些方法搜索這些網路。我們面臨很多的問題,美國提出設計各種各樣的網路,這是最新的進展。
我關心的第二個問題是物體檢測問題。物體檢測問題以前只是歸結為做分類的問題,今天去做物體檢測更加豐富,涉及到物體檢測框架的問題。這些網路本身的設計,包括物體檢測框架不斷的改進,導致我們能做什麼呢?幾年前我們做車,今天可以對一個非常豐富的物體進行高精度的檢測,可以知道具體的邊界在哪裡。我們做的可以運用在城市級的管理上,知道所有的人車屬性。
還有一個很有意思的方案,我們在端上的處理器也好,NPU也好,也非常強大。iPhone X發布後有兩個非常重要的方面,一個是說有這樣的屏,第二個是計算機視覺研究人員非常夢寐以求的深度滲透。這一點2008-2009年左右微軟推出了NET,可以在四五米範圍內很好的深度,達到了普及。今天iPhone X的發布讓深度恢復在手機上成為一個快速發展的產物。
曠視科技也做了一些工作,包括最新設計的最有效的端上的神經網路設計,把它用在手機上,幫助我們國內生產廠商,甚至在iPhone X發布之前就發布了各種解鎖功能。手機只是端的一種形態,更重要的端的形態是在整個城市中,室外有各種攝像頭,室內也有攝像頭,攝像頭的智能化普及率非常低,嚴格來說不到1%或 2%,曠視科技發布了一款智能人像抓拍機,它是目前業界唯一一款全畫幅全幀率,每秒30幀,實時做圖像抓拍的智能攝像頭。
我們面臨什麼挑戰呢?今天雖然有深度神經網路,但是只能解決函數逼近問題,有很多問題很難用函數逼近去解決。雖然說視覺是感知問題,但是視覺背後有很多認知問題,所以視覺橫跨感知和認知領域。
比如物體識別的「定義」問題。要定義「椅子」就非常困難,你很難定義清楚它。但如果一上來定義不清楚,怎麼談到做精確的物體識別?還有很多定義的概念是包容性的,千差萬別。只有對這些概念有很好的建模,才能做場景理解。
還有一些很特殊的光照、特殊的姿態、遮擋等問題。大家看圖裡的紅色框,其實有兩個人,一個人被遮擋在後面,大多數人看這個東西還是很容易看出後面一個人,今天物體檢測方法非常非常好了,依然做這個做的不太好。
還有一些需要上下文支持的問題。這圖後面這兩個紅框是什麼東西?大多數人看不清楚但是可以猜可能是人,我們今天的機器還沒有這個能力去做這樣的推理。 另外一個例子,看一張圖很難想像是什麼東西,但如果你有上下文理解的話會知道這是什麼東西。
還有一個很有趣的是我們做視頻分析,人有很強的「跟蹤」能力,但是如果把今天最好的跟蹤系統拿出來,大家看這個圖上這塊人聚集的位置,重疊非常嚴重,今天的機器很難做到這個。我們檢測方法並沒有非常好的推理機制在裡面。
還有一些挑戰,像機器人要做好手眼配合,今天為什麼家庭機器人賣不出去?因為它不能做家務,不能做飯。還有更多的挑戰,不管是做無人車,還是做無人駕駛,確實在一定程度上要求的精度是非常高,甚至高過現在的標準,人工智慧技術才能順利地推廣下去。
……
我在2010年寫過一篇文章,怎麼做深度學習、人臉識別,當時還沒有進入人臉識別,通過建立一個大的資料庫,用關聯預測的機制來改善人臉識別的問題。當然預測也很重要,圖象預測,左邊有南瓜,摳掉以後,用圖象學的方法來求解南瓜後邊是什麼東西,當時還需要引入人的交互劃一條線,這是一種人的預測。預測的背後是很好的學習機制,我們通過每天觀察世界,通過預測知道結果,形成海量的數據。左邊是我們當時做的rich image,這張照片你需要識別出是什麼人,什麼地方,才能看圖說話。
如果做這麼一個系統,我們會構想什麼樣的系統才能把這個困難放在系統里解決,不是單點突破。大家看AlphaGo的成功,AlphaGo zero的成功,AlphaGo zero的成功是因為它能快速的模擬,給我們的啟示是我們如果要想做好人工智慧,需要建立一個虛擬的世界,快速的去模擬這個世界,哪怕這個世界是簡化的,讓這個世界能夠運行起來。運行起來,不管是有無監督,預測、推理、觀察都可以在這個世界重運行,當然這個不容易,但這是我們非常看好的研究方向。謝謝大家。
本文來自黑智,創業家系授權發布,略經編輯修改,版權歸作者所有,內容僅代表作者獨立觀點。[ 下載創業家APP,讀懂中國最賺錢的7000種生意 ]


※馬云:公司里都是男性 它是不會成功的
※亞馬遜無人店VP:消費者拿走商品不付錢就算了
TAG:創業家 |