計算機視覺不是智能，只是記憶！

文史 07-01

計算機視覺不是智能，只是記憶：CVPR 2019程序主席開炮

轉自：機器之心

哲學園鳴謝

選自Medium

作者：Derek Hoiem

機器之心編譯

參與：路、杜偉

計算機視覺頂會 CVPR 2019 剛剛落下帷幕，近日 CVPR 2019 程序主席Derek Hoiem發表了一篇文章，認為計算機視覺正處於黃金時代，但它依靠的只是記憶，並非真正的智能。

隨著人工智慧的火熱，近年來 AI 學術會議正受到人們越來越多的關注。CVPR 作為首屈一指的年度計算機視覺盛會，在機器學習領域享有盛名。該會議已於當地時間 6 月 16 日-20 日在美國加州長灘舉行。據統計，CVPR 2019 共收到來自全球 14,104 位作者提交的 5160 篇論文（比 CVPR 2018 增加 56%），最終接收了 1294 篇，接收率約為 25%。CVPR 2019 共有 9227 人註冊參會，突破歷屆記錄。

CVPR 2019 程序主席、伊利諾伊大學香檳分校（UIUC）計算機科學副教授教授 Derek Hoiem 認為計算機視覺正處於黃金時代，但他也認為計算機視覺目前仍依靠記憶，大量方法不具備泛化性。

讓我們看看他是怎麼說的：

對於計算機視覺研究者而言，這是令人振奮但也壓力倍增的時代。上周二，本人有幸在 CVPR 2019 大會上向 9,277 位參與者致開幕詞。作為 CVPR 2019 四位程序委員會主席之一，本人主要負責管理論文評審流程（涉及 132 位領域主席、2887 位審稿人，以及提交 5160 份論文的 14104 名作者），並組織 1296 場 poster 論文的展示和 288 場演講。這是歷史上規模最大的計算機視覺會議，但四個月後會召開另一場盛會。

研究成果日新月異——誰又能跟上研究步伐呢？

CVPR 各年度論文提交數量（藍色）和接收數量（綠色）。

計算機視覺不再只是一種學術追求。數十億美元正投入到智能攝像機、自動駕駛等應用中。大多數教授至少花費一半的時間投身於工業，甚至剛畢業的博士生都可以拿到六位數的薪水。但這是泡沫嗎？我們又如何區分適用於商業化的成熟突破和炒起來的概念驗證呢？

首先，讓我們簡單回顧一下計算機視覺的發展歷程：

1963 年：Robert 的經典「積木世界」（Blocks World）論文利用精心設計的特徵和規則，構建圖像的 3D 目標。

1981 年：Lucas 和 Kanade 在僅僅 6 頁紙上，提出了用於運動跟蹤和立體視覺的有效演算法，之後幾何視覺和圖像處理領域出現大量進展。

1996 年：Rowley、Baluja 和 Kanade 介紹了首個現代目標檢測方法，這是一個訓練用於檢測人臉的神經網路。數字圖像激增，數據取代了規則。

2012 年：藉助於數以百萬計的標註圖像和 GPU 算力，Krizhevsky、Sutskever 和 Hinton 證明了深度學習的強大效能，將同類方法的誤差降低了一半。數據取代了手工製作的特徵。

2019 年：人臉識別、人體跟蹤和常見物體檢測實現了魔法般的效果。基於單個圖像的深度預測看起來棒極了。但只有新手才會試圖用不到 100,000 張標註圖像來解決問題。數據標註行業誕生了。

那麼，這就該提到計算機視覺領域的公開秘密了：計算機視覺只是記憶，而不是智能。

我們來看一個單視角深度預測的例子。2005 年，我提出了首個基於戶外圖像自動創建 3D 模型的方法。該方法的關鍵是通過標註像素、利用透視幾何規則構建簡單的場景幾何模型，以學習「識別」圖像的幾何。該方法在 30% 的情況下是有效的。

單視角 3D 重建的一種早期方法：少量數據、手動製作的特徵，以及一些數學知識。

單視角 3D 重建現在已經成為熱門話題，僅 CVPR 2019 就收到了大約 35 篇相關論文。一些方法能夠基於全景圖像生成場景布局，基於圖像生成目標網格，基於單視角生成深度圖。

但是，就像我和 UCI 的研究者發表在 CVPR 2018 的論文《Pixels, voxels, and views: A study of shape representations for single view 3D object shape prediction》以及德國弗萊堡大學研究者發表在 CVPR 2019 的論文《What Do Single-view 3D Reconstruction Networks Learn?》所指出的那樣，很多看似能解釋圖像幾何的方法實際上只是在學習過程中記住了圖像的幾何信息，並通過檢索與輸入類似的樣本來執行預測。預測得到的 3D 模型看似很好，但這些方法無法泛化到新的形狀或場景。

那麼，我們來考慮 3D 重建的兩個重要問題：

圖像深度。拍一張照片然後發到辦公室，就可以做 3D 測量和 QA/QC，豈不妙哉？再也用不著昂貴的激光掃描儀和複雜的攝影測量學了。夢境很美，但是現在請睜開你的眼睛。Matterport 公司最近發布了一款基於 360 度全景圖像進行深度預測的工具，這是一項卓越的數據收集和機器學習壯舉。相關的深度預測效果很好，邊也在正確的位置。但是它需要將一台 Ricoh Theta 全景相機放置在高度已知的三腳架上，由於相機參數和姿勢都是未知的，因此這引入了一些變化因素。而且它在使用時仍然不夠準確，編碼器-解碼器策略是一種記憶形式，因此在未來相當長的時間內，基於高度可變的構建場景執行預測很可能出現錯誤。現在，3D 最好還是留給無人機、視頻捕捉和掃描儀吧。我對將單視角識別和分割的深度方法與可生成準確幾何的多視角方法結合起來的潛力很感興趣。

自動進度監控。Reconstruct 公司將點雲和圖像與 BIM 對齊，以更便捷地進行自動對比、規劃和進度評估。這裡存在的巨大挑戰是構建元素和任務多種多樣，觀測結果不完整，需要同時評估幾何和材料屬性，以及如何獲取標註數據。一些人聲稱可以做到自動進度監控，但是缺乏數據和專業知識，我認為這些言論不適用於廣泛的應用。但是，語義分割領域的近期進展，以及如果有合適的數據，未來一兩年自動進度監控或許可以實現，至少可以用於粗略評估正在進行的工作。

總之，如果有人稱其最新解決了一個關於識別或預測的難題，請先問自己一個問題：他們有足夠的數據，支持其方法記住所有答案嗎？

要做到這一點，他們需要 1）具備海量數據；2）在數據標註上花費大量金錢（數百萬），或者擁有自動標註方法；3）預測問題足夠簡單，且你的領域足夠有限可以被他們的數據和標籤覆蓋。

幾十億美元的圖像標註行業的存在是有理由的，而且截至目前，數據沒有替代品。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 哲學園 的精彩文章:

※戰爭年代的公民自由：我們是否能夠吸取自己的歷史經驗教訓？
※劉小楓：東亞史的新與舊

TAG:哲學園 |