當前位置:
首頁 > 科技 > Uber發布的CoordConv遭深度質疑,「翻譯個坐標也需要訓練?」

Uber發布的CoordConv遭深度質疑,「翻譯個坐標也需要訓練?」

前幾天,Uber AI實驗室發布了一篇非常矚目的論文,說卷積神經網路 (CNN) 在一些很簡單很直接的任務裡面,會失守。

比如,一張白色圖片,上面有個黑點。給CNN餵食這個點的 (i,j) 坐標,它就是畫不出原來那幅圖。

總結起來,監督渲染、監督坐標分類,以及監督回歸,對CNN來說都是大難題。

於是,團隊提出了CoordConv,來回收這些失陷的領土。

不過很快,這篇論文,和拯救CNN的主角CoordConv,就被一篇有點長的博文「鞭屍」了。

博客的主人Filip Piekniewski (暫稱菲菲) 說,他給這項研究做了屍檢。

加個特徵,而已

首先,關於 (上文白紙黑點) 定位問題,Uber團隊發現,CNN不擅長把笛卡爾坐標(i,j) 轉換成獨熱像素空間(One-Hot Pixel Space) 里的位置。

菲菲提到,CNN的結構,從福島邦彥新認知機(Neocognitron) 的年代開始,基本就設計成「忽略位置」的了。

而CoordConv要做的,就在給神經網路的輸入里,加上兩個坐標通道,一個i一個j,明確告訴AI哪是哪。

果然很有道理啊。可是……

總感覺,隨便一個小夥伴在實操的時候,都能對CNN做個類似的小加工,就是加個特徵,解碼起來更舒服嘛。

菲菲說,做計算機視覺的同行們,沒有人會覺得加了幾個特徵就是不得了的事情。

平平無奇

雖然,有一個非常火熱純學術辯題,就是一些學者認為,大家只應該用那些學習到的特徵 (Learned Features) ,而經濟實用派的選手們不同意。

從這個角度上來說,如今現在深度學習圈的人們,也開始認同特徵工程(Feature Engineering) 了,可以可以可以。

訓練成果,啊這也需要訓練?

加了一層坐標之後,團隊就測試了一下神經網路的表現。

可愛的是,這裡用的數據集名字叫「Not-So-Clevr」。

任務就是,用坐標生成獨熱圖像,以及用獨熱圖像生成坐標

結果表明,神經網路的性能確實比沒加那一層的時候,好了一些。

不過,如果這些人不要那麼激動,坐下冷靜冷靜,可能就會發現,直接搭一個能把笛卡爾坐標和獨熱編碼互相轉換的神經網路,不就好了么?

菲菲有了這個想法,就自己寫了一串代碼——

一個卷積層,一個非線性激活,一個加和,一個減法。解決戰鬥。

他說,這種事情,就別花時間訓練了。

100個GPU

論文主體結束之後,正片才開始。

Appendix裡面,有這樣一個表格。

Uber團隊拿他們的坐標特徵,在ImageNet上搞了一下。

具體做法是,加在了ResNet-50的第一層。

菲菲覺得,這樣玩應該沒什麼X用,因為ImageNet里的類別,根本不是位置的函數。就算開始有這樣的偏見,訓練中的數據擴增也會把它抹掉了。

令人驚喜的是,研究人員用了100個GPU來訓練這個改進之後的神經網路。

結果是,到了小數點後第三位,他們終於獲得了微弱的安慰獎。

菲菲說,如果有一萬台GPU,大概也是可以用上的,無限風光,在險峰嘛。

真有那麼壕的話,不想做點更有意義的訓練么?

請開始你的表演

菲菲的嘲諷熔成一句話——

這樣的作品,還有人叫好,真讓人難過。

那麼,你怎麼看?


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

馬上開始的機器學習頂會ICML該關注什麼?論文集、精彩Workshop都在這裡
只需一張照片,運動視頻分分鐘偽造出來

TAG:量子位 |