Uber發布的CoordConv遭深度質疑,「翻譯個坐標也需要訓練?」
前幾天,Uber AI實驗室發布了一篇非常矚目的論文,說卷積神經網路 (CNN) 在一些很簡單很直接的任務裡面,會失守。
比如,一張白色圖片,上面有個黑點。給CNN餵食這個點的 (i,j) 坐標,它就是畫不出原來那幅圖。
總結起來,監督渲染、監督坐標分類,以及監督回歸,對CNN來說都是大難題。
於是,團隊提出了CoordConv,來回收這些失陷的領土。
不過很快,這篇論文,和拯救CNN的主角CoordConv,就被一篇有點長的博文「鞭屍」了。
博客的主人Filip Piekniewski (暫稱菲菲) 說,他給這項研究做了屍檢。
加個特徵,而已
首先,關於 (上文白紙黑點) 定位問題,Uber團隊發現,CNN不擅長把笛卡爾坐標(i,j) 轉換成獨熱像素空間(One-Hot Pixel Space) 里的位置。
菲菲提到,CNN的結構,從福島邦彥新認知機(Neocognitron) 的年代開始,基本就設計成「忽略位置」的了。
而CoordConv要做的,就在給神經網路的輸入里,加上兩個坐標通道,一個i一個j,明確告訴AI哪是哪。
果然很有道理啊。可是……
總感覺,隨便一個小夥伴在實操的時候,都能對CNN做個類似的小加工,就是加個特徵,解碼起來更舒服嘛。
菲菲說,做計算機視覺的同行們,沒有人會覺得加了幾個特徵就是不得了的事情。
平平無奇
雖然,有一個非常火熱純學術辯題,就是一些學者認為,大家只應該用那些學習到的特徵 (Learned Features) ,而經濟實用派的選手們不同意。
從這個角度上來說,如今現在深度學習圈的人們,也開始認同特徵工程(Feature Engineering) 了,可以可以可以。
訓練成果,啊這也需要訓練?
加了一層坐標之後,團隊就測試了一下神經網路的表現。
可愛的是,這裡用的數據集名字叫「Not-So-Clevr」。
任務就是,用坐標生成獨熱圖像,以及用獨熱圖像生成坐標。
結果表明,神經網路的性能確實比沒加那一層的時候,好了一些。
不過,如果這些人不要那麼激動,坐下冷靜冷靜,可能就會發現,直接搭一個能把笛卡爾坐標和獨熱編碼互相轉換的神經網路,不就好了么?
菲菲有了這個想法,就自己寫了一串代碼——
一個卷積層,一個非線性激活,一個加和,一個減法。解決戰鬥。
他說,這種事情,就別花時間訓練了。
100個GPU
論文主體結束之後,正片才開始。
Appendix裡面,有這樣一個表格。
Uber團隊拿他們的坐標特徵,在ImageNet上搞了一下。
具體做法是,加在了ResNet-50的第一層。
菲菲覺得,這樣玩應該沒什麼X用,因為ImageNet里的類別,根本不是位置的函數。就算開始有這樣的偏見,訓練中的數據擴增也會把它抹掉了。
令人驚喜的是,研究人員用了100個GPU來訓練這個改進之後的神經網路。
結果是,到了小數點後第三位,他們終於獲得了微弱的安慰獎。
菲菲說,如果有一萬台GPU,大概也是可以用上的,無限風光,在險峰嘛。
真有那麼壕的話,不想做點更有意義的訓練么?
請開始你的表演
菲菲的嘲諷熔成一句話——
這樣的作品,還有人叫好,真讓人難過。
那麼,你怎麼看?
—完—


※馬上開始的機器學習頂會ICML該關注什麼?論文集、精彩Workshop都在這裡
※只需一張照片,運動視頻分分鐘偽造出來
TAG:量子位 |