當前位置:
首頁 > 科技 > 不用P30 Pro,普通手機也能變身望遠鏡:陳啟峰團隊新作,登上CVPR 2019

不用P30 Pro,普通手機也能變身望遠鏡:陳啟峰團隊新作,登上CVPR 2019

花栗子 郭一璞 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

華為「單反」P30 Pro,從遠處拍到的埃菲爾鐵塔,連設計師們的名字都看得清。

這樣的變焦技能,奢侈到讓人心生嫉妒。

不過現在,就算不是P30 Pro,沒有徠卡四攝,沒有4,000萬像素,只靠深度學習iPhone也可以把50米之外的細節,拍得清楚明白。

比如,你在街上走著,望到了對面的店鋪,牆邊立著像梯子一樣的東西:

這時候,如果用普通的數碼變焦拍一張特寫,約等於自暴自棄:

那麼,讓超解析度的大前輩ESRGAN試一下。

還是有些力不從心:

是時候展現真正的技術了。

主角出場,超進化的數碼變焦:

原來它長這樣啊。每一道銀色的線條,都堅定地橫在畫面上,沒有被黑暗的背景消融掉,細節比前輩生成的清晰許多。

走著走著,又看到了20米以外的小幅海報,上面細小的網址,不用走過去拍也能看清:

這隻眼力上佳的AI,微調一波之後,已經在iPhone X的相機上測試可用。

論文還中了CVPR 2019的Oral。作者有四位,一作是伯克利的博士生張璇兒,二作是港科大的助理教授陳啟峰。

團隊說關鍵在於,不能只用RGB圖像數據來訓練要用原始數據

不一樣的數據集

在超解析度的世界裡,有些標準操作,大家已經習以為常。

卻沒發現,原本常用的數據集,帶來了兩個嚴重的問題。

第一,因為神經網路需要成對的圖片,一張高解析度一張低解析度,來解鎖從低清里恢復高清的技能。通常的做法是,對高清圖片做降採樣(Downsampling) ,得到對應的那張低清圖片。

降採樣,會間接減少圖像的噪點。

而超解析度通常是要把遠處的物體放大,離鏡頭越遠的物體,它所在的區域噪點會越多,因為進入光圈的光子少了。

這樣說來,用降採樣炮製的數據,不太適合拿來訓練超解析度的技能。

第二,現有的大多數方法,都是直接用8位RGB圖像當訓練數據的。

但RGB圖像,不是攝像頭的原始數據 (Raw Sensor Data) ,是圖像信號處理器 (ISP) 加工過的。

這加工步驟會損失一些高頻信號,其中一個目的也是降噪。

相比之下,原始數據 (12-14位) 保留了這些高頻信號,可能對恢復圖像質量有幫助:

總結一下,一要拋棄降採樣,二要用原始數據來訓練。於是,研究人員拿起了單反,用光學變焦鏡頭去拍成對的照片。

簡單來說,短焦拍下低解析度圖像,長焦拍下高解析度圖像。

複雜一點說,24-240毫米的變焦鏡頭,可以拍出許多種不同焦距的照片。對畫面上的一個物體來說,就是不同的解析度了:

任意兩張圖像,只要解析度不同,都可以組成一對。

SR-RAW數據集就這樣誕生了。每張圖像都是原味,低清不是由高清粗暴轉化得來,原始數據也都在。

訓練的時候,是用低清照片的原始數據,加上高清照片的8位RGB圖:高清是低清的Ground Truth。

那麼,是不是有了數據集,就得到了天下?

還差一點:

圖像對不齊怎麼辦

訓練超解析度,首先需要圖像對齊(Alignment) 。就是把低清圖像的每一個像素點,和高清圖像里的像素點對應起來。

因為高清和低清圖像,是在同一枚鏡頭的不同配置下拍攝的,對齊的時候會出現不可避免的問題。

比如,透視問題。調了焦,物體之間的距離變了,很難對齊了:

比如,景深問題。調了焦,物體和背景之間的距離也變了,更難對齊了:

另外,高清圖像裡面,物體邊緣會更加鋒利,而低清圖像里的邊界比較模糊,原本就很難對齊。

於是,團隊提出了一種新的損失函數,叫做CoBi

這個損失,是在去年發表的Contextual Loss(簡稱CX) 基礎上進化而生。

CX可以解決圖像不對齊的問題,卻不考慮圖像的空間特徵,在執行超解析度任務的時候會出現重大的瑕疵 (下圖B) :

左起:低清輸入、CX訓練成果

左起:CoBi訓練成果、Ground Truth

所以,CoBi比CX多加了一項有關空間坐標的損失。這樣,便可以訓練出優秀的超解析度網路了。

原始數據,真的更有效

訓練完成之後,要和其他網路比一場。那麼,先用肉眼評判一下。

一道題目是,限時段停車的指示牌:

左下是低清輸入,右下是Ground Truth

比賽結果是 (看不清可以把手機橫過來) :

右一為主角

主角恢復的文字,比前輩們都要清晰一籌。

如果,你感覺它和ESRGAN的表現差不多,我們來單獨對比一下:

左為ESRGAN,右為主角

優勢還是可見的。

數據,也支持了肉眼的判斷:

不論4倍還是8倍變焦,主角的各項指標,都要明顯優於其他選手。

上面的數據表裡,SSIM是結構相似性,PSNR是峰值信噪比,都是和Ground Truth相比,越大越好。

LPIPS是一個新近提出的指標,是用一個預訓練的網路,來測量圖像之間的感知相似度 (Perceptual Image Similarity) ,越小越好。

打敗了對手之後,團隊又用人工合成的感測器數據 (C) ,以及8位RGB圖像 (B) ,分別訓練了一下自家的模型,看原始數據(D)訓練的模型是不是真比它們更優秀。

其中一道題目,是40米之外的馬里奧:

左是用合成數據訓練的,右是用原始數據訓練的:

原始數據的訓練之下,畫質更加美好。

對比一下,這是Ground Truth (來自光學變焦鏡頭,就是單反) :

各項指標也認為,投喂原始數據的模型表現更出色:

Ours-syn-raw=合成數據訓練後,Ours=原始數據訓練後

不過,合成數據上訓練的成果,雖然比不上用原始數據養成的模型,但還是比直接用RGB圖像訓練的模型,要爭氣一些。

終究,還是要用原始數據訓練的好。

結論令人振奮,但還不是結局。研究人員希望這只用單反感測器養成的AI,也能適應手機的感測器

於是,他們選了iPhone X做小白鼠,用一個小數據集微調了一番。5000次迭代之後,模型在手機上獲得了新生:

實驗室里的人類們

研究團隊,來自伯克利、港科大和英特爾。

一作是來自伯克利的張璇兒,高中畢業自人大附中,本科畢業於萊斯大學,如今已是四年級的博士生。

主攻計算機視覺的她,先後在Adobe、Facebook和英特爾實習過。張璇兒一作且有陳啟峰參與的CVPR論文,已經不止一篇了。

比如,這項畫風綺麗的研究成果,可以去除照片上的「鬼影」。

二作,大家可能比較熟悉了。

陳啟峰,1989年生人,高中獲得IOI金牌,放棄清華保送而選擇港科大,又在大學裡連續三年獲得了NOI金牌,還在密大交換期間獲得過ACM總決賽的亞軍 (北美第一) 。

2012年,陳啟峰獲得了包括斯坦福、哈佛、MIT在內9所學校的PhD錄取信,最終選擇了斯坦福。

2017年博士畢業,2018便已成了港科大的助理教授。

三作吳義仁 (Ren Ng) ,伯克利的助理教授,張璇兒便是在他的實驗室里做研究。

吳教授出生在馬來西亞,8歲移民澳大利亞。2006年斯坦福大學博士畢業,還獲得了當年ACM的博士論文獎。

他的主要研究方向是數字光場攝影技術,還創辦了光場相機公司Lytro,把這項技術引入消費級電子產品。

四作是Vladlen Koltun,來自英特爾的高級研究員,是視覺計算實驗室 (Visual Computing Lab) 的負責人。張璇兒和陳啟峰,都曾經在他的實驗室里工作過。

One More Thing

要是你既買不起P30 Pro,又不會訓練深度學習模型,別擔心,還可以直接上望遠鏡。

貼心的量子位,替你找到了這個:

咦,你怎麼用了品如的望遠鏡?

論文傳送門:

https://cqf.io/papers/Zoom_To_Learn_CVPR2019.pdf

訂閱AI內參,獲取AI行業資訊

加入社群

量子位AI社群開始招募啦,量子位社群分:AI討論群、AI 行業群、AI技術群;

歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「微信群」,獲取入群方式。(技術群與AI 行業群需經過審核,審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

喜歡就點這裡吧 !


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

南大周志華獲IEEE計算機學會2019年Edward J.McCluskey技術成就獎
模型參數太多怎麼辦?用谷歌高效訓練庫GPipe啊

TAG:量子位 |