當前位置:
首頁 > 最新 > CVPR 2018論文解讀 | 學習在黑暗中看世界(Learning to See in the Dark)

CVPR 2018論文解讀 | 學習在黑暗中看世界(Learning to See in the Dark)

Almost Is Never Enough (In the Style of Ariana Grande & Nathan Sykes)

 2013 Pop Karaoke Instrumentals, Vol. 31

Karaoke All Hits 

00:00/03:30

好些天不和大家見面,還是怪想各位關注我們支持我們的你!由於「計算機視覺戰隊」創始人最近接近畢業階段,所以很多事情要去處理,沒有及時給大家帶來好的分享,在此向大家表示由衷的抱歉,也希望在大家支持下,我們平台做得越來越好,也祝願每位科研愛好者在自己領域科研碩果累累,實現自己當初設定的目標~再次向大家聲明下,我們平台是由在讀研究生一手創辦,都是計算機視覺領域的研究生,所以以後不用再問我現在什麼工作什麼方向,,也希望通過「計算機視覺戰隊」平台認識更多科研愛好者,一起學習進步,謝謝!!!

今天和大家來說的這個技術很有意思,因為大家都在夜晚拍照過,拍出來的效果要不是模糊要不是曝光時間短帶來噪點。

雖然現在很多手機都有夜間模式,但是你們知道真正的背後技術嗎?

今天我們就來詳細的說說黑暗中我們技術是怎麼看世界的!

在低光照甚至黑暗條件下,我們拍出高質量的照片一直是非常有挑戰性的科研問題,這主要原因是由於低光子數和低信噪比給相機成像帶來了很大的困難。曝光時間過短會給圖像帶來噪點,而長時間曝光又容易導致圖像模糊,費時費力,在現實中可行性低。

傳統演算法提出了各種去噪、去模糊和增強技術,但是它們的有效性在極端條件下是非常有限的,例如夜晚的視頻成像。為了支持基於深度學習的低光圖像處理流水線的開發,於是收集了一個大規模的夜間成像數據集,它由短曝光夜間圖像以及相應的長曝光參考圖像組成。使用這個數據集,開發了一個基於全卷積網路端到端訓練的低光圖像處理流水線。該網路直接讀入原始感測器數據,然後前向輸出一張高清圖像。這個技術克服了傳統圖像處理流水線需要多模塊且夜間成像效果差的不足。並且展示了新數據集頗具前景的結果,並分析了影響性能的因素,以及未來研究的機會。

雜訊存在於任何成像系統中,但它使成像在低光下特別具有挑戰性。高ISO可以用來增加亮度,但它也放大噪音。後處理,如縮放或直方圖拉伸,可以應用,但這不能解決低信噪比,因為低光子計數。在弱光下提高信噪比的物理手段有:打開光圈、延長曝光時間和使用閃光燈。但每一種方法都有其自身的缺點。例如,增加曝光時間會導致相機抖動或物體運動造成模糊。

下圖中就展示了本次提出技術的設置。這裡的環境漆黑透亮:照相機的照明不足0.1 lux。曝光時間設置為1/30秒。孔徑為f/5.6。在ISO 8000,這通常被認為是高,相機產生的圖像本質上是黑色的,儘管高光感的全幀索尼感測器在ISO 409,600,這是遠遠超出大多數相機的範圍,場景的內容是可以識別的,但即使是昏暗,噪音,和顏色扭曲。正如我們將要展示的,即使是最先進的去噪技術也不能消除這種噪音,也不能解決顏色偏差問題。另一種方法是使用

burst of images,但burst alignment演算法在極端弱光條件下可能會失敗,而burst 流程不是為視頻捕獲而設計的(例如,由於在burst中使用了「幸運成像」)。

於是,提出了一種新的圖像處理流程,通過數據驅動的方法來應對極低光攝影的挑戰。具體來說,我們訓練深層神經網路來學習微光原始數據的圖像處理流程,包括顏色轉換、去噪、降噪和圖像增強。

該流水線是經過端到端的訓練,以避免雜訊放大和誤差積累,這是傳統相機處理流程在這種情況下的特點。現有的大多數處理低光圖像的方法都是根據合成數據或真實的低光圖像進行評估的。據我們所知,沒有公開的數據集來訓練和測試處理具有多種真實世界數據和真實的快速微光圖像的測試技術。

因此,收集了一個新的原始圖像數據集,在弱光條件下快速曝光。每個微光圖像都有相應的長曝光、高質量的參考圖像。在新的數據集上得到了很有希望的結果:低光圖像放大了300倍,成功地降低了雜訊,並進行了正確的顏色轉換。最後系統地分析了流程的關鍵要素,並討論了今後的研究方向。

See-in-the-Dark

數據集包含室內和室外圖像。這些戶外照片通常是在夜間、月光或路燈下拍攝的。室外場景中攝像機的照度一般在0.2到5 lux之間。

室內的圖像甚至更暗。他們是在封閉的房間里被捕獲的,他們經常關燈,並為此目的設置了微弱的間接照明。

室內場景中攝像機的照度一般在0.03~0.3 lux之間。輸入圖像的曝光設置在1/30至1/10秒之間。

相應的參考(ground truth)圖像是以100至300倍的曝光時間拍攝的:即10至30秒。由於參考圖像的曝光時間很長,所以數據集中的所有場景都是靜態的。下表概述了數據集,且下圖顯示了一個參考圖像的小樣本。在每個條件下,大約20%的圖像被隨機選擇以形成測試集,另有10%的圖像是為驗證集選擇的。

關鍵技術(Pipeline)

傳統的圖像處理流程從圖像感測器獲取原始數據後,採用白平衡、去噪、銳化、顏色空間轉換、伽馬校正等一系列模塊。這些模塊經常被調到特定的相機上。Jiang等人[1]建議使用大量的局部、線性和學習(L3)濾波器來逼近現代消費映射系統中的複雜非線性流程。然而,無論是傳統的流程還是L3,都不能成功地處理快速低光成像,因為它們無法處理極低的信噪比。Hasinoff等人[2]描述了一種用於智能手機相機的burst成像流程。該方法可以通過對齊和混合多幅圖像產生較好的效果,但由於需要密集的對應估計,引入了一定程度的複雜性,而且由於使用幸運成像等,很難擴展到視頻捕獲。

[1]H. Jiang, Q. Tian, J. E. Farrell, and B. A. Wandell. Learning the image processing pipeline. IEEE Transactions on Image Processing, 26(10), 2017.

[2]S.W.Hasinoff,D.Sharlet,R.Geiss,A.Adams,J.T.Barron, F. Kainz, J. Chen, and M. Levoy. Burst photography for high dynamic range and low-light imaging on mobile cameras.ACM Transactions on Graphics, 35(6), 2016.

於是提出了用端到端學習來直接對低速圖像進行單圖像處理。具體來說,訓練一個全卷積網路 (FCN) [3,4]來執行整個圖像處理流程。最近的工作表明,純FCNs可以有效地代表許多即時處理演算法[5,6]。受到這項工作的啟發,並研究了這種方法在前三層低光成像中的應用,不對傳統的攝像機處理流程產生的正常sRGB圖像進行操作,而是對原始感測器數據進行操作。

[3]Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural Compu- tation, 1(4), 1989.

[4]J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.

[5]Q. Chen, J. Xu, and V. Koltun. Fast image processing with fully-convolutional networks. In ICCV, 2017.

[6]L. Xu, J. Ren, Q. Yan, R. Liao, and J. Jia. Deep edge-aware filters. In ICML, 2015.

上圖b中顯示了所示流程的結構。對於Bayer陣列,將輸入分為四個通道,相應地,在每個維數中,空間解析度降低了2倍。對於X-Trans數組(如圖所示),原始數據被排列成6×6塊;通過交換相鄰的元素,將其封裝成9個通道,而不是36個通道。減去black level,並按期望的放大率(例如,x100或x300)對數據進行縮放。將打包和放大的數據輸入全卷積網路。輸出為12通道圖像,空間解析度為一半。這個半尺寸的輸出由一個子像素層處理,以恢復原來的解析度。

縮放比決定輸出的亮度。在該技術流程中,縮放比設置為Exter-Nally,並作為輸入提供給流程,類似於攝像機中的ISO設置。下圖顯示了不同放大倍數的影響。用戶可以通過設置不同的放大因子來調節輸出圖像的亮度。測試時,流程進行盲雜訊抑制和顏色變換,網路直接在sRGB空間輸出處理後的圖像。

實驗

下表展示了每個條件下的平均PSNR/SSIM

Discussion

由於低光子計數和低信噪比,快速低光成像是一個艱巨的挑戰.在黑暗中,在視頻速率下,在sub-lux條件下成像,被認為與傳統的信號處理技術是不切實際的。在這篇文章中,介紹了「See-in-the-Dark」(SID)數據集,該數據集是為了支持開發數據驅動的方法來實現這種極端成像的。利用SID,開發了一個簡單的流程,改進了傳統的低光圖像處理。提出的流程是基於端到端的訓練,一個全卷積網路。實驗表明,該方法具有良好的抑制雜訊效果和正確的顏色變換效果。

未來展望

本技術工作為今後的研究開闢了許多機會。工作沒有涉及人類發展報告的HDR色調映射。(請注意第一幅圖(c)中的飽和區域。)SID數據集是有限的,因為它不包含人工和動態對象。該流程的結果是不完善的,可以在今後的工作中加以改進;x 300子集是非常具有挑戰性的。最後一幅圖(d)演示了所提供方法的輸出中的一些工件。

提出的流程的另一個限制是必須在外部選擇縮放比。從輸入中推斷出一個很好的放大率是有用的,類似於自動ISO。此外,目前假設一個專門的網路被訓練為一個給定的攝像機感測器。在交叉感測器上的初步實驗是令人鼓舞的,今後的工作可以進一步研究微光成像網路的泛化能力。

未來工作的另一個機會是運行時間的優化。該流程分別需要0.38秒和0.66秒來處理索尼和富士的全解析度圖像;這還不夠快,無法在全解析度下進行實時處理,儘管可以實時生成低解析度預覽。

期望未來的工作能夠進一步提高圖像質量,例如通過系統地優化網路架構和培訓過程。希望SID數據集和實驗結果能夠刺激和支持這種系統的調查。

如果想加入我們「計算機視覺戰隊」,請掃二維碼加入學習群,我們一起學習進步,探索領域中更深奧更有趣的知識!

GIF


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |