如何在看不見的駕駛場景域進行強有力的語義分割？

最新 08-31

摘要-語義分割方法在當今自動駕駛研究中發揮著關鍵作用，因為它們為導航等高級任務提供了對交通場景的全面理解。然而，主要的研究工作是擴大深層架構，以實現現有數據集中的邊際精度提升，會經常忘記這些演算法其實應該必須部署在真實車輛中，並且在訓練期間不會看到圖像。另一方面，在任何領域實現穩健性並非易事，因為即使有數千個訓練圖像，深度網路也容易過度擬合。在本文中，我們系統地研究了「準確性」和「穩健性」概念之間的差距。一組全面的實驗證明了使用數據擴充來產生模型的相關性，該模型可以在任何領域產生穩健的語義分割輸出。我們的結果表明，當應用關於幾何形狀(位置和形狀)和紋理(顏色和光照)的適當增強技術時，現有的域間隙可以顯著減小。此外，我們的訓練過程產生了更好的校準模型，這對於評估當前系統的穩健性特別重要。

作者：Eduardo Romera1, Luis M. Bergasa1, Jose M. Alvarez2and Mohan Trivedi3

Ⅰ介紹

在過去幾年中，計算機視覺（CV）和智能車輛（IV）的研究領域共同發展，旨在解決自動駕駛汽車未來將面臨的許多感知挑戰。這種聯盟的最好例子之一是語義分割（SS），這是一個視覺任務，包括在像素級別對圖像中的類別進行標記。它已經在IV社區獲得了很高的興趣，因為它提供了對場景的全局了解，從而能夠統一安全車輛導航[1]所需要的幾個感知任務。

卷積神經網路(CNNs)作為實現SS的最佳演算法，近年來得到了廣泛的應用。由於可負擔得起的計算資源不斷增加，並且由於出現了大量數據集來訓練這些需要大量數據的方法，因此它們在過去幾年中激增。在自動駕駛的特定環境中，嵌入式設備的計算能力越來越強，像CamVid[2]和Cityscapes[3]這樣的大型數據集極大地簡化了訓練和測試深度模型分割的任務。然而，改進分割方法的主要工作集中在提高準確性，同時將效率作為第二優先順序[4] [5] [6]。在這種情況下，我們提出了ERFNet，這是一種卷積結構，能夠準確有效地生成SS，提供了一種便於IV自動駕駛等應用的良好折衷[7] [8]方案。然而，實際上尚未探索的是對看不見的駕駛場景的魯棒性。畢竟，CNN只是從一組有限的數據中訓練出來的，並且不能保證從該數據集中學到的知識能夠被正確地轉移到任何領域。對於使用有限數據訓練的任何深度模型，有一個問題仍然沒有答案：它在看不見的環境中表現如何？

圖1.概述圖，描述了用於訓練和部署深度模型以進行穩健分割的端到端解決方案。顯示的輸出是我們實驗中產生的真實分割結果。

在本文中，我們旨在通過分析「準確性」和「魯棒性」概念之間的差距，針對語義分割的具體任務來解決這個問題。我們研究了可以採取哪些具體措施來提高CNN的穩健性，使其在訓練期間看不到的環境/領域中能更準確地發揮作用。更確切地說，我們試驗了我們公開可用的架構ERFNet [8]，但我們以適用於任何其他深層架構的一般方式研究這些問題。我們對來自多個領域的數據集進行的一系列全面的實驗表明，在部署的端到端分段體系結構中，數據增強在實現魯棒性方面起著至關重要的作用。

II.相關工作

自Long等人以來，SS發展迅速。[ 9 ]提議通過使用卷積作為最後一層來調整已知的CNNs以產生像素級分類輸出。這些完全卷積網路（FCN）在分段數據集中取得了令人驚訝的成果，同時也是一種方便的端到端解決方案。但是，SS不僅要求每個圖像分類輸出，而且每個像素需要一個分類輸出。在實踐中，這涉及由預訓練的CNN產生的輸出（即，從分類任務轉移的輸出）是粗略的，因為這些特徵未經過專門訓練來學習像素定位。為了解決這個問題，已經有幾項工作試圖提高CNNs了解語境的方式。[4] (Deeplab)中的工作建議添加條件隨機欄位作為後處理步驟，以細化粗卷積輸出。SegNet [ 5 ]提議附加一個帶有maxunpooling層的完整分類網路作為解碼器，從編碼特徵中產生端到端像素級分類。[6]中的工作提出虛擬「擴展」卷積內核，使它們收集更多的上下文信息。

所有這些工作都有助於在眾所周知的分割基準中實現顯著的準確性改進。然而，他們的主要努力集中在準確性上，而效率不是首要任務。另一方面，其他網路如ent [ 10 ]被提出作為實時執行快速語義分割的有效替代方案。一百層提拉米蘇[11]也是DenseNet執行SS的有效擴展。然而，為了保持效率，這些工作犧牲了更複雜的體系結構所獲得的一些準確性。在之前的工作中，我們提出了ERFNet [ 7 ] [ 8 ]，旨在最大限度地兼顧準確性/效率，並使基於CNN的細分適用於當前嵌入式硬體平台中的IV應用。

儘管最近取得了這些進展，但仍不清楚這些網路如何在日常駕駛情況下在看不見的領域中推廣。目前，分段網路必須以有監督的方式從標記數據中學習，以實現最高精度。CamVid [ 2 ]和city scape [ 3 )等數據集有數百幅圖像，但即使它們的多樣性也不能保證在現實世界中任何看不見的場景中都能獲得最佳性能。在自適應領域，Ros等人 [12]提出了一種無監督的顏色變換方法，以使訓練域的圖像適應其他照明條件（例如白天和黃昏之間的轉換）。其他工作通過生成合成數據（例如SYNTHIA [13]）解決了樣本的缺乏問題。然而，將學習到的特性從虛擬域轉移到真實域並非易事。儘管模擬器在不斷改進，而且目前比以往任何時候都能製作出更逼真的圖像，但專門用合成數據訓練的深度模型在真實領域的表現仍然不佳。我們認為模擬器仍在產生與真實域無關的雜訊，而當前深度模型的容量使它們過度擬合了這種雜訊。在這種情況下，數據注釋非常耗時，而合成數據沒有幫助，深度學習社區正在將他們的努力轉移到無監督模型(例如GANs )，以避免對注釋數據的高度依賴。但是，我們認為現有的措施可以應用，並可生成可以部署在任何領域的可靠分段模型，並可用於解決當前的IV挑戰。

III.方法

深度體系結構高度依賴於用於訓練的數據，因為CNN學習的功能完全依賴於在此過程中饋送的圖像。因此，由於CNNs需要學習各種各樣的模式才能很好地區分類別，數據多樣性在實現更普遍的模型方面發揮著重要作用。在本節中，我們描述了一系列旨在擴充有限數據集以提高穩健性的方法。這些技術中的大多數是已知的，並且其中一些技術在訓練CNN時被廣泛用作常見做法。在這些技術中，一些技術對類別的幾何形狀（即位置和形狀）有影響，而另一些技術對紋理（即照明和顏色）有影響。幾何和紋理都影響CNN如何從訓練圖像中學習模式，以產生語義分割輸出。因此，為了提高未知領域的網路性能，必須同時增強這兩方面。

幾何增強：

1）水平翻轉：水平鏡像圖像有助於增加方向的不變性(例如，行人可以以不同的方向出現)。不建議垂直翻轉，因為物體的垂直外觀在場景中增加了重要的一致性（例如，網路知道天空是由它的位置決定的）。

2）翻譯：移動圖像會阻止CNN總是看到訓練圖像的相同位置，因此它不會總是從第一層產生相同的激活(移位不變性)。在我們的實驗中，我們使用0-2像素的隨機平移，因為ERFNet的第一層是3x3卷積。

3）縮放和裁剪：隨機調整圖像大小有助於模型看到每個對象的不同比例，並提高網路對不同圖像解析度的不變性。我們在原始尺寸的0.5到1.0倍之間均勻地執行隨機縮放。我們將其與圖像的隨機裁剪區域相結合，以在訓練批次中保持相同的解析度。請注意，農作物也像翻譯一樣增加了移位不變性。

4）長寬比：在一維(寬度或高度)上重新縮放圖像有助於增加對不同長寬比(例如，4 : 3，16 : 9 )的不變性，這些長寬比可能是每個相機特有的。在我們的實驗中，我們在( 0.7到1.0 )倍之間均勻地重新縮放寬度。

5）旋轉：將小的隨機度旋轉到圖像會增加對可能在場景中出現輕微角度變化的對象的不變性。我們使用平均0和0.05方差的高斯分布將整個圖像旋轉為隨機量的弧度。

紋理增強：

1）亮度：物體在圖像中的清晰度取決於場景照明和相機靈敏度。通過隨機增加或減少圖像亮度來增加輸入圖像的虛擬變化，改善了網路的照明不變性。在我們的實驗中，我們按照0到0.4之間的均勻分布來改變亮度。

2）對比：圖像中最暗和最亮區域之間的分隔。通過隨機增強來增加這個範圍有助於增加對陰影的不變性，並且通常會提高網路在低光照條件下的性能。我們在0到0.4瓦特灰度平均值之間均勻增加對比度。

3）飽和：顏色的深度或強度。飽和度越低，顏色越不強烈。增加此參數可增加不同相機靈敏度的不變性以捕獲顏色。我們通過在0到0.4之間均勻地改變顏色通道來增強飽和度。

4）顏色抖動：向每個RGB像素添加小的隨機雜訊有助於獲得對一些相機失真的不變性。我們將高斯分布抖動添加到每個通道的像素中，平均值為0，方差為0.05。

5）鹽和胡椒：類似於顏色抖動，但用隨機概率將特定像素飽和到黑色或白色。舊相機在過去有這種失真，但在最近的相機中這種情況並不常見。在我們的測試中，我們嘗試飽和2.5 %、5 %和10 %的像素，但沒有一個有助於提高最近數據集的準確性。

IV.實驗

準確性通常是在特定數據集上測量的，它通常被視為衡量在任何情況下模型的穩健程度的尺度。但是，數據集通常記錄在特定條件下，並不代表現實世界的多樣性。另一方面，由於缺乏不同領域的標記數據，從數值上評估魯棒性具有挑戰性。在本文中，我們用著名的標記數據集Cityscapes和CamVid進行了主要定量實驗(消融研究和與其他網路的比較)，最後我們展示了這些數據集中具有挑戰性的定性例子以及在不同條件下在加利福尼亞捕獲的附加數據。此外，我們將網路校準的概念作為衡量穩健性的指標。

A.實驗設置

Cityscapes [3]包含2975個用於訓練的圖像，500個用於驗證的圖像和1525個用於測試的圖像（不公開）。CamVid [2]總共有701張圖像，分為367張圖像用於訓練，101張用於驗證，233張用於測試。這些圖像來自4個序列，其中一個在黃昏時被記錄（124），其餘的在白天被記錄（577）。為了評估每種增強技術的效果，我們在Cityscapes列車中訓練所有模型，包括19個類，然後在其他領域進行測試。由於CamVid的類別不容易與用於訓練的19類兼容，因此在CamVid中，我們將主要的11類（文獻中使用的常用類）調整為Cityscapes中最接近的類（並將其餘類別設置為未標記的（黑色））。關於CNN訓練設置，我們使用Adam優化在相同條件下訓練所有模型，初始學習率（LR）為1e-4，權重衰減（WD）為2e-4，以指數方式降低LR，直到交叉熵損失收斂。有關最佳培訓設置或體系結構詳細信息的更多詳細信息，請參閱ERFNet論文[7] [8]。所有數值結果都顯示在廣泛使用的「聯合交叉」中。

B.數據增加

在本實驗中，我們以系統的方式分析每種特定數據增強技術的效果。結果如表I所示。所有列出的模型都在相同的條件下（在Cityscapes Train集中）進行訓練，並在Cityscapes Val集（500張圖像）和完整的CamVid數據集（所有701張圖像）中進行評估。

結果表明，有一些特定的增強對改善CamVid域的結果有很大的影響，而其他的影響非常小。例如，與其他幾何增強（43-46％）相比，水平翻轉意味著IoU的高增強（52.6％）。在紋理的情況下，除了鹽和胡椒之外的所有增強在提高CamVid相對於基線的準確度方面具有非常高的效果。在亮度增強的情況下，它幾乎將IoU提升至60％，而對比度，飽和度和抖動也達到50-56％。與Cityscapes相比，CamVid序列一般看起來更暗，因此與幾何相比，照明增強產生更大的改善是有道理的。另一方面，幾何增強對改善Cityscapes Val集的結果有輕微影響，而紋理變換甚至在某些情況下使其惡化。這是有道理的，因為Cityscapes中的Train和Val設置具有相似的光照條件，因此使用紋理變換來增加數據並沒有太大幫助，而增加具有幾何變換的火車組有助於CNN看到其他模式（因此減少了火車組中的過度擬合併略微提升導致val集）。

表II

在表I中列出的主要模型的CITYSCAPES和CAMVID子集中的結果。所有結果都以借據表示。訓練集的結果顯示出對過度擬合的直覺。

另一方面，使用組合增量的實驗並沒有證實直覺，即通過「蠻力」將所有轉換加在一起總是會提高所有領域的結果。例如，添加兩個幾何變換( hflip + translation )不會像H - flip ( 52 % )那樣提升CamVid，但會產生45.7 %的IoU。另一方面，結合兩個頂部紋理增強（亮度+對比度）確實在CamVid（65.8％）中獲得非常高的結果，幾乎像組合前4個紋理增強（65.9％）。考慮到增強實際上是真實圖像的虛擬轉換，這些結果是合理的，因此添加許多增強可能會使模型訓練中包含太多與CNN在部署中看到的真實域不相似的圖像(因此減少了結果)。為了訓練在兩個領域都表現良好的模型（Cityscapes和CamVid），我們必須稍微減少每次增強的方差，並在收斂之前訓練更多的時間。結果是一個在CamVid全套( 71.5 % IoU )中實現非常高精度的模型，而沒有看到來自該領域的任何圖像。

表II總結了每個數據集子集的其他結果：Cityscapes Train和Val套裝以及四個CamVid序列。Cityscapes子集中的結果可以深入了解如何使用所提出的技術擴充數據，從而高度防止過度擬合，並有助於實現可靠的部署模型。請注意，隨著所有其他看不見的數據中的IoU大幅增加，訓練集中的IoU略有下降。CamVid的結果證實了紋理增強對CamVid數據有更大影響的分析，因為與Cityscapes域相比，光照條件非常不同。請注意，與基線和幾何變換相比，紋理增強模型的黃昏序列( 01TP )有很大提升。「All-augments」模型的結果在所有序列中都獲得了非常高的準確度，同時在Cityscapes域中保持了很高的結果。

C.通過數據增加進行網路校準

網路輸出(類概率)通常被認為是模型對其預測有多確定的置信度度量。然而，如果網路沒有被很好地「校準」(例如，它已經過度列印了列車數據)，它可能對其預測過於樂觀(例如，即使錯誤，轉發一個類別的概率也非常高)。為了解決這個問題，作者在[ 14 ]提出將網路輸出與溫度縮放相適應作為後處理步驟。我們的數據增強實驗表明，通過增強增加訓練樣本的多樣性已經達到了校準網路的預期效果。在圖2中，我們顯示了兩個可靠性圖（在Cityscapes Val集中計算），它將基線模型（a）與所有增強訓練模型（b）進行比較。輸出預測被分組為區間（概率範圍），並且在每一個區間中，與網路的平均置信度相比較，我們反映正確預測的樣本（真實準確度）。（a）中較大的間隙與（b）中較小的間隙相比，意味著網路校準較少。對於一個完美校準的模型，圖應該看起來像恆等函數。實際上，較大的差距表明模型傾向於突然輸出概率，這在IV應用中是危險的，因為網路非常「肯定」其分段輸出的準確性，而實際上這是不應該的。

圖2。在Cityscapes Val集中測量的可靠性圖表，用於訓練有不同數據增加量的ERFNet。輸出預測被劃分在統一的箱中，「間隙」反映了網路預測的分布變化。較大的間隙（a）反映出網路的校準程度低於較小間隙（b）的情況。

D.與其他網路的比較

在表III中，結果顯示在CamVid測試集中，並與其他最先進的網路進行比較。我們在他們的論文中展示了11個主要課程的成績。所有結果都在IoU中。還顯示了每幅圖像的正確像素百分比，或整體精度，以便與以前的作品進行比較。此外，出於比較原因，我們在與其他網路相同的條件下訓練了ERFNet的CamVid數據。結果證實，使用一個具有廣泛擴展範圍的域(Cityscapes數據)可以減少在特定域進行訓練以獲得高精度的需要。如圖所示，我們模型的結果與所有特定類別中的頂級模型相似（甚至更高）。一般來說，即使與在CamVid數據中訓練的ERFNet相比，具有增強功能的ERFNet的IoU結果( 68.6 % )也高於所有其他模型。

表III

CAMVID測試集中最新模型的結果與我們僅使用CITYSCAPES數據訓練的模型相比。

圖3. Cityscapes驗證集（500）中的示例，用於在Cityscapes列車集中訓練的模型。每一行對應不同城市（法蘭克福，林道和明斯特）的具有挑戰性的形象。由於可視化原因，19個城市景觀類別（+未標記）的顏色已被添加到頂部。

E.定性結果

為了更容易評估所提出的技術如何提高魯棒性，我們在多個數據集的挑戰幀中顯示了不同的分割結果。在圖3中，我們顯示了Cityscapes驗證集的結果（每個城市一個圖像：法蘭克福，林道和Münster）。在圖4中，顯示了CamVid數據集的結果（每個序列一個圖像行）。兩個數據集都有可用的帶像素注釋的標籤。對於其他示例，我們在另一個域中測試了我們的模型：California。在圖5中，我們顯示了加州大學聖地亞哥分校記錄的數據結果（LISA數據集[15]）。在圖中結合了不同的照明條件（陰天與晴天）和不同的照相機的不同結果。總之，在所有定性示例中都可以看出，數據增強在提高各種域和攝像機條件的魯棒性方面具有極其積極的作用。

圖4.使用Cityscapes數據唯一訓練的模型的CamVid序列示例。每行對應於4個CamVid序列中的每一個中的挑戰性圖像。請注意，CamVid的基本事實僅適用於其11個主要類別，受過訓練的模型輸出19個類別。例如，在CamVid標籤中，Bicycle和騎手是一個獨特的類（深紅色），而在Cityscapes中，他們被標記為兩個類（騎手和自行車）。

圖5. LISA數據[15]中的例子，記錄在加州大學聖地亞哥分校，具有不同的攝像機和照明條件。

V.結論

在本文中，我們分析了應用於現有深度網路的技術，以便在部署到任何域時提高其穩健性。在用不同的數據增強方法組合訓練模型之後，已經從數字和質量上證明，這些模型已經準備好在許多領域產生精確的分割(不管地點條件或相機質量如何)。我們系統和全面的一系列實驗表明，現有技術可以應用於任何數據驅動架構，對未知領域的魯棒性是可以達到的。

REFERENCES

[1] E. Romera, L. M. Bergasa, and R. Arroyo,「Can we unify monocular detectors for autonomous driving by using thepixel-wise semantic segmentation of cnns?」 arXiv preprint arXiv:1607.00971,2016.

[2] G. J. Brostow, J. Shotton, J. Fauqueur,and R. Cipolla, 「Segmentation and recognition using structure from motion pointclouds,」 in ECCV, 2008, pp. 44–57.

[3] M. Cordts, M. Omran, S. Ramos, T. Rehfeld,M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele, 「The cityscapesdataset for semantic urban scene understanding,」 in IEEE Conf. on Computer Visionand Pattern Recog. (CVPR), 2016, pp. 3213–3223.

[4] C. Liang-Chieh, G. Papandreou, I.Kokkinos, K. Murphy, and A. Yuille, 「Semantic image segmentation with deepconvolutional nets and fully connected crfs,」 in International Conference onLearning Representations, 2015.

[5] V. Badrinarayanan, A. Handa, and R.Cipolla, 「Segnet: A deep convolutional encoder-decoder architecture for robustsemantic pixelwise labelling,」 arXiv preprint arXiv:1505.07293, 2015.

[6] F. Yu and V. Koltun, 「Multi-scalecontext aggregation by dilated convolutions,」 arXiv preprint arXiv:1511.07122,2015.

[7] E. Romera, J. M. A′ lvarez, L. M.Bergasa, and R. Arroyo, 「Efficient convnet for real-time semantic segmentation,」in IEEE Intelligent Vehicles Symp. (IV), 2017, pp. 1789–1794.

[8] E. Romera, J. M. Alvarez, L. M.Bergasa, and R. Arroyo, 「Erfnet: Efficient residual factorized convnet forreal-time semantic segmentation,」 IEEE Transactions on Intelligent TransportationSystems, vol. 19, no. 1, pp. 263–272, 2018.

[9] J. Long, E. Shelhamer, and T. Darrell,「Fully convolutional networks for semantic segmentation,」 in IEEE Conf. onComputer Vision and Pattern Recog. (CVPR), 2015, pp. 3431–3440.

[10] A. Paszke, A. Chaurasia, S. Kim, andE. Culurciello, 「Enet: A deep neural network architecture for real-timesemantic segmentation,」 arXiv preprint arXiv:1606.02147, 2016.

[11] S. J′egou, M. Drozdzal, D. Vazquez, A.Romero, and Y. Bengio,「The one hundred layers tiramisu: Fully convolutional densenets for semanticsegmentation,」 arXiv preprint arXiv:1611.09326, 2016.

[12] G. Ros and J. M. Alvarez, 「Unsupervisedimage transformation for outdoor semantic labelling,」 in IEEE IntelligentVehicles Symposium

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 智車科技 的精彩文章:

※加速自動駕駛落地，這家公司把「平行駕駛」夢想帶入現實
※這家自動駕駛數據標註公司共標記了2億英里的行駛數據，他們希望行業內能數據共享

TAG:智車科技 |