當前位置:
首頁 > 最新 > 人工智慧深度學習利用生成敵對網路的無監督目標定位純粹機器學習

人工智慧深度學習利用生成敵對網路的無監督目標定位純粹機器學習

人工智慧深度學習利用生成敵對網路的無監督目標定位純粹機器學習(特約點評:人工智慧深度學習利用生成敵對網路的無監督目標定位對於目標定位研究指出了新的方向,這個創新點趣說人工智慧必須推薦。來自網友小星的推薦!)

人工智慧深度學習利用生成敵對網路的無監督目標定位純粹機器學習簡介:對象本地化旨在確定給定場景中目標對象的位置。最近,基於深度學習的方法如Faster R-CNN [1],YOLO [2],SSD [3]在實時性能方面取得了顯著的改進。然而,這些技術利用完全監督學習,需要用於訓練的分類標籤和邊界框注釋。由於這些信息被認為是昂貴的,因此獲取海量數據非常困難,這為實際應用帶來了限制。為了減輕數據註解的負擔,已經提出弱監督學習方法。弱監督對象本地化僅在培訓期間使用分類標籤,因此數據注釋變得易於管理。其中,類激活映射(CAM)[12]是一種有代表性的弱監督對象定位方法。 CAM旨在通過可視化CNN的內部層來提取熱圖,並通過後期處理來查找邊界框。 CAM的主要思想是有助於物體分類的像素與物體的位置一致。但是,即使是最便宜的信息,對象類別,在許多應用程序中也可能無法承受。

對於註解依賴性的基本解決方案,已經出現了無監督對象定位技術。與完全監督或弱監督的對象定位相比,這個問題被認為更具挑戰性,因為除了給定的圖像之外,沒有額外的信息。不像監督的或弱監督的方法,無監督的對象定位技術尚未採用深度神經網路。傳統技術如[13,14,15,16,17]仍然依賴手工特徵提取,基於圖形的理論或優化,從而限制了實時性能。同時,深度神經網路模型在特徵提取方面被認為是非常出色的,在大多數模式識別問題中勝過以前的手工製作模型,甚至實現了實時性能。在最近的成功推動下,我們的目標是將深度神經網路應用於無監督對象本地化,期望提高性能和時間效率。更具體地說,在本文中,我們首次提出了一種基於生成對抗網路(GAN)[18]的端到端無監督對象定位方法。

人工智慧深度學習利用生成敵對網路的無監督目標定位純粹機器學習貢獻:GAN是無監督的生成模型,通過隱式密度估計學習生成真實的數據分布。 GAN由一個發生器和一個鑒別器組成。在訓練中,發生器以鑒別器不能區分由發生器產生的假圖像的方式進行訓練。同時,鑒別器學會將它們與真實圖像區分開來。通過這種對抗性競爭,GAN生成的圖像變得難以與實物區分開來。在許多生成模型中,GAN被稱為能夠生成最清晰逼真的圖像。

在本文中,我們利用GAN鑒別器進行無監督對象定位。在不使用先驗或注釋的情況下,GAN成功生成了遵循數據分布的圖像。如果發生器被訓練產生主導對象(即最常出現的對象),我們期望鑒別器將更多地關注主導對象在區分真實還是假的空間位置。但是,GAN鑒別器可能並不總是使用主導對象作為決策標準。自然圖像可以包括主導對象以外的各種對象。如果GAN模型也學習了各種對象,那麼這意味著鑒別器不僅考察主導對象,而且還考察用於區分真假的其他對象或背景。

有趣的是,生成各種對象與GAN訓練中的各種圖像生成直接相關。 GAN訓練的最新進展傾向於修改損失函數[19],或增加一個正則化術語[20,21]來鼓勵不同的圖像世代。同時,GAN的早期模型僅限於學習數據分布的主要模式。隨之而來的現象稱為模式崩潰,這是GAN培訓中的主要問題。儘管這種模式崩潰被認為是不可取的,但我們預計這種病態行為在我們的應用中非常有用;我們觀察到數據集中最常出現的對象是在模式崩潰時產生的。基於這一觀察,我們認為一個主導對象對應於數據分布中的主要模式。出於這個原因,我們選擇一個早期的GAN模型來進行物體定位。所提出的方法以無監督的方式訓練GAN模型,並且使用CAM從經訓練的鑒別器中提取熱圖。然後,對熱圖進行後處理,以確定對象定位的邊界框。圖1顯示了我們的方法的框圖。在整個過程中,沒有監督,也不需要任何額外的標籤信息,如負樣本。我們的模型接收單個圖像作為輸入,並輸出熱圖或邊界框。 通過利用公開可用的數據集,我們證明了GAN解決無監督對象本地化問題的可行性。 此外,我們表明,與具有弱監督對象定位的模型相比,我們模型的定量和定性表現是合理的。 就我們所知,我們的命題是第一個用於無監督對象定位的端到端深度神經網路模型,我們相信這種方法可以作為無監督對象定位研究的重要基線。

人工智慧深度學習利用生成敵對網路的無監督目標定位純粹機器學習方法:在本節中,我們將詳細解釋我們對所提議的方法的方法。我們將首先介紹提議的網路,然後解釋選擇GAN和數據增強的標準。我們將最終描述實現細節。建議的網路。我們在GAN鑒別器的最後一個卷積層的末尾添加一個全局平均池(GAP)層,並以完全連接的方式將這個GAP層連接到二進位分類層。請注意,GAP圖層和以前的CAM的分類圖層之間的權重表明最後一個卷積圖層的每個激活圖有多大的貢獻來決定分類標籤。同樣,我們的體重代表每幅激活圖對正確區分真實圖像和假圖像的貢獻。從這樣訓練的GAN提取的熱圖可以通過遵循與CAM相同的後處理來產生邊界框。如圖1所示,我們在訓練階段使用了一個發生器和一個鑒別器,而我們在測試階段只使用了鑒別器。另外,我們假設像其他弱監督方法一樣,圖像中只有一個對象。這意味著所提出的方法將只為每個圖像繪製一個邊界框。

選定的GAN。最近的GAN模型在防止模式崩潰方面取得了有意義的進展,並試圖封裝所有數據分布模式。這相當於生成出現在數據集中的所有對象。在這種情況下,鑒別器可能會考慮用於分類的整個圖像區域。這是因為它不僅學習主導對象,而且還學習其他對象或背景,而這些對象或背景相對較少。雖然這些GAN在生成力的角度上優於GAN的早期模型,但它們對於物體定位是不利的。

另一方面,GAN的早期模型容易陷入模式崩潰,從而產生頻繁出現在數據集中的主導對象,主要模式,而忽略數據集中出現較少的對象。有人可能會爭辯說,主要模式不僅可以對應主要對象,還可以對應紋理或顏色特徵。確實,具體的紋理和顏色與主要模式密切相關。但是,他們中的大多數與主導對象強烈關聯。因此,我們認為這對物體定位是可取的,模式崩潰對於物體定位可能是有利的。

我們選擇三種GAN模型變體:DCGAN,WGAN-GP和DRA-GAN。 DCGAN利用一個非飽和目標函數,該函數可以用反向Kullback-Leibler(KL)散度和Jensen-Shannon(JS)散度的加權和來表示。這種反向KL損失對於梯度消失是強大的,然而,很容易陷入模式崩潰[43]。同時,Fedus et。 Al [45]通過實驗證明WGAN-GP和DRAGAN使用的GP術語對防止模式崩潰是有效的。因此,為了研究模式崩潰對物體定位的影響,我們比較了DCGAN與WGAN-GP和DRAGAN。

數據增強。數據增加通過添加處理後的圖像來增加訓練數據量;例如,改變照明,增加雜訊,引入遮擋等。增強數據被認為是原始數據的攝動,並且已知穩定網路訓練。最近,介紹了這種數據增強提高了弱監督對象本地化的本地化性能。因此,我們也期望數據增強可以影響基於GAN的無監督對象本地化。具體來說,我們應用了GoogLeNet中使用的光度和空間失真增加數據。我們的實驗研究表明這些技術如何影響GAN的學習過程和本地化表現。

實施細節。我們根據他們的論文決定選定GAN的超參數和網路架構。而對於DRAGAN,我們實現了非飽和目標函數,如[45]所建議的那樣。所有GAN模型的批量大小為128,訓練迭代次數為200k。我們在弱監督方法中選擇CAM [12]作為參考技術。雖然CAM的最初實現基於AlexNet和GoogLeNet,但我們用預激活ResNet [46]替換基線CNN來實現CAM。請注意,預激活ResNet是最先進的CNN分類網路。我們選擇批量大小為34層的34層體系結構256.訓練迭代是100k。我們也遵循原始文件[46]來決定實施ResNet-34的超參數。具體來說,我們使用動力學優化器,動量為0.9。學習速率最初是每25K迭代衰減10倍。重量衰減是1e-4。

人工智慧深度學習利用生成敵對網路的無監督目標定位純粹機器學習結論:在本文中,我們提出了第一個用於無監督對象定位的端到端深度神經網路模型。為此,我們以無監督的方式訓練GAN,然後使用CAM可視化GAN鑒別器關注的區域。各種實驗研究表明,我們的方法在定性和定量評估中取得了有意義的物體定位性能。當將GAN模型應用於物體定位問題時,我們發現模式塌陷與物體定位之間存在正相關關係。此外,我們觀察到數據增強可以有效提高基於DCGAN模型的本地化性能。作為未來的工作,由於模式崩潰對於基於GAN的對象本地化是可取的,我們研究的目標可能與常規GAN模型相反。因此,我們將設計一個專門用於物體定位的新型GAN。此外,我們發現用於對象本地化的度量(例如,GT-已知的Loc)對於測量本地化性能並不是最佳的。我們將調查一個更好的物體定位度量。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

教你如何使用機器學習演算法優化分發鏈路
機器學習助力雜多酸鹽發現與表徵

TAG:機器學習 |