當前位置:
首頁 > 最新 > 因吹斯汀!看深度學習如何將一隻貓的圖像同時轉變為狗、獅子和老虎

因吹斯汀!看深度學習如何將一隻貓的圖像同時轉變為狗、獅子和老虎

來源:NVIDIA

編譯:T.R

我們都知道變色龍可以改變皮膚的顏色紋理,而如今深度學習技術甚至可以做到將一隻貓的圖像同時轉變為狗、甚至獅子和老虎的圖像。這種可以將一張圖片轉換為多種不同目標的演算法不僅為電影和遊戲場景製作提供了豐富的素材,更能為自動駕駛迅速和便捷地生成不同路況下豐富的訓練數據,以不斷提高面對不同路況的能力。

由一而多的圖像翻譯

早先研究人員發現可以利用非監督的方法進行圖像翻譯,將一幅圖像和視頻轉換為另一個。它通過利用來自獨立域中邊緣分布的圖像來學習處於不同域之中的聯合概率分布。研究人員通過建立共享隱含空間的假設,提出了一個圖像對圖像的非監督翻譯框架,並利用對偶GANs實現了高效的圖像翻譯。在實驗中進行了街道場景、動物圖像以及人臉的圖像翻譯過程。

而隨著研究的深入,研究人員們研發出了新的網路結構。這種多模態的網路結構將可以同時將一張圖片轉換為多張不同的圖像輸出。類似於早先的圖像翻譯研究,多模態圖形翻譯使用了兩種深度學習技術:非監督學習和生成對抗網路(GANs),其目的在於為機器賦予更強的想像力,可以讓機器將陽光燦爛的街道照片變成狂風暴雨或者茫茫冬日的不同景色。這種技術對於無人駕駛有著極大的促進作用。與之前的技術不同,研究人員們通過轉換不止能得到一個冬天的實例,而可以同時得到一系列不同降雪量的的冬日場景。這意味著單一的數據可以生成一系列豐富的、覆蓋更廣泛情況的數據集。

為了實現這一非監督圖像的翻譯任務,研究人員們提出了多模態非監督圖像翻譯架構(Multimodal Unsupervised Image-to-image Translation ,MUNIT),首先假設圖像的表示可以被分解成與域無關的編碼,同時可以採集到與域相關的風格編碼。為了實現不同域間的圖像翻譯,作者將內容編碼與目標域中採樣的風格編碼結合在一起,實現了多個目標樣本的輸出。這種多模態非監督圖像翻譯技術將圖像內容和風格分離開來。例如對於圖像中的一隻貓來說,它的姿勢是圖像的內容而貓的種類則是圖像的風格。在實際翻譯過程中,姿勢是固定的,而風格則隨著目標的不同而不同。可以是狗狗或者豹子。動物的姿勢是保持不變的,而它的風格則可以覆蓋從柯基到美洲豹各色不同的品種。

同樣的技術還能用於生成一天中不同時間的場景圖像、不同天氣條件下或者光照條件下的場景。這樣的技術對於需要大量數據訓練的深度神經網路大有裨益。

除了自動駕駛和深度學習領域外,多模態圖像翻譯技術還能為遊戲公司提供一種迅速創造新角色和新世界的有力工具。同樣藝術家們也可以生成複雜或者豐富場景的工作交給機器去處理,將更多的精力投入到創作的核心上來。

沒數據?沒問題!

這一研究主要建立在一種善於生成視覺數據的深度學習方法——GANs上。一個典型的GANs包含兩個互相競爭的神經網路:一個用於生成圖像而另一個用於判斷生成的圖像是否看起來像真的,或者是假的。GANs在數據短缺的時候會顯示出更強大的能力。

一般的圖像翻譯需要兩個互相關聯的數據集:如果需要將貓轉換為狗或者其他動物的話,需要收集同樣姿勢貓和狗的照片。而這樣的數據十分稀缺,有些時候甚至是不可能收集的。而本文中提出的MUNIT方法則突破了這個限制,使得圖像翻譯的使用範圍大大增加。它無需使用一一對應的數據即可實現多模態的轉化。

MUNIT同時還可以在無需抓取同一視點記錄的情況下為自動駕駛生成大量的訓練數據,可以再同一視角同一地點的精確位置下生成各種交通情況和細節的數據。除此之外、GANs還免去了對於圖像或者視頻冗長的人工標註,節約了大量的時間和金錢。

論文的作者表示希望給機器賦予人類一樣的想像力。就像人類在看風景時,無論庭前花開花落,總能想像出春夏秋冬四季變遷的模樣。在眺望風景時候,朝暉夕陰、氣象萬千、四季輪迴都瞭然於胸。

參考鏈接:https://blogs.nvidia.com/blog/2018/04/15/nvidia-research-image-translation/

以及更早先的論文:http://papers.nips.cc/paper/6672-unsupervised-image-to-image-translation-networks.pdf

-The End-

將門是一家專註於發掘、加速並投資技術創新激活商業價值的創業公司的創投機構,旗下設有將門創新服務、將門技術社群以及將門投資基金。

將門創新服務專註於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專註於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門投資基金專註於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在兩年的時間裡,將門投資基金已經投資了包括量化派、碼隆科技、禾賽科技、偉景智能、Convertlab、迪英加科技等十幾家具有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」:bp@thejiangmen.com


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 將門創投 的精彩文章:

華先勝:無行業,不AI——阿里視覺智能的探索與實踐
AI與植物學:深度學習助力科學對植物生物多樣性的理解,帶你走進神奇的植物世界

TAG:將門創投 |