當前位置:
首頁 > 新聞 > DeepMind新研究:使用強化對抗學習合成圖像程序

DeepMind新研究:使用強化對抗學習合成圖像程序

雷鋒網AI科技評論按:近日,DeepMind 發表的一篇博客中提到了一種新的人工智慧體,它可以推斷數字,角色和肖像的構造方式。更為關鍵的是,它們是自己學會做這件事,而不是靠人工標記的數據集。

真實的世界並不僅僅是我們眼睛裡所反映的圖像。例如,當我們看建築物並欣賞其設計的複雜性時,我們也欣賞它所需的工藝。這種思維方式可以使我們對世界有更加豐富的理解,也是人類智慧的重要體現之一。

DeepMind 的研究員希望它們的系統也能創造出同樣豐富的世界表現形式。例如,觀察繪畫的圖像時,希望系統能了解用於創建繪畫的筆觸,而不僅僅是表現在屏幕上的像素。

DeepMind新研究:使用強化對抗學習合成圖像程序

在這項工作中,研究員為人造智能體(agents)配備了與人類用來生成圖像相同的工具,並證明它們可以推斷數字,人物和肖像的構造方式。更關鍵的是,它們是自學如何做到這一點,而不是通過人為標籤的數據集。這與最近的一項研究「A Neural Representation of Sketch Drawings」提到的依賴從人類經驗中學習的方式恰恰相反。依賴於人類經驗的學習通常是很耗時的。

DeepMind新研究:使用強化對抗學習合成圖像程序

研究員設計了一個可以與計算機繪畫程序交互的深度強化學習智能體,將筆觸放在數字畫布上並更改畫筆大小,壓力和顏色,未經訓練的智能體畫筆很隨意,並沒有明顯的意圖或結構。為了克服這一點,研究員需要創建一種獎勵方式,鼓勵 agents 生成有意義的圖片。

為此,研究員訓練了第二個神經網路,稱之為鑒別器。它唯一目的是預測特定圖形是由 agents 製作的,還是從真實照片的數據集中採樣的。agents 的獎勵是通過「欺騙」鑒別者認為它的繪畫是真實的。換句話說,agents 的獎勵信號本身就是學習的。雖然這與生成對抗網路(GAN)中使用的方法類似,但並不相同。因為 GAN 網路設置中的生成器通常是直接輸出像素的神經網路。而這裡的 agents 是通過編寫圖形程序來與繪圖環境交互來生成圖像。

DeepMind新研究:使用強化對抗學習合成圖像程序

在第一組實驗中,agents 通過訓練生成類似於 MNIST 數字的圖像:它顯示了數字的樣子,但沒有顯示它們是如何繪製的。通過嘗試生成欺騙鑒別器的圖像,agents 學會控制畫筆並操縱它以適應不同數字的風格,這是一種稱為可視化程序合成的技術。

研究員也訓練它重現特定圖像的能力。在這裡,鑒別器的目的是確定再現圖像是否是目標圖像的副本,或者是否由 agents 產生。鑒別器越難區分,agents 得到的獎勵就越多。

最重要的是,這個框架也是可以解釋的,因為它產生了一系列控制模擬畫筆的動作。這意味著該模型可以將其在模擬繪圖程序中學到的知識應用到其他類似環境中的字元重建中,例如用在仿造的或真實的機械臂上。

還有可能將這個框架擴展到真實的數據集。agents 經過訓練可以繪製名人臉部表情,能夠捕捉到臉部的主要特徵,例如形狀,色調和髮型,就像街頭藝術家在使用有限數量的畫筆描繪肖像時一樣:

DeepMind新研究:使用強化對抗學習合成圖像程序

從原始感受中提取信息結構化表示是人類很容易擁有並經常使用的能力。在這項工作中,研究員表明可以通過讓智能體獲得和人類重現世界的相同工具來指導智能體產生類似的表示。在這樣做時,它們學會製作可視化程序,簡潔地表達因果關係,提升了它們的觀察力。儘管該工作目前僅代表了向靈活的程序合成邁出一小步,但預計需要類似的技術才能使智能體具有類似人的認知,包括歸納概括和溝通交流等能力。

相關論文:Synthesizing Programs for Images using Reinforced Adversarial Learning

雷鋒網編譯

via DeepMind

雷鋒網原創

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

新智駕會員計劃:全年100期「深思考」,帶你深入淺出讀懂自動駕駛
如何改善汽車中的衛星導航體驗?這裡有一個新方案

TAG:雷鋒網 |