當前位置:
首頁 > 新聞 > 蘋果重磅推出AI技術博客,CVPR合成逼真照片論文打響第一槍

蘋果重磅推出AI技術博客,CVPR合成逼真照片論文打響第一槍

【新智元導讀】蘋果剛剛推出一個名為 Apple Machine Learning Journal 的新研究博客,第一篇文章介紹了他們的CVPR論文,提出一種改進合成圖像的方法,使合成的圖像看起來更逼真。研究結果表明,使用這些經過精細化的合成圖像訓練模型可以在多個機器學習任務上顯著提高準確性。

新智元編譯

來源:techcrunch、machinelearning.apple.com

GIF/38K

蘋果剛剛推出一個專註於機器學習研究論文的博客,並分享了蘋果的最新研究發現。該博客名為「蘋果機器學習期刊」(Apple Machine Learning Journal),發表的第一篇文章是關於如何將合成的圖像變得更逼真,以用於訓練神經網路。

這個舉動很有趣,因為蘋果通常不會公開談論他們的研究項目。據techcrunch報道,蘋果已經推出一些重要的開源項目,例如 Safari 背後的瀏覽器引擎 WebKit,以及 Apple 的最新編程語言 Swift,用於 iOS,watchOS 和 tvOS。但是,做一個專門介紹他們的人工智慧研究論文的博客對蘋果來說還是很新鮮的。

說它有趣,原因有幾個。首先,這篇論文已經在 arXiv 上發表。今天發在博客上的版本講的是同一件事,但使用的語言簡單一些。而且,蘋果還增加了一些 GIF 動圖來說明。

根據這篇文章,蘋果需要訓練神經網路來檢測照片上的人臉和其他物體。但蘋果的方法不是製造擁有數百萬計圖像樣本的巨大的數據集來訓練神經網路,而是創建由計算機生成的人物的合成圖像,並應用一個過濾器使這些合成圖像更逼真。這比一般的方法訓練神經網路的成本更低,而且速度更快。

其次,在該博客中,蘋果鼓勵讀者給他們發郵件。頁腳上還有一個大大的指向蘋果招聘頁面的鏈接。顯然,蘋果希望利用這個平台找到有能力的工程師。

第三,很多人批評蘋果在機器學習方面的表現,認為谷歌、亞馬遜這些公司更有能力。當然,蘋果一直沒什麼動靜也是事實。谷歌的Assistant和亞馬遜的Alexa這樣的消費產品也比蘋果的Siri表現得好得多。

但在分析移動設備上的照片庫,iPhone 7 Plus 的景深效果,以及蘋果的 ARkit 增強現實,蘋果也做了不錯的工作。顯然,在人工智慧和機器學習方面,蘋果想改變大眾對它的看法。

下面讓我們看看蘋果機器學習期刊的第一篇文章說了些什麼。

改善合成圖像的真實感

當前,神經網路最成功的例子是用監督學習的方式訓練的。但是,為了實現高準確率,訓練集需要大量、多樣性的樣本,而且需要準確的注釋,這是非常昂貴的。代替標註大量數據的方法是使用模擬器合成的圖像。這種方法的成本較低,因為不需要對數據進行注釋,但合成的圖像可能不夠真實,導致在實際測試圖像上泛化不好。為了解決這個問題,蘋果提出一種改進合成圖像的方法,使合成的圖像看起來更逼真。研究結果表明,使用這些經過精細化的合成圖像訓練模型可以在多個機器學習任務上顯著提高準確性。

圖1:任務是學習一個模型,該模型使用未標註的真實數據,利用模擬器改善合成的圖像的真實性,同時保留注釋信息。

「提高真實性」的目標是使圖像儘可能逼真,以提高測試時的精度。這意味著我們需要保留訓練機器學習模型的注釋信息。例如,圖1中眼睛注視的方嚮應該保留,並且不要產生任何偽影(artifacts),否則機器學習可能會過度擬合它們。我們學習一個深度神經網路,稱之為「精細化網路」(refiner network),該網路處理合成的圖像以改善圖像的真實性。

GIF/145K

圖2:精細化網路R最大限度地減少了局部對抗損失和「自規範化」(self-regularization)項的組合。對抗損失「欺騙」判別器網路,將圖像分類為「真實的」和「精細化的」。自規範化項最小化合成圖像和精細化圖像之間的差異。精細化網路和判別器網路交替更新。

圖3:局部對抗損失的圖示。判別器網路輸出一個 w × h 的概率圖。對抗損失函數是局部 patch 的交叉熵損失之和。

GIF/166K

圖4:使用圖像歷史來改善判別器的直觀圖示。

圖5:判別器D歷史中的mini-batch的圖示。每個mini-batch都包含來自生成器的當前迭代圖像,以及來自緩衝區的先前的假圖像。

GIF/286K

圖6:隨著訓練進行,refiner網路的輸出。從模糊的圖像開始,網路學習模擬真實圖像中的細節。

圖7:隨著訓練進行,生成器和判別器的損失值

圖8:特徵空間中的自正規化損失示例。

圖9:合成圖像和真實圖像中的瞳孔中心間距離的散點圖

圖10:使用我們提出的方法得到精細化的眼睛圖像

圖11:使用合成的圖像和精細化的圖像進行眼睛注視估計的訓練比較。對實際測試圖像進行評估。

圖12:對MPIIGaze數據集進行注視估計的不同方法的比較。前兩種方法在參考文獻[2]和[3]中有描述。

有關本文中描述的工作的更多細節,請參閱我們的CVPR論文「通過對抗訓練從模擬和無監督的圖像學習」( Learning from Simulated and Unsupervised Images through Adversarial Training),論文地址:https://arxiv.org/abs/1612.07828

更多研究細節和參考文獻請查看原文:https://machinelearning.apple.com/2017/07/07/GAN.html

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

國務院印發 《新一代人工智慧發展規劃》
Facebook加入爭奪中國AI人才,LeCun上交大對話AI領袖(PPT)
首發:人臉識別世界盃榜單出爐,微軟百萬名人識別競賽冠軍分享
「深度學習4大技術方向」Keras之父、谷歌研究員拆解機器自主學習

TAG:新智元 |

您可能感興趣

三星發布QLED TV新品,用AI與IoT技術定義下一代電視
兩文一綜述!PNAS連續重磅!RNAi技術又上一層樓!
ARM推出iSIM技術:手機SoC直接集成
RTX技術還原真實光影 NVIDIA表示你需要一塊Volta GPU才能火力全開
政治不正確的技術問題:Oculus刪除VR射擊遊戲 HTC合併手機與VR業務
政治不正確的技術問題:Oculus刪除VR射擊遊戲 HTC合併手機與VR業務
基因編輯大牛指出CRISPR技術又一新問題:引導RNA引發免疫應答
NVIDIA RTX 技術實現實時渲染電影級畫質夢想
CRISPR/Cas技術最新進展:保持DNA完整而又激活靶基因
如何解決遊戲畫面撕裂 NVIDIA G-SYNC技術為君解憂
索尼將在SXSW展出VR/AR沉浸式技術
科學家將CRISPR基因編輯技術同DNA條形碼技術結合 有效追蹤癌症進展
ARM推出iSIM新技術:今後不再需要實體SIM卡
《最終幻想15》PC版新截圖 展示NVIDIA VXAO技術
ARM新架構發布:整合SIM技術、手機不再需要實體卡
國內首發ARCore技術,小米MIX 2S推出AR遊戲
深度學習得靠它!NVIDIA Volta GPU核心架構深層技術
DJI與Epson合作推出無人機應用 增加AR技術
SXSW大會索尼將展示創意VR/AR沉浸技術
技術詳解DAG區塊鏈項目SPECTRE:圍繞一致性建設,投票機制甄別攻擊杜絕交易衝突