LeCun 談對抗性網路:如何打造出更加聰明的人工智慧?
引言:眾所周知, Facebook 開始採用人工智慧技術的時間較早,使用頻率也越來越高。現在,他們的研究人員正試著將這一技術帶入下一個階段——從純數據處理邏輯邁向堪與人類媲美的某種形式的「常識」。雖然人工智慧可以幫助機器實現很多事情,但是,完成這些基本任務所依賴的學習演算法不僅要靠人類編寫,也需要人類給系統輸入海量訓練數據,這一過程也就是我們常說的機器學習。機器要真正掌握常識,也就是說,可以根據嘗試搞清楚世界的運作方式並作出合理決定,那麼,它們必須能夠自學,無需人類監督。雖然不可能很快實現這一點,不過,研究人員正在朝這個方向努力。不久前,Facebook 的 Yann LeCun 和 研究工程師 Soumith Chintala 介紹了他們在這方面取得的一些進展:對抗性訓練(adversarial training)技術。LeCun 認為,人類需要和機器以一種非常自然的方式互動,因此,我們需要讓機器懂得人類。易言之,機器需要掌握常識。
人類的學習過程,就是對現實世界進行觀察和體驗。或許在不久未來,會出現一部徹底(complete)的人工智慧系統,不僅能識別文本和圖像,還能進行更高級別的推理,預測,規劃等,思考和行為方式可與人類相媲美。要掌握這類常識,機器需要一個內在模型,告訴它世界的運行方式,這就要求機器具備預測能力。現在我們所欠缺的就是:無需人類勞師動眾地加以訓練,機器自己可以建構起這樣一個內在模型。
人類的大腦非常善於預測。比如,筆掉了,我們知道它會掉在地上,無需計算就知道如何接球。最近,對抗網路(adversarial networks )已經成為一個訓練機器預測能力新方法,簡單地通過觀察就能進行預測。一個對抗網路帶有一個發生器(generator),從隨機輸入中生成某類數據(比如,圖片)。還帶有一個判別器(discriminator),它從發生器中獲取輸入,或者從一個真實數據組中獲取輸入,判別器必須區分來源不同的輸入——判別真偽。兩個神經網路能實現自身優化,從而生成更加真實的輸入,以及世界觀更為合理的網路。
不過,人們以前認為,生成式對抗網路(generative adversarial networks)不穩定。有時,發生器壓根兒沒開始學習,或生成我們認為好的結果。在FAIR,我們已經發表了一組論文,與合作夥伴一同研究如何穩定對抗網路,我們從圖像生成器開始,使用了 拉普拉斯對抗網路 (LAPGAN), 深度卷積生成式對抗網路 (DCGAN) ,接著是更為複雜費力的視頻生成,使用了 對抗梯度差損失預測器 (AGDL)。不論我們給這些系統輸入什麼類型的圖像或視頻,他們都能開始學習,並預測出合乎情理的情景。
深度學習和卷積神經網路
在計算機視覺領域,基於監督數據集進行圖像識別,卷積神經網路(CNN)一直很成功,但是,無監督表徵學習卻遲遲沒有進展。原因之一就是我們不知道這個「黑盒」里發生的事情,而且我們想要理解每種演算法的目的。
利用深度學習技術,我們可以單獨訓練系統各層級,並開發出具有更加複雜理解能力的深層結構,理解範圍從物體邊緣、完整物體再到各種情景。深度學習方法可被用於圖像生成。但指的不是這樣的系統:輸入一張圖片,然後告訴你是狗還是飛機,而是倒過來: 輸入一串描述內容的數字,然後生成相應圖像。
對抗訓練比較複雜,因為我們不得不同時優化圖像生成器和鑒別器。這就像是在尋找一處隘口;兩座山峰之間最低處,同時也是兩個山谷之間的最高點。這類優化比較困難,而且如果模型不穩定,我們就無法找到這個中心點。
雖然之前使用 CNN 訓練生成式對抗網路的嘗試都失敗了,但是,當我們修改 CNN 結構去創造 DCGAN 時,我們就能將網路每層學習的濾波器可視化,也因此打開了黑盒。
對抗網路的性質
簡單說來,在一個對抗網路中,判別器的輸出就是:遇到真實圖片,輸出 1;如果是生成圖片,輸出 0。判別器想要做好這項工作,因此,它會優化自身,防止被生成器欺騙。反過來,生成器也正在優化自己,它想生成非常真實的圖像,儘可能地迷惑鑒別器,讓其難辨真偽。最後,生成器開始生成非常真實的圖片:無論圖片是生成器生成的還是真實的,半數時間裡,判別器的正確概率都是恆定的。
這種對抗訓練過程與傳統神經網路存在一個重要區別。一個神經網路需要有一個成本函數,評估網路性能如何。這個函數構成了神經網路學習內容以及學習情況的基礎。傳統神經網路需要一個人類科學家精心打造的成本函數。但是,對於生成式模型這樣複雜的過程來說,構建一個好的成本函數絕非易事。這就是對抗性網路的閃光之處。對抗網路可以學習自己的成本函數——自己那套複雜的對錯規則——無須精心設計和建構一個成本函數。
實踐中,對抗網路的這種特性可以轉化為一些更好、更敏銳、質量更高的預測模型。為了展現這一點,我們用各種圖片數據組訓練了 LAPGAN 和 DCGAN , 這些圖片要麼採集了 ImageNet 數據組中一組特定圖像,比如臉部,油畫,卧室等,要麼採集了一套各種自然景觀圖像。在人工智慧社區,特別是 DCGAN ,開始變得很流行。幾個研究人員根據我們為 DCGANs 公布的代碼,用各種不同圖像集訓練了其他的 DCGAN。比如, 以下就是 NVIDIA 研究人員用18世紀的畫作訓練的一個 DCGAN。
我們已經見識過了無需任何監督,接受大型數據集訓練就可以學會深度結構的 DCGAN 。當我們使用訓練過的判別器,在其他數據組上完成圖像識別任務時,DCGAN 的表現至少與其他無監督訓練模型持平,甚至更好。我們也已能夠將 DCGAN 在每層學到的濾波器可視化,也能經驗地展示,神經網路已經學會如何根據學到的表徵來繪製特定物體。比如,在卧室圖像集中,當我們從生成器輸入中移除「窗戶」的表徵時,神經網路通常會用其他諸如門或電視之類的表徵取代它, 這意味著,它能夠分清情景表徵( scene representation)和物體表徵( object representation)。
在某種維度空間內,DCGAN 也能夠識別模式並將某些相似表徵放在一起。比如,在臉部圖像數據集中,生成器不理解什麼是微笑的意義,但是,它能發現人類微笑圖片的相似性,並將它們分為一組。基於之前使用文本做過的類似研究,我們調查了簡單算術是否可以揭示出這一維度空間中的豐富關係。我們發現,通過求三個範例的平均值,可以得出連續,穩定的結果,在語義上遵守了算術規則。
無監督生成式模型學習目標特徵
更聰明的機器
一旦我們可以訓練一台機器去預測世界看起來什麼樣,那麼,我們就能將機器學到的內容用於完成不同的任務。如果我們拍了兩張照片,拍攝其中一張照片時,相機輕微左移以獲取不同的拍攝視角,機器就會發現兩張照片的不同之處,還會知道世界是三維的。然後,它會將這個知識應用到新的情景中,比如,夠到桌子另一頭的鋼筆,距離有多遠。當機器掌握了這個常識後,就會更善於找到最佳辦法去完成某件特定任務,而且還能迅速拒絕其他任何不合常理的假設,比如,不開門就走出去。最終,這類知識會進一步加快應用研發,包括看先進的聊天機器人和虛擬助手。
我們的AGDL研究,正朝著這個方向——預測將要發生的事情——在前進。我們選取了幾幀視頻然後打造模型進行預測。比如,撞球遊戲,球被擊中後,預測關於球的運動情況的下一幀內容。
雖然 ADGLs 已經向視頻預測邁出了重要的第一步,但是,在我們開始根據這些模型預測進行推理並使用他們進行規劃之前,仍然需要對當前模型進行改善,讓它能夠進一步預測未來。對抗網路,為打造具有諸如常識之類特點的無監督學習模型提供了一個強大的計算框架,而且我們也相信,在這個方向上繼續探索和推進研究,就有可能成功打造出更加聰明的人工智慧。





TAG:機器之心 |
※Twitter CEO 承諾,啟用更嚴格的制度應對網路仇恨、暴力言論
※看IBM Watson是如何應對網路犯罪問題的?
※有源碼提供:還在苦惱如何寫CNN網路?看大神如何使用keras11行代碼構建CNN網路
※特朗普總統的iPhone:智能手機當功能手機用 連Safari網路瀏覽器都沒有
※Michael Nielsen《神經網路和深度學習》:智能可以用簡單的演算法表示嗎?
※網路這麼發達!來看iPhone原型機是如何保密的?
※Facebook出擊,對抗泛濫的社交網路虛假信息
※解密攻擊者如何利用D-Link路由器構建殭屍網路
※DeepMind開發新型神經網路,可以增強人工智慧對現實世界事物的理解和推理
※受蘋果與高通的官司影響,iPhone 8可能不會支持更快的LTE網路
※前劉海其實蠻好看?iPhone X在社交網路上曬出真機
※火遍網路的吳亦凡freesyle是什麼梗?連趙麗穎都在用?
※遭OPPO封殺?科技美學出面澄清:都是網路和路由器的「鍋」!
※一夜之間爆紅網路的性感男模Antonio Pozo ,這TM才叫男友力MAX!
※美國欲加強網路廣告監管力度,Facebook、Google和Twitter該如何應對?
※面對社交媒體上的網路暴力,超模Bella Hadid也一樣?
※前劉海其實蠻好看? iPhone X在社交網路上曬出真機
※安全:微軟向 Windows XP 釋出新補丁,防禦破環性的網路攻擊
※王寶強新助理爆紅網路,Undercut髮型也是帥沒sei了