當前位置:
首頁 > 知識 > 深度學習那點兒事

深度學習那點兒事

Facebook能自動在您的照片中找到您朋友並標記。比如,谷歌Deepmind的AlphaGo計算機程序在去年的古老遊戲中擊敗了冠軍,這期間,Skype實時翻譯對話,翻譯十分準確。

所有這一切的背後都是一種稱為深度學習的人工智慧。但是什麼是深度學習,它又是如何工作的呢?

深度學習是機器學習的一個子集 ,這是一個研究計算機演算法的領域,它可以自己檢查學習和改進。

深度學習那點兒事

機器學習絕不是最近才有的現象,它的根源在20世紀中葉。 20世紀50年代,英國數學家艾倫·圖靈(Alan Turing)提出了人工智慧的「機器學習」。而在接下來的幾十年里,各種機器學習技術也越來越受到青睞。

其中之一便是神經網路,這種演算法支持深度學習,並在圖像識別和機器人視覺中扮演核心角色。它是由構成人腦的神經細胞(神經元)所激發的,神經網路組成了層(神經元),他們彼此相連接。層數越多,網路越「深」。

大腦中的單個神經元從其他神經元接收信號,多達10萬個。當這些其他神經元起火時,它們對連接的神經元施加興奮性或抑制作用。如果我們的第一個神經元的輸入加起來達到一定的閾值電壓,它也會起火。

而在人工神經網路中,信號也在「神經元」之間傳播。但是,神經網路不是發射電信號,而是為各種神經元分配權重。一個比另一個權重更大的神經元會對下一層神經元產生更多的作用。最後一層將這些加權輸入放在一起,以得出答案。

深度學習那點兒事

假設我們想用一個神經網路識別至少包含一隻貓的照片。但實際上貓並不都是看起來完全一樣的,比如一個毛茸茸的老緬因貓和一隻白色的暹羅貓,長相就是完全不同的,照片也不可能在相同的光線中以相同的角度和相同的尺寸顯示出來。這時候,我們就需要編譯一組訓練圖像,有數千個貓臉作為例子,我們(人類)標註「貓」,以及那些不是以貓為對象的圖片,然後標記其(你猜到它)「不是貓」。這些圖像就被輸送到神經網路中去了。

如果這是一部運動題材的電影,訓練蒙太奇看起來就會像這樣:圖像被轉換成通過網路移動的數據,各種神經元將重量分配給不同的元素。例如,稍微彎曲的對角線可能就比完美的90度角更加重。

最後,最終的輸出層將所有的信息:尖耳朵、鬍鬚、黑鼻子放在一起,然後給出一個答案:貓。

深度學習那點兒事

神經網路將這個答案與真正的人類生成的標籤進行了比較。如果它們是匹配的那就太棒了,如果沒有,且圖像是corgi,那麼,神經網路記錄錯誤就需要返回並調整其神經元的權重。然後,神經網路會採用另一個圖像並重複該過程,數千次,調整其權重並提高其貓識別技能。這種訓練技術被稱為監督學習。

另一方面,無監督學習使用未標記的數據。神經網路必須識別數據中的模式來自學照片的哪些部分可能是相關的。

自學機器聽起來不錯,但直到最近發現,機器學習研究人員忽略了神經網路。神經網路受到一些似乎無法逾越的問題的困擾。一個是他們容易出現「本地最小化」。這就意味著他們最終會以不正確的方式出現在極少出現的最小錯誤中。

其他機器學習技術也崛起了,特別是在計算機視覺和面部識別領域。 2001年,美國三菱電機研究實驗室的保羅·維奧拉(Paul Viola)和邁克爾·瓊斯(Michael Jones)使用稱為自適應增強技術(AdaBoost)的機器學習演算法來實時檢測圖像中的人臉。

AdaBoost不是相互聯繫的神經元,而是通過一組簡單的決策過濾圖像。圖像有一個明亮的斑點在暗斑之間,這可能意味著是鼻樑。

隨著數據在決策樹上逐漸下降,從圖像中正確選擇面部的可能性也在增加。澳大利亞機器人視覺中心副主任(ACRV)和計算機視覺科學家伊恩·里德(Ian Reid)說:「這是一個非常簡單的想法,但它非常優雅,而且功能非常強大。它似乎是神經網路棺材中的最後一個釘子。」

深度學習那點兒事

加拿大多倫多大學的一個小組,由20世紀80年代神經網路先驅Geoff Hinton領導,提出了一種訓練神經網路的方法,這就意味著它不屬於本地最小陷阱。

強大的圖形處理單元即GPU突破了現場,意味著研究人員可以在台式機上運行、操縱和處理圖像,而不一定非得是超級計算機。

但是,Reid表示,神經網路最大的進步,是大量標籤數據的出現。 2007年,一對計算機科學家 - 斯坦福大學的李菲菲和普林斯頓大學的李開復共同啟動了ImageNet,這是一個來自數百萬互聯網的標籤圖像的資料庫。這樣漫長而艱巨的標籤任務受到諸如AMT等技術的擠出,為每個用戶標註的圖像支付了幾分錢。

現在,ImageNet提供了大約1000萬張圖像和1000個不同標籤的神經網路。來自中心的另一位計算機科學家古斯塔夫·卡內羅(Gustavo Carneiro)說:「從10年前到現在,這是一個巨大的飛躍。而在過去五年中,神經網路已經成為機器人視覺的核心工具。」

里德說表示,「雖然現代神經網路包含許多層次,谷歌照片就有大約30層,但是,卷積神經網路的出現就表示已經邁出了一大步。」

與傳統神經網路一樣,卷積對應物由加權神經元層組成。但他們不僅僅是模仿大腦的運作,他們還適當地從視覺系統本身汲取靈感。

卷積神經網路中的每個層都在圖像上應用過濾器來拾取特定的圖案或特徵。前幾層檢測到較大的特徵,例如對角線,而後來的層可以獲得更細的細節,並將其組織成諸如耳朵的複雜特徵。

典型的卷積神經網路架構

深度學習那點兒事

最終輸出層像普通神經網路一樣完全連接(即,該層中的所有神經元都連接到上一層的所有神經元)。它集合了高度具體的特徵,這其中可能包括狹縫形瞳孔,杏仁形的眼睛,眼睛到鼻子的距離,以產生超精確的分類:貓。

在2012年,谷歌培訓了一個複雜的神經網路與數千個未標記的YouTube剪輯縮略圖,我們看看會出現什麼,毫不奇怪,它變得擅長尋找貓視頻。

那麼在神經網路的隱藏層中發生了什麼呢?該中心主任Peter Corke教授說,這在很大程度上將仍是一個謎。但隨著網路越來越深入,研究人員解開了他們所建模的人類大腦的秘密,未來他們將變得越來越細微和複雜。

「當我們更多地了解人腦中編碼的演算法,以及進化使我們能夠幫助我們了解圖像的技巧時,」Corke說,「我們將逆向工程化大腦並竊取它們。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 IT168企業級 的精彩文章:

智能商務投影來了,想要更高效地進行一場會議還會困難嗎?
程序員,碼農和工程師:這三者之間有差別嗎?

TAG:IT168企業級 |