當前位置:
首頁 > 科技 > 監督式學習是擋腳石,非監督學習才是人工智慧的未來

監督式學習是擋腳石,非監督學習才是人工智慧的未來

儘管深度學習大有前途,儘管它在早期確實取得了一些成功,但監督式深度學習實際上可能會阻礙真正人工智慧的發展。

如果你一直在關注媒體的人工智慧報道,可能意識到:人工智慧是個統稱,涵蓋許多概念和方法。最終,這些迥然不同但並非排他性的方法試圖為機器賦予更類似人類的推理和智能。

深度學習是諸多人工智慧平台採用的一種推理方法。深度學習堪稱這個概念的代表,成為重大的研究課題,獲得了大筆的投資,還有媒體的競相報道。

深度學習是通向類似人類的智能的「真正」道路嗎?

自計算技術誕生以來,開發人員就通過編寫代碼來開發程序和演算法,機器將代碼轉換成精確的指令。

儘管計算機功能強大、用途廣泛,但是在執行人類輕鬆執行的任務時卻常常無能為力。將實時經驗考慮在內的複雜問題還無法簡化成一行行代碼,因此需要更新穎的方法。

深度學習提出了一種不同的方法來解決問題。

程序自動「學習」來解決問題,而不是按程序解決問題的方式來編寫代碼。

這就是深度學習背後的廣泛概念,它依賴於多層神經網路,每個層始於最後一個層離開的地方,以解決問題。

值得一提的是,神經網路是單獨但相互連接的節點,它們同時運行計算,不過它們完全類似我們人類的神經系統。

一些專家認為,深度學習並不是為機器賦予類似人類的智能的真正途徑,它可能阻礙「真正人工智慧」的進步。

目前使用的所有深度學習系統都是「監督式」,這意味著它們需要預先確定的數據――基本上它們會對這些數據分類――這項工作耗用了大量資源,而這些資源原本可用於開發真正大有潛力的人工智慧,即所謂的「非監督式人工智慧」。

非監督式人工智慧的工作方式有些類似人腦,它會識別出新的模式,自行標記模式,並對它們進行分類,這一切都不需要人類事先輸入。這種「真正的人工智慧」被麻省理工學院(MIT)的科學家稱之為「非監督式人工智慧」。

大公司將就使用「監督式」深度學習

自20世紀60年代以來,深度神經網路就已經存在了,不過近幾年來,它們才真正迅猛發展起來,因為這時候具備了兩個條件:大數據和計算能力。

深度學習系統必須擁有大量的數據,並擁有足夠的計算能力,才能不斷地更新自己,從經驗中學習,並不斷改進。

由於深度學習,幾種數據處理應用得以成為可能,比如語音識別、圖像識別和繪圖。

在谷歌、Facebook、蘋果、微軟和亞馬遜之類的巨頭看來,這些應用及其他許多應用是深度學習的「中流砥柱」。

大公司已經在充分利用源源不斷的數據,將龐大的資源專門投入到監督式深度學習上。

除了個別項目外(比如谷歌的「人工大腦」項目),其他的「非監督式人工智慧」大項目均沒有進展。

據《麻省理工學院技術評論》聲稱,吳恩達最出色的學生Quoc Le(谷歌大腦小組的研究科學家之一)認為「非監督式學習」是開發不需要標記數據(labeled data)就能學習的真正人工智慧面臨的最大挑戰。

另外一篇類似的觀點,做為補充,推薦給大家~(系網易新聞-智能工作室出品)

我們已經在之前的一篇文章中探討了神經網路和深度學習技術,現在是時候討論深度學習的另一個主要組成部分了:數據,即圖像,視頻,電子郵件,駕駛模式,短語,物體等等。

令人驚訝的是,儘管我們的世界幾乎被數據所淹沒,但很大一部分是未經標註未被整理過的,這意味著這些數據對於大多數目前的監督式學習來說是不可用的。

而深度學習尤其依賴於大量良好的、結構化的、有標籤的數據。在我們「神經網路非數理化指南」的第二部分中,我們將研究為什麼高質量的、標記過的數據如此重要,它來自哪裡,如何使用,以及近期會有什麼樣的解決方案可以提供給我們製造的那些渴望學習的機器。

監督學習:讓我握住你的手

在關於神經網路的文章中,我們曾解釋了如何通過精心製作的「香腸印刷機」(sausage

press)將數據輸入給機器,這些印刷機能夠快速進行剖析、分析甚至自我精鍊。

這一過程被認為是監督式學習,因為大量的數據被輸入到機器中,這些數據被事先煞費苦心地貼上了標籤。例如,要訓練一個神經網路來識別蘋果或橙子的圖片,就需要給這些圖片貼上標籤。機器可以通過識別所有被標記為蘋果或橙色的圖片來理解數據,這些圖片有共同之處,因此機器最終可以利用這些已識別的圖片來更準確地預測新圖像中所出現的內容。他們看到的標記數據越多,看到的數據集越大,就能更好地增進他們預測的準確性。

這種方法在教機器學習視覺數據時很有用,還可以教機器如何識別從照片、視頻到圖形和書寫在內的東西。一個明顯的優勢是,在許多應用程序中,機器在圖像識別上做得甚至比人類還好。

比如,Facebook的深度學習軟體能夠將一張陌生人的兩張照片進行匹配,其準確性與人類相當(實際上97%的情況下要好於人類),而谷歌在今年早些時候推出了一種可以從醫學影像中探測腫瘤的神經網路,它的準確性甚至高於醫師。

無監督學習:不需要監護人指導就得出結論

如你所預期,與監督式學習相對應的是無監督學習。這是指你鬆開系在機器上的皮帶,讓它潛入數據中,自主地進行發現和體驗,尋找模式和聯繫,並得出結論,而不需要監護人的指導。這項技術長期以來一直被一部分人工智慧科學家們所批評,但在2012年,谷歌展示了一個深度學習網路,能夠從一大堆沒有標記過的圖片中破譯貓、人臉和其他物體。這項技術令人印象深刻,並帶來了一些極為有趣和有用的結果,但是,到目前為止,在任何方面無人監督學習都達不到監督學習的準確性和有效性。

無處不在的數據

這兩種方式的差異使我們進入了對一個更大、令人困惑的話題的探討。把這些機器比作人類嬰兒很有用。我們知道,只要讓我們的孩子放鬆,沒有指導他也會學習,但他學到的不一定是我們想要他學的東西,學習的方式也無法預測。

但是,既然我們也通過教育來教孩子,那麼我們就需要通過客觀上無窮多的話題使孩子暴露於大量物體和概念之中,我們需要教給孩子方向,動物和植物,重力和其他物理屬性,閱讀和語言,食物類型和元素等。事實上是所有存在的事物。隨著時間推移,所有這些幾乎都可以通過展示和講述活動以及回答年輕人無窮多得問題而被解釋。這些問題都是由任何好奇的年輕人提出的。

這是一項浩大的工程,但所有父母和普通孩子身邊的人每天都在做著這樣的事情。神經網路有同樣的需求,但它的關注點通常更狹窄,我們也不太會與它進行社交,所以標籤需要更加精確。

目前,人工智慧研究人員和科學家可以採取很多方法來獲取數據,以訓練他們的機器。第一種方法是走出去,自己收集大量的標籤數據。谷歌、亞馬遜、百度、蘋果、微軟和Facebook等公司的情況都是如此,有意思的事,這些企業都擁有令人驚嘆的海量數據——其中大部分都是由客戶免費提供的。如果想把所有這些數據都列出來,那就太愚蠢了;但應該考慮一下上傳到這些公司資料庫雲存儲上的數十億條標記過的圖片。

然後想想所有的文檔,通過語音、文本、照片和光學字元識別進行的搜索查詢,位置數據和地圖,評級、贊和分享,購物信息,快遞地址,電話號碼和聯繫方式,地址簿和社交網路。擁有這些資源的公司——以及任何規模龐大的公司——往往在機器學習中擁有獨特的優勢,因為它們擁有豐富的特定類型的數據

數據帶來的困難

如果你碰巧沒有擁有一家擁有海量數據的財富100強公司,那麼你就應該知道如何與他人分享。獲取大量多樣化數據是人工智慧研究的一個關鍵部分。幸運的是,現在已經有大量免費和公開的標籤數據集,涵蓋了各種各樣不同的類別。根據你所想,你可以找到顯示從人類面部表情和手語到公眾人物臉型和膚色的各種數據集。

你還可以找到數以百萬計的關於人群、森林和寵物的圖片,這包括所有寵物的照片;你也可以通過篩選大量的用戶和顧客評論來獲得相關信息。此外,還有一些數據集,包括垃圾郵件、多種語言的推文、博客帖子和法律案例報告。

新的數據類型來自於世界上越來越多、無處不在的感測器,比如醫療感測器、運動感測器、智能設備的陀螺儀、熱感測器等等。還有就是人們給他們吃的食物、葡萄酒標籤和諷刺性標語等拍的照片。

問題在哪裡呢?

儘管數據是如此之多,但事實證明許多數據都不是那麼有用。要麼是它們太小了,要麼是不太好,要麼是只有部分被貼上標籤,或者標籤貼的不合適,總之他們就是無法滿足你的需求。例如,如果你希望教會一台機器識別圖像中的星巴克標誌,你可能只能找到一個用來訓練的圖片資料庫,該資料庫可能被打上了「飲料」、「飲品」、「咖啡」、「容器」或人名「喬」,沒有正確的標籤,它們就沒有用處。

一般的律師事務所或老牌公司在其資料庫中可能會有數百萬份合同或其他文書,但這些數據無法被使用,因為它們可能是被簡單地以未打過標籤的PDF格式保存的。在獲得最優數據方面的另一個挑戰是確保所使用的訓練數據集數量夠大,並且是多樣化的。

另外,在訓練一個複雜的模型,如深度神經網路時,使用小數據集可能會導致所謂的過度擬合,這是機器學習中一個常見的問題。實際上,過度擬合是由於大量可學習參數與訓練樣本有關聯導致的,這樣的參數充當了「神經元」,我們在之前通過反向傳播對其進行了全面的調整。結果可以是一個能夠記住這些訓練數據的模型,而不是從數據中學習一般概念的模型。

回想一下我們的蘋果-桔子網路。因為作為訓練數據的蘋果圖像很少,而神經網路卻很龐大,我們很可能會讓網路在特定細節上進行仔細的研究——紅色、棕莖,圓形,這些細節需要在訓練數據之間被準確地區別化。這些微小的細節可能會很好地描述訓練蘋果的圖片,但當測試中機器被要求識別一個新的蘋果時,這些細節可能就被證明是無關緊要,甚至是不正確的,因為在測試的時候,可能會有一個新的、機器之前未見過的蘋果。

另一個重要的原則就是數據的多樣性,從統計學上來說,你所積累的數據越獨特,你的數據就越有可能更加多樣化。

在「蘋果-桔子」的例子中,我們希望機器能有合理的概括能力,這樣它就能識別所有蘋果和桔子的圖像,不管這些蘋果桔子是否出現在訓練集中。

畢竟,並不是所有的蘋果都是紅色的,如果我們只在紅色蘋果的圖片上訓練我們的網路,很有可能在測試時它是無法識別出綠色蘋果的。因此,如果在培訓中使用的數據類型是不全面的,無法囊括測試中所有的可能性,那麼就會出現這樣的問題。在很多人工智慧領域,以偏概全的問題已經開始出現。神經網路和用來訓練它們的數據集反映了其製造者人群中的偏見。再一次,如果只用紅蘋果來訓練我們的蘋果-橘子網路,我們可能會讓機器具有偏見,認為蘋果只能是紅色的。

如果類推到其他應用之中,比如面部識別,那麼不全面數據帶來的影響就會變得非常明顯,就像老話說的那樣:「進來的是垃圾,出去的還是垃圾」

製造一個可以獨立思考的捕鼠器

缺少人力去標記數據是一個問題,這很昂貴。或者如果世界上的所有公司都忽然統一開放他們的數據資源,並心甘情願地將其提供給全球的科學家,這樣一來缺乏好的訓練數據一事就不復存在了。

與其朝著獲得儘可能多的數據這一目標努力,深度學習的未來可能會是朝著無監督學習技術這一方向發展。

如果我們想一想我們是如何教給嬰幼兒關於世界的知識時,這樣的做法就是有道理的;畢竟,儘管我們確實教會了孩子很多東西,但作為人類所做的最重要的學習,是經驗,這是無人監督的。

編譯:網易見外智能編譯機器人

來源:techcrunch 審校:Ecale

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雲頭條 的精彩文章:

使用8個月前的漏洞,就能攻破 7 萬台 memcached 伺服器!
富國銀行發錯電子郵件 導致5萬客戶信息遭到泄露
開發病毒感染超2億台電腦 北京一公司9人被捕
中國移動x86伺服器虛擬化軟體中標企業:中移全通、華為、中移、神州數碼
IT人有生活嗎

TAG:雲頭條 |

您可能感興趣

機器學習之監督和無監督學習
人工智慧學習手記——我的又一基礎學習
數據科學,人工智慧,機器學習,深度學習到底啥關係?
無監督學習才不是「不要你管」
當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習
機器學習三兄弟概念大揭秘:「監督學習」「非監督學習」「強化學習」
人工智慧時代,學習什麼才不會落伍?
用作業來督促學習,這是學習的最好模式
人工智慧將憑其學習能力成為會計行業的未來
簡評漢王智能學習燈:學習不累眼 可遠程檢查孩子學習
人工智慧–機器學習
一圖了解人工智慧之機器學習學習路徑
人工智慧、機器學習和深度學習
MIT人工智慧實驗室教授:深度學習是錯的!智能突破口在人腦研究
人工智慧及機器學習與深度學習揭秘
無監督學習在反欺詐中的應用
人工智慧世界裡的機器學習與深度學習
深度 | 當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習
管理我們的學習
人工智慧和機器學習帶來的巨變