當前位置:
首頁 > 科技 > 人類為什麼能從極少量的數據中做出判斷?

人類為什麼能從極少量的數據中做出判斷?

最近一項研究表明,人類可以使用少於1%的原始信息來分類數據,驗證了一種解釋人類學習的隨機映射演算法——這種方法也能夠用於機器學習、數據分析和計算機視覺。


人類能夠快速地學會識別複雜的物品和它們的變體。通常我們總是能夠識別出字母「A」,不管其字體如何,紋理如何或者背景如何。我們也能夠認出同事的面孔,即使她帶了帽子或者換了髮型。我們還能僅通過部分可見部位識別出某一物品,比如說床之一角或者門縫邊緣。但是我們是如何做到的呢?在這些不同的任務中,人類有沒有使用到一些簡單的技術呢?這些技術能否移植到計算機上來改進計算機視覺、機器學習或機器人性能呢?


喬治亞理工學院的研究員們發現人類能夠僅使用少於1%的原始信息對數據進行分類,驗證了一種解釋人類學習的演算法——這種方法也能夠用於機器學習、數據分析和計算機視覺。

喬治亞理工學院的計算機科學特聘教授Santosh Vempala是該項目的4名研究員之一。他說:「人類是如何理解周遭如此龐大、種類繁多的數據,而且還處理得如此迅速和可靠呢?在最根本的水平上,人們是如何開始做這樣的事情的呢?這是個計算方面的問題。」


喬治亞技術學院計算學院的研究員Rosa Arriaga、Maya Cakmak、David Rutter和Vempala研究了人類在「隨機映射」(random projection)測試中的表現,以此來理解人們在學習物體的表現有多好。他們向測試對象展示一系列原始的抽象圖片,之後測試他們能否在隨機展示的、僅有圖片一部分區域的情況下正確識別出這些圖片。

人類為什麼能從極少量的數據中做出判斷?


人類為什麼能從極少量的數據中做出判斷?



高級研究科學家和發展心理學家Arriaga解釋道:「我們假設隨機映射是人類進行學習的一種方法。簡單來說,我們的預測是正確的。總數據的僅僅0.15%對人類來說就已經足夠了。」


接下來,研究員們測試了一種計算機演算法,讓機器(非常簡單的神經網路)完成同樣的測試。機器和人類表現的一樣好,這給了我們一種有關人類如何學習的新理解。Arriaga說道:「我們找到的證據表明,事實上,人類和神經網路的表現非常相似。」


研究者想對典型和非典型刺激的樣子建立一個數學定義,以此來預測哪些數據對人類和機器來說是最難學的。由於人類和機器的表現差不多,證明了你能預測隨著時間推移,哪些數據是最難學習的。

他們的研究成果最近發表在麻省理工學院出版的期刊《神經計算》(Neural Computation)上。據悉,這是首個採用人類被試的「隨機映射」研究。


為了驗證他們的理論,研究者先創作了3組150×150像素的抽象圖像,然後創作了創作了這些圖像中非常小的局部的「隨機草圖」。測試對象被展示了完整的圖片,時間為10秒。接著,向他們隨機展示了每張圖片的16張草圖。使用抽象圖片的目的是為了防止人類和機器擁有任何先驗知識。


Vempala說:「我們驚奇於極其簡單的神經網路和人類之間的表現是如此接近,神經網路的設計靈感就是來自於我們所認為的人類學習方式,但僅是個非常微弱的靈感。發現它如此匹配人類的表現力實在是驚奇。」

人類為什麼能從極少量的數據中做出判斷?


加州大學聖地亞哥分校的計算機科學與工程學教授 Sanjoy Dasgupta說道:「這篇迷人的論文介紹了一種基於局部的隨即映射,能夠在將圖片進行壓縮的同時,仍然使得人類和機器能夠區分大類。這是來自於幾何、神經計算和機器學習中的創新性見解組合。」


雖然研究員們無法明確地宣布人類大腦確實採用了隨機映射,但作者總結到,這個結果支持了這樣一種觀念:隨機映射是一種可能的解釋。另外,這暗示著一種非常有用的機器學習的技術:大數據如今是一巨大挑戰,而隨機映射是一種能使數據可控而不丟失核心內容的方法,至少對於一些基本任務(比如分類和決策制定)來說是這樣。


基於隨機映射的學習演算法理論已被引用超過300餘次,並成為了機器學習的一種常用技術,來處理不同類型的大量數據。

您可能感興趣

人類靈魂的重量是多少?終於有了科學數據解釋了
大數據與人工智慧,量變到質變的結果是什麼
從b超數據能看出胎兒性別?
給人出人意料的美感,原來數據線還能這麼玩?!
除了選出總統,選票數據還能看出什麼?
能夠處理龐大數據的硬體到底是什麼樣的
股票的最佳賣出時間是什麼?炒股方法比努力更重要哪些數據最準確
勇士四巨頭究竟能持續多少年?權威數據給出答案,並不能長久!
誰擁有你的數據?誰又動了你的數據?
意甲才有最慘烈的競爭? 這些數據可能就是答案
大數據:你的出生月份決定了你可能得什麼病,還是挺準的!
能對決策產生影響的數據分析才是有意義的數據分析
沒有壞營銷只有爛電影?假大數據背後到底有多少不能說的秘密
一樣的引擎數據,為什麼有的很肉有的很猛!
如何才能成為高精尖的大數據人才?
試問現實中誰能打出這樣的數據,那真是神一樣的存在!
如何用沒人看的數據,組合出會瘋傳的地產觀點
字母哥驚人數據史上只有一人能做到 如此全能NBA從未出現過
數據分析技術:聚類分析;可怕的不是階層固化,而是因此放棄了努力