當前位置:
首頁 > 科技 > 錯看一頭大象後,這個AI「瘋了」!

錯看一頭大象後,這個AI「瘋了」!

作者 | 琥珀

出品 | AI科技大本營(公眾號ID:rgznai100)

在一項新的研究中,計算機科學家發現,人工智慧無法通過兒童可輕鬆完成的「視力檢測」。

「這是一項聰明且重要的研究,它提醒我們所謂的『深度學習』並非想像中的那麼『深』」,紐約大學神經科學家 Gary Marcus 表示。

在計算機視覺領域,人工智慧系統會嘗試識別和分類對象。他們可能會試圖在街景中找到所有行人,或者只是將鳥與自行車區分開。要知道,這也是一項非常艱巨的任務,其背後的風險係數很高。隨著計算機開始接管自動監控和自動駕駛等關鍵業務,我們會愈加希望它們的視覺處理能力與人眼一樣好。

但這並不容易。這項研究任務突出了人類視覺的複雜性,以及構建模仿系統的挑戰。期間,研究人員向計算機視覺系統展示了一幅客廳的場景,系統正確地識別了椅子、人和書架上的書。然後,研究人員在場景中引入了一個異常物體:一張大象的圖像。接著,「恐怖」事件開始上演。

大象的存在導致系統忘記了自己。突然間,這個 AI 系統開始將椅子稱為沙發,大象稱為椅子,並完全忽略了它之前看到的其他物體。

「各種奇怪事件的發生,表明當前物體檢測系統時多麼得脆弱,」多倫多約克大學的研究員 Amir Rosenfeld 表示,他和他的同事 John Tsotsos 和 Richard Zemel 共同撰寫了這項研究。

研究人員仍然想弄清楚為什麼計算機視覺系統會如此脆弱。他們猜測 AI 缺乏人類那種從容處理海量信息的能力:當對某一場景產生困惑時,會再回過頭重看一遍。

難以直面的「房中大象」

人類,只要睜大眼睛,大腦就會快速的收集、加工這些視覺信息。

相比之下,人工智慧會非常費力地製造視覺印象,就好像它是用盲文閱讀描述一樣。不同的演算法,人工智慧產生了不同的表達效果。在此過程中,特定類型的 AI 系統被稱為神經網路。它通過一系列「層」來傳遞圖像。在每一層,圖像細節如像素的顏色和亮度,被替換成了越來越抽象的描述。結束時,神經網路會對其正在觀察的內容產生最佳猜測。

「通過獲取前一層的輸出,處理並將其傳遞到下一層,就像管道一樣,都從一層移動到另一層,」Tsotsos 說。

在這個過程中,神經網路擅長特定視覺事物的判斷,如將物體進行類別分配。這些成果激起了人們的期望,甚至期待它們可以很快應用在城市車輛的駕駛系統中。

這項新研究具有相同的精神。三位研究人員為神經網路提供了一個客廳場景:一個坐在破舊椅子邊緣的男子在玩視頻遊戲時向前傾斜。看過這個場景之後,神經網路正確檢測到了許多具有高可信度的物體:人、沙發、電視、椅子、書籍。如下(a)圖。

在(a)圖中,神經網路以高概率正確識別出了雜亂的起居室場景中的許多項目。(f)圖中添加了一隻大象的側身像,系統便出現了問題。左下角的椅子變成了沙發,附近的杯子消失,大象被誤以為是椅子。在其他情況下,系統忽略了在此前試驗中正確檢測到的物體。甚至將大象從圖片中移除後,也會發生這些錯誤。

「如果房間里真的有一頭大象,那麼你可能會注意到它。」「該系統甚至沒有檢測到它的存在。」 Rosenfeld 說道。

論文中研究人員總結道:

識別是不穩定的:物體可能偶爾無法被檢測到,或者在環境不經意間快速改變後才能檢測到。

被識別目標的標記並非一致:根據不同的位置,目標可能會被識別為不同的類別。

被識別目標引起了非局部影響:與該目標不重疊的對象可切換標記、邊框,甚至完全消失。

這些結果是圖像識別中的常見問題。通過用包含訓練對象的圖像替換另一個圖像的子區域而獲得,這稱之為「目標移植」。以這種方式修改圖像對識別具有非局部影響。細微的變化會影響目標檢測工具的識別效果。

為什麼就不能「反思」?

當人類看到意想不到的的東西時,會反覆思考。這是一個具有真實認知意義的常見現象,而這恰恰解釋了為什麼當場景變得怪異時,神經網路就會崩潰。

如今用於物體檢測的最佳神經網路主要以「前饋」的方式工作。這意味著信息穿過神經網路時只有一個方向。它們從細粒度像素的輸入開始,然後移動到曲線、形狀和場景,神經網路對每一步看到的物體做出最優預測。因此,當神經網路彙集它認為知道的所有內容並進行猜測時,早期錯誤的觀察會最終影響整個預測的效果。

設想一下,如果是讓人類看到一幅包含了圓形和正方形的圖像,其中一個圖形為藍色,另一個為紅色。可能一眼並不能足以看清二者的顏色。但關鍵的是,當人類第二次看時,就會將注意力集中在方塊的顏色上。

「關於人類的視覺系統,『我還沒有正確的答案,所以我必須返回去看看在哪裡犯了錯誤』,」 Tsotsos 解釋道。他通過一個叫做 Selective Tuning 的理論(http://www.cse.yorku.ca/~tsotsos/Selective_Tuning/Selective_Tuning.html)來解釋這個視覺認知特徵的問題。

大多數神經網路缺乏這種反向能力。對於工程師們如何構建這種特質亦是困難。前饋神經網路的優勢在於——通過相對簡單的訓練即可進行預測。

但如果神經網路要獲得這種反覆思考的能力。他們需要熟練掌握合適利用這種新能力,以及何時以前饋方式向前推進的能力。人腦可在這些不同的過程之間無縫切換,而神經網路需要一個新的理論框架才能做同樣的事情。

一篇評論引發的討論

其實,該項研究論文早於上月就已公開發表,但讓大家得到關注的卻是因為《量子雜誌》專欄作者 Kevin Hartnett 的一篇評論 「 Machine Learning Confronts the Elephant in the Room」 所傳遞出的強烈觀點。

對此,許多讀者表達了自己的看法。

機器學習將會遭遇成長的痛苦……

這篇文章很有趣,但它沒有說清楚該系統是否具有大象的概念(另外我認為嚴重裁剪像素化的大象不應算數。)

考慮到透視和照明,將豆袋稱為沙發,然後是椅子,這就足夠了。

所有與 AI 相關的「問題」似乎與它們的實際編碼有關係。當 AI 有80%的的確定性時,人們傾向於認為這很好,而人類很少能達到這樣的準確性:要麼是 100% 確定(但有可能是錯的),要麼是 50% 的準確性甚至完全不清楚。

這就是人類會做的事情,記住物體X和Y的特徵,雖然很難在特定的圖像中分辨出來,但還是儘可能通過更清晰的圖片核實真偽。

你可以進行簡單的思考實驗,看看人腦在分析圖像時做了什麼。首先,當我看一個場景時,我一定是對幾何有所了解的。無論意義、文字、符號如何,我都可以追溯到事物的三維形狀,這些是與文字無關的。

其次,我可以通過看到大象的外觀模型,與「大象」這個詞聯繫起來。我不需要顏色或細節就知道它是大象。事實上,僅憑顏色和細節,我還是很難識別出大象。

(假設我們基於大象的真實圖片訓練了一款神經網路)如果你將大象的白色雕塑(圖片)拿給神經網路識別,那麼它很可能不會輸出「大象」這個詞。但如果你給出一個大象的真實圖片進行識別,那它可以正確識別大象。

由於大象的白色雕塑與實際圖片之間的差異只是顏色等細節,這表明當訓練深度學習網路識別大象時,訓練的是細節(包括顏色、像素、甚至斑點),而不是三維模型……這種方式正好與人類認知相反。這是一種過度擬合的形式,單純訓練不足以幫助學習網路捕捉幾何規律。我敢打賭,如果你用大象的特寫照片用來訓練網路,那麼它在識別方面將做得更好。

我猜測:我們的思維具有特定的和遺傳決定的內置幾何識別演算法,可以將 2D 圖像轉換為 3D 形狀。雖然多數情況下我們專註於研究的機器學習是圖像識別,但我相信大腦實際上是學習形狀和幾何識別的。

寫在最後

本文開頭我們引述了紐約大學神經科學家 Gary Marcus 的評價:「深度學習」並非我們想像中的那麼「深」。想起此前海內外在內的不少學者專家也都曾表示,深度學習雖然引起了人工智慧的新一股熱潮,但深度學習並非萬能,在它之外仍有很多的研究內容值得關注。

參考鏈接:https://arxiv.org/abs/1808.03305

--【完】--

精彩推薦

CSDN學院《AI工程師》直通車來了!目標是通過120天的學習(線上)讓你成為一名不亞於業界水平的AI工程師!

你將收穫:第一階段:機器學習原理及推薦系統實現;第二階段:深度學習原理及實戰項目強化訓練;第三階段:四個工業級實戰項目及成果展示


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI科技大本營 的精彩文章:

如此精心整理的深度學習資源只在這裡,值得你擁有!
開發者轉型AI看過來,這是一場匯聚中美頂尖專家的AI盛會

TAG:AI科技大本營 |