照片里誰最重要?Google 要讓人工智慧也能看懂
學會之後,幫人類劃重點。
一個場景里,有的人能夠找出眼前哪些事情是需要注意的,有些人可能就會被不那麼重要的事情所分神。而讓人工智慧識別一張圖片里哪一部分才是傳遞信息的關鍵部分,當然比人腦判斷更難。
一場籃球比賽的轉播里,畫面容納了幾十個人甚至是上百人,讓機器來「看」的話怎麼找到最重要的人?
這周在拉斯維加斯舉辦的計算機視覺與認知模式大會(CVPR)上,Google 展示了和幾所大學合作的研究成果:教人工智慧判斷一個場景中的關鍵信息。
上圖列出了一場球賽中的三種常見場景:三分球、籃板球和投籃失敗。
這項研究的目的是在同時有許多人的視頻中,讓計算機識別出最應該注意的球員,是 Google 和斯坦福大學合作的。
研究者利用遞歸神經網路設計了一個計算機視覺系統,給每一幀畫面標註出「注意力模型(attention mask)」,圖中紅框中的對象都是在場上的球員,而關鍵的那一位則用藍色方框和五角星標註出來,以此在動態的視頻中跟蹤關鍵人物。
在經過訓練之後,這個系統不僅能夠識別出當前畫面中最重要的那個人,也可以識別出即將成為關鍵的部分,畫面與畫面之間的動作變化則將前後的關鍵部分連接起來。
而在 Google 與愛丁堡大學合作的另一項研究里,研究者們則用行走的動物來訓練圖像識別系統。
比如在荒野中活動的老虎,如果能夠識別出畫面中是一隻老虎而不是別的什麼動物,其實只是人工智慧的第一步。這一次,圖像識別系統的任務是學會找出每一幀畫面里,老虎的四條腿都是怎麼邁的,接下來它要如何邁步。
與以往的研究最大的不同之處在於,以往的研究是將畫面中活動的物體當做一個整體,現在這項研究則將老虎的四條腿分別追蹤,以此來預測接下來每條腿的運動軌跡。
圖片來源CVPR
Google 與加州大學洛杉磯分校、牛津大學以及約翰霍普金斯大學合作的研究則是是訓練圖像識別系統理解照片中不同部分的互動關係,生成更精準的描述,或者說,是更有意義的描述。
這些研究的內容如果讓人來做,其實都相當自然,在看比賽的時候你會關注球員而不是觀眾,看到兩個人對著電腦你能對他們正在做什麼有一個簡單判斷,但這些對機器來說,都需要分別從頭學起。
現在人類幫助機器學著「劃重點」,還是希望有朝一日他們能夠學會自己來。
題圖來自Siam Mandalay





TAG:好奇心日報 |
※Google 的人工智慧會寫詩,而且你一定能讀懂
※Google 的人工智慧聊天應用來了,它可能沒你想的聰明
※AlphaGo打敗柯潔算什麼,Google還有一堆更可怕的人工智慧!
※Google 調教了人工智慧,讓你想要的 App 來找你 2
※我們幫你測試了 Google Home,它會是你想要的完美助手嗎?
※Google 調教了人工智慧,讓你想要的 App 來找你#1
※你不是Google,沒必要學它的一切!
※如果你來Google IO,千萬不要錯過這場為你準備的人工智慧論壇
※如果你來Google IO, 千萬不要錯過這場為你準備的人工智慧論壇
※Google挖來兩位人工智慧專家,又要「搞事情」?
※Google 調教了人工智慧,讓你想要的 App 來找你 2|靈感早讀
※Google Home最最最實用功能:幫你找手機
※AI 時代的創造力,微軟、Google 都搶著要的人才要素是什麼?
※Google 調教了人工智慧,讓你想要的 App 來找你 1|靈感早讀
※慎入!Google這單字太可怕 嚇到不要不要的
※【Google】什麼都能變成自動的?人工智慧真的來了?!
※鏟屎官們請注意 你家愛寵的照片Google Photos能自動分組啦
※Google Home 智能音箱體驗:可能除了亞馬遜 Echo,沒有誰比它更優秀
※蘋果 已不再是最好的「Google 手機」