照片里誰最重要？Google 要讓人工智慧也能看懂

知識 06-29

學會之後，幫人類劃重點。

一個場景里，有的人能夠找出眼前哪些事情是需要注意的，有些人可能就會被不那麼重要的事情所分神。而讓人工智慧識別一張圖片里哪一部分才是傳遞信息的關鍵部分，當然比人腦判斷更難。

照片里誰最重要？Google 要讓人工智慧也能看懂

一場籃球比賽的轉播里，畫面容納了幾十個人甚至是上百人，讓機器來「看」的話怎麼找到最重要的人？

這周在拉斯維加斯舉辦的計算機視覺與認知模式大會（CVPR）上，Google 展示了和幾所大學合作的研究成果：教人工智慧判斷一個場景中的關鍵信息。

照片里誰最重要？Google 要讓人工智慧也能看懂

上圖列出了一場球賽中的三種常見場景：三分球、籃板球和投籃失敗。

這項研究的目的是在同時有許多人的視頻中，讓計算機識別出最應該注意的球員，是 Google 和斯坦福大學合作的。

研究者利用遞歸神經網路設計了一個計算機視覺系統，給每一幀畫面標註出「注意力模型（attention mask）」，圖中紅框中的對象都是在場上的球員，而關鍵的那一位則用藍色方框和五角星標註出來，以此在動態的視頻中跟蹤關鍵人物。

在經過訓練之後，這個系統不僅能夠識別出當前畫面中最重要的那個人，也可以識別出即將成為關鍵的部分，畫面與畫面之間的動作變化則將前後的關鍵部分連接起來。

而在 Google 與愛丁堡大學合作的另一項研究里，研究者們則用行走的動物來訓練圖像識別系統。

照片里誰最重要？Google 要讓人工智慧也能看懂

比如在荒野中活動的老虎，如果能夠識別出畫面中是一隻老虎而不是別的什麼動物，其實只是人工智慧的第一步。這一次，圖像識別系統的任務是學會找出每一幀畫面里，老虎的四條腿都是怎麼邁的，接下來它要如何邁步。

與以往的研究最大的不同之處在於，以往的研究是將畫面中活動的物體當做一個整體，現在這項研究則將老虎的四條腿分別追蹤，以此來預測接下來每條腿的運動軌跡。

照片里誰最重要？Google 要讓人工智慧也能看懂

圖片來源CVPR

Google 與加州大學洛杉磯分校、牛津大學以及約翰霍普金斯大學合作的研究則是是訓練圖像識別系統理解照片中不同部分的互動關係，生成更精準的描述，或者說，是更有意義的描述。

這些研究的內容如果讓人來做，其實都相當自然，在看比賽的時候你會關注球員而不是觀眾，看到兩個人對著電腦你能對他們正在做什麼有一個簡單判斷，但這些對機器來說，都需要分別從頭學起。

現在人類幫助機器學著「劃重點」，還是希望有朝一日他們能夠學會自己來。

題圖來自Siam Mandalay

請您繼續閱讀更多來自 好奇心日報 的精彩文章:

您可能感興趣