人工智慧開始學習看漫畫了，但仍然還趕不上人類

科技 11-24

機器之心原創

作者：吳攀

最近幾年來，人工智慧的能力是越來越強了，圍棋、看圖、聽話、翻譯、甚至藝術創作……這些原本被認為是人類的專屬技能的領域已經出現了一些在一定程度上可與人類表現媲美的人工智慧程序。人類不斷地被超越常常會給人一種人類就要被人工智慧取代的感覺；現在，一個研究團隊終於給我們帶來了安慰——至少在理解漫畫上，人工智慧還差得遠！

近日，來自馬里蘭大學帕克分校和科羅拉多大學波德分校的 Mohit Iyyer 等研究者在 arXiv 上發表了一篇論文《The Amazing Mysteries of the Gutter: Drawing Inferences Between Panels in Comic Book Narratives》介紹了他們這一可以給人類增加信心的研究結果。

為了了解人工智慧理解漫畫情節的能力如何，這些研究者首先構建了一個包含了超過 120 萬張漫畫畫格（panel）數據集 COMICS，其中每張畫格還配備有相應的文本對話框轉錄數據，這些加起來使得這個數據集的大小達到了 120 GB。據該論文介紹，因為版權方面的原因，這些數據集是由來自 20 世紀 30 年代到 50 年代的漫畫作品構成的。

眾所周知，漫畫是由一系列的畫格構成的，而且根據創作者的不同，不同的漫畫之間的繪畫風格、語言風格和排版風格之間都存在很大的差異。

人工智慧開始學習看漫畫了，但仍然還趕不上人類

不同繪畫風格的獅子（有的更卡通更抽象，有的則更為寫實），但它們都是獅子

想要理解它們，計算機需要非常具有概括性的思維方式。而且為了讓讀者能夠看懂，漫畫往往還帶有形態各異的對話框，以通過文本來描述和推進情節（為了便於計算機處理，COMICS 數據集將這些對話提取成了與畫格對應的文本形式）。

而更重要的是，和視頻不一樣，漫畫的不同畫格之間的時間和空間是不連貫的，中間的過渡情節往往需要讀者自己的想像。這種在我們人類看來自然而然的能力對計算機來說卻是難於登天。

人工智慧開始學習看漫畫了，但仍然還趕不上人類

第三格裡面的蛇是從哪裡來的？為什麼它突然出現咬著這個男人？這一格裡面的男人和第一格裡面的男人是同一個人嗎？要回答這些問題，讀者需要閱讀其中的對話框以「閉合（closure）」這些畫格。

據介紹，這種將單張畫格和之前的情節抽象地聯繫起來的過程叫做「閉合（closure）」。這些研究者用實際行動證明了這種能力目前仍然還是人類的專屬技能。要對計算機的這種能力進行測試，研究者設計了讓人工智慧程序根據之前見過的畫面預測下一個畫格的實驗。

首先，機器必須要學習漫畫的操作過程。所以研究小組將漫畫中的一個畫格及其文本投給不同的機器演算法，讓它們學習一組漫畫中的每個畫格之間是怎麼相互連接的。這些機器已經預訓練過識別自然界中對象，但是還沒有訓練過識別卡通對象。

人工智慧開始學習看漫畫了，但仍然還趕不上人類

來自 COMICS 的 5 個樣本畫格序列以及其在 COMICS 數據集中所佔的比重，其中每一個都有一種不同畫格之間的轉換方式。

有了這些訓練過的機器後，研究小組用一組機器之前沒見過的漫畫（包含好幾個畫格）測試了它們，並且要求它們預測下一張圖像或者後面的一系列文本內容。

人工智慧開始學習看漫畫了，但仍然還趕不上人類

在神經架構中結合圖像和文本可以提升它們在 COMICS 故事中識別下一張圖像或對話的能力。之前畫格所呈現出的語境信息對所有任務都是有用的：只查看單張畫格（NC-image-text）的模型的表現總是不及了解語境的模型。但是，即使表現最好的模型也還趕不上人類（Human）。

從結果我們可以看到，人類預測漫畫情節或內容的正確率可以達到 80%，但是機器卻很難做到。

當然，這倒沒什麼非常讓人驚訝的。機器學習儘管近段時間以來已經在圖像和文本模式識別上取得了相當優異的表現，但仍舊缺乏人類大腦所具有的常識和邏輯——而這些都是敘事性故事所必需的。

所以人類還能留有一點講故事能力的保留地。但是這種保留地還能維持多久呢？

據了解，COMICS 數據集正在準備開源的過程中，開源後將會發布在 GitHub 上：https://github.com/miyyer/comics

以下是該研究論文的摘要介紹：

論文：The Amazing Mysteries of the Gutter: Drawing Inferences Between Panels in Comic Book Narratives

摘要：視覺敘事（visual narrative）通常需要結合明確的信息和明智的遺漏，並依賴觀看者來補充缺失的信息。在漫畫中，大多數時間和空間的運動都隱藏在畫格（panel）之間的「天溝（gutter）」之中。為了理解故事，讀者需要通過邏輯將畫格聯繫到一起，通過一個叫做「閉合（closure）」的過程將未見過的動作推理出來。現在計算機已經能夠描述自然圖像的內容了，在這篇論文中，我們將檢驗它們是否能夠理解由漫畫書畫格中風格化的藝術作品和對話所傳遞的閉合驅動的敘事（closure-driven narrative）。我們收集了一個數據集 COMICS，其包含了超過 120 萬張畫格（120 GB），這些畫格都匹配了自動文本框轉錄。對 COMICS 的一次深度分析表明，文本和圖像都無法單獨講清一個漫畫故事，所以計算機必須理解這兩種形式才能跟得上情節。我們引入了三個填空式的任務，這些任務要求模型在被給出了 n 張之前的畫格作為背景的情況下，預測一個畫格的敘事和以角色為中心的一些方面。多種神經網路架構在這些任務上的表現都不及人類基準，這表明 COMICS 同時包含了視覺和語言上的基本挑戰。

人工智慧開始學習看漫畫了，但仍然還趕不上人類

應用於一個文本填空任務實例的圖像-文本架構（image-text architecture）。預訓練的圖像特徵與學習到的文本特徵在一個分層的 LSTM 架構中結合起來構建出一個語境表徵（context representation），然後該表徵被用於評估候選文本。

本文為機器之心原創文章，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

TAG:機器之心 |

您可能感興趣

※你一開始看不上的人，結了婚也一樣看不上
※從懷孕開始，女人就踏上了漫漫學習路
※狼叔死了，我們也三十了還不算老，只是要開始習慣很多人的落幕
※那些看了就開始懷疑人生的動漫
※閉塞的朝鮮也開始用手機了，來看看他們臉上的表情，超有趣
※從今天開始，我的小棉襖就是別人的了……看圖都能看哭
※動物都開始練瑜伽了死宅你們還不趕緊也練一下！
※活的不如狗，汪星人都開始敷面膜了！
※可能看了假的火影，博人傳中忍者都開始學物理！
※有些人剛開始是窮，但卻不能小看，哪些生肖最具潛力股
※現在都開始玩這個了，你還傻傻的拿它做手工？
※沒有人可以回到過去重新開始，但誰都可以從現在開始，書寫一個全然不同的結局
※現在的喵星人簡直太可怕了，好好的萌不賣居然開始搶男人！
※大象一言不合就開始掐架，人們及時趕到時覺得既心疼又無奈！
※為讓更多人了解瑜伽的力量，她開始了世界之旅
※不知道從什麼時候開始，會想起過去的那些人，那些曾經的同學和朋友，
※怕水二哈開始緊抱大腿不放，學會游泳後竟越游越遠然後就回不來了
※我們解散了，從現在開始不再更新！
※話不多拼了命的打怪，已經不是科學研究了，他們開始為生存而戰