IBM發布最新AI模型，幫視障者「看」到更多

新聞 06-24

智造觀點

在IBM最新的論文中，研究人員提出了一種能自主製作多樣化、創造性和符合人類語境的圖片文字說明的模型。實驗證明，圖片的文字說明取得了「良好」的性能，未來可以為強大的新計算機視覺系統奠定了基礎。

無論是報社、雜誌社還是新媒體，編輯們最不願意幹得事情就是為圖片搭配文字說明。事實上這項工作必要且重要但實際操作上又非常枯燥。

不過，一個振奮人心的消息是，AI可能很快就能處理大部分工作。6月18日在加州長灘舉行的2019年計算機視覺和模式識別會議(CVPR)上，Pierre L. Dognin, Igor Melnyk, Youssef Mroueh, Jarret Ross, Tom Sercu發表了一篇論文《改進圖像說明的對抗性語義對齊》，提出了一種能夠自主製作多樣化、創造性和符合人類語境的圖片文字說明的模型。

在論文中，他們將圖像說明作為一種有條件的GAN（生成式對抗網路）訓練進行研究，提出了一種上下文感知的LSTM字幕器和共同注意鑒別器，它們加強了圖像和字幕之間的語義對齊。

研究人員根據經驗著重研究了SCST和ST兩種訓練方法的可行性。他們發現即使沒有直接訪問鑒別器梯度，SCST也比ST顯示出更穩定的梯度行為和更好的結果。進而還解決了對這些模型進行自動評估的開放性問題，引入了一個新的語義評分，並證明了它與人類判斷的強相關性。

作為評估範例，一個重要的標準是生成器能夠概括出平常不會一起出現的對象之間的組合關係。為此研究人員引入了一個小標題能脫離上下文（OOC）測試集。OOC與常規語義評分相結合，為圖片搭配說明文字得體系提出了新基準。當面向OOC和MS-COCO進行測試時，可以發現基於SCST的訓練在語義評分和人類評估方面都有很強的表現，有望成為高效離散GAN訓練的一種有價值的新方法。

目前，構建系統需要解決自動說明文字系統的一個主要缺點：順序語言生成導致語法正確—但同質、非自然和語義不相關的結構。

研究者的方法是通過一個注意力文字說明模型來解決這個問題，模型使用它正在觀察的照片中的場景片段來造句。在每一個生成步驟中，團隊的AI都可以選擇關注最後一步的視覺或文本提示。

為了確保生成的文字說明聽起來不太機械化，研究團隊在訓練時使用了生成對抗網路(GANs)——由生成樣本的生成器和試圖區分生成樣本和現實世界樣本的鑒別器組成的兩部分神經網路。共同注意鑒別器通過一個在像素級匹配場景和生成單詞的模型對新句子的「自然度」進行評分，使文字說明者能夠通過圖像和句子成對來進行合成。

文字說明系統中的另一個常見問題是，如何避免訓練數據集的偏差，即經常遭受過度擬合(特定數據集過於接近的分析)就需要構建診斷工具，否則並不適合推廣到學習對象(「床和卧室」)出現在看不見的環境(「床和森林」)中的場景。為此，研究人員提出了一種標題圖像的測試語料庫，其設計方式使得不良模型性能表明過度擬合。

在實驗中，Amazon"s Mechanical Turk評估人員負責識別AI模型生成的文字說明，並判斷每句話對相應圖像的描述程度，給出幾個真實的和合成的樣本，研究人員表示，他們的文字說明總體上取得了「良好」的性能。他們相信他們的工作為強大的新計算機視覺系統奠定了基礎，並打算在未來的工作中繼續探索這些系統。另外，銜接語言和視覺語義的鴻溝表明需要將常識和推理融入場景理解中。

未來，圖像文字說明的自動生成和場景理解的進步，使AI系統可以作為視覺障礙者的助理改善他們的日常生活。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 人工智慧觀察 的精彩文章:

※從「人工智障」到「人工智慧」，Siri開始說人話了！
※谷歌AI再突破，Efficientnets有望成為計算機視覺任務的新基礎！

TAG:人工智慧觀察 |