一言不合就想斗圖？快用深度學習幫你生成表情包

知識 07-02

AI研習社：斯坦福大學的兩個學生 Abel L Peirson V 和 Meltem Tolunay 發表了自己的 CS224n 結業論文—— 用深度神經網路生成表情包（你沒有看錯）。論文主要內容是根據圖片內容生成有關聯的說明（吐槽）。可能該論文沒有其他論文那麼的一本正經，但在思路也算清奇，論文和代碼已經公布。AI 科技評論也簡單介紹一下論文內容。

摘要

Abel 和 Meltem兩位同學開發了一個新型的表情包生成系統，給張圖片就可以自動給圖片配相應的文字（表情）。除此之外，這個系統還可以應用於用戶自定義標籤，讓用戶按圖片內容分起類來更簡單（表情包）。該系統先使用預訓練的Inception-v3 網路生成一個圖片嵌入，然後將它傳遞到基於 attention 的深層 LSTM 模型中來生成最終注釋，該做法靈感來自於大名鼎鼎的 SHow&Tell 模型，他們還稍微修改了一下集束搜索演算法來保證配字的多樣性（罪犯剋星烏蠅哥+配字）。他們使用混淆度評估和人類評估來評估他們的模型，評估指標主要是兩個，一是生成表情包的質量，二是是否可以以假亂真。

簡介

每種文化中那些風靡的的表情包代表著一種理念或者行為風格（吐槽），它們通常旨在表達一種特定現象、主題和含義（社會人？）。

表情包無處不在，語言和風格也處在不停的變化中（過氣網紅）。表情包靈感來源廣泛，形式也不斷的演變。原本表情包只是利用文化（尤其是亞文化）主題來散播幽默的媒介。但是，表情包同樣可以被用來宣傳政治理想：），傳播共鳴，為少數派發聲。表情包是這一代人自己的交流方式，也真實的塑造了這一代人。AI 如今發展迅猛，急需新的挑戰。表情包的具有高度相關性還需要強理解能力，故他們選擇該項目（一本正經）。

不是誰都能簡簡單單就用深度學習生成表情包的

本任務只完成了上圖的效果，即給圖片配字。這種做法大大的簡化了問題以及數據收集難度（?乛v乛?）。本篇論文中最主要的任務就是產生與圖片高度相關的幽默配字，可以當模板表情包的那種。他們應用了一個已有的圖片注釋編解碼系統，該系統首先是一個 CNN 圖片嵌入階段，然後再用一個 LSTM-RNN 去生成文字。他們還測試了不同的 LSTM 模型並評估它們的表現。

生成表情包的質量很難自動評估。他們使用混淆度作為指標來評估和調整他們的模型，混淆度與 BLEU（Bilingual Evaluation understudy）分數高度相關。他們的定量評估則是由人類測試員完成。人類測試員需要去辨別表情包是不是生成的，或者評估一下表情包的歡樂程度，畢竟表情包的靈魂就是有趣。

背景&相關工作

一、圖片注釋模型

《Show and tell: A neural image caption generator》（https://arxiv.org/abs/1411.4555）這篇文章的作者介紹的圖片注釋模型是他們表情包生成模型的大腿。近年來對這個模型的改進中通過雙向 LSTM 和注意力機制的使用得到很大的提升。但這些模型基本都沒有用於「幽默注釋」。StyleNet 的嘗試也僅取得有限成功，但這些模型為作者的項目提供了彈藥。

二、RNN 用於語言建模

RNN 及其變體模型最近在語言建模和機器翻譯的 NLP 任務上取得的最好成果。其中 LSTM 尤為出色，因為它們使用「門控機制」來長時間記憶數據。兩位作者使用的 LSTM 單元由於基於以下式子進行操作：

其中 f 是遺忘門，i 是輸入門，o 是輸出門，m 是存儲器輸出，W 是可訓練矩陣。單詞預測是通過輸出辭彙表中每個單詞的概率分布的 softmax 層進行的。

三、預訓練的 GloVe 向量

使用向量嵌入來表示單詞在很多NLP任務中都是一種重要的語義相似性捕獲手段。他們項目中使用的向量嵌入來自《Glove: Global vectors for word representation》（http://www.aclweb.org/anthology/D/D14/D14-1162.pdf）這篇文章。

四、RNN 的注意力機制

在語言建模、文本生成、機器翻譯等連續 NLP 任務中，注意力機制解決了固定長度向量不適配長序列的問題。兩位作者所建模型的一個變體中採用了Luong et al 的注意力模型（https://arxiv.org/abs/1508.04025）。

具體方法

一、資料庫

二、模型變體

編碼器：編碼器的作用就是給解碼器一個存在的理由。兩位同學在該項目中做了三個模型變體（很棒），第一個忽略標籤，第二個帶了標籤，第三個在第二個基礎上還加了注意力機制。

解碼器：解碼器由一個單向LSTM網路組成，該網路根據上文描述的等式運行。每個LSTM單元都重用模型中的變數。而解碼器存在的意義就是接編碼器的鍋，上述三個變體前兩個可以用相同解碼器解決，後一個作者也沒提怎麼解決。

推理和集束搜索：作者發現基於標準集束搜索的推理演算法在應用中效果拔群，遂決定用該演算法，為了保證生成表情包的多樣性，他們在演算法中還加了一個溫度函數。

實驗

一、訓練

很穩（省略操作若干）。

二、結果評估

還可以（呵，省略更多操作）。

我們來欣賞一些生成的表情吧

（還挺不錯的哈，包括最後一張對單身狗的暴擊 Orz.....）

總結

本論文介紹了如何用神經網路模型去給圖片配字來生成表情包。Abel 和 Meltem兩位同學還開發了多個模型變體，帶標籤和不帶標籤都有辦法處理（周全），也提供了一個精調的 LSTM 模型，算是給語言建模做了一點微小的貢獻（謙虛）。最後的測試結果表明生成的表情包和人為製作的表情包無法輕鬆區分（我信了）。

兩位同學認為這個項目及其他類似語言建模任務最大的挑戰就是理解各種人群和文化的梗。他們今後會再接再厲。還有最後一個問題，數據集中存在著偏見，種族歧視和性別歧視等，之後的他們之後的工作也會注意解決這個問題。

論文地址：

https://arxiv.org/abs/1806.04510

簡簡單單，用 LSTM 創造一個寫詩機器人

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI研習社 的精彩文章:

※聽小米講人工智慧，「小米之夜」重磅來襲！
※攻擊 AI 模型之 FGSM 演算法

TAG:AI研習社 |