Facebook的新AI「Rosetta」會識別表情包，還會刪帖

科技 09-13

郭一璞發自凹非寺

量子位報道 | 公眾號 QbitAI

這些表情包，都見過吧？

平時斗圖、發朋友圈、發微博、知乎抖機靈最離不開它們了。

不過，表情包上的那些網路金句都是.jpg或者.gif的圖片格式，無法被搜索、無法被計算機監測，字太小不清晰的時候還會讓視力不好的同學看不清楚。

總之，圖片版的文字有種種不方便的地方。

所以Facebook乾脆出了一個能識別表情包的AI，名叫Rosetta，看看你們發的消息里配的表情包都是些啥。

Facebook官方博客給到的例子是一個西班牙語的企鵝表情包。

雖然圖上的西班牙文看不太懂，不過可以腦補一下，表情包上本來只有白色加粗大字，Rosetta用藍色框選出表情包上的文字，然後識別出來，文字上面那一行是它的識別結果。

當然，不止表情包，還有各類其他圖片。如果發小黃圖或者其他什麼不友善的圖片被Rosetta發現，它就會啟動刪帖大法。

Rosetta模型

Rosetta如何識別圖片上的文字呢？

不是普通的OCR，而是用Faster R-CNN識別出有字的區域後，再進行文字識別。

具體步驟如下：

訓練一個可以將圖像表示為卷積特徵映射的CNN；

訓練一個區域提議網路（region proposal network，RPN），將圖片分為寬5高7共35個小特徵圖作為輸入，RPN找到一些看起來有文字的目標區輸出；

從每個區域特徵圖中提取信息，用分類器識別，之後按提案置信度排序，選擇最靠譜的提案。

上面這張圖則表明了兩步模型結構：

第一步是用Faster R-CNN檢測字元；

第二步是用有CTC（Connectionist Temporal Classification）損失的ResNet-18完全卷積模型來進行文字識別。

上面兩個模型獨立訓練。

而在訓練中，Facebook用上了Caffe2支持的、最近開源的Detectron framework。

另外他們還用上了LSTM來提高模型準確性。

最終的文本識別模型結構

有特殊的訓練技巧

考慮到低學習率會讓模型欠擬合，而高學習率會導致模型發散，Facebook調整了訓練程序：

一是先只用比較短的單詞來訓練，最多只有五六個字母，之後從少到多，用更長的單詞來訓練，逐步增強單詞的長度；

二是從低學習率開始，保證模型不會發散，之後再逐步提高學習率，保證模型穩定。確保穩定之後再降低學習率。

學習率

圖像寬度

單詞長度

「我們不要手動搞數據集！」

由於Rosetta並不是一個純英文識別AI，它需要學的語言種類太多，單單訓練英文識別都要大量數據，何況Facebook的全球用戶來自各國，會使用各種不同的語言了。

於是，Facebook除了用人類手工標註的數據之外，還找了一些機器生成的數據集，也就是，找一個AI數據民工，強行給一些無辜的圖片加字。

這個AI數據民工來自牛津大學VGG實驗室2016年發表在CVPR上的論文《 Synthetic Data for Text Localisation in Natural Images》，可以給正常的自然景物照片上，添加一些蛇精病一樣的文字。

這樣，批量生產的帶字圖片就自帶了標註，一個AI生產數據，餵給另一個AI來訓練，自給自足。如果以後的模型都用AI生產的數據來餵養的話，估計幾十年後不少模型的賣點就變成了：

「人類標註，手動調參，純天然原生態，古早味模型。」

不僅能認表情包

除了識別表情包和刪帖，Rosetta還可以用來實現照片搜索、識別菜譜、輔助視力障礙者認知圖片等功能，而且這些功能並不僅僅適用於英文，連阿拉伯語都可以識別。

只不過，阿拉伯語是從右往左寫的，所以Facebook在處理阿拉伯語的時候多加了一道從左往右翻過來的步驟。

傳送門

Rosetta發在了今年KDD上，論文：

http://www.kdd.org/kdd2018/accepted-papers/view/rosetta-large-scale-system-for-text-detection-and-recognition-in-images

Facebook博客：

https://code.fb.com/ai-research/rosetta-understanding-text-in-images-and-videos-with-machine-learning/

VGG圖片加字：

https://github.com/ankush-me/SynthText

—完—

加入社群

量子位AI社群28群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話界面回復關鍵字「交流群」，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話界面回復關鍵字「專業群」，獲取入群方式。（專業群審核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章:

※首個中國AI晶元收購案完成：深鑒創立2年後併入賽靈思
※一顆賽艇！上海交大搞出SRNN，比普通RNN也就快135倍

TAG:量子位 |