當前位置:
首頁 > 科技 > Facebook的新AI「Rosetta」會識別表情包,還會刪帖

Facebook的新AI「Rosetta」會識別表情包,還會刪帖

郭一璞 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

這些表情包,都見過吧?

平時斗圖、發朋友圈、發微博、知乎抖機靈最離不開它們了。

不過,表情包上的那些網路金句都是.jpg或者.gif的圖片格式,無法被搜索、無法被計算機監測,字太小不清晰的時候還會讓視力不好的同學看不清楚。

總之,圖片版的文字有種種不方便的地方。

所以Facebook乾脆出了一個能識別表情包的AI,名叫Rosetta,看看你們發的消息里配的表情包都是些啥。

Facebook官方博客給到的例子是一個西班牙語的企鵝表情包。

雖然圖上的西班牙文看不太懂,不過可以腦補一下,表情包上本來只有白色加粗大字,Rosetta用藍色框選出表情包上的文字,然後識別出來,文字上面那一行是它的識別結果。

當然,不止表情包,還有各類其他圖片。如果發小黃圖或者其他什麼不友善的圖片被Rosetta發現,它就會啟動刪帖大法。

Rosetta模型

Rosetta如何識別圖片上的文字呢?

不是普通的OCR,而是用Faster R-CNN識別出有字的區域後,再進行文字識別。

具體步驟如下:

訓練一個可以將圖像表示為卷積特徵映射的CNN;

訓練一個區域提議網路(region proposal network,RPN),將圖片分為寬5高7共35個小特徵圖作為輸入,RPN找到一些看起來有文字的目標區輸出;

從每個區域特徵圖中提取信息,用分類器識別,之後按提案置信度排序,選擇最靠譜的提案。

上面這張圖則表明了兩步模型結構:

第一步是用Faster R-CNN檢測字元;

第二步是用有CTC(Connectionist Temporal Classification)損失的ResNet-18完全卷積模型來進行文字識別。

上面兩個模型獨立訓練。

而在訓練中,Facebook用上了Caffe2支持的、最近開源的Detectron framework。

另外他們還用上了LSTM來提高模型準確性。

最終的文本識別模型結構

有特殊的訓練技巧

考慮到低學習率會讓模型欠擬合,而高學習率會導致模型發散,Facebook調整了訓練程序:

一是先只用比較短的單詞來訓練,最多只有五六個字母,之後從少到多,用更長的單詞來訓練,逐步增強單詞的長度;

二是從低學習率開始,保證模型不會發散,之後再逐步提高學習率,保證模型穩定。確保穩定之後再降低學習率。

學習率

圖像寬度

單詞長度

「我們不要手動搞數據集!」

由於Rosetta並不是一個純英文識別AI,它需要學的語言種類太多,單單訓練英文識別都要大量數據,何況Facebook的全球用戶來自各國,會使用各種不同的語言了。

於是,Facebook除了用人類手工標註的數據之外,還找了一些機器生成的數據集,也就是,找一個AI數據民工,強行給一些無辜的圖片加字。

這個AI數據民工來自牛津大學VGG實驗室2016年發表在CVPR上的論文《 Synthetic Data for Text Localisation in Natural Images》,可以給正常的自然景物照片上,添加一些蛇精病一樣的文字。

這樣,批量生產的帶字圖片就自帶了標註,一個AI生產數據,餵給另一個AI來訓練,自給自足。如果以後的模型都用AI生產的數據來餵養的話,估計幾十年後不少模型的賣點就變成了:

「人類標註,手動調參,純天然原生態,古早味模型。」

不僅能認表情包

除了識別表情包和刪帖,Rosetta還可以用來實現照片搜索、識別菜譜、輔助視力障礙者認知圖片等功能,而且這些功能並不僅僅適用於英文,連阿拉伯語都可以識別。

只不過,阿拉伯語是從右往左寫的,所以Facebook在處理阿拉伯語的時候多加了一道從左往右翻過來的步驟。

傳送門

Rosetta發在了今年KDD上,論文:

http://www.kdd.org/kdd2018/accepted-papers/view/rosetta-large-scale-system-for-text-detection-and-recognition-in-images

Facebook博客:

https://code.fb.com/ai-research/rosetta-understanding-text-in-images-and-videos-with-machine-learning/

VGG圖片加字:

https://github.com/ankush-me/SynthText

加入社群

量子位AI社群28群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

首個中國AI晶元收購案完成:深鑒創立2年後併入賽靈思
一顆賽艇!上海交大搞出SRNN,比普通RNN也就快135倍

TAG:量子位 |