Facebook的新AI「Rosetta」會識別表情包,還會刪帖
郭一璞 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
這些表情包,都見過吧?
平時斗圖、發朋友圈、發微博、知乎抖機靈最離不開它們了。
不過,表情包上的那些網路金句都是.jpg或者.gif的圖片格式,無法被搜索、無法被計算機監測,字太小不清晰的時候還會讓視力不好的同學看不清楚。
總之,圖片版的文字有種種不方便的地方。
所以Facebook乾脆出了一個能識別表情包的AI,名叫Rosetta,看看你們發的消息里配的表情包都是些啥。
Facebook官方博客給到的例子是一個西班牙語的企鵝表情包。
雖然圖上的西班牙文看不太懂,不過可以腦補一下,表情包上本來只有白色加粗大字,Rosetta用藍色框選出表情包上的文字,然後識別出來,文字上面那一行是它的識別結果。
當然,不止表情包,還有各類其他圖片。如果發小黃圖或者其他什麼不友善的圖片被Rosetta發現,它就會啟動刪帖大法。
Rosetta模型
Rosetta如何識別圖片上的文字呢?
不是普通的OCR,而是用Faster R-CNN識別出有字的區域後,再進行文字識別。
具體步驟如下:
訓練一個可以將圖像表示為卷積特徵映射的CNN;
訓練一個區域提議網路(region proposal network,RPN),將圖片分為寬5高7共35個小特徵圖作為輸入,RPN找到一些看起來有文字的目標區輸出;
從每個區域特徵圖中提取信息,用分類器識別,之後按提案置信度排序,選擇最靠譜的提案。
上面這張圖則表明了兩步模型結構:
第一步是用Faster R-CNN檢測字元;
第二步是用有CTC(Connectionist Temporal Classification)損失的ResNet-18完全卷積模型來進行文字識別。
上面兩個模型獨立訓練。
而在訓練中,Facebook用上了Caffe2支持的、最近開源的Detectron framework。
另外他們還用上了LSTM來提高模型準確性。
最終的文本識別模型結構
有特殊的訓練技巧
考慮到低學習率會讓模型欠擬合,而高學習率會導致模型發散,Facebook調整了訓練程序:
一是先只用比較短的單詞來訓練,最多只有五六個字母,之後從少到多,用更長的單詞來訓練,逐步增強單詞的長度;
二是從低學習率開始,保證模型不會發散,之後再逐步提高學習率,保證模型穩定。確保穩定之後再降低學習率。
學習率
圖像寬度
單詞長度
「我們不要手動搞數據集!」
由於Rosetta並不是一個純英文識別AI,它需要學的語言種類太多,單單訓練英文識別都要大量數據,何況Facebook的全球用戶來自各國,會使用各種不同的語言了。
於是,Facebook除了用人類手工標註的數據之外,還找了一些機器生成的數據集,也就是,找一個AI數據民工,強行給一些無辜的圖片加字。
這個AI數據民工來自牛津大學VGG實驗室2016年發表在CVPR上的論文《 Synthetic Data for Text Localisation in Natural Images》,可以給正常的自然景物照片上,添加一些蛇精病一樣的文字。
這樣,批量生產的帶字圖片就自帶了標註,一個AI生產數據,餵給另一個AI來訓練,自給自足。如果以後的模型都用AI生產的數據來餵養的話,估計幾十年後不少模型的賣點就變成了:
「人類標註,手動調參,純天然原生態,古早味模型。」
不僅能認表情包
除了識別表情包和刪帖,Rosetta還可以用來實現照片搜索、識別菜譜、輔助視力障礙者認知圖片等功能,而且這些功能並不僅僅適用於英文,連阿拉伯語都可以識別。
只不過,阿拉伯語是從右往左寫的,所以Facebook在處理阿拉伯語的時候多加了一道從左往右翻過來的步驟。
傳送門
Rosetta發在了今年KDD上,論文:
http://www.kdd.org/kdd2018/accepted-papers/view/rosetta-large-scale-system-for-text-detection-and-recognition-in-images
Facebook博客:
https://code.fb.com/ai-research/rosetta-understanding-text-in-images-and-videos-with-machine-learning/
VGG圖片加字:
https://github.com/ankush-me/SynthText
—完—
加入社群
量子位AI社群28群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。


※首個中國AI晶元收購案完成:深鑒創立2年後併入賽靈思
※一顆賽艇!上海交大搞出SRNN,比普通RNN也就快135倍
TAG:量子位 |