厲害了!阿里安全圖靈實驗室在ICDAR2017 MLT競賽刷新世界最好成績
據了解,ICDAR(International Conference on Document Analysis and Recognition)具有OCR領域的奧斯卡盛會之稱,是全球OCR領域公認最權威的比賽之一。
當前,OCR技術被廣泛應用於多個領域:
從名片、發票、銀行卡等票據的數字化到室外街道商店索引,路標路牌識別;
再到圖片、視頻文字內容理解與內容安全,OCR技術都發揮著越來越重要的作用。
阿里安全圖靈實驗室研究人員稱,在技術上,文本檢測和識別需要應付各種考驗和挑戰,如自然場景下光照的影響,物體的遮擋,文字大小、比例、角度的變化,圖像視頻中文字的模糊等等。
ICDAR2017 MLT競賽包含了中、日、韓、拉丁(英、法、德、意)、阿拉伯和孟加拉等9種語言,其圖像採集自各種各樣的場景,其中的文本的長度、字體、尺寸、顏色千變萬化,同時還包含了許多真實場景的雜訊包括光照、遮擋、傾斜、文字堆疊、文字鑲嵌、透視變化等等,這對於OCR演算法的適應能力更具挑戰性。
為攻克這些難題,阿里安全圖靈實驗室的研究人員設計了基於深度學習的網路模型和演算法。
據介紹,圖靈實驗室的研究人員在文字檢測模型方面,採用深度卷積神經網路獲得更深層的圖像特徵;並利用多尺度特徵和非對稱卷積核獲得更好的感受視野,從而適應各種環境,各種大小、比例、角度的文字。
此外,由於框架採用創新性的檢測策略,因此相較於傳統的RCNN-based方案,在檢測速度上有很大提升。在文字識別模型,圖靈實驗室的研究人員在主流方案的基礎上,做了全新的探索和研究,從而獲得了更為有效的識別模型,在保證識別準確率的前提下,提高了識別效率。
阿里安全圖靈實驗室研究人員表示,ATL Cangjie OCR提供在線同步、非同步通用OCR文字檢測和識別服務,以及離線ODPS服務,為圖片文字內容理解與內容安全提供強有力的技術支撐。
該模型已經全面支撐阿里生態中的商品內容安全、業務安全、平台治理、評價、交互、認證等多個業務場景,同時,還通過阿里雲盾-內容安全(綠網)產品,輸出給第三方客戶使用。
目前,ATL Cangjie OCR服務日均調用量幾億次,可為客戶提供穩定的技術保障。


※30餘年頂級實驗室積累,AI時代的厚積薄發,牛博真牛!
※用VR盡情打扮 林登實驗室推出虛擬時尚
TAG:實驗 |