當前位置:
首頁 > 新聞 > 雲從科技 OCR 新突破:端到端的深度學習文本檢測框架 Pixel-Anchor

雲從科技 OCR 新突破:端到端的深度學習文本檢測框架 Pixel-Anchor

雷鋒網 AI 科技評論消息,日前,雲從科技在自然場景 OCR 中的文本檢測這個環節取得了技術突破,在檢測準確率和檢測效率兩個綜合維度上,獲得了至今為止最好的結果。這一事件在雷鋒網旗下學術頻道 AI 科技評論資料庫項目「AI 影響因子」中有相應加分。以下為他們對此次使用的深度學習文本檢測框架 Pixel-Anchor 的解讀。

背景導讀

OCR 技術有著悠久的發展歷史,從上世紀 60 年代第一個識別英文字母的 OCR 產品面世以來,OCR 的識別領域逐步擴展到數字、符號,進而其他語言,譬如拉丁語系中的法文、德文、義大利文等,東亞語系中的中文、日文、韓文等。OCR 一般包含兩個基本模塊,文本檢測和文本識別。在深度學習技術發展之前,傳統 OCR 的文本檢測依賴於一些淺層次的圖像處理方法或者圖像分割方法以及一些複雜繁瑣的後處理技術進行文字定位,譬如早期基於二值化的連通域提取,或者後期基於極大穩定區域的字元區域提取,之後再配合這些被提取區域進行一系列的連接操作來完成最終的文本定位。因為這些技術的使用,傳統 OCR 所處理的對象往往局限於成像清晰,背景乾淨,字體簡單而同時又排列規整的文檔圖像。

隨著深度學習的發展,在 OCR 的文本檢測領域中,也湧現出一系列端到端的深度學習檢測框架,OCR 所能處理的對象逐步從高質量的文檔圖像擴展到成像質量高低不等、背景複雜、字體多樣、文本方向任意的自然場景中。應用範圍也從文檔識別擴展到圖片廣告過濾、場景理解、商品識別、街景定位、票據識別等廣泛的領域。下圖是幾個自然場景文本檢測的例子。

目前基於深度學習的文本檢測框架可以分為兩類,一類是基於像素級別的圖像語義分割,另一類是來源於通用的物體檢測框架,譬如基於錨 (anchor) 的檢測和回歸。

基於像素分割的文本檢測框架首先通過圖像語義分割獲得可能的文本像素,之後通過像素點直接回歸或者對文本像素的聚合得到最終的文本定位;而基於錨檢測回歸的文本檢測框架是在通用物體檢測的基礎之上,通過設置更多不同長寬比的錨來適應文本變長的特性,以達到文本定位的效果。

基於像素分割的文本檢測往往具有更好的精確度,但是對於小尺度的文本,因為適用的文本像素過於稀疏,檢出率通常不高,除非以犧牲檢測效率為代價對輸入圖像進行大尺度的放大;基於錨檢測回歸的文本檢測對文本尺度本身不敏感,對小文本的檢出率高,但是對於大角度的密集文本塊,錨匹配的方式會不可避免的陷入無法適從的矛盾之中,此外,由於這種方法是基於文本整體的粗粒度特徵,而並不是基於像素級別的精細特徵,它的檢測精度往往不如基於像素分割的文本檢測。對於中文這樣文本長度跨度很大的語言,目前的這兩種方法在長文本上的效果都不盡人意。

針對這些問題,雲從科技提出了一種端到端的深度學習文本檢測框架 Pixel-Anchor,通過特徵共享的方式高效的把像素級別的圖像語義分割和錨檢測回歸放入一個網路之中,把像素分割結果轉換為錨檢測回歸過程中的一種注意力機制,使得錨檢測回歸的方法在獲得高檢出率的同時,也獲得高精確度。

此外,對於如中文這樣文本長度跨度很大的語言,在 Pixel-Anchor 中,雲從科技提出了一個自適應的預測層,針對不同層級的特徵所對應的感受野範圍,設計不同的錨以及錨的空間位置分布,以更高的效率更好的適應變化的文本長度。如前所述,在兩個具有挑戰性的自然場景文本檢測測試集 ICDAR2015 以及 ICDAR2017 MLT,Pixel-Anchor 在檢測準確率和檢測效率兩個綜合維度上,獲得了至今為止最好的結果(具體結果見下面 Table 1,Table 2 和 Table 3)。該框架在滿足生產環境實時性要求的基礎上獲得了很高的檢測準確率,目前已在雲從科技的證件票據識別系統和圖片廣告過濾系統中上線。

Pixel-Anchor 這套文本檢測框架,和目前主流的文本檢測框架相比,提出了兩個大的改進點:

第一點是提出了把像素級別的圖像語義分割以及基於錨的檢測回歸方法高效融合在一起,可端到端訓練的檢測網路。在該網路中,像素級別的圖像語義分割以及基於錨的檢測回歸方法共享基礎特徵,而像素級別的圖像語義分割結果作為一種注意力機制,用以監督錨檢測回歸的執行過程,在有效保證文本檢出率的同時,提升了文本檢測的精度。

總體框架見上圖,Pixel-Anchor 採用學術界通用的 ResNet-50 作為特徵提取主幹網路,提取出 1/4,1/8,1/16 的特徵圖作為像素級別語義分割模塊(Figure 5)以及錨檢測回歸模塊(Figure 6)的基礎特徵,同時語義分割模塊的輸出結果以熱力圖的形式注入到錨檢測回歸模塊中。整個網路簡單輕巧,可通過 ADAM 優化方法進行端到端的訓練。

第二點是在錨檢測回歸這個模塊中引入了自適應預測層「Adaptive Predictor Layer」,該預測層連接在不同層級的特徵圖之後,根據各特徵圖感受野的不同,調整錨的長寬比,卷積核的形狀以及錨的空間密度(anchor density,見 Figure 7),用以高效的獲得各特徵圖上的文本檢測結果,進而對文本長度的變化獲得更好的適應性。自適應預測層在檢測水平長文本上的性能非常出色,和經典的 CTPN 方法相比,這一方法不需要複雜的後處理,更魯棒的同時效率更高。

(完)

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

肖風:AI帶來隱私保護需求,加密演算法+區塊鏈是解決方案
LG Display舉辦OLED巔峰盛會 OLED已成大勢所趨

TAG:雷鋒網 |