IJCAI 2018｜阿里提出IncepText：全新多向場景文本檢測模塊

新聞 05-07

文本檢測在很多應用中扮演著重要的角色，但這也是一個頗具挑戰性的任務。阿里近期提出的端到端場景文本檢測器 IncepText 在多個數據集的測試中實現了業內最佳水平，並已發布了開放的 OCR 產品介面。本研究的論文已被即將在 7 月於瑞典舉行的 IJCAI 2018 大會接收。

場景文本檢測是眾多計算機視覺應用中最具挑戰性的任務之一，它會應用在多語言翻譯、圖像檢索、自動駕駛等場景中。其中，首當其衝的挑戰是場景文本會包含各種圖像，如街景、海報、菜單、室內場景等。此外，場景文本在前景文本和背景對象中都有很大的變化，並且還具有不同的光照、模糊和方向條件。

在過去幾年裡，場景文本檢測方向湧現了很多傑出的演算法。文本檢測的關鍵在於設計正確區分文本區域和非文本區域的特徵。多數傳統方法如 MSER [Neumann and Matas，2010] 和 FASText [Busta et al.，2015] 都使用手動設計的文本特徵。

但這些方法不足以處理複雜的場景文本。最近，基於卷積神經網路（CNN）的方法在文本檢測和識別 l 領域取得了傲人的成果 [He et al., 2016b; Tian et al., 2016; Zhou et al., 2017; He et al., 2017]。基於 CNN 的模型具有強大的特徵表示能力，且更深的 CNN 模型能夠提取更高級別或更抽象的特徵。

在該領域，主要有兩種類型的場景文本檢測方法，即間接回歸和直接回歸。間接回歸方法預測 box proposals 的坐標，如 CTPN [Tian et al。，2016] 和 RRPN [Ma et al。，2017] 等研究。這些方法都是基於 FasterRCNN [Ren et al.，2015] 框架。

近期，直接回歸方法在場景文本檢測上已經取得了不俗的表現，例如，East [Zhou et al，2017] 和 DDR [He et al，2017] 等研究。

在阿里的論文中，研究人員受到 FCIS 實例分割啟發試圖解決這個問題 [Li et al。，2016]。與普通的物體檢測不同，場景文本經常會遇到很大的尺度，長寬比及方向的變化。因此，我們設計了一個創新性的 Inception-Text 模塊來解決這些挑戰。

該模塊受 GoogLeNet 中的 Inception 模塊 [Szegedy et al，2015] 的啟發得出，研究人員採用多個不同卷積核的卷積分支來處理不同長寬比和比例的文本。我們在每個分支後面接一個可變形的卷積層以適應多方向文本。

相比原型，另一個改進是我們用可變形的 PSROI 池化層來替換 FCIS 中的 PSROI 池化層 [Dai et al，2017a]。根據實驗來看，可變形的 PSROI 池化層在分類任務中表現更好。

本研究的主要貢獻如下：

我們提出了一個用於多方向場景文本檢測的新的 Inception-Text 模塊。實驗表明，該模塊可以大幅提高準確率，且計算成本很低。
我們提出使用可變形的 PSROI 池化模塊來處理多方向的文本。在對可變形 PSROI 池化和量化評估學習到的偏移部分進行的量化研究表明，它可以有效處理任意方向的場景文本。
我們在三個基準數據集 ICDAR2015，RCTW-17 和 MSRA-TD500 上評估了新方法，結果表明新的方法在沒有任何額外數據的情況下，在幾個基準測試中都取得了業內最優的表現。
我們提出的方法已在阿里公開發布的 OCR 產品中作為 API 服務實現。

在這篇論文中，我們會首先簡要介紹場景文本檢測，主要關注多方向場景文本檢測。然後詳細講解新提出的方法，並在三個公共基準數據集上給出實驗結果。最後進行總結，並討論未來的工作。

提出的方法

我們提出的方法基於最初被提出用於實例分割的 FCIS [Li et al，2016] 框架。我們設計了一個創新的 Inception-Text 模塊，並使用可變形的 PSROI 池化層來擴展該框架。圖 1 給出了我們提出的模型體系結構的概述。

在圖 1 中，基礎特徵提取模塊是 ResNet50 [He et al，2016a]。精細的特徵信息對於分割任務尤為重要，對於場景文本檢測，第 5 階段的下採樣可能會丟失一些有用的信息。

因此，我們在第 5 階段利用帶孔卷積演算法（hole algorithm）[Long et al，2015] 維持感受野。這一階段的步長也由 2 改為 1，並且為了彌補步長減小帶來的問題，這一階段的所有卷積濾波器都使用帶孔卷積來補償減小的步幅。

為了預測小文本區域的準確位置，還需要考慮低級別特徵。如圖 1 所示，res4f 層和 res5c 層上採樣 2 倍，再與 res3d 層相加。這兩個融合的特徵圖後面接著用於場景文本檢測的 Inception-Text 模塊。

我們用可變形 PSROI 池化來替換 FCIS 中的 PSROI 池化，因為標準 PSROI 池化只能處理水平文本，而場景文本方向總是不確定的。類似於 FCIS，我們獲得了如圖 1 所示的帶有 mask 和分類分數的文本框，然後根據他們的分數將 NMS 應用到框中。

對於每個未被抑制的框，我們要找到它的相似框，即與其自身 IoU> = 0.5 的框。未抑制的框預測的 mask 與其相似框通過使用分類分數作為它們的平均權重逐像素地進行加權平均來合併。然後使用一個簡單的最小四邊形演算法來生成方向框。