華中科技大學提出多向文本檢測方法：基於角定位與區域分割

知識 03-01

在計算機視覺的應用場景里，對圖像中的文本進行準確識別是重要而相對困難的任務。來自華中科技大學的研究者們近日提出了一種全新的多項文本檢測方法，大幅提高了機器學習的識別準確度。該研究已被即將於 6 月 18 日在美國鹽湖城舉行的 CVPR 2018 大會接收。

簡介

最近，由於現實世界應用（如產品搜索 [4]，圖像檢索 [19]，以及自動駕駛）需求的增長，從自然場景圖像中提取文本信息的研究正變得越來越流行。場景文本檢測（Scene text detection）在各種文本讀取系統中起著重要的作用 [34, 10, 47, 5, 20, 13, 7, 25]，它的目標是在自然圖像中定位出文本。

由於外部因素和內部因素，場景文本檢測具有一定的挑戰性。外部因素源自環境，例如雜訊、模糊和遮擋，它們也是一般目標檢測中存在的主要問題。內部因素是由場景文本的屬性和變化引起的。與一般目標檢測相比，場景文本檢測更加複雜，因為：1）場景文本可能以任意方向存在於自然圖像中，因此邊界框可能是旋轉的矩形或者四邊形；2）場景文本邊界框的長寬比變化比較大；3）因為場景文本的形式可能是字元、單詞或者文本行的形式，所以在定位邊界的時候演算法可能會發生混淆。

圖 1. 頂行和底行中的圖像分別是左上角、右上角、右下角和左下角的預測角點和位置敏感圖。

在過去幾年中，隨著一般目標檢測和語義分割的快速發展，場景文本檢測得到了廣泛的研究 [10, 5, 49, 20, 43, 52, 39, 42]，並且在最近取得了明顯的進展。基於一般目標檢測和語義分割模型，幾個精心設計的模型使得文本檢測能夠更加準確地進行。這些文本檢測器可以被劃分為兩個分支。第一個分支以一般目標檢測器（SSD [30]，YOLO [37] 和 DenseBox [18]）為基礎，例如 TextBoxes [27]，FCRN [14] 以及 EAST [53] 等，它們直接預測候選的邊界框。子二個分支以語義分割為基礎，例如 [52] 和 [50]，它們生成分割映射，然後通過後處理生成最終的文本邊界框。

與前面的方法不同，來自華中科技大學的研究人員結合了目標檢測和語義分割的思想，並將它們以一種可替代的方式進行了應用。新研究的動機主要來源於兩方面的觀察：1）不管矩形的大小如何、長寬比如何、方向如何，它都可以由角點決定；2）區域分割圖可以提供有效的文本位置信息。所以，我們可以首先檢測文本的角點（左上角、右上角、右下角和左下角）（如圖 1 所示），而不是直接檢測文本邊界框。此外，我們預測位置敏感分割圖（如圖 1 所示），而不是像 [52] 和 [50] 中提到的文本/非文本圖。最後，我們再通過角點進行採樣和分組，以生成候選邊界框，並通過分割信息消除不合理的邊框。新的方法的處理流程如圖 2 所示：

圖 2. 方法概覽。給定一幅圖像，網路通過角點檢測和位置敏感語義分割輸出角點。然後通過對角點進行採樣和分組得到候選的邊框。最後，通過分割圖對候選邊框進行打分，並使用非極大抑制（NMS）對邊框進行抑制。

新方法的關鍵優勢如下：1）因為我們是通過對角點進行採樣和分組來檢測場景文本的，所以新的方法能夠處理任意方向的文本；2）因為我們檢測的是角點，而不是邊界框，所以新的方法可以自然地避免邊框比較大的問題；3）因為使用了位置敏感分割，所以無論是字元、單詞，還是文本行，我們都能夠較好地分割文本實例；4）在新方法中，候選邊框的邊界是由角點決定的。

研究人員在來自公共基準測試集上的水平文本、定向文本、長定向文本以及多語言文本中驗證了該方法的有效性。結果顯示新提出的演算法在準確率和速度方面均有優勢。具體而言，新方法在 ICDAR2015 [22] 上的 F-Measures 分別為 84.3 %、81.5 % 和 72.4 %，這顯著優於現有的方法。此外，新方法在效率上也很有競爭力。它每秒可以處理 10.4 張以上的圖像 ( 512×512 )。

該研究的主要貢獻有四個方面：

（1）提出了一種融合目標檢測和分割思想的場景文本檢測器，這個場景文本檢測器可以以端到端的方式進行訓練和測試。

( 2 ) 在位置敏感 ROI 池化 [ 9] 的基礎上，提出了一種旋轉的位置敏感 ROI 平均池化層，可以處理任意方向的請求。

( 3 ) 新提出的方法可以同時處理多方向場景文本中的諸多挑戰（如旋轉、寬高比變化、非常閉合的實例）。

( 4 ) 新方法在精度和效率上均取得了較好或有競爭力的結果。

網路結構

新方法所用的網路全部是卷積神經網路，它扮演著特徵提取器、角檢測和位置敏感分割的角色。網路結構如圖 3 所示。給定一張圖片，網路會生成候選的角點和分割圖。

圖 3. 網路結構。網路包含三個部分：主幹網路，角點檢測器和位置敏感圖預測器。主幹網路來自於 DSSD [ 11 ]。角檢測器是基於多特徵層（紫色的模塊）建立的。位置敏感分割預測器與角檢測器共享了一些特徵（紫色的模塊）。

圖 6. 檢測結果的一些示例。從左到右依次是： ICDAR2015, ICDAR2013, MSRA-TD500, MLT, COCO-Text。

表 4. MSRA-TD500 上的測試結果。有?表示的模型不基於 VGG16。

表 6. COCO-Text 上的測試結果。?代表多尺度。

論文：Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation

論文鏈接：https://arxiv.org/abs/1802.08948

摘要：此前基於深度學習的場景文本檢測方法可以被粗略地分為兩大類別。第一類將場景文本識別視作一種一般的目標檢測問題，這類方法遵循一般目標檢測的範式，通過回歸文本框來定位場景文本，但是會受到任意方向和較大變化的長寬比的場景文本的困擾。第二類將文本區域進行直接分割，但是大都需要複雜的後處理過程。在這篇論文中，我們提出了一種能將這兩類方法的思想進行結合，同時能夠避免它們各自弱點的新方法。我們提出了通過定位文本邊界框的角點，並在相對位置分割文本區域來檢測場景文本的方法。在推理階段，候選邊框通過對角點的採樣和分組得到，候選邊框進一步通過分割圖進行打分，然後使用非極大值抑制（NMS）方法對邊框進行抑制。與之前的方法相比，我們的方法能夠自然地處理長定向文本，並且不需要複雜的後處理過程。在 ICDAR2013、ICDAR2015、MSRA-TD500、MLT 和 COCO-Text 上的實驗證明我們提出的方法能夠在準確率和效率方面同時達到更好或者更具競爭力的結果。基於 VGG16，我們的方法在 ICDAR2015 上實現了 84.3% 的 F-measure，在 MSRA-TD500 上達到了 81.5% 的 F-measure。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※如何通過方差偏移理解批歸一化與Dropout之間的衝突
※超越Adam，從適應性學習率家族出發解讀ICLR 2018高分論文

TAG:機器之心 |