自然場景文本檢測識別技術綜述

最新 07-01

廣而告之

SIGAI-AI學習交流群的目標是為學習者提供一個AI技術交流與分享的平台。操作指引：關注本微信公眾號，回復「芝麻開門」，即可收到入群二維碼，掃碼即可。

同時在本微信公眾號中，回復「SIGAI」+日期，如「SIGAI0515」，即可獲取本期文章的全文下載地址（僅供個人學習使用，未經允許，不得用於商業目的）。

SIGAI特邀作者：海翎（視覺演算法研究員）

青蛇: 姐, 圖像文本檢測和識別領域現在的研究熱點是什麼？

白蛇: 白紙黑字的掃描文檔識別技術已經很成熟，而自然場景圖像文本識別的效果還不理想。傾斜字、藝術字、變形字、模糊字、形似字、殘缺字、光影遮蔽、多語言混合文本等應用落地面臨的技術難題還沒被徹底解決。

青蛇: 文本檢測模型CTPN中為什麼選用VGG16作基礎網路?

白蛇:CTPN是2016年被推出的, 而VGG16是那年很流行的特徵提取基礎網路。如果今年實施文本檢測, 可以試試Resnet、FCN、Densenet等後起之秀作基礎網路，或許有驚喜。

摘要

本文介紹圖像文本識別（OCR）領域的最新技術進展。首先介紹應用背景，包括面臨的技術挑戰、典型應用場景、系統實施框架等。接著介紹搭建圖文識別模型過程中經常被引用到的多種特徵提取基礎網路、物體檢測網路框架，以及它們被應用到圖文識別任務中所面臨的場景適配問題。然後介紹最近三年來出現的各種文本邊框檢測模型、文字內容識別模型、端到端圖文識別模型。最後介紹圖文識別領域的大型公開數據集。

應用概述

OCR（Optical Character Recognition, 光學字元識別）傳統上指對輸入掃描文檔圖像進行分析處理，識別出圖像中文字信息。場景文字識別（Scene Text Recognition，STR）指識別自然場景圖片中的文字信息。自然場景圖像中的文字識別，其難度遠大於掃描文檔圖像中的文字識別，因為它的文字展現形式極其豐富：

·允許多種語言文本混合，字元可以有不同的大小、字體、顏色、亮度、對比度等。

·文本行可能有橫向、豎向、彎曲、旋轉、扭曲等式樣。

·圖像中的文字區域還可能會產生變形(透視、仿射變換)、殘缺、模糊等現象。

·自然場景圖像的背景極其多樣。如文字可以出現在平面、曲面或折皺面上；文字區域附近有複雜的干擾紋理、或者非文字區域有近似文字的紋理，比如沙地、草叢、柵欄、磚牆等。

（本圖摘自新浪微博《光學字元識別技術：讓電腦像人一樣閱讀》）

也有人用OCR技術泛指所有圖像文字檢測和識別技術，包括傳統OCR技術與場景文字識別技術。這是因為，場景文字識別技術可以被看成是傳統OCR技術的自然演進與升級換代。

圖像文字檢測和識別技術有著廣泛的應用場景。已經被互聯網公司落地的相關應用涉及了識別名片、識別菜單、識別快遞單、識別身份證、識別營業證、識別銀行卡、識別車牌、識別路牌、識別商品包裝袋、識別會議白板、識別廣告主幹詞、識別試卷、識別單據等等。

已經有不少服務商在提供圖像文字檢測和識別服務，這些服務商既包括了騰訊、百度、阿里、微軟、亞馬遜、谷歌等大型雲服務企業，也包括了一些活躍在物流、教育、安防、視頻直播、電子政務、電子商務、旅遊導航等垂直細分行業的服務企業。這些企業既可以使用提前訓練好的模型直接提供場景圖文識別、卡證識別、掃描文檔識別等雲服務，也可以使用客戶提供的數據集訓練定製化模型（如票據識別模型），以及提供定製化AI服務系統集成等。

如下圖所示，傳統技術解決方案中，是先分別訓練文字檢測和文本識別兩個模型，然後在服務實施階段將這兩個模型串聯到數據流水線中組成圖文識別系統。

如下圖所示，最近流行的技術解決方案中，是用一個多目標網路直接訓練出一個端到端的模型。在訓練階段，該模型的輸入是訓練圖像及圖中文本坐標、文本內容，模型優化目標是輸出端邊框坐標預測誤差與文本內容預測誤差的加權和。在服務實施階段，原始圖片流過該模型直接輸出預測文本信息。相比於傳統方案，該方案中模型訓練效率更高、服務運營階段資源開銷更少。

文本檢測和識別技術處於一個學科交叉點，其技術演進不斷受益於計算機視覺處理和自然語言處理兩個領域的技術進步。它既需要使用視覺處理技術來提取圖像中文字區域的圖像特徵向量，又需要藉助自然語言處理技術來解碼圖像特徵向量為文字結果。

模型基礎

從公開論文中可以看到，起源於圖像分類、檢測、語義分割等視覺處理任務的各個基礎網路（backbone network），紛紛被徵用來提取圖像中文字區域的特徵向量。同時，起源於物體檢測、語義分割任務的多個網路框架，也被改造後用於提升圖文識別任務中的準確率和執行速度。本章將簡單溫習一下這些基礎網路、網路框架的實現原理，並介紹圖文識別任務中應用它們時所面臨的各種場景適配問題。

基礎網路

圖文識別任務中充當特徵提取模塊的基礎網路，可以來源於通用場景的圖像分類模型。例如，VGGNet，ResNet、InceptionNet、DenseNet、Inside-Outside Net、Se-Net等。

圖文識別任務中的基礎網路，也可以來源於特定場景的專用網路模型。例如，擅長提取圖像細節特徵的FCN網路，擅長做圖形矯正的STN網路。

由於大家對通用網路模型已經很熟悉，所以本節只簡單介紹上述專用網路模型。

FCN網路

全卷積網路（FCN,fully convolutional network），是去除了全連接(fc)層的基礎網路，最初是用於實現語義分割任務。FCN的優勢在於利用反卷積（deconvolution）、上池化（unpooling）等上採樣（upsampling）操作，將特徵矩陣恢復到接近原圖尺寸，然後對每一個位置上的像素做類別預測，從而能識別出更清晰的物體邊界。基於FCN的檢測網路，不再經過候選區域回歸出物體邊框, 而是根據高解析度的特徵圖直接預測物體邊框。因為不需要像Faster-RCNN那樣在訓練前定義好候選框長寬比例，FCN在預測不規則物體邊界時更加魯棒。由於FCN網路最後一層特徵圖的像素解析度較高，而圖文識別任務中需要依賴清晰的文字筆畫來區分不同字元（特別是漢字），所以FCN網路很適合用來提取文本特徵。當FCN被用於圖文識別任務時，最後一層特徵圖中每個像素將被分成文字行（前景）和非文字行（背景）兩個類別。

（選自arXiv:1411.4038，』 Fully Convolutional Networks for Semantic Segmentation』）

STN網路

空間變換網路（STN，Spatial Transformer Networks）的作用是對輸入特徵圖進行空間位置矯正得到輸出特徵圖，這個矯正過程是可以進行梯度傳導的，從而能夠支持端到端的模型訓練。

如下圖所示，STN網路由定位網路（Localization Network），網格生成器（Grid generator），採樣器（Sampler）共3個部分組成。定位網路根據原始特徵圖U計算出一套控制參數，網格生成器這套控制參數產生採樣網格（sampling grid），採樣器根據採樣網格核函數將原始圖U中像素對應採樣到目標圖V中。

空間變換的控制參數是根據原始特徵圖U動態生成的，生成空間變換控制參數的元參數則是在模型訓練階段學習到的、並且存放於定位網路的權重（weights）矩陣中。

（選自arXiv: 1506.02025，』Spatial Transformer Networks』）

檢測網路框架

Faster RCNN作為一個檢測網路框架，其目標是尋找緊湊包圍被檢測對象的邊框（BBOX，Bounding Box）。如下圖所示，它在Fast RCNN檢測框架基礎上引入區域建議網路（RPN，Region Proposal Network），來快速產生與目標物體長寬比例接近的多個候選區域參考框（anchor）；它通過ROI（Region of Interest） Pooling層為多種尺寸參考框產生出歸一化固定尺寸的區域特徵；它利用共享的CNN卷積網路同時向上述RPN網路和ROI Pooling層輸入特徵映射（Feature Maps），從而減少卷積層參數量和計算量。訓練過程中使用到了多目標損失函數，包括RPN網路、ROI Pooling層的邊框分類loss和坐標回歸loss。通過這些loss的梯度反向傳播，能夠調節候選框的坐標、並增大它與標註對象邊框的重疊度/交並比(IOU，Intersection over Union）。RPN網格生成的候選框初始值有固定位置以及長寬比例。如果候選框初始長寬比例設置得與圖像中物體形狀差別很大，就很難通過回歸找到一個緊湊包圍它的邊框。

（摘自arXiv:1506.01497，』Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks』）

SSD（Single Shot MultiBox Detector），是2016年提出的一種全卷積目標檢測演算法，截止到目前仍是主要的目標檢測框架之一，相比Faster RCNN有著明顯的速度優勢。如下圖所示，SSD是一種one stage演算法，直接預測被檢測對象的邊框和得分。檢測過程中，SSD演算法利用多尺度思想進行檢測，在不同尺度的特徵圖(feature maps)上產生與目標物體長寬比例接近的多個默認框(Default boxes)，進行回歸與分類。最後利用非極大值抑制(Non-maximum suppression)得到最終的檢測結果。訓練過程中，SSD採用Hard negative mining策略進行訓練，使正負樣本比例保持為1：3，同時使用多種數據增廣(Data augmentation)方式進行訓練，提高模型性能。

(摘自arxiv: 1512.02325，「SSD: Single Shot MultiBox Detector」)

文本檢測模型

文本檢測模型的目標是從圖片中儘可能準確地找出文字所在區域。

但是，視覺領域常規物體檢測方法(SSD, YOLO, Faster-RCNN等)直接套用於文字檢測任務效果並不理想，主要原因如下：

·相比於常規物體，文字行長度、長寬比例變化範圍很大。

·文本行是有方向性的。常規物體邊框BBox的四元組描述方式信息量不充足。

·自然場景中某些物體局部圖像與字母形狀相似，如果不參考圖像全局信息將有誤報。

·有些藝術字體使用了彎曲的文本行，而手寫字體變化模式也很多。

·由於豐富的背景圖像干擾，手工設計特徵在自然場景文本識別任務中不夠魯棒。

針對上述問題根因，近年來出現了各種基於深度學習的技術解決方案。它們從特徵提取、區域建議網路(RPN)、多目標協同訓練、Loss改進、非極大值抑制（NMS）、半監督學習等角度對常規物體檢測方法進行改造，極大提升了自然場景圖像中文本檢測的準確率。例如：

·CTPN方案中，用BLSTM模塊提取字元所在圖像上下文特徵，以提高文本塊識別精度。

·RRPN等方案中，文本框標註採用BBOX +方向角度值的形式，模型中產生出可旋轉的文字區域候選框，並在邊框回歸計算過程中找到待測文本行的傾斜角度。

·DMPNet等方案中，使用四邊形（非矩形）標註文本框，來更緊湊的包圍文本區域。

·SegLink 將單詞切割為更易檢測的小文字塊，再預測鄰近連接將小文字塊連成詞。

·TextBoxes等方案中，調整了文字區域參考框的長寬比例，並將特徵層卷積核調整為長方形，從而更適合檢測出細長型的文本行。

·FTSN方案中，作者使用Mask-NMS代替傳統BBOX的NMS演算法來過濾候選框。

·WordSup方案中，採用半監督學習策略，用單詞級標註數據來訓練字元級文本檢測模型。

下面用近年來出現的多個模型案例，介紹如何應用上述各方法提升圖像文本檢測的效果。

CTPN模型

CTPN是目前流傳最廣、影響最大的開源文本檢測模型，可以檢測水平或微斜的文本行。文本行可以被看成一個字元sequence，而不是一般物體檢測中單個獨立的目標。同一文本行上各個字元圖像間可以互為上下文，在訓練階段讓檢測模型學習圖像中蘊含的這種上下文統計規律，可以使得預測階段有效提升文本塊預測準確率。CTPN模型的圖像預測流程中，前端使用當時流行的VGG16做基礎網路來提取各字元的局部圖像特徵，中間使用BLSTM層提取字元序列上下文特徵，然後通過FC全連接層，末端經過預測分支輸出各個文字塊的坐標值和分類結果概率值。在數據後處理階段，將合併相鄰的小文字塊為文本行。

（選自arXiv: 1609.03605，』Detecting Text in Natural Image with Connectionist Text Proposal Network』）

RRPN模型

基於旋轉區域候選網路（RRPN, Rotation Region Proposal Networks）的方案，將旋轉因素併入經典區域候選網路（如Faster RCNN）。這種方案中，一個文本區域的ground truth被表示為具有5元組(x,y,h,w,θ)的旋轉邊框, 坐標(x,y)表示邊框的幾何中心, 高度h設定為邊框的短邊，寬度w為長邊，方向是長邊的方向。訓練時，首先生成含有文本方向角的傾斜候選框，然後在邊框回歸過程中學習文本方向角。

（選自arXiv: 1703.01086，』Arbitrary-Oriented Scene Text Detection via Rotation Proposals』）

RRPN中方案中提出了旋轉感興趣區域（RRoI，Rotation Region-of-Interest）池化層，將任意方向的區域建議先劃分成子區域，然後對這些子區域分別做max pooling、並將結果投影到具有固定空間尺寸小特徵圖上。

（選自arXiv: 1703.01086，』Arbitrary-Oriented Scene Text Detection via Rotation Proposals』）

FTSN模型

FTSN（Fused Text Segmentation Networks）模型使用分割網路支持傾斜文本檢測。它使用Resnet-101做基礎網路，使用了多尺度融合的特徵圖。標註數據包括文本實例的像素掩碼和邊框，使用像素預測與邊框檢測多目標聯合訓練。

（選自arXiv: 1709.03272，』Fused Text Segmentation Networks for Multi-oriented Scene Text Detection』）

基於文本實例間像素級重合度的Mask-NMS，替代了傳統基於水平邊框間重合度的NMS演算法。下圖左邊子圖是傳統NMS演算法執行結果，中間白色邊框被錯誤地抑制掉了。下圖右邊子圖是Mask-NMS演算法執行結果，三個邊框都被成功保留下來。

（選自arXiv: 1709.03272，』Fused Text Segmentation Networks for Multi-oriented Scene Text Detection』）

DMPNet模型

DMPNet（Deep Matching Prior Network）中，使用四邊形（非矩形）來更緊湊地標註文本區域邊界，其訓練出的模型對傾斜文本塊檢測效果更好。

如下圖所示，它使用滑動窗口在特徵圖上獲取文本區域候選框，候選框既有正方形的、也有傾斜四邊形的。接著，使用基於像素點採樣的Monte-Carlo方法，來快速計算四邊形候選框與標註框間的面積重合度。然後，計算四個頂點坐標到四邊形中心點的距離，將它們與標註值相比計算出目標loss。文章中推薦用Ln loss來取代L1、L2 loss，從而對大小文本框都有較快的訓練回歸（regress）速度。

（選自arXiv:1703.01425，』Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection』）

EAST模型

EAST（Efficient and Accuracy Scene Text detection pipeline）模型中，首先使用全卷積網路（FCN）生成多尺度融合的特徵圖，然後在此基礎上直接進行像素級的文本塊預測。該模型中，支持旋轉矩形框、任意四邊形兩種文本區域標註形式。對應於四邊形標註，模型執行時會對特徵圖中每個像素預測其到四個頂點的坐標差值。對應於旋轉矩形框標註，模型執行時會對特徵圖中每個像素預測其到矩形框四邊的距離、以及矩形框的方向角。

根據開源工程中預訓練模型的測試，該模型檢測英文單詞效果較好、檢測中文長文本行效果欠佳。或許，根據中文數據特點進行針對性訓練後，檢測效果還有提升空間。

上述過程中，省略了其他模型中常見的區域建議、單詞分割、子塊合併等步驟，因此該模型的執行速度很快。

（選自arXiv: 1704.03155，』EAST: An Efficient and Accurate Scene Text Detector』）

SegLink模型

SegLink模型的標註數據中，先將每個單詞切割為更易檢測的有方向的小文字塊（segment），然後用鄰近連接（link ）將各個小文字塊連接成單詞。這種方案方便於識別長度變化範圍很大的、帶方向的單詞和文本行，它不會象Faster-RCNN等方案因為候選框長寬比例原因檢測不出長文本行。相比於CTPN等文本檢測模型，SegLink的圖片處理速度快很多。

（選自arXiv: 1703.06520，』Detecting Oriented Text in Natural Images by Linking Segments』）

如下圖所示，該模型能夠同時從6種尺度的特徵圖中檢測小文字塊。同一層特徵圖、或者相鄰層特徵圖上的小文字塊都有可能被連接入同一個單詞中。換句話說，位置鄰近、並且尺寸接近的文字塊都有可能被預測到同一單詞中。

（選自arXiv: 1703.06520，』Detecting Oriented Text in Natural Images by Linking Segments』）

PixelLink模型

自然場景圖像中一組文字塊經常緊挨在一起，通過語義分割方法很難將它們識別開來，所以PixelLink模型嘗試用實例分割方法解決這個問題。

該模型的特徵提取部分，為VGG16基礎上構建的FCN網路。模型執行流程如下圖所示。首先，藉助於CNN 模塊執行兩個像素級預測：一個文本二分類預測，一個鏈接二分類預測。接著，用正鏈接去連接鄰居正文本像素，得到文字塊實例分割結果。然後，由分割結果直接就獲得文字塊邊框，而且允許生成傾斜邊框。

上述過程中，省掉了其他模型中常見的邊框回歸步驟，因此訓練收斂速度更快些。訓練階段，使用了平衡策略，使得每個文字塊在總LOSS中的權值相同。訓練過程中，通過預處理增加了各種方向角度的文字塊實例。

（選自arXiv: 1801.01315，』Detecting Scene Text via Instance Segmentation』）

Textboxes/Textboxes++模型

Textboxes是基於SSD框架的圖文檢測模型，訓練方式是端到端的，運行速度也較快。如下圖所示，為了適應文字行細長型的特點，候選框的長寬比增加了1,2,3,5,7,10這樣初始值。為了適應文本行細長型特點，特徵層也用長條形卷積核代替了其他模型中常見的正方形卷積核。為了防止漏檢文本行，還在垂直方向增加了候選框數量。為了檢測大小不同的字元塊，在多個尺度的特徵圖上並行預測文本框，然後對預測結果做NMS過濾。

（選自arXiv: 1611.06779，』TextBoxes: A Fast Text Detector with a Single Deep Neural Network』）

Textboxes++是Textboxes的升級版本，目的是增加對傾斜文本的支持。為此，將標註數據改為了旋轉矩形框和不規則四邊形的格式；對候選框的長寬比例、特徵圖層卷積核的形狀都作了相應調整。

（選自arXiv: 1801.02765，』TextBoxes++: A Single-Shot Oriented Scene Text Detector』）

WordSup模型

如下圖所示，在數學公式圖文識別、不規則形變文本行識別等應用中，字元級檢測模型是一個關鍵基礎模塊。由於字元級自然場景圖文標註成本很高、相關公開數據集稀少，導致現在多數圖文檢測模型只能在文本行、單詞級標註數據上做訓練。WordSup提出了一種弱監督的訓練框架，可以文本行、單詞級標註數據集上訓練出字元級檢測模型。

如下圖所示，WordSup弱監督訓練框架中，兩個訓練步驟被交替執行：給定當前字元檢測模型，並結合單詞級標註數據，計算出字元中心點掩碼圖；給定字元中心點掩碼圖，有監督地訓練字元級檢測模型.

如下圖，訓練好字元檢測器後，可以在數據流水線中加入合適的文本結構分析模塊，以輸出符合應用場景格式要求的文本內容。該文作者例舉了多種文本結構分析模塊的實現方法。

（選自arXiv: 1708.06720，』WordSup： Exploiting Word Annotations for Character based Text Detection』）

文本識別模型

文本識別模型的目標是從已分割出的文字區域中識別出文本內容。

CRNN模型

CRNN(Convolutional Recurrent Neural Network）是目前較為流行的圖文識別模型，可識別較長的文本序列。它包含CNN特徵提取層和BLSTM序列特徵提取層，能夠進行端到端的聯合訓練。它利用BLSTM和CTC部件學習字元圖像中的上下文關係，從而有效提升文本識別準確率，使得模型更加魯棒。預測過程中，前端使用標準的CNN網路提取文本圖像的特徵，利用BLSTM將特徵向量進行融合以提取字元序列的上下文特徵，然後得到每列特徵的概率分布，最後通過轉錄層(CTC rule)進行預測得到文本序列。

（選自arXiv: 1507.05717，』An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition』）

RARE模型

RARE（Robust text recognizer with Automatic Rectification）模型在識別變形的圖像文本時效果很好。如下圖所示，模型預測過程中，輸入圖像首先要被送到一個空間變換網路中做處理，矯正過的圖像然後被送入序列識別網路中得到文本預測結果。

如下圖所示，空間變換網路內部包含定位網路、網格生成器、採樣器三個部件。經過訓練後，它可以根據輸入圖像的特徵圖動態地產生空間變換網格，然後採樣器根據變換網格核函數從原始圖像中採樣獲得一個矩形的文本圖像。RARE中支持一種稱為TPS（thin-plate splines）的空間變換，從而能夠比較準確地識別透視變換過的文本、以及彎曲的文本.

（選自arXiv: 1603.03915，』Robust Scene Text Recognition with Automatic Rectification』）

端到端模型

端到端模型的目標是一站式直接從圖片中定位和識別出所有文本內容來。

FOTS Rotation-Sensitive Regression

FOTS（Fast Oriented Text Spotting）是圖像文本檢測與識別同步訓練、端到端可學習的網路模型。檢測和識別任務共享卷積特徵層，既節省了計算時間，也比兩階段訓練方式學習到更多圖像特徵。引入了旋轉感興趣區域（RoIRotate）, 可以從卷積特徵圖中產生出定向的文本區域，從而支持傾斜文本的識別.

（選自arXiv: 1801.01671，』FOTS: Fast Oriented Text Spotting with a Unified Network』）

STN-OCR模型

STN-OCR是集成了了圖文檢測和識別功能的端到端可學習模型。在它的檢測部分嵌入了一個空間變換網路（STN）來對原始輸入圖像進行仿射（affine）變換。利用這個空間變換網路，可以對檢測到的多個文本塊分別執行旋轉、縮放和傾斜等圖形矯正動作，從而在後續文本識別階段得到更好的識別精度。在訓練上STN-OCR屬於半監督學習方法，只需要提供文本內容標註，而不要求文本定位信息。作者也提到，如果從頭開始訓練則網路收斂速度較慢，因此建議漸進地增加訓練難度。STN-OCR已經開放了工程源代碼和預訓練模型。

（選自arXiv: 1707.08831，』STN-OCR: A single Neural Network for Text Detection and Text Recognition』）

訓練數據集

本章將列舉可用於文本檢測和識別領域模型訓練的一些大型公開數據集，不涉及僅用於模型fine-tune任務的小型數據集。

Chinese Text in the Wild(CTW)

該數據集包含32285張圖像，1018402個中文字元(來自於騰訊街景), 包含平面文本，凸起文本，城市文本，農村文本，低亮度文本，遠處文本，部分遮擋文本。圖像大小2048*2048，數據集大小為31GB。以(8:1:1)的比例將數據集分為訓練集(25887張圖像，812872個漢字)，測試集(3269張圖像，103519個漢字)，驗證集(3129張圖像，103519個漢字)。

文獻鏈接：https://arxiv.org/pdf/1803.00085.pdf

數據集下載地址：https://ctwdataset.github.io/

Reading Chinese Text in the Wild(RCTW-17)

該數據集包含12263張圖像，訓練集8034張，測試集4229張，共11.4GB。大部分圖像由手機相機拍攝，含有少量的屏幕截圖，圖像中包含中文文本與少量英文文本。圖像解析度大小不等。

下載地址http://mclab.eic.hust.edu.cn/icdar2017chinese/dataset.html

文獻：http://arxiv.org/pdf/1708.09585v2

ICPR MWI 2018 挑戰賽

大賽提供20000張圖像作為數據集，其中50%作為訓練集，50%作為測試集。主要由合成圖像，產品描述，網路廣告構成。該數據集數據量充分，中英文混合，涵蓋數十種字體，字體大小不一，多種版式，背景複雜。文件大小為2GB。

下載地址：

https://tianchi.aliyun.com/competition/information.htm?raceId=231651&_is_login_redirect=true&accounttraceid=595a06c3-7530-4b8a-ad3d-40165e22dbfe

Total-Text

該數據集共1555張圖像，11459文本行，包含水平文本，傾斜文本，彎曲文本。文件大小441MB。大部分為英文文本，少量中文文本。訓練集：1255張測試集：300

下載地址：http://www.cs-chan.com/source/ICDAR2017/totaltext.zip

文獻：http:// arxiv.org/pdf/1710.10400v

Google FSNS(谷歌街景文本數據集)

該數據集是從谷歌法國街景圖片上獲得的一百多萬張街道名字標誌，每一張包含同一街道標誌牌的不同視角，圖像大小為600*150，訓練集1044868張，驗證集16150張，測試集20404張。

下載地址：http://rrc.cvc.uab.es/?ch=6&com=downloads

文獻：http:// arxiv.org/pdf/1702.03970v1

COCO-TEXT

該數據集，包括63686幅圖像，173589個文本實例，包括手寫版和列印版，清晰版和非清晰版。文件大小12.58GB，訓練集：43686張，測試集：10000張，驗證集：10000張

文獻: http://arxiv.org/pdf/1601.07140v2

下載地址：https://vision.cornell.edu/se3/coco-text-2/

Synthetic Data for Text Localisation

在複雜背景下人工合成的自然場景文本數據。包含858750張圖像，共7266866個單詞實例，28971487個字元，文件大小為41GB。該合成演算法，不需要人工標註就可知道文字的label信息和位置信息，可得到大量自然場景文本標註數據。

下載地址：http://www.robots.ox.ac.uk/~vgg/data/scenetext/

文獻：http://www.robots.ox.ac.uk/~ankush/textloc.pdf

Code: https://github.com/ankush-me/SynthText (英文版)

Code: https://github.com/wang-tf/Chinese_OCR_synthetic_data(中文版)

Synthetic Word Dataset

合成文本識別數據集，包含9百萬張圖像，涵蓋了9萬個英語單詞。文件大小為10GB

下載地址：http://www.robots.ox.ac.uk/~vgg/data/text/

Caffe-ocr中文合成數據

數據利用中文語料庫，通過字體、大小、灰度、模糊、透視、拉伸等變化隨機生成，共360萬張圖片，圖像解析度為280x32，涵蓋了漢字、標點、英文、數字共5990個字元。文件大小約為8.6GB

下載地址：https://pan.baidu.com/s/1dFda6R3

參考文獻

1. 「光學字元識別技術：讓電腦像人一樣閱讀」, 新浪微博, 霍強

http://tech.sina.com.cn/d/i/2015-04-03/doc-icczmvun8339303.shtml

2.「Fully Convolutional Networks for Semantic Segmentation」, arXiv:1411.4038，Jonathan Long, Evan Shelhamer, Trevor Darrell

https://arxiv.org/pdf/1411.4038

3.「Spatial Transformer Networks」，arXiv:1506.02025，Max Jaderberg, Karen Simonyan, Andrew Zisserman, Koray Kavukcuoglu

https://arxiv.org/pdf/1506.02025

4.「Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks」，arXiv:1506.01497，Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun

https://arxiv.org/pdf/1506.01497

5.「SSD: Single Shot MultiBox Detector」，arxiv:1512.02325，Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg

https://arxiv.org/pdf/1512.02325

6.「Detecting Text in Natural Image with Connectionist Text Proposal Network」，arXiv:1609.03605，Zhi Tian, Weilin Huang, Tong He, Pan He, Yu Qiao

https://arxiv.org/pdf/1609.03605

7.「Arbitrary-Oriented Scene Text Detection via Rotation Proposals」，arXiv:1703.01086，Jianqi Ma, Weiyuan Shao, Hao Ye, Li Wang, Hong Wang, Yingbin Zheng, Xiangyang Xue

https://arxiv.org/pdf/1703.01086

8.「Fused Text Segmentation Networks for Multi-oriented Scene Text Detection」，arXiv:1709.03272，Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, Weidong Qiu

https://arxiv.org/pdf/1709.03272

9.「Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection」，arXiv:1703.01425，Yuliang Liu, Lianwen Jin

https://arxiv.org/pdf/1703.01425

10.「EAST: An Efficient and Accurate Scene Text Detector」，arXiv:1704.03155，Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, Jiajun Liang

https://arxiv.org/pdf/1704.03155

11.「Detecting Oriented Text in Natural Images by Linking Segments」，arXiv:1703.06520，Baoguang Shi, Xiang Bai, Serge Belongie

https://arxiv.org/pdf/1703.06520

12.「Detecting Scene Text via Instance Segmentation」，arXiv:1801.01315，Dan Deng, Haifeng Liu, Xuelong Li, Deng Cai

https://arxiv.org/pdf/1801.01315

13.「TextBoxes: A Fast Text Detector with a Single Deep Neural Network」，arXiv:1611.06779，Minghui Liao, Baoguang Shi, Xiang Bai, Xinggang Wang, Wenyu Liu

https://arxiv.org/pdf/1611.06779

14.「TextBoxes++: A Single-Shot Oriented Scene Text Detector」，arXiv:1801.02765，Minghui Liao, Baoguang Shi, Xiang Bai

https://arxiv.org/pdf/1801.02765

15.「WordSup： Exploiting Word Annotations for Character based Text Detection」，arXiv:1708.06720，Han Hu, Chengquan Zhang, Yuxuan Luo, Yuzhuo Wang, Junyu Han, Errui Ding

https://arxiv.org/pdf/1708.06720

16.「An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition」，arXiv:1507.05717，Baoguang Shi, Xiang Bai, Cong Yao

https://arxiv.org/pdf/1507.05717

17. 「Robust Scene Text Recognition with Automatic Rectification」，arXiv:1603.03915，Baoguang Shi, Xinggang Wang, Pengyuan Lyu, Cong Yao, Xiang Bai

https://arxiv.org/pdf/1603.03915

18.「FOTS: Fast Oriented Text Spotting with a Unified Network」，arXiv:1801.01671，Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, Junjie Yan

https://arxiv.org/pdf/1801.01671

19.「STN-OCR: A single Neural Network for Text Detection and Text Recognition」，arXiv:1707.08831，Christian Bartz, Haojin Yang, Christoph Meinel

https://arxiv.org/pdf/1707.08831

20.「Chinese Text in the Wild」，arXiv:1803.00085，Tai-Ling Yuan, Zhe Zhu, Kun Xu, Cheng-Jun Li, Shi-Min Hu

https://arxiv.org/pdf/1803.00085.pdf

21.「ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17)」，arXiv:1708.09585，Baoguang Shi, Cong Yao, Minghui Liao, Mingkun Yang, Pei Xu, Linyan Cui, Serge Belongie, Shijian Lu, Xiang Bai

http://arxiv.org/pdf/1708.09585

22.「Total-Text: A Comprehensive Dataset for Scene Text Detection and Recognition」，arXiv:1710.10400，Chee Kheng Chng, Chee Seng Chan

https://arxiv.org/pdf/1710.10400

23.「End-to-End Interpretation of the French Street Name Signs Dataset」，arXiv:1702.03970，Raymond Smith, Chunhui Gu, Dar-Shyang Lee, Huiyi Hu, Ranjith Unnikrishnan, Julian Ibarz, Sacha Arnoud, Sophia Lin

https://arxiv.org/pdf/1702.03970

24.「COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images」，arXiv:1601.07140，Andreas Veit, Tomas Matera, Lukas Neumann, Jiri Matas, Serge Belongie

http://arxiv.org/pdf/1601.07140

25.「Synthetic Data for Text Localisation in Natural Images」，arXiv:1604.06646， Ankush Gupta， Andrea Vedaldi， Andrew Zisserman

https://arxiv.org/pdf/1604.06646

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 SIGAI實踐平台 的精彩文章:

TAG:SIGAI實踐平台 |