百萬級字元:清華大學提出中文自然文本數據集CTW
選自arXiv
作者:Tailing Yuan等
機器之心編譯
參與:劉曉坤、李澤南
文字識別一直是圖像處理領域中的重要任務。近日,清華大學與騰訊共同推出了中文自然文本數據集(Chinese Text in the Wild,CTW)——一個超大的街景圖片中文文本數據集,為訓練先進的深度學習模型奠定了基礎。目前,該數據集包含 32,285 張圖像和 1,018,402 個中文字元,規模遠超此前的同類數據集。研究人員表示,未來還將在此數據集之上推出基於業內最先進模型的評測基準。
資源鏈接:https://ctwdataset.github.io/
在計算機視覺領域中,自動化的文本檢測和識別是一項很重要的任務,它擁有大量的應用方向,如自動駕駛和書籍數碼化等。該問題已被廣泛地研究過,並按難度等級分成了兩個問題:文本圖像的文本檢測和識別,以及自然圖像的文本檢測和識別。前者更加簡單,已有很多可用的商業工具。然而,自然圖像的文本檢測和識別仍然是很困難的。例如,一個字元可能在不同的圖像中有很不同的外觀,包括書寫風格、字型、解析度和照明差異等因素;字元還可能是部分顯示的、扭曲的,或者有很複雜的背景,這些因素進一步加大了檢測和識別的難度。有時候我們甚至需要處理高類內方差和低類間方差 [2],如圖 1 所示,有三個區別很小的字元,而相同字元的不同勢力的外觀可能差異很大。
圖 1:高類內方差和低類間方差。每一行展示了一個中文字元的多個實例。第一個字元和第二個相差一個筆畫,同理,第二個字元和第三個相差一個筆畫。雖然這三個字元在形狀上很相似,而相同字元的多個實例可以有很不同的外觀,包括顏色、字型和背景差異等。
過去幾年內,深度學習在很多領域都得到了爆炸式的發展,包括圖像分類、語音識別等。擁有數十甚至上百層的深度網路(例如 VGG-19、Google Inception 或 ResNet)都有很不錯的建模能力,在多種檢測、分類、識別任務中都得到了很有潛力的表現。這些模型需要大量的訓練數據。獲取海量數據是深度神經網路成功的關鍵因素。諸如 Image-Net 數據集 [4]、微軟 COCO 數據集 [13] 和 ADE20K 數據集 [33],已成為計算機視覺進步的關鍵驅動力。
在本文中,清華大學的研究人員提出了一個自然圖像的中文文本的大型數據集,稱為 Chinese Text in the Wild(CTW)。該數據集包含 32,285 張圖像和 1,018,402 個中文字元,規模遠超之前的數據集。這些圖像源於騰訊街景,從中國的幾十個不同城市中捕捉得到,不帶任何特定目的的偏好。由於其多樣性和複雜性,使得該數據集的收集很困難。它包含了平面文本、凸出文本、城市街景文本、鄉鎮街景文本、弱照明條件下的文本、遠距離文本、部分顯示文本等。對於每張圖像,數據集中都標註了所有中文字元。對每個中文字元,數據集都標註了其真實字元、邊界框和 6 個屬性以指出其是否被遮擋、有複雜的背景、被扭曲、3D 凸出、藝術化,和手寫體等。
在相關論文《Chinese Text in the Wild》中,清華大學的研究人員以該數據集為基礎訓練了多種目前業內最先進的深度模型進行字元識別和字元檢測。這些模型將作為基線演算法為人們提供測試標準。研究人員表示,該數據集、源代碼和基線演算法將全部公開。新的數據集將極大促進自然圖像中中文文本檢測和識別演算法的發展。
圖 2:標註流程:(a)為句子提取邊界框,(b)為每個字元實例提取邊界框,(c)標記其對應的字元類別,(d)標註字元的屬性。
圖 3:不同屬性的例子。(a)遮擋,(b)未遮擋,(c)複雜背景,(d)簡單背景,(e)扭曲,(f)工整,(g)3D 凸出,(h)平面,(i)藝術字,(j)非藝術字,(k)手寫體,(l)列印體。
圖 9:數據集多樣性。(a)平面文本,(b)凸出文本,(c)城市街景文本,(d)鄉鎮街景文本,(e)水平文本,(f)垂直文本,(g)遠距離文本,(h)近距離文本,(i)弱照明文本,(j)部分顯示文本。
圖 10:識別任務中的一些例子。每行從左到右給出的是:裁剪的實例區域、真實結果以及不同方法的識別結果。正確的結果為綠色顯示,數字為置信度。
論文:Chinese Text in the Wild
論文鏈接:https://arxiv.org/abs/1803.00085
摘要:我們提出了 Chinese Text in the Wild,這是一個街景圖像內中文文本的超大型數據集。雖然文本圖像的光學字元識別(OCR)已得到充分的研究,並有很多可用的商業工具,但是自然圖像中的文本檢測和識別仍然是很困難的問題,尤其是對於更複雜的字符集,例如中文文本。訓練集的匱乏是很常見的問題,特別是對於需要大量訓練數據的深度學習方法而言。
在本文中,我們將提供該新數據集的細節描述,其中包含專家標註的超過 3 萬個街景圖像的大約 100 萬個中文字元。該數據集具有高度多樣性,它包含了平面文本、凸出文本、城市街景文本、鄉鎮街景文本、弱照明條件下的文本、遠距離文本、部分顯示文本等。對於數據集中的每個字元,這些標註包含其真實字元、邊界框及其他 6 個屬性。這些屬性指出其是否被遮擋、有複雜的背景、是否凸出、是手寫體還是列印體等。該數據集的大規模和多樣性使得其能適用於多種任務的魯棒性神經網路訓練,特別是檢測和識別任務。我們使用多個當前最佳模型得到了基線測試結果,包括用 AlexNet、OverFeat、Google Inception 和 ResNet 執行字元識別,用 YOLOv2 執行字元檢測。綜合來說,Google Inception 在識別任務上達到了 80.5% top-1 準確率的最佳性能,而 YOLOv2 在檢測任務上達到了 71.0% 的 mAP。我們將在網站上公布數據集、源代碼和訓練後的模型。
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。
?------------------------------------------------


※解放程序員,讓AI自行編寫程序
※我是可微分編程的粉絲,Gary Marcus再回應深度學習批判言論
TAG:機器之心 |