Adrian小哥教程：如何使用Tesseract和OpenCV執行OCR和文本識別

知識 10-16

選自pyimagesearch

作者：Adrian Rosebrock

機器之心編譯

參與：路、張倩

近期，Adrian Rosebrock 發布一篇教程，介紹了如何使用 OpenCV、Python 和 Tesseract 執行文本檢測和文本識別。從安裝軟體和環境、項目流程、review 代碼、實驗結果，到展示局限、提出建議，這篇教程可以說十分詳細了。機器之心對該教程進行了摘要編譯介紹。

本教程將介紹如何使用 OpenCV OCR。我們將使用 OpenCV、Python 和 Tesseract 執行文本檢測和文本識別。

之前的教程展示了如何使用 OpenCV 的 EAST 深度學習模型執行文本檢測（參見 https://www.pyimagesearch.com/2018/08/20/opencv-text-detection-east-text-detector/）。使用該模型能夠檢測和定點陣圖像中文本的邊界框坐標。

那麼下一步就是使用 OpenCV 和 Tesseract 處理每一個包含文本的圖像區域，識別這些文本並進行 OCR 處理。

本教程將介紹如何構建自己的 OpenCV OCR 和文本識別系統！

使用 Tesseract 進行 OpenCV OCR 和文本識別

為了執行 OpenCV OCR 和文本識別任務，我們首先需要安裝 Tesseract v4，包括一個用於文本識別的高度準確的深度學習模型。

然後，我將展示如何寫一個 Python 腳本，使其能夠：

使用 OpenCV EAST 文本檢測器執行文本檢測，該模型是一個高度準確的深度學習文本檢測器，可用於檢測自然場景圖像中的文本。

使用 OpenCV 檢測出圖像中的文本區域後，我們提取出每個文本 ROI 並將其輸入 Tesseract，從而構建完整的 OpenCV OCR 流程！

最後，我將展示一些使用 OpenCV 應用文本識別的示例，並討論該方法的缺陷。

下面就開始本教程的正式內容吧！

如何安裝 Tesseract v4

圖 1：Tesseract OCR 引擎於 20 世紀 80 年代出現，到 2018 年，它已經包括內置的深度學習模型，變成了更加穩健的 OCR 工具。Tesseract 和 OpenCV 的 EAST 檢測器是一個很棒的組合。

Tesseract 是一個很流行的 OCR 引擎，20 世紀 80 年代由 Hewlett Packard 開發，2005 年開源，自 2006 年起由谷歌贊助開發。該工具在受控條件下也能很好地運行，但是如果存在大量雜訊或者圖像輸入 Tesseract 前未經恰當處理，則性能較差。

深度學習對計算機視覺的各個方面都產生了影響，字元識別和手寫字體識別也不例外。基於深度學習的模型能夠實現前所未有的文本識別準確率，遠超傳統的特徵提取和機器學習方法。Tesseract 納入深度學習模型來進一步提升 OCR 準確率只是時間問題，事實上，這個時間已經到來。

Tesseract (v4) 最新版本支持基於深度學習的 OCR，準確率顯著提高。底層的 OCR 引擎使用的是一種循環神經網路（RNN）——LSTM 網路。

安裝 OpenCV

要運行本教程的腳本，你需要先安裝 3.4.2 或更高版本的 OpenCV。安裝教程可參考 https://www.pyimagesearch.com/opencv-tutorials-resources-guides/，該教程可確保你下載合適的 OpenCV 和 OpenCV-contrib 版本。

在 Ubuntu 上安裝 Tesseract 4

在 Ubuntu 上安裝 Tesseract 4 的具體命令因你使用的 Ubuntu 版本而異（Ubuntu 18.04、Ubuntu 17.04 或更早版本）。你可使用 lsb_release 命令檢查 Ubuntu 版本：

如上所示，我的機器上運行的是 Ubuntu 18.04，不過你在繼續操作之前需要先檢查自己的 Ubuntu 版本。

對於 Ubuntu 18.04 版本的用戶，Tesseract 4 是主 apt-get 庫的一部分，這使得通過下列命令安裝 Tesseract 非常容易：

如果你正在使用 Ubuntu 14、16 或 17 版本，那麼由於依賴需求，你需要額外的命令行。

Alexander Pozdnyakov 創建了用於 Tesseract 的 Ubuntu PPA（https://launchpad.net/~alex-p/+archive/ubuntu/tesseract-ocr），大大簡化了在 Ubuntu 舊版本上安裝 Tesseract 4 的過程。

只需要向系統添加 alex-p/tesseract-ocr PPA 庫，更新你的包定義，然後安裝 Tesseract：

如果沒有錯誤，那麼你應該已經在自己的機器上成功安裝了 Tesseract 4。

在 macOS 上安裝 Tesseract 4

如果你的系統中安裝有 Homebrew（macOS「非官方」包管理器），那麼在 macOS 上安裝 Tesseract 4 很簡單。

只需要運行以下命令，確保指定 --HEAD，即可在 Mac 電腦上安裝 Tesseract v4：

安裝好之後，你可能想刪除初始安裝的鏈接：

接下來就可以運行安裝命令了。

驗證你的 Tesseract 版本

圖 2：我的系統終端截圖。我輸入 tesseract -v 命令來檢查 Tesseract 版本。

確保安裝了 Tesseract 以後，你應該執行以下命令驗證 Tesseract 版本：

只要輸出中包含 tesseract 4，那麼你就成功在系統中安裝了 Tesseract 的最新版本。

安裝 Tesseract + Python 捆綁

安裝好 Tesseract 庫之後，我們需要安裝 Tesseract + Python 捆綁，這樣我們的 Python 腳本就可以與 Tesseract 通信，並對 OpenCV 處理過的圖像執行 OCR。

如果你使用的是 Python 虛擬環境（非常推薦，你可以擁有獨立的 Python 環境），那麼使用 workon 命令訪問虛擬環境：

如上所示，我訪問了一個叫做 cv 的 Python 虛擬環境（cv 是「計算機視覺」的縮寫），你也可以用其他名字命名虛擬環境。

接下來，我們將使用 pip 來安裝 Pillow（PIL 的 Python 版本），然後安裝 pytesseract 和 imutils：

現在打開 Python shell，確認你導入了 OpenCV 和 pytesseract：

恭喜！如果沒有出現導入錯誤，那麼你的機器現在已經安裝好，可以使用 OpenCV 執行 OCR 和文本識別任務了。

理解 OpenCV OCR 和 Tesseract 文本識別

圖 3：OpenCV OCR 流程圖。

現在我們已經在系統上成功安裝了 OpenCV 和 Tesseract，下面我們來簡單回顧一下流程和相關命令。

首先，我們使用 OpenCV 的 EAST 文本檢測器來檢測圖像中的文本。EAST 文本檢測器將提供文本 ROI 的邊界框坐標。我們將提取每個文本 ROI，將其輸入到 Tesseract v4 的 LSTM 深度學習文本識別演算法。LSTM 的輸出將提供實際 OCR 結果。最後，我們將在輸出圖像上繪製 OpenCV OCR 結果。

過程中使用到的 Tesseract 命令必須在 pytesseract 庫下調用。在調用 tessarct 庫時，我們需要提供大量 flag。最重要的三個 flag 是 -l、--oem 和 --ism。

-l flag 控制輸入文本的語言，本教程示例中使用的是 eng（英語），在這裡你可以看到 Tesseract 支持的所有語言：https://github.com/tesseract-ocr/tesseract/wiki/Data-Files。

--oem（OCR 引擎模式）控制 Tesseract 使用的演算法類型。執行以下命令即可看到可用的 OCR 引擎模式：

我們將使用--oem 1，這表明我們希望僅使用深度學習 LSTM 引擎。

最後一個重要的 flag --psm 控制 Tesseract 使用的自動頁面分割模式：

對文本 ROI 執行 OCR，我發現模式 6 和 7 性能較好，但是如果你對大量文本執行 OCR，那麼你可以試試 3（默認模式）。

如果你得到的 OCR 結果不正確，那麼我強烈推薦調整 --psm，它可以對你的輸出 OCR 結果產生極大的影響。

項目結構

你可以從本文「Downloads」部分下載 zip。然後解壓縮，進入目錄。下面的 tree 命令使得我們可以在終端閱覽目錄結構：

我們的項目包含一個目錄和兩個重要文件：

images/：該目錄包含六個含有場景文本的測試圖像。我們將使用這些圖像進行 OpenCV OCR 操作。

frozen_east_text_detection.pb：EAST 文本檢測器。該 CNN 已經經過預訓練，可用於文本檢測。它是由 OpenCV 提供的，你也可以在「Downloads」部分下載它。

text_recognition.py：我們的 OCR 腳本。我們將逐行 review 該腳本。它使用 EAST 文本檢測器找到圖像中的文本區域，然後利用 Tesseract v4 執行文本識別。

實現我們的 OpenCV OCR 演算法

現在開始用 OpenCV 執行文本識別吧！

打開 text_recognition.py 文件，插入下列代碼：

本教程中的 OCR 腳本需要五個導入，其中一個已經內置入 OpenCV。

最顯著的一點是，我們將使用 pytesseract 和 OpenCV。我的 imutils 包將用於非極大值抑制，因為 OpenCV 的 NMSBoxes 函數無法適配 Python API。我注意到 NumPy 是 OpenCV 的依賴項。

argparse 包被包含在 Python 中，用於處理命令行參數，這裡無需安裝。

現在已經處理好導入了，接下來就來實現 decode_predictions 函數：

decode_predictions 函數從第 8 行開始，在這篇文章中有詳細介紹（https://www.pyimagesearch.com/2018/08/20/opencv-text-detection-east-text-detector/）。該函數：

使用基於深度學習的文本檢測器來檢測（不是識別）圖像中的文本區域。

該文本檢測器生成兩個陣列，一個包括給定區域包含文本的概率，另一個陣列將該概率映射到輸入圖像中的邊界框位置。

EAST 文本檢測器生成兩個變數：

scores：文本區域的概率。

geometry：文本區域的邊界框位置。

兩個變數都是 decode_predictions 函數的參數。

該函數處理輸入數據，得出一個包含文本邊界框位置和該區域包含文本的相應概率的元組：

rects：該值基於 geometry，其格式更加緊湊，方便我們稍後將其應用於 NMS。

confidences：該列表中的置信度值對應 rects 中的每個矩形。

這兩個值都由 decode_predictions 函數得出。

注意：完美情況下，旋轉的邊界框也在 rects 內，但是提取旋轉邊界框不利於解釋本教程的概念。因此，我計算了水平的邊界框矩形（把 angle 考慮在內）。如果你想提取文本的旋轉邊界框輸入 Tesseract，你可以在第 41 行獲取 angle。

關於上述代碼塊的更多細節，參見 https://www.pyimagesearch.com/2018/08/20/opencv-text-detection-east-text-detector/。

下面我們來解析命令行參數：

我們的腳本需要兩個命令行參數：

--image：輸入圖像的路徑。

--east：預訓練 EAST 文本檢測器的路徑。

下列命令行參數是可選的：

--min-confidence：檢測到的文本區域的最小概率。

--width：圖像輸入 EAST 文本檢測器之前需要重新調整的寬度，我們的檢測器要求寬度是 32 的倍數。

--height：與寬度類似。檢測器要求調整後的高度是 32 的倍數。

--padding：添加到每個 ROI 邊框的（可選）填充數量。如果你發現 OCR 結果不正確，那麼你可以嘗試 0.05、0.10 等值。

下面，我們將載入和預處理圖像，並初始化關鍵變數：

第 82 行和 83 行，將圖像載入到內存中，並複製（這樣稍後我們可以在上面繪製輸出結果）。

獲取原始寬度和高度（第 84 行），然後從 args 詞典中提取新的寬度和高度（第 88 行）。我們使用原始和新的維度計算比率，用於稍後在腳本中擴展邊界框坐標（第 89 和 90 行）。

然後調整圖像大小，此處忽略長寬比（第 93 行）。

接下來，我們將使用 EAST 文本檢測器：

第 99 到 101 行，將兩個輸出層名稱轉換成列表格式。然後，將預訓練 EAST 神經網路載入到內存中（第 105 行）。

必須強調一點：你至少需要 OpenCV 3.4.2 版本，它有 cv2.dnn.readNet 實現。

接下來就是見證第一個「奇蹟」的時刻：

為確定文本位置，我們：

在第 109 和 110 行構建 blob。詳情參見 https://www.pyimagesearch.com/2017/11/06/deep-learning-opencvs-blobfromimage-works/。

將 blob 輸入 EAST 神經網路中，獲取 scores 和 geometry（第 111 和 112 行）。

使用之前定義的 decode_predictions 函數解碼預測（第 116 行）。

通過 imutils 方法進行非極大值抑制（第 117 行）。NMS 高效使用概率最高的文本區域，刪除其他重疊區域。

現在我們知道文本區域的位置了，接下來需要識別文本。我們開始在邊界框上循環，並處理結果，為實際的文本識別做準備：

我們初始化 results 列表，使其包含我們的 OCR 邊界框和文本（第 120 行）。然後在 boxes 上進行循環（第 123 行），我們：

基於之前計算的比率擴展邊界框（第 126-129 行）。

填充邊界框（第 134-141 行）。

最後，提取被填充的 roi（第 144 行）。

本文的 OpenCV OCR 流程可以使用一點 Tesseract v4「魔術」來完成：

第 151 行，我們設置 Tesseract config 參數（英語、LSTM 神經網路和單行文本）。

註：如果你獲取了錯誤的 OCR 結果，那麼你可能需要使用本教程開頭的指令配置 --psm 值。

第 152 行，pytesseract 庫進行剩下的操作，調用 pytesseract.image_to_string，將 roi 和 config string 輸入其中。

只用兩行代碼，你就使用 Tesseract v4 識別了圖像中的一個文本 ROI。記住，很多過程在底層發生。

我們的結果（邊界框值和實際的 text 字元串）附加在 results 列表（第 156 行）中。

接下來，我們繼續該流程，在循環的基礎上處理其他 ROI。

現在，我們來列印出結果，查看它是否真正有效：

第 159 行基於邊界框的 y 坐標按自上而下的順序對結果進行了排序。

對結果進行循環，我們：

將 OCR 處理過的文本列印到終端（第 164-166 行）。

從文本中去掉非 ASCII 字元，因為 OpenCV 在 cv2.putText 函數中不支持非 ASCII 字元（第 171 行）。

基於 ROI 繪製 ROI 周圍的邊界框和結果文本（第 173-176 行）。

展示輸出，等待即將按下的鍵（第 179、180 行）。

OpenCV 文本識別結果

現在我們已經實現了 OpenCV OCR 流程。

確保使用本教程「Downloads」部分下載源代碼、OpenCV EAST 文本檢測器模型和示例圖像。

打開命令行，導航至下載和提取壓縮包的位置，然後執行以下命令：

圖 4：對 OpenCV OCR 的第一次嘗試成功！

我們從一個簡單示例開始。

注意我們的 OpenCV OCR 系統如何正確檢測圖像中的文本，然後識別文本。

下一個示例更具代表性，是一個現實世界圖像：

圖 5：更複雜的圖像示例，我們使用 OpenCV 和 Tesseract 4 對這個白色背景的標誌牌進行了 OCR 處理。

再次，注意我們的 OpenCV OCR 系統如何正確定位文本位置和識別文本。但是，在終端輸出中，我們看到了一個註冊商標 Unicode 符號，這裡 Tesseract 可能被欺騙，因為 OpenCV EAST 文本檢測器報告的邊界框與標誌牌後面的植物發生重疊。

下面我們來看另一個 OpenCV OCR 和文本識別示例：

圖 6：使用 OpenCV、Python 和 Tesseract 對包含三個單詞的大標誌牌進行 OCR 處理。

該示例中有三個單獨的文本區域。OpenCV 的文本檢測器能夠定位每一個文本區域，然後我們使用 OCR 準確識別每個文本區域。

下一個示例展示了在特定環境下添加填充的重要性：

圖 7：在這個烘培店場景圖像中，我們的 OpenCV OCR 流程在處理 OpenCV EAST 文本檢測器確定的文本區域時遇到了問題。記住，沒有一個 OCR 系統完美適用於所有情況。那麼我們能否通過更改參數來做得更好呢？

首先嘗試對這家烘培店的店面進行 OCR，我們看到「SHOP」被正確識別，但是：

「CAPUTO」中的「U」被錯誤識別為「TI」。

「CAPUTO"S」中的「"S」被漏掉。

「BAKE」被錯誤識別為「|.」。

現在我們添加填充，從而擴展 ROI 的邊界框坐標，準確識別文本：

圖 8：通過向 EAST 文本檢測器確定的文本區域添加額外的填充，我們能夠使用 OpenCV 和 Tesseract 對烘培店招牌中的三個單詞進行恰當的 OCR 處理。

僅僅在邊界框的四角周圍添加 5% 的填充，我們就能夠準確識別出「BAKE」、「U」和「"S」。

當然，也有 OpenCV 的失敗案例：

圖 9：添加了 25% 的填充後，我們的 OpenCV OCR 系統能夠識別招牌中的「Designer」，但是它無法識別較小的單詞，因為它們的顏色與背景色太接近了。我們甚至無法檢測到單詞「SUIT」，「FACTORY」能夠檢測到，但無法使用 Tesseract 識別。我們的 OCR 系統離完美還很遠。

下面介紹了該 OCR 系統的一些局限和不足，以及對改進 OpenCV 文本識別流程的建議。

局限和不足

記住，沒有完美的 OCR 系統，尤其是在現實世界條件下。期望 100% 的 OCR 準確率也是不切實際的。

我們的 OpenCV OCR 系統可以很好地處理一些圖像，但在處理另外一些圖像時會失敗。該文本識別流程失敗存在兩個主要原因：

文本被扭曲或旋轉。

文本字體與 Tesseract 模型訓練的字體相差太遠。

即使 Tesseract v4 與 v3 相比更加強大、準確，但該深度學習模型仍然受限於訓練數據。如果你的文本字體與訓練數據字體相差太遠，那麼 Tesseract 很可能無法對該文本進行 OCR 處理。

其次，Tesseract 仍然假設輸入圖像/ROI 已經經過恰當清潔。而當我們在自然場景圖像上執行文本識別時，該假設不總是準確。

總結

本教程介紹了如何使用 OpenCV OCR 系統執行文本檢測和文本識別。

為了實現該任務，我們

利用 OpenCV EAST 文本檢測器定點陣圖像中的文本區域。

提取每個文本 ROI，然後使用 OpenCV 和 Tesseract v4 進行文本識別。

我們還查看了執行文本檢測和文本識別的 Python 代碼。

該 OpenCV OCR 流程在一些情況下效果很好，另一些情況下並不那麼準確。要想獲得最好的 OpenCV 文本識別結果，我建議你確保：

輸入 ROI 盡量經過清理和預處理。在理想世界中，你的文本應該能夠與圖像的其他部分完美分割，但是在現實情況下，分割並不總是那麼完美。

文本是在攝像機 90 度角的情況下拍攝的，類似於自上而下、鳥瞰的角度。如果不是，那麼角度變換可以幫助你獲得更好的結果。

以上就是這次的教程，希望對大家有所幫助！

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※2018最流行的編程語言Top 3（附薪資情況）
※從語音到金融：鄧力的人工智慧30年

TAG:機器之心 |