文檔掃描和識別
這是「筆記和文檔」系列之六
本文結構:
掃描類 App 推薦
#1 Office Lens
#2 Scanbot
#3 掃描全能王
#4 FineScanner
#5 Scanner Pro
Scanner Pro 使用簡介
#1 掃描
#2 檢查
#3 手動調整
OCR 類 App 推薦
#1 TextGrabber
#2 白描
#3 小嘿掃描
白描使用簡介
#1 頁面掃描
#2 文字識別
有位著名的符號學家說,任何文本都是不自足的,其意義是在跟其他文本交互參照、交互指涉的過程中產生的。在吸收新信息時,很重要的一點是理清它與原有信息的關係,這有助於我們理解和記憶。
我建議用戶盡量將所有信息都匯入印象筆記,藉助標籤系統、內部互鏈構建信息的網狀結構,並養成匯入新信息前查詢原有信息的習慣。在匯入新信息前查詢筆記內的相關信息,不但使先前的記憶被鞏固,還加深了對新信息的印象。
儘管紙質出版物的閱讀體驗更好,但進行後續的整理和轉化並不方便。很多人在紙質書上所做的標記、批註,都只是隨書被塵封,並不產生其他作用。
在這一點上,電子書還是方便一些,比如多看閱讀就支持將批註直接導出到印象筆記:
為了將閱讀紙質書時的摘抄和隨記都匯入印象筆記,只能多費些工夫來進行數字化。最好能找到書的電子版,找不到的話,只能用掃描類 App、文字識別(OCR)類 App 來分別對付圖像和文字。
掃描類 App 推薦
掃描類 App 主要有以下功能:
提示拍攝的角度、距離和穩定性;
根據色差識別邊緣,裁去不需要的部分;
細微變形的糾正;
調節亮度和對比度。
和備忘錄一樣,印象筆記 App 自帶掃描功能,如果掃描文件不做其他處理,只是直接存放在筆記中,那麼用自帶的足夠;如果用到更多功能,就需要下載專門的掃描 App。在 App Store 上 Office Lens、Scanbot、掃描全能王(CamScanner)、FineScanner、Scanner Pro 的表現比較出色。
#1 Office Lens
極簡設計,基本無法干預;能將 OCR 識別的結果導出為 Office 文檔,盡量還原版面;有 Android 版。
#2 Scanbot
設計精美,功能強大,能自定義工作流;有 Android 版。
#3 掃描全能王
各方面功能都不錯;有 Android 版。
#4 FineScanner
為掃描書籍優化,自動識別對開頁,能將彎曲行拉直;OCR 功能強;有 Android 版。
#5 Scanner Pro
獲得「編輯精選」榮譽的掃描 App,由 Readdle 推出,在 PDF Expert 中調用時,可以直接在現有 PDF 中插入頁面;支持自定義工作流。
Scanner Pro 使用簡介
打開 Scanner Pro,界面中間是文件列表,以縮略圖的形式顯示。上方有三個按鈕,
點左邊的齒輪圖標進入 App 設置界面。
點中間的雷達圖標可以選擇相冊中的照片進行處理。
Scanner Pro 會自動識別照片該保留的區域,雷達上的紅色角標表示推薦處理的照片數量;在選擇界面中,照片會被加框示意保留區域。
右邊的「選擇」按鈕用於管理掃描文件。
#1 掃描
下方用橙色圓形強調的「+」,用於掃描新的內容。
點擊按鈕,首先進入拍攝界面。Scanner Pro 的拍攝功能為掃描定製,它會自動尋找掃描區域,建議拍攝角度。它會用透明的藍框追蹤識別的區域。當手機保持穩定,藍框「合焦」時,它會自動拍攝照片。
GIF
#2 檢查
在拍攝完成之後,點右下角的圖標進入文件查看界面:
在此界面可以左右划動切換頁面,逐一檢查頁面的處理情況。
#3 手動調整
我們看到 App 對書籍封面自動處理的結果不理想,所以點右下角的「編輯」按鈕進行手動調整。
首先用下方按鈕進行調整。挽救不了的頁面,用左邊第一個按鈕刪除或重拍。
第二個按鈕用於調整裁剪區域。掃描類 App 都是根據色差來識別邊緣,只要邊界明顯,通常都能自動正確裁剪。
在裁剪界面,左下角灰色按鈕的功能在「尋找邊框」和「選擇全部」之間切換。通過拖動白框四個角上的藍色圓點來手動調整保留區域,App 提供了放大鏡來輔助微調。
最右邊的按鈕用於選擇顏色模式:
彩色照片模式是高保真模式,缺點是文件體積大,無法徹底去掉環境光導致的灰影。
彩色文檔模式是折中的模式,既保留了顏色,又壓縮了文件體積。它能夠更強力地去灰影,使顏色更飽和,但容易破壞中間調。
黑白文檔模式是最強力的處理模式,比彩色文檔模式更進一步去掉了顏色信息,和彩色文檔模式一樣容易破壞中間調。
灰階照片模式是在彩色照片模式的基礎上去掉顏色,和和彩色照片模式一樣無法徹底去掉環境光導致的灰影。
App 總是選擇折中的彩色文檔模式,然而在上面可以看到,經處理封面出現了大塊白斑,顏色嚴重失真。
根據需要選擇了合適的顏色模式之後,如果出現色斑或灰影,可以通過調節亮度、對比度來嘗試解決。
App 通常能自動識別頁面規格,但也有時也會出錯,如果顯示比例不對,則需要手動選擇規格。
OCR 類 App 推薦
上述掃描 App 都具備 OCR 文字識別功能,但跟專門的 OCR App 相比,要麼是識別率較低,要麼是缺乏輔助工具。比如 Scanner Pro 的 OCR 功能只支持識別整個文檔,不支持僅識別某個頁面或區域,因此極不實用。
App Store 里的 OCR 類 App 有 TextGrabber、白描和小嘿掃描三款值得推薦。
#1 TextGrabber
老牌的 OCR App,和上面的 FineScanner 一樣出自 Abbyy 之手。Abbyy 擁有自家的 OCR 技術,因此 TextGrabber 可以實現離線識別。
如圖所示,因為是離線識別,TextGrabber 無需拍照就能實時識別,並且能將識別內容中的網址、郵箱和電話號碼轉化為鏈接,點擊即可啟動相應操作。
TextGrabber 的識別率較高,但是面對中文有些水土不服,錯誤處理換行,識別為英文標點,亂碼,諸如此類的問題時常出現。
TextGrabber 有 Android 版。
#2 白描
白描使用了百度的 OCR 介面,因此只能在線識別。白描識別中文的速度和效果比 TextGrabber 更好,此外作者還提供了校對功能,將原圖置於識別結果下方,方便檢查錯誤。
白描也有 Android 版。
#3 小嘿掃描
小嘿掃描與白描比較相似,同樣是在線識別,同樣提供校對功能,不同的是,小嘿掃描為批量識別做了優化,進行多頁識別更便捷。
白描使用簡介
#1 頁面掃描
白描自帶簡單的掃描處理功能,和 Scanner Pro 一樣,白描會自動檢查掃描區域,給出拍攝建議,並在符合條件的時候自動拍攝。
白描同樣支持自動識別和手功調整裁剪區域,同樣支持調整顏色模式,但不支持手動調節亮度、對比度,也不支持糾正失真。
#2 文字識別
白描掃描的頁面不能像掃描類 App 那樣保存為圖片或 PDF,只能進行識別操作。
點擊右下角的「文字識別」按鈕,稍等片刻,來到文字選擇界面。
白描將圖片上的文字用綠色邊框框出,可通過點擊或划動來選擇識別區域,選中的區域顯示為綠色實框。
選好區域後點右下角「查看文字」按鈕獲得識別結果,在識別結果界面可以進行複製、導出、翻譯、校對等操作。
支持校對,方便了用戶清除識別錯誤,然而在校對界面,原圖被放在識別結果下方,讓人感覺彆扭。一是輸入法會擋住圖片,不方便拖動;二是伸手操作識別的文字時不可避免擋住了視線。
名片全能王在校對識別結果時,會自動顯示原圖的相應位置,如果白描和小嘿掃描能實現逐行校對,這個功能的實用性會大幅提高。
題圖來自 Unsplash,作者 Eli Francis


TAG:愛拉鋒 |