IBM即將推出雲服務，使用機器學習演算法將PDF文檔數字化

最新 08-18

編譯：chux

出品：ATYUN訂閱號

IBM 將於下周在倫敦舉行的2018年KDD會議上預覽即將推出的雲服務，該服務利用機器學習演算法來讀取PDF文檔，從而可以使用這些文檔中的數據來訓練AI模型。

IBM研究院傑出研究人員兼認知解決方案基金經理Costas Bekas表示，儘管光學字元識別（OCR）技術可用於數十年的數字化，但IBM Corpus Conversion Service採用機器學習演算法可以使用單獨的伺服器每天數字化100000個PDF文檔。

更重要的是，這些文檔中的數據可以通過直接查詢數據或通過IBM為服務製作的應用程序編程介面（API）進行解析。

「所攝取的數據可由其他服務消費，」Bekas說。

Bekas表示，IBM語料庫轉換服務旨在使數據科學家能夠克服創建人工智慧模型所面臨的最大挑戰。該服務計劃於今年晚些時候在IBM Cloud上發布。目前數據科學家需要幾個月的時間才能獲得一套訓練AI模型所需的數據。

IBM Corpus轉換服務不是依靠不靈活的規則來識別數據，而是旨在以一種識別文檔片段（如摘要）的方式提取數據，無論它在文檔中出現的位置或字體大小。

Bekas表示，這種能力意味著，組織將能夠僱用只有高中文憑的辦公室工作人員，只需按一下按鈕即可獲取數據，而無需依靠數據科學家團隊來注釋數據。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章: