當前位置:
首頁 > 新聞 > 谷歌開源深度學習街景文字識別模型:讓地圖隨世界實時更新

谷歌開源深度學習街景文字識別模型:讓地圖隨世界實時更新

選自Google Blog

作者:Julian Ibarz

機器之心編譯

參與:李澤南、晏奇


谷歌地圖的街景功能擁有 800 億張高解析度圖片,而且這個數字還在以每天百萬的速度不斷增加。街景圖片是獲取準確地理信息的絕佳渠道,而利用深度學習從圖片中獲取信息,並實時更新地圖地址內容正是谷歌研究團隊努力的目標。

每一天,谷歌地圖都會為數百萬人指路,並提供相應的實時路況信息和商店推薦。為了向用戶提供最好的體驗,這些信息必須隨著不斷變化的世界實時更新。谷歌街景車每天都會收集數百萬張圖片,而人工分析這超過 800 億張高解析度圖片中的信息,試圖找出其中的新變化是一個不可能完成的任務。谷歌 Ground Truth 團隊正在研究如何讓計算機自動將圖片中的內容轉變為谷歌地圖需要的信息。

在最近的一篇論文《Attention-based Extraction of Structured Information from Street View Imagery》中,谷歌的研究者討論了使用深度神經網路在多個國家收集到的街景圖中讀取街道名的任務。谷歌的演算法在「French Street Name Signs(FSNS)」數據集中達到了 84.2% 的準確率,表現大大超過了此前表現最好的系統。更重要的是,新系統除了可以讀取街道名稱,還可以自動讀取圖片中的商戶名,以及其他信息。谷歌近日已將這一模型開源。

Github 地址:https://github.com/tensorflow/models/tree/master/attention_ocr

谷歌開源深度學習街景文字識別模型:讓地圖隨世界實時更新

在 FSNS 數據集中的街道名被谷歌的系統成功轉錄,這個路標提供了四張不同圖片。

在自然環境中識別文字對於計算機視覺和機器學習而言是一個非常具有挑戰性的任務。傳統的光學字元識別(OCR)系統主要適用於從文件中掃描信息,而從自然視角中獲取文字則面臨更多麻煩,失真、遮蔽、方向模糊、複雜背景和不同視角都會對識別產生影響。谷歌應對這一挑戰的研究從 2008 年就開始了,他們曾使用神經網路來模糊結晶圖片中的人臉與車牌以保護隱私。在先前階段的研究中,研究人員逐漸意識到經過足夠已標記數據的訓練後,機器學習不僅可以用來保護用戶隱私,還可以自動為谷歌地圖進行實時信息的更新。

在 2014 年,谷歌 Ground Truth 團隊發布了當時最好的讀取街景門牌(SVHN)數據集中門牌號的方法。這一應用是由 Ian Goodfellow 等人提出的,它不僅引起了學界的關注,也切實改變了谷歌地圖的面貌。今天,全球大約 1/3 的地址都是由這一系統提供的。在一些國家如巴西,Goodfellow 等人的演算法為谷歌地圖提供了超過 90% 的地址,極大地增強了地圖的可用性。

在門牌號之後,最合情理的下一步就是將這些技術延展到街道名稱上了。為了解決這一問題,谷歌團隊首先發布了法國街道路標數據集(French Street Name Signs,FSNS),一個擁有超過一百萬街道名稱的訓練數據集。FSNS 數據集是多年努力的成果,旨在幫助所有開發者提升自己的 OCR 模型在實際應用中的性能。FSNS 數據集比 SVHN 數據集更大,也更具挑戰性,準確識別一張街道標識可能需要對於同一個標識不同角度的圖片進行合并處理。

SVHN 數據集:http://ufldl.stanford.edu/housenumbers/

FSNS 數據集:https://github.com/tensorflow/models/blob/master/street/README.md

谷歌開源深度學習街景文字識別模型:讓地圖隨世界實時更新

這是一些具有挑戰性的標識,它們由谷歌的系統通過選擇或結合對圖像的理解而恰當地進行了轉錄。第二個例子就更具挑戰性了,但是由於模型提前學習了一個語言模型,這使得它能夠去除模糊而正確的認讀街道的名字。

2016 年,使用這個訓練集,谷歌實習生 Zbigniew Wojna 用整個夏天開發出了一個深度學習模型架構,該架構可以自動對街景圖像進行標記。新模型的其中一個有趣的功能是它可以將文本規範成與我們日常命名習慣一致的方式。

谷歌開源深度學習街景文字識別模型:讓地圖隨世界實時更新

例:從來自巴西的數據中習得的文本規範化。在這裡,系統將「AV.」改成了「Avenida」,並且將「Pres.」改成了「Presidente」,這正是我們想要的。

谷歌開源深度學習街景文字識別模型:讓地圖隨世界實時更新

在本例中,模型並沒有因為圖中有兩個街道名而暈頭轉向,它很好的將「Av」轉換成了「Avenue」,同時它也正確地忽略了數字「1600」。

儘管該模型很精確,但是它也還是存在一系列達 15.8% 的錯誤率。然而,通過分析錯誤的例子,研究者發現其中 48% 是由於現實場景就是錯的。這突顯出新模型與標記質量平分秋色(對錯誤率完整的分析可參見論文)。

與提取街道數字的系統結合後,這個新系統讓我們可以從圖像中直接創造出新的地址,要知道這些街道名字或是地址的位置在事先是不知道的。現在,只要一台街景車開到任何一條新修的街道上,谷歌的深度學習系統就可以分析被捕獲的成千上萬張圖像,提取街道名字和數字,並且適當的在谷歌地圖上自動創造和定位新的地址。

但是,自動創造地址對於谷歌地圖來說還不夠——研究人員在未來希望能夠依據名字來提供對商戶的導航。2015 年,谷歌發表了「從街景圖像中發現大規模商戶(論文地址:https://arxiv.org/abs/1512.05430)」的論文,它為人們提供了一個可以在街景圖像中精確探測商戶標牌的方法。

通過使用不同的訓練集,谷歌用於讀取街道名字的模型架構也同樣可被用於從商戶外牆上精確提取商戶名字。在這個例子中,深度學習系統可以僅提取這樣的商戶名字:它們讓開發者可以驗證自己是否已從谷歌地圖中知道了這家商戶。這種提取商戶名的功能讓開發者們可以更精確地持續更新商戶變化的情況。

谷歌開源深度學習街景文字識別模型:讓地圖隨世界實時更新

儘管沒有從圖片名稱中獲取任何有關真實地址的信息,系統還是識別出了商戶名「Zelina Pneus」。模型也沒有被商戶名旁邊的輪胎品牌(普利司通)所迷惑。

將超過 800 億張街景圖使用這一模型處理是一個十分耗費計算能力的任務。對此,谷歌 Ground Truth 團隊使用了新研發的 TPU,極大地解決了計算機資源的耗費。

人們依賴於谷歌地圖的協助,而讓地圖隨著城市、道路與商業區域的成長而同步更新仍然是一個非常有挑戰性的任務。谷歌 Ground Truth 團隊將會繼續努力,將更多機器學習技術帶給谷歌地圖的用戶。

論文:Attention-based Extraction of Structured Information from Street View Imagery

論文鏈接:https://arxiv.org/abs/1704.03549

谷歌開源深度學習街景文字識別模型:讓地圖隨世界實時更新

我們提供了一個神經網路模型——基於 CNN、RNN 和一種全新的注意機制,它在 FSNS 數據集挑戰中達到了 84.2% 的準確率,大大超過了此前最好的模型(Smith, 2016;準確率 72.46%)此外,新的模型比舊模型更加簡單,也更具通用性。為了展示新模型的能力,我們讓它在更具挑戰性的谷歌街景圖數據集中讀取商戶名。最後,我們研究了在不同 CNN 深度的情況下速度/準確性的變化趨勢,我們發現更深並不一定意味著更好(在準確性和速度上都是這樣)。我們的最終模型簡單、快速而且準確,可以在具有挑戰性的真實世界環境中應用於多種不同任務。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

TAG:機器之心 |

您可能感興趣

谷歌推出新街景背包 更小更輕更加隱蔽
地圖看世界;世界航天國家及地區分布圖、谷歌街景覆蓋地圖
谷歌街景車正採集高精度地圖,圖商競爭愈發激烈
谷歌街景地圖上拍到的各種動物,好神奇的樣子
直擊世界各地完美的街景塗鴉,每一張都發人深思
壁紙 街景
插畫丨她把復古又繁華的迷幻美式街景,一次性展示給你看
告別街景拍攝車?機器學習可根據衛星圖像描繪地面
古巴雪茄之外的風情 無敵海景與街景
民國時舊上海街景:巨大廣告橫幅,宣傳鋪天蓋地
實拍朝鮮大城市的街景,和想像中的有點不一樣!
斯坦福最新研究:看圖「猜車禍」,用谷歌街景數據建立車禍預測新模型
壁紙 世界各地的聖誕節街景已上線,進來看下?
極富民族特色的高原小城,景色堪比麗江古鎮——青海玉樹街景
非常繁華的城市街景
如何將VR全景技術應用在街景領域中?
探訪朝鮮邊境上的大城市,街景讓中國遊客有些意外
俄羅斯掠影之三 世界盃期間的街景
不拘一格,融入刮刀痕迹的街景繪畫欣賞
城市的街景與色彩