視覺搜索的未來:自動化物體檢測
人工智慧學家
選自 Pinterest Engineering作者:Dmitry Kislyuk
編譯:RunlifeSunshine
2015 年,我們發布了視覺搜索功能,那時我們初步設想了用戶通過圖片查詢問題可以做什麼。如今,每個月有超過 1 億 3 千萬次的視覺搜索,人們查找他們在 Pins (一種可視化書籤)看到的物品及其風格和顏色,而且還能獲得相關建議。這是一種全新的搜索方式,也是技術上的挑戰。最近,我們正在引入針對 Pinterest (照片分享網站,它採用的是瀑布流的形式展現圖片內容,堪稱圖片版 Twitter)上主流類別的自動化物體檢測功能,這樣用戶(Pins 的用戶被稱為 Pinners)就能用 Pins 上的圖片可視化搜索產品。展望視覺搜索的未來,我們也在開始嘗試新的攝像搜索技術,它能給 Pins 的用戶提供關於產品的評論。用戶不久久能啪地一下給單個物體拍照,然後在 Pinterest 上搜到相關信息,或者拍下整個房間的照片,然後搜到各種物體的相關結果。
Pinterest 的深度學習
Pinterest 視覺搜索中採用的深度學習是近年來的前沿技術。卷積神經網路 (convolutional neural networks, CNN) 將圖片和視頻表徵為特徵向量,保存了語義概念和視覺信息,而且在使用優化的最近路徑技術 (nearest neighbor techniques) 時容許快速的信息提取。我們利用 CNN 和我們的資料詳盡的圖片資料庫,在去年 11 月發布了一款視覺搜索產品,讓使用 Pin 的圖片進行搜索變得非常容易。針對這款產品的首次發布,我們從超過十億的 Pinterest圖片中提取出充分結合在一起的 6 層 協調良好的 VGG 模型(一種圖像分類模型),並且將它們編入分布式伺服器的索引中。由於一張圖片可以包含幾十個物體,我們想讓用戶儘可能輕鬆地從中搜索到他們想要的。與辭彙自動補全 ( auto-complete) 提高了文本搜索體驗類似,自動化物體檢測讓視覺搜索變成一種更加完美流暢的體驗。視覺搜索中的物體檢測還具備新的特徵,比如物物匹配。假如你在 Pinterest 或朋友家裡看到一張你喜歡的咖啡桌,你可以馬上查看這張桌子在不同的室內環境中有什麼搭配效果。對於開發自動化物體檢測技術,我們的第一個挑戰是給圖片中感興趣的物體標上邊界框。自產品發布以來,我們已經處理了將近十億圖片。通過收集圖片搜索活動的數據,我們掌握了用戶對哪些物品感興趣。
初衷
既然我們的視覺搜索引擎能使用任何圖片——包括網頁上看不到的內容和你照相機里的圖片——物體檢測必須實時進行,不能有明顯的時間延遲。我們已經試驗過的一種最普遍使用的檢測模式是 Faster R-CNN 。它使用深度網路檢測圖片中的物體,包括兩個步驟。第一步,它識別圖片中可能包含目標物體的區域,其方式是運行完全卷積的網路去瀏覽輸入的圖片,從而產生特徵圖。在特徵圖的每一個位置,神經網路估量一系列固定區域,改變其尺寸和長寬比,並使用二進位柔性最大傳遞函數分類器 (binary softmax classifier) 判斷每個區域包含目標物體的可能性。如果找到了非常合適的區域,神經網路還會調整該區域,使之更好地框住目標物體。如果神經網路找到多個和目標有關的區域,它還能進一步檢查,盡量確認出包含目標物體的特殊區域,而刪除其實沒有包含目標物體的區域。對於每一個候選區域,神經網路扮演的角色相當於卷積的特徵圖相應部分的空間池,從而產生具有固定尺寸又獨立於圖片區域尺寸的特徵向量。這種彙集特徵 (pooled feature) 後來被用作檢測網路的輸入,而檢測網路使用柔性最大傳遞函數分類器 (softmax classifier) 去鑒別圖片區域是背景還是目標物體。如果一個物體被檢測出來,網路就會調整區域邊界,從而更進一步地改善檢測質量。最後,針對檢測進行一輪非最大值刪除 (non-maximum suppression, NMS) ,從而篩選出所有重複的檢測,然後檢測結果就呈現在用戶眼前。
建立自動化物體檢測
使用 Faster R-CNN 進行快速檢測的一個關鍵技巧是卷積特徵。如果神經網路在處理圖片信息時出現時間延遲,一個重要的原因就是產生卷積的特徵圖是耗時的。通過將卷積特徵圖在兩個網路成分間分享,我們減少了多餘的計算時間。這就讓我們能在不到一秒時間內鑒別物體。
去年,我們將這個模型落實應用於計算在 Related Pins (Pinterest 主頁上的一個推薦功能) 上選中的視覺相似性特徵。自那以後,我們已經致力於通過應用深度殘差網路 (deep residual networks, 一種分類模型) 的最新成果提高這種模型的精確度和有效性。
雖然緊接而來的神經網路由 100 多卷積層構成,但是我們已經集中發力於減少這種模型所需的 GPU 內存,從而使之更適合於網路服務並同時使延遲時間保持在 300 毫秒一下。
視覺搜索的未來
隨著實時物體檢測能用於來自任何地方的圖片, Pinterest 的視覺搜索是變得更好的。物體檢測在接下來幾周將普及到所有用戶和平台。我們還在構建只需拍照就能在 Pinterest 上獲得商品的相關評論的技術。這將帶來新的視覺搜索體驗。
人工智慧學家Aitists
人工智慧學家是權威的前沿科技媒體和研究機構,2016年2月成立人工智慧與互聯網進化實驗室(AIE Lab),重點研究互聯網,人工智慧,腦科學,虛擬現實,機器人,移動互聯網等領域的未來發展趨勢和重大科學問題。
長按上方二維碼關注微信號 Aitists
投稿郵箱:post@aitists.com
Niubility!機器將能理解人類情感
人工智慧做出更好的商業決定!
TAG:人工智慧學家 |
※自動喝水立方體,讓你享受不同的視覺體驗
※研究人員開發出用於皮膚癌篩選的自動化黑素瘤檢測器
※自動化的身體掃描儀 全方位的監控健康狀況
※自動化測試到底是什麼
※解密如何用自媒體視頻打造吸人又吸金的自動財富機器!
※自動化儀器檢查尿有形成分及問題的思考
※松勤軟體測試聯合騰訊課堂推出軟體自動化測試全棧課程
※IT運維話題調研《自動化巡檢與傳統監控之爭》
※自動化立體倉庫中的自動化系統解析
※移動自動化時代的來臨——移動控制和監測的系統集成
※自動收銀機:糟糕的體驗
※蘋果矽谷路測曝光,做自動駕駛軟體比電動汽車更靠譜?
※「讓調參全部自動化」自動機器學習,神經網路自主編程(代碼與訣竅)
※自動榴彈發射器中的廢物,經常出故障且操作繁瑣
※實現自動化測試,首先不是一個技術問題
※檢測屏幕自動錄音,小米隱藏功能你知道嗎
※重磅|自動駕駛計算機視覺研究綜述:難題、數據集與前沿成果
※親自動手做陶藝 體驗手工的樂趣
※未來的智慧物流黑科技 全程自動化無人操作實在是太震撼