當前位置:
首頁 > 科技 > 視覺搜索的未來:自動化物體檢測

視覺搜索的未來:自動化物體檢測

人工智慧學家


選自 Pinterest Engineering作者:Dmitry Kislyuk


編譯:RunlifeSunshine

2015 年,我們發布了視覺搜索功能,那時我們初步設想了用戶通過圖片查詢問題可以做什麼。如今,每個月有超過 1 億 3 千萬次的視覺搜索,人們查找他們在 Pins (一種可視化書籤)看到的物品及其風格和顏色,而且還能獲得相關建議。這是一種全新的搜索方式,也是技術上的挑戰。最近,我們正在引入針對 Pinterest (照片分享網站,它採用的是瀑布流的形式展現圖片內容,堪稱圖片版 Twitter)上主流類別的自動化物體檢測功能,這樣用戶(Pins 的用戶被稱為 Pinners)就能用 Pins 上的圖片可視化搜索產品。展望視覺搜索的未來,我們也在開始嘗試新的攝像搜索技術,它能給 Pins 的用戶提供關於產品的評論。用戶不久久能啪地一下給單個物體拍照,然後在 Pinterest 上搜到相關信息,或者拍下整個房間的照片,然後搜到各種物體的相關結果。

視覺搜索的未來:自動化物體檢測



Pinterest 的深度學習

Pinterest 視覺搜索中採用的深度學習是近年來的前沿技術。卷積神經網路 (convolutional neural networks, CNN) 將圖片和視頻表徵為特徵向量,保存了語義概念和視覺信息,而且在使用優化的最近路徑技術 (nearest neighbor techniques) 時容許快速的信息提取。我們利用 CNN 和我們的資料詳盡的圖片資料庫,在去年 11 月發布了一款視覺搜索產品,讓使用 Pin 的圖片進行搜索變得非常容易。針對這款產品的首次發布,我們從超過十億的 Pinterest圖片中提取出充分結合在一起的 6 層 協調良好的 VGG 模型(一種圖像分類模型),並且將它們編入分布式伺服器的索引中。由於一張圖片可以包含幾十個物體,我們想讓用戶儘可能輕鬆地從中搜索到他們想要的。與辭彙自動補全 ( auto-complete) 提高了文本搜索體驗類似,自動化物體檢測讓視覺搜索變成一種更加完美流暢的體驗。視覺搜索中的物體檢測還具備新的特徵,比如物物匹配。假如你在 Pinterest 或朋友家裡看到一張你喜歡的咖啡桌,你可以馬上查看這張桌子在不同的室內環境中有什麼搭配效果。對於開發自動化物體檢測技術,我們的第一個挑戰是給圖片中感興趣的物體標上邊界框。自產品發布以來,我們已經處理了將近十億圖片。通過收集圖片搜索活動的數據,我們掌握了用戶對哪些物品感興趣。


初衷


既然我們的視覺搜索引擎能使用任何圖片——包括網頁上看不到的內容和你照相機里的圖片——物體檢測必須實時進行,不能有明顯的時間延遲。我們已經試驗過的一種最普遍使用的檢測模式是 Faster R-CNN 。它使用深度網路檢測圖片中的物體,包括兩個步驟。第一步,它識別圖片中可能包含目標物體的區域,其方式是運行完全卷積的網路去瀏覽輸入的圖片,從而產生特徵圖。在特徵圖的每一個位置,神經網路估量一系列固定區域,改變其尺寸和長寬比,並使用二進位柔性最大傳遞函數分類器 (binary softmax classifier) 判斷每個區域包含目標物體的可能性。如果找到了非常合適的區域,神經網路還會調整該區域,使之更好地框住目標物體。如果神經網路找到多個和目標有關的區域,它還能進一步檢查,盡量確認出包含目標物體的特殊區域,而刪除其實沒有包含目標物體的區域。對於每一個候選區域,神經網路扮演的角色相當於卷積的特徵圖相應部分的空間池,從而產生具有固定尺寸又獨立於圖片區域尺寸的特徵向量。這種彙集特徵 (pooled feature) 後來被用作檢測網路的輸入,而檢測網路使用柔性最大傳遞函數分類器 (softmax classifier) 去鑒別圖片區域是背景還是目標物體。如果一個物體被檢測出來,網路就會調整區域邊界,從而更進一步地改善檢測質量。最後,針對檢測進行一輪非最大值刪除 (non-maximum suppression, NMS) ,從而篩選出所有重複的檢測,然後檢測結果就呈現在用戶眼前。


建立自動化物體檢測


使用 Faster R-CNN 進行快速檢測的一個關鍵技巧是卷積特徵。如果神經網路在處理圖片信息時出現時間延遲,一個重要的原因就是產生卷積的特徵圖是耗時的。通過將卷積特徵圖在兩個網路成分間分享,我們減少了多餘的計算時間。這就讓我們能在不到一秒時間內鑒別物體。

視覺搜索的未來:自動化物體檢測



去年,我們將這個模型落實應用於計算在 Related Pins (Pinterest 主頁上的一個推薦功能) 上選中的視覺相似性特徵。自那以後,我們已經致力於通過應用深度殘差網路 (deep residual networks, 一種分類模型) 的最新成果提高這種模型的精確度和有效性。

視覺搜索的未來:自動化物體檢測


雖然緊接而來的神經網路由 100 多卷積層構成,但是我們已經集中發力於減少這種模型所需的 GPU 內存,從而使之更適合於網路服務並同時使延遲時間保持在 300 毫秒一下。

視覺搜索的未來:自動化物體檢測



視覺搜索的未來

隨著實時物體檢測能用於來自任何地方的圖片, Pinterest 的視覺搜索是變得更好的。物體檢測在接下來幾周將普及到所有用戶和平台。我們還在構建只需拍照就能在 Pinterest 上獲得商品的相關評論的技術。這將帶來新的視覺搜索體驗。


人工智慧學家Aitists


人工智慧學家是權威的前沿科技媒體和研究機構,2016年2月成立人工智慧與互聯網進化實驗室(AIE Lab),重點研究互聯網,人工智慧,腦科學,虛擬現實,機器人,移動互聯網等領域的未來發展趨勢和重大科學問題。


長按上方二維碼關注微信號 Aitists


投稿郵箱:post@aitists.com


請您繼續閱讀更多來自 人工智慧學家 的精彩文章:

Niubility!機器將能理解人類情感
人工智慧做出更好的商業決定!

TAG:人工智慧學家 |

您可能感興趣

自動喝水立方體,讓你享受不同的視覺體驗
研究人員開發出用於皮膚癌篩選的自動化黑素瘤檢測器
自動化的身體掃描儀 全方位的監控健康狀況
自動化測試到底是什麼
解密如何用自媒體視頻打造吸人又吸金的自動財富機器!
自動化儀器檢查尿有形成分及問題的思考
松勤軟體測試聯合騰訊課堂推出軟體自動化測試全棧課程
IT運維話題調研《自動化巡檢與傳統監控之爭》
自動化立體倉庫中的自動化系統解析
移動自動化時代的來臨——移動控制和監測的系統集成
自動收銀機:糟糕的體驗
蘋果矽谷路測曝光,做自動駕駛軟體比電動汽車更靠譜?
「讓調參全部自動化」自動機器學習,神經網路自主編程(代碼與訣竅)
自動榴彈發射器中的廢物,經常出故障且操作繁瑣
實現自動化測試,首先不是一個技術問題
檢測屏幕自動錄音,小米隱藏功能你知道嗎
重磅|自動駕駛計算機視覺研究綜述:難題、數據集與前沿成果
親自動手做陶藝 體驗手工的樂趣
未來的智慧物流黑科技 全程自動化無人操作實在是太震撼