谷歌開源其語義圖像分割模型DeepLab-v3+
AiTechYun
編輯:xiaoshan
語義圖像分割是為圖像中的每個像素分配諸如「道路」,「天空」,「人」,「狗」之類的語義標籤,它使得許多新的應用程序在(例如Pixel 2和Pixel 2 XL的智能手機和移動實時視頻分割)豎屏模式下合成淺景深效果。分配這些語義標籤需要確定對象的輪廓,因此比其他視覺實體識別任務(如圖像級分類或邊界盒級檢測)更嚴格地要求定位精度。
今天,谷歌宣布了他們最新的和性能最好的語義圖像分割模型的開源版本, DeepLab-v3+,可在Tensorflow中實現。此版本包含基於強大的卷積神經網路(CNN)骨幹架構構建的DeepLab-v3 +模型,獲得最準確的結果,用於伺服器端部署。作為本次發布的一部分,谷歌還分享了他們的Tensorflow模型訓練和評估代碼,以及已經預先訓練過的Pascal VOC 2012和Cityscapes 基準語義分割任務的模型。
自從三年前谷歌的DeepLab模型第一次改版以來,改進的CNN特徵提取器,更好的對象比例建模,對上下文信息的仔細同化,改進的訓練過程以及越來越強大的硬體和軟體導致了DeepLab-v2和DeepLab-v3的改進。藉助DeepLab-v3 +,我們通過添加簡單而有效的解碼器模塊來擴展DeepLab-v3,以細化分割結果,尤其是對象邊界。我們進一步將深度可分離卷積應用於空間金字塔池(atrous spatial pyramid pooling)和解碼器模塊,從而形成更快更強的用於語義分割的編碼器 – 解碼器網路。
基於卷積神經網路(CNNs)之上的現代語義圖像分割系統的精確度已經達到了難以想像的程度,這要歸功於方法、硬體和數據集的進步。谷歌希望,向社區公開分享他們的系統,使學術界和業界的其他團體更容易複製和進一步改善該先進系統,訓練新數據集的模型,並為這項技術設想新的應用程序。
※利用深度神經網路創建一個球星的臉 效果堪比真人!
※創建深度學習數據平台時,你需要考慮的五個因素
TAG:AiTechYun |