當前位置:
首頁 > 最新 > 利用Mask R-CNN2Go實現人體動態捕捉

利用Mask R-CNN2Go實現人體動態捕捉

Facebook的智能攝像頭團隊一直致力於研究各種計算機視覺技術,並進行工具開發以便人們加以應用。比如,應用實時「風格遷移」技術,可以將你的照片或視頻渲染成梵高風格。或者應用實時面部捕捉技術,對你的照片進行美顏,甚至直接用化身(比如卡通形象)替換你的頭像。更進一步,如果能用化身(Avatar)對你整個身體進行替代會怎樣呢?

要想用替身替換你的整個身體,需要能夠實時的探測和跟蹤你的身體運動。這是一個非常有挑戰性的問題,因為需要不斷的識別姿勢和動作的變化。一個人可能在走路或者跑步,又或者他可能穿著一件長外套或鞋子。此外,還可能經常被障礙物遮擋。以上這些問題都大大增加了建立可靠的人體跟蹤系統的難度。

近期,我們研發了一種新技術,該技術可以準確的跟蹤人體的姿態,並能將其從背景環境中分離出來。我們的模型現在還處於研究階段,但我們的模型規模很小(只有幾兆大小),並且可以應用到智能手機上。將來,該技術可以廣泛應用到不同的領域,比如創造人體面具(body mask),通過身體姿勢控制遊戲或者對對象身份進行反識別(de-identify)。

我們的人體識別和分割模型是基於Mask R-CNN架構建立的。Mask R-CNN是一種結構簡單、靈活性高的通用架構,可以用來進行物體識別和分割。該演算法可以高效的從圖片中識別出物體,並對物體進行關鍵點匹配以及邊界劃分。Mask R-CNN架構獲得了ICCV2017最佳論文。為了將Mask R-CNN架構 應用於智能移動設備,Facebook智能攝像頭、FAIR和AML等團隊的研究者和工程師一同開發了高效、輕量級化的Mask R-CNN2Go模型。

Mask R-CNN2Go模型主要包含以下5個主要特點。

3. 頭部檢測層(detection head)包含一系列卷積層、池化層(pooling)和全連接層。對於每個候選區域,頭部檢測層都會判斷其中物體是否是人類。該層還會進一步對區域坐標進行優化,並對鄰近的候選區域進行非極大值抑制(non-max suppression)處理,從而形成最終的人體區域邊框。

4. 利用第2層RIO-Align層從人體區域邊框中繼續提取特徵,並輸入到關鍵點層(key point head)和分割層(segmentation head)。

5. 關鍵點層和分割層有著相似的結構,它通過預設的人體關鍵點來生成人體替代模型。然後,一個單獨的最大掃略層用來生成最終的人體坐標。

適用於移動設備的輕量化模型

相比於GPU伺服器,移動設備(手機)只有有限的算力和存儲空間。傳統的Mask R-CNN模型建立在ResNet基礎上,該模型對於移動手機來說規模太大,且運行太緩慢。為了解決這個問題,我們開發了一種非常高效的模型框架,非常適用於移動手機。

我們應用了多種方法來縮減模型的規模,比如優化卷積層的數量和寬度(這些是計算過程中最耗時間的部分)。為了確保有足夠大的感受野(receptive field),我們將 1×1, 3×3 和 5×5三種不同區域尺寸(kernel size)進行組合應用。權重衰減演算法(Weight Pruning)也被用來縮減模型的規模。最終,我們獲得一個只有幾兆大小且非常精確的新模型。

模塊化設計改善計算速度

為了能在移動設備上實時的運行深度學習演算法,我們結合NNPack、SNPE、和Metal等方法改進了我們的核心框架Caffe2,在移動設備上的CPU庫和GPU庫(包含NNPack、SNPE、和Metal演算法)上顯著的提升了計算能力。這些改進都是基於模塊化設計,沒有改動基本模型的定義。最終,通過獲得了輕量化的模型以及高效的計算能力,又避免了潛在的不相容性。

Facebook AI研究中心(FAIR)最近公布了Mask R-CNN研發平台(Detectron)。同時,我們還對Caffe2系統的(GenerateProposalsOp,BBoxTransformOp,BoxWithNMSLimit,andRoIAlignOp)的使用安裝進行了開源,並提供必要的模型版本代碼供社區使用。

下一步是什麼?

為移動設備開發計算機視覺模型是一項很有挑戰的工作。應用於移動設備上的模型必須要規模小、速度快、準確率高,同時不需要很大的存儲要求。我們將繼續探索新型的建模框架,從而引申出更多高效的模型。此外,我們還將研究更適用於移動手機的GPU和DSP的模型,這樣的模型將更加省電。

微信群&商業合作:


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 九三分析獅 的精彩文章:

學習率及其如何改善深度學習演算法
谷歌YouTube推薦系統的深度神經網路應用

TAG:九三分析獅 |