AI幫你摳圖,阿里媽媽自研演算法入選國際頂級學術會議
用戶上傳一張圖片,AI 就能「猜」到你的需求,自動高精度摳圖,包括頭髮絲、婚紗、煙霧等半透明區域。這是繼在戛納名聲大噪的阿里媽媽 AI 智能文案之後,阿里媽媽演算法團隊在 AI 領域的又一新進展——用人工智慧幫助設計師實現全自動摳圖。
這一自動人物摳圖演算法(Semantic Human Matting)為阿里媽媽自研演算法,目前已經被多媒體領域國際頂級學術會議(CCFA類會議)ACM MultiMedia 2018 接收。
阿里媽媽也開發了以這一演算法為核心的工具,便於商家和設計師自動化摳圖。據悉,AI 智能摳圖也是阿里媽媽 Ad Tech布局中的一環,隨著它在人工智慧領域探索的逐漸深入,用數據技術賦能商家營銷的特色會越來越明顯,尤其體現在內容營銷的創新當中。
全自動摳圖,阿里媽媽自研演算法獲國際認可
用機器輔助摳圖,這種半自動的方式在行業里並不鮮見,但同樣需要操作者具備一定經驗,並反覆調整,尤其是對頭髮絲、婚紗、玻璃瓶、煙霧等對摳圖精細程度高的類別,還是設計師手工操作,需要耗費大量的精力。
對此,阿里媽媽開創了一種全自動的人物摳圖方法。憑藉其自研的自動人物摳圖演算法(Semantic Human Matting),能夠將目標對象從圖片中精確地提取出來。
為了實現這種高質量的自動化摳圖效果,阿里媽媽演算法團隊在數據集和演算法上都做了大量的工作,數據集的規模遠遠超過了目前公開的人物摳圖數據集,同時,用自研演算法保證摳圖對象的完整性和局部細節的精確度。
體現在工具上,自動化的特點十分明顯,設計師不需要專門的摳圖培訓,只需上傳圖片就可以將目標從圖片中高精度地提取出來,如果不滿意,再稍動幾筆便可以實現調整。
阿里媽媽技術實力輸出,Ad Tech 趨勢明顯
在不斷打磨演算法的同時,阿里媽媽也將這種自動人物摳圖的能力落實到產品和工具上,為商家實際的營銷痛點提供解決方案。
對於阿里巴巴這樣的大型電商平台而言,無論是店鋪內容的商品展示,還是用於廣告投放的創意,圖片都是重要的載體,以人物為代表的精細摳圖成為了商家運營過程中繞不開的一環和痛點。
如同 AI 智能文案一樣,阿里媽媽 AI 智能摳圖也是為了解決商家的營銷痛點,一方面將設計師從複雜耗時的摳圖流程中解放出來,同時極大賦能設計領域。
這得益於阿里巴巴龐大而真實的營銷場景,阿里媽媽演算法團隊可以將這些場景中的痛點作為課題,尋求技術解決的路徑,並將解決方案應用於實際的場景。
因此,阿里媽媽通過技術驅動營銷的特色已經十分明顯,尤其是在人工智慧領域,通過一系列智能解決方案的輸出,Ad Tech 成為每一個商家都能感知和受益的基礎設施。
為了幫助讀者進一步理解阿里媽媽的自動摳圖技術,後文將會以論文的形式展現,該論文內容來源於阿里媽媽(等待加入一部分論文撰寫團隊的介紹)。
阿里媽媽演算法平台致力於推動廣告創意產業的AI升級,努力打造創意製作、理解和投放的全棧智能化。得益於阿里巴巴龐大而真實的營銷場景,團隊在智能寫作、圖像技術、視頻技術等領域持續發力和創新,已構建出AI智能文案、實時個性化創意等特色技術,用AI賦能現代營銷,驅動產業升級。
阿里媽媽智能摳圖編輯器
阿里媽媽智能摳圖編輯器旨在為設計領域提供簡單、易用的在線摳圖工具。用戶只需要寥寥幾筆甚至不需要任何操作即可以將目標從圖片中高精度提取出來,包括頭髮絲、婚紗、玻璃瓶、煙霧等半透明區域。該工具中使用的自動人物摳圖演算法(Semantic Human Matting)為阿里媽媽自研演算法,目前已經被多媒體領域國際頂級學術會議ACM MultiMedia 2018 接收,arXiv 版本地址:
http://arxiv.org/abs/1809.01354
背 景
摳圖是一項從圖片中將目標前景高精度提取出來的圖像處理技術,其被廣泛應用在圖像編輯、混合現實、創意合成和電影製作工業中。在像阿里巴巴這種大型電商平台中,無論是店鋪內部的商品展示,還是用於廣告投放的創意,圖片都是重要的載體。而精美創意圖片的製作,掌握複雜且耗時的精細摳圖方法,往往是設計師繞不開的問題,相信設計領域的同學經常使用PhotoShop(PS)來摳圖,對這一點應該深有體會。
如果有一個工具,設計師不需要專門的摳圖培訓,只需寥寥幾筆,甚至不需要任何操作即可以將目標從圖片中高精度提取出來,還能處理包括頭髮絲、婚紗、玻璃瓶、煙霧等這種半透明區域,將設計師從複雜耗時的摳圖流程中解放出來,專註在設計本身,應該能極大賦能設計領域。而這正是阿里媽媽智能摳圖編輯器期望解決的問題,其中圖 1 即為機器自動摳圖,然後應用在創意圖片製作的例子:
圖1 機器自動摳圖在創意圖片製作中的應用 [1]
提起摳圖,大家肯定會聯想到計算機視覺中的一個經典任務:圖像分割(Image Segmentation),特別是隨著深度學習(Deep Learning)的興起,圖像分割任務受到越來越多的研究者和公司的重視和投入,不斷有大型數據集被發布,分割類別也從兩類分割(Binary Segmentation)到幾十類分割,甚至幾千類的分割,分割任務也從語義分割(Semantic Segmentation)進化到了實例分割(Instance Segmentation),分割效果也達到了前所未有的精度。大家也就很自然想到使用圖像分割作為摳圖背後的演算法,但我們認為即使目前公開的最優秀的分割模型結構(如 Mask-RCNN 等)在目前公開的最大型的分割數據集(如 COCO 等)上訓練得到的結果也很難滿足圖像編輯這種高精度的,帶半透明度的嚴苛要求。這其中的原因包括數據集製作的方法(Segmentation 的數據集的 Label 為二值化的 Mask),模型結構設計的等因素。圖 2 展示了 Matting 和 Segmentation 得到的摳圖結果在圖片合成中的不同效果。可以看到 Segmentation 的結果比較「硬」,合成圖片中有比較明顯的 PS 痕迹。
圖 2 Matting 和 Segmentation 的不同摳圖效果在圖片合成中的不同效果,圖片來源於 [2]
在學術領域,摳圖一般叫 Image Matting,其可以被形式化為如下數學問題:
其中,為輸入圖像,為半透明度,為為目標前景,為背景,該公式中除了以外,、和都是未知的,這顯然是一個高度欠定問題,直接求解是非常困難的。因此,為了緩解這一問題,學術界引入了 Trimap 這一概念作為約束。Trimap,即圖 3 中的圖(b),一般通過用戶交互得到,它將圖像劃分為 3 個區域,分別為確定前景(Definite Foreground),確定背景(Definite Background)和不確定區域(Unknown),這樣通過從用戶中得到的 Trimap 作為約束,極大的提高了摳圖效果。目前學術界中的絕大多數摳圖方法都採用了這一思路,但 Trimap 一般需要用戶提供,畫 Trimap 也是一個較耗時和需要「技術」的事情。因此,我們希望完全不需要人工交互,或者只需要較少的人工交互,即可提供不錯的摳圖結果。基於這個思路,我們提出了全自動的人物摳圖演算法和製作了帶有少量人工交互功能的任意物體在線摳圖編輯器。
圖 3 學術領域中 Image Matting 基本概念介紹,圖片來源於 [3]
自動人物摳圖
服裝類目作為淘寶天貓的重要類目,其中的商品展示圖片包含了大量模特,為模特或者人物製作專門的自動摳圖演算法具有重要應用價值。基於這個應用出發點,我們研發了自動人物摳圖演算法,該演算法已沉澱為論文 Semantic Human Matting (SHM) [1] 並已經被 ACM MultiMedia 2018 接收,arXiv 版本地址為:https://arxiv.org/abs/1809.01354。下面簡單介紹我們為處理該問題所做的思考和工作。
Pipline
設計一種全自動的人物摳圖方法並不是一件容易的事情。如上文所介紹,人們很容易想到直接藉助目前計算機視覺領域 Semantic Segmentation 或者 Image Matting 技術來解決,但我們認為直接應用他們中的任何一種方法都很難拿到令人滿意的效果。我們首先來考察 Semantic Segmentation,目前的 Semantic Segmentation 模型通常聚焦在相對來說比較粗糙的語義信息判別,而常常容易模糊掉結構化的細節,如頭髮絲,網狀區域等,也不能預估如婚紗這種典型的半透明度區域的半透明度。然後我們來考察具有提取半透明區域能力的 Image Matting 方法,如前訴述,這種方法往往需要用戶給定的 Trimap 作為約束,這種需要用戶參與的方式,就自然阻礙了全自動的過程。因此在這篇論文中,我們將 Semantic Segmentation 模塊集成到了一個基於深度學習的 Matting 模塊中,來實現人物的自動摳圖。我們將 Semantic Segmentation 模塊學習到的前背景語義信息注入到 Deep Matting 模塊中來完成在提取結構化細節信息和半透明信息的同時,保證語義的完整性。其網路完整結構如下圖所示。
圖 4 Semantic Human Matting Network Architecture [1]
該網路包含三個模塊,負責 Trimap 預測的語義分割模塊 T-Net,負責半透明度等細節預估的 M-Ne 和負責融合語義信息和細節信息的 Fusion Module。為了保證整個網路可以 end-to-end 的訓練,以便能夠統一優化,得到更好的解,我們提出了一種簡單但有效的融合策略,它能夠自然的給出 alpha 的概率估計,從而讓 T-Net 和 M-Net 自適應的協作,達到在保證語義完整性的同時兼顧半透明等細節。
在這個工作中,我們的主要貢獻為:
我們所知,SHM 是第一個完全使用深度學習網路來同時學習高級語義信息和低級視覺細節信息的自動人物摳圖演算法。並且經驗結果顯示,SHM 演算法能夠取得與 state-of-the-art 的互動式摳圖演算法(非全自動,需要用戶參與提供 trimap)相媲美的效果。
我們提出了一個簡單但實用的可微自動融合模塊。它能夠自動的在每個像素級別上同時考慮粗糙的高級語義信息和精細的低級視覺細節信息,並且讓兩個子網路協作來完成 end-to-end 的學習,這對於我們的效果保證非常重要。
為了訓練這個網路,我們構造了一個包含 52,511 張訓練圖片和 1,400 張測試圖片的大型人物摳圖數據集,據我們所知,這是目前最大的 Matting 領域的數據集。
下面我們主要簡單介紹一下 Fusion Module、Training Loss 和部分實驗結果。
Fusion Module
Training Loss
Experiments
客觀指標
為了訓練整個網路,我們構建了目前已知最大的 Matting 數據集,包含 52,511 張訓練圖片和 1,400 張測試圖片。我們採用了 Matting 領域常用的評測指標 SAD, MSE, Gradient Error 和 Connectivity Error 作為客觀評價標準 [5],並結合 state of the art 的 segmentation 網路和 Matting 方法建立基線。具體指標結果如下:
除此之外,我們對我們網路中的各個組成成分進行了 Ablation 實驗,驗證各個模塊的作用。
可以發現我們方法在各個指標上相比於基線均有明顯提高。
我們同時對比了目前 state-of-the-art 的互動式摳圖方法(需要人工提供 trimap)與我們方法的效果,如下表所示:
可以發現,我們的自動摳圖方法比絕大多數需要提供 trimap 的互動式摳圖方法效果都好,需要注意的是,上表中別的方法都需要人工提供精確的 trimap,而我們的方法除了輸入圖片之外,不需要提供任何額外信息。雖然我們的方法比 Trimap+DIM 這種互動式摳圖方法在客觀指標上要差一點,但在從下節中主觀視覺對比中可見,其在視覺上與該種方法差別不太大。
主觀視覺對比
我們展示了我們方法與其中幾種典型方法的視覺對比,以下為論文截圖,更多方法和高清的圖片對比請參考論文和補充材料 [1]。
圖 5 主觀視覺可視化對比
圖 6 主觀視覺可視化對比
中間結果可視化分析
為了更好的理解我們的 SHM 的工作機制,查看兩個子網路是如何協作的,我們對該網路的中間結果進行了可視化,如圖 7 所示:
圖 7 中間結果可視化對比
其中(a)為輸入圖片,(b)為 T-Net 預測的前景(綠色),背景(紅色)和不確定區域(藍色)的概率值顯示在 RGB 圖像上,(c)為 M-Net 的輸出結果,(d)為經過 fusion module 之後的最終 alpha 的預測值。從中我們可以看到,T-Net 能夠自動的分割出人物的主體部分,並且能夠區分出人物輪廓部分劃分為不確定區域時哪些地方應該給予較窄的邊,哪些結構性細節應該給予較寬的邊。並且,由於有 T-Net 負責主體語義部分,這讓 M-Net 可以更加專註在細節等半透明區域,然後通過 fusion module 的融合,使我們能夠得到高質量的 alpha 預估結果,而這正符合我們的設計初衷。
互動式摳圖編輯器
在自動人物摳圖演算法的基礎上,通過與 UED 團隊,前端團隊和演算法工程團隊合作,我們開發了通用物體的在線摳圖工具。用戶只需要簡單幾筆甚至不需要任何操作即可以將目標從圖片中高精度提取出來。該工具的主要目標就是最大程度簡化摳圖流程甚至完全自動化。下面將簡要介紹在線互動式摳圖編輯器的主要流程和使用方法。
摳圖流程示例
以下我們演示一個能夠用到我們整個流程的摳圖案例,需要注意的是,並不是每張圖片都需要走完全部流程,如果對摳圖結果已經滿意,可以中途中止流程,完成摳圖。
1、登錄阿里媽媽創意中心:海棠,申請許可權並進入摳圖工具頁面,點擊「長傳圖片」按鈕,上傳需要摳圖的圖片:
圖 8 阿里媽媽智能摳圖界面
2、演算法後台會獲取圖片,並猜測用戶可能需要摳取的目標,並將摳圖結果自動返回前端頁面展示給用戶。
圖 9 演算法初始化自動摳圖提示
3、用戶判斷自動摳圖結果是否滿意或者是否為想要摳圖目標,如果滿意,點擊保存按鈕,完成摳圖過程。
圖 10 直接保存初始化自動摳圖結果
4、如果不滿意,進入互動式摳圖調整流程。使用「選定主體」工具原定如下模特主體,演算法自動完成摳圖,判斷結果是否滿意。如果已經滿意,保存摳圖結果,完成摳圖,如果有背景混入,使用「擦除背景」工具去除多餘背景,直到滿足主體的完整性,如有部分細節缺陷,如部分頭髮絲缺失或者邊緣部分有些許毛刺,可進入「精修模式」調整細節。
圖 11 進入交互摳圖,使用「選定主體」筆觸畫前景,演算法自動摳圖
5、如果對摳圖精度要求非常高,對細節和半透明度要求非常細膩,可進入「精修模式」。
圖 12 進入精修模式,使用「邊緣修復」筆觸,處理不理想區域
引 用
[1] Quan Chen, Tiezheng Ge, Yanyu Xu, Zhiqiang Zhang, XinXin Yang, KunGai. 2018. Semantic Human Matting. In 2018 ACM Multimedia Conference(MM』18), October 22–26, 2018, Seoul, Republic of Korea. ACM, New York, NY,USA, 9 pages. https://doi.org/10.1145/3240508.3240610
[2]http://webee.technion.ac.il/people/anat.levin/papers/Matting-Levin-Lischinski-Weiss-06.ppt
[3] Wang Jue, and Michael F. Cohen. "Image and video matting: a survey." Foundations and Trends in Computer Graphics and Vision 3.2 (2008): 97-175.
[4] Ning Xu, Brian Price, Scott Cohen, and Thomas Huang. 2017. Deep image matting.In Computer Vision and Pattern Recognition (CVPR).
[5] Christoph Rhemann, Carsten Rother, Jue Wang, Margrit Gelautz, PushmeetKohli, and Pamela Rott. 2009. A perceptually motivated online benchmark for image matting. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEEConference on. IEEE, 1826–1833.
[6] Anat Levin, Dani Lischinski, and Yair Weiss. 2008. A closed-form solution to natural image matting. IEEE Transactions on Pattern Analysis and Machine Intelligence 30, 2 (2008), 228–242.
[7] Qifeng Chen, Dingzeyu Li, and Chi-Keung Tang. 2013. KNN matting. IEEE transactions on pattern analysis and machine intelligence 35, 9 (2013), 2175–2188.
[8] Donghyeon Cho, Yu-Wing Tai, and Inso Kweon. 2016. Natural image matting using deep convolutional neural networks. In European Conference on Computer Vision. Springer, 626–643.
[9] Yag?zAksoy, Tunc?OzanAyd?n, MarcPollefeys, andETHZu?rich. 2017. Designing effective inter-pixel information flow for natural image matting. In ComputerVision and Pattern Recognition (CVPR).


※單元測試究竟是該開發來做還是測試?
※產品經理必修課——用戶細分與產品定位 | QCon上海
TAG:InfoQ |