累計設計 10 億次海報，阿里 AI 設計師「魯班」核心技術詳解

知識 04-23

2018 年 4 月 21 日，在阿里巴巴 UCAN 用戶體驗設計論壇上，「魯班」創始人、阿里巴巴智能設計實驗室負責人樂乘向現場觀眾展示「魯班」的設計能力，台下掌聲雷動。

這是一場以設計師為主要觀眾的論壇，對於設計師來說，他們的工作往往包含許多重複性體力勞動，比如裁切素材、調整圖片大小、修正白平衡等，而「魯班」基本上能包攬上述絕大部分內容，這大大解放了設計師的雙手。

「魯班」是阿里巴巴自研的一款設計人工智慧產品，目前累計設計 10 億次海報。2017 雙 11 期間，魯班一天製作 4000 萬張海報，並且每張海報都是根據商品圖像特徵專門設計。

「魯班」的核心演算法技術由阿里巴巴達摩院機器智能技術實驗室研發，在強化學習、平面設計美學量化評估、知識圖譜方面分別聯合倫敦大學學院、清華大學、浙江大學團隊。得益於深度學習、增強學習、蒙特卡洛樹搜索、圖像搜索等技術以及大量設計數據，「魯班」可以通過自學獲得設計能力。

「魯班」包括規劃網路、行動器、評估網路三大核心部分。

圖：「魯班」進行風格學習

規劃網路的基礎來源於設計師的創意設計模板和基本元素素材，設計師將大量設計素材進行結構化數據標註，最後經由一系列人工智慧網路學習，輸出空間+視覺的設計框架。

圖：元素分類器對輸入的素材進行識別及分類

行動器根據「魯班」收到的設計需求，從學習網路中抽取設計原型，並從元素中心中選取元素，規劃輸出多個最優生成路徑，完成圖片設計。

圖：魯班行動器規劃最優設計生成

評估網路的工作原理是輸入大量的設計圖片和評分數據，訓練魯班學會判斷設計的好壞。

圖：評估得分

作為阿里巴巴智能設計實驗室負責人，樂乘主要負責「魯班」的數據、產品、設計和業務，達摩院機器智能技術實驗室資深演算法專家星瞳則負責演算法技術及後台視覺生成引擎系統，包括數據的分析處理，在線、離線流程，各類機器學習演算法的研究。 AI 研習社針對「魯班」背後的技術細節與他們進行探討，整理如下。

問：「魯班」即將達到人類高級設計師水平，它的這一設計水平是如何衡量的？具體的考慮因素有哪些？

答：魯班的設計取決於人類輸入，輸入水平決定了輸出水平，我們有一個專門的團隊來訓練「魯班」，目前它學完之後可以達到中級設計師水平，而想要達到高級水平，需要用到更大規模的數據，預計在今年下半年可以實現。

對於設計水平的衡量，需要從多個維度來考慮：

第一，從設計的合理性、美感上評估，這更多是設計行業評判設計師水平的通用標準。

第二，生成圖片的使用效果如何。

第三，從美學和藝術的角度，這裡可能不同的人會有不同的看法，這一部分也需要設計師參與評估。

問：「魯班」項目 2015 年底啟動至今，有哪些比較重要的時間節點？

答：總的來說有三個節點。

我們在兩年多前，有了研發魯班的想法，先做出了第一個 Demo，這是第一個節點。

第二個節點是 2016 年的雙十一，我們想真正規模化地應用這一系統，當時，針對集團的特定場景，開發了一個版本，那個版本最重要的貢獻，就是能夠真正大規模地輔助線上系統。

但是那時候「魯班」主要是針對阿里的一些場景應用，與外界目標群體的需求存在差異，之後我們又集中精力進行了這方面的研發，到目前，能滿足不同群體的需求。這是第三個比較重要的節點。

通過時間的積累、越來越多的資源投入以及大家的一起努力，魯班現在在某些場景下能輸出很不錯的結果。

問：「魯班」對硬體的要求如何？

答：「魯班」依賴於 GPU，目前大概需要幾百個 GPU。同時，這一系統具有伸縮性，在雙十一活動的高峰期，需要的 GPU 多一些，平時相對來說少一些。

問：「魯班」系統在設計過程中，需要的原始數據量有多大？

答：2016 年雙十一，我們利用「魯班」設計出 1.7 億張海報，那是比較早期的摸索。2017 年雙十一，「魯班」設計了 4 億張海報，那時候我們投入了十多人的設計師團隊，他們會創作出少量的元素以及符合雙十一要求的基礎數據，在投入數據規模方面，當時種子數據的量級在千級別，隨著應用規模擴大，種子數據也有數量級的擴大。

問：在標註數據方面，需要投入大量人力成本，你們是如何解決這一問題的？

答：總的來說，啟動的種子（需要極大人力投入的數據）在前期必不可少，但魯班是一個不斷進化的閉環系統，它具有自我評估能力，機器產生的數據，一部分可以直接用，還有一部分，可以經過人工的參與，去做進一步清理、編輯、打標等。隨著處理數據越來越多，演算法的力量越來越強大，人力成本會不斷降低，之後，系統會越來越好，數據會像滾雪球一樣往前走。

問：支撐「魯班」系統的核心技術有哪些？

答：你可以認為「魯班」系統是對 AI 演算法的集中。

這一系統比較複雜，其中有針對設計數據的分類和分割演算法；

在線規劃生成的時候，又有一些序列學習演算法；

同時，還使用到一些多 Agent 強化學習演算法；

此外，我們也使用了一部分 GAN 的方法；

還有一系列其他的方法，比如大規模檢索或特徵表達。

演算法層面，我們基本上覆蓋了現在比較新的技術。此外，我們還會用到大規模分散式數據處理技術。

問：「魯班」背後主要的技術難點有哪些？

答：我們前前後後花了兩年多時間來研究「魯班」系統，因為以前並沒有比較好的可供參考的案例，很多技術及解決方法都要靠我們自己去探索。

雖然業界有很多利用 GAN 去做生成的案例，但這些技術並不能達到我們的目標——可控數字內容的生成。

此外，我們既要能滿足可控，又要生成用戶想要的內容，還得保證圖片質量以及生成速度。

另外，還有幾個典型問題：怎麼利用多 Agent 強化學習，從粗到細地生成中間的結構；怎麼利用一些特殊的特徵去描述各種各樣的元素；還有最基礎的圖像理解、對象分割問題。

目前，「魯班」系統不可能像一般的深度學習演算法，直接端對端就可以達成目標，相對來說它的邏輯比較複雜，使用單一的演算法不能達到我們的目標。

問：前面提到多 Agent 強化學習，能具體解釋「魯班」中的這項技術嗎？

答：這是我們與 UCL 汪軍老師團隊合作的一項技術。

具體來說，系統會根據用戶的需求，得到一個非常粗粒度的結果，例如把一張圖或者一個目標變成多個組成部分，可以將這些組成部分稱為元素或者量化單元，並把它當做一個 Agent，這些 Agent 單獨不能決定結果的好與壞，只有多個 Agent 同時才能決定。可以認為這是一個組合優化問題，這裡就會用到多 Agent 強化學習技術。

問：未來還會基於已有的演算法做出哪些改進與創新？

答：未來還有很多需要鑽研的地方。

第一，基於 GAN 的一系列學習，尤其是照片級別、像素級別的生成演算法，我們希望與學術界或業界不斷合作、實驗。

第二，我們的系統還是過於複雜，所以想找到比較好的系統工程辦法，使得各方面都能更加高效。

第三，在設計知識圖譜這一領域，希望與外界合作，做得更加完善和靈活。

第四，我們希望能更好地量化生成效果，設計水平是很難衡量的，我們希望在這裡做出一些探索和改進。

我們目前的願景是「所想即所見」，即用戶想要什麼圖像，「魯班」就生成什麼樣的圖像。同時，我們也希望打造出能面向各種各樣場景、實時在線、高效且惠普地生成高質圖像的輔助系統。

NLP 工程師入門實踐班

三大模塊，五大應用，知識點全覆蓋；

海外博士講師，豐富項目分享經驗；

理論+實踐，帶你實戰典型行業應用；

專業答疑社群，討論得出新知。

新人福利

關注 AI 研習社（okweiwu），回復1領取

【超過 1000G 神經網路 / AI / 大數據資料】

看阿里 AliOS 神燈團隊在推薦系統上的獨門秘籍

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI研習社 的精彩文章:

※Kaggle 大神 Eureka 的高手進階之路
※用 Hinton 的膠囊神經網路來識別空間關係 Part1：CNNs及其缺點

TAG:AI研習社 |