當前位置:
首頁 > 新聞 > 阿里巴巴開源深度學習框架 X-Deep Learning,引領高維稀疏數據場景的深度學習標準

阿里巴巴開源深度學習框架 X-Deep Learning,引領高維稀疏數據場景的深度學習標準

雷鋒網 AI 科技評論按:日前,阿里巴巴宣布將旗下的大數據營銷平台阿里媽媽的演算法框架 X-Deep Learning(下文簡稱 XDL)進行開源。XDL 是阿里媽媽基於自身廣告業務自主研發的深度學習框架,目前已經大規模部署應用在核心生產場景。

業界首個面向高維稀疏數據場景的深度學習開源框架

據悉,這是阿里巴巴首次公開的深度學習框架,不同於 TensorFlow、PyTorch、MxNet 等深度學習開源框架面向圖像、視頻、語音等低維稠密數據而設計,XDL 是業界首個面向超大規模高維稀疏數據場景的深度學習開源框架。

數據的高維稀疏性既是阿里媽媽業務場景的重要特徵,也是互聯網的眾多核心應用場景(如廣告、推薦、搜索等)的特徵,覆蓋了大多數互聯網企業的數據應用模式。而 XDL 對於推薦、搜索、廣告等互聯網場景的工業化應用意義重大,其針對推薦、搜索、廣告等場景的訓練方式獨創了結構化壓縮、高階模型嵌套訓練等範式,對大規模深度網路的存儲、通信、計算等都有一個數量級以上的效率提升。

相較於 TensorFlow、PyTorch 等深度學習開源框架來說,XDL 的優勢還體現在它不僅僅只是一個訓練框架,還是面向高維稀疏數據場景的完整解決方案,尤其是一系列在阿里媽媽的核心業務場景經過生產驗證的演算法模型,這對於推薦、搜索、廣告等領域從業者來說,有極高的參考價值,可以幫助這個行業的很多團隊實現技術的跨越式前進。

引領高維稀疏數據場景的深度學習標準,打造開放與易用的 XDL 框架

據阿里媽媽透露,XDL 框架從設計之初,就具備了足夠的開放性和易用性,開源是水到渠成的一步。據雷鋒網了解,XDL 框架具有五大系統核心能力:


第一,為高維稀疏數據場景而生。XDL 針對高維稀疏數據場景,進行了性能優化,支持千億級參數的超大規模深度學習模型訓練;

第二,工業級分散式訓練。XDL 原生支持工業級的大規模分散式訓練,具備完整的分散式容災語義,可水平擴展至上干並發,支持批量學習與在線學習模式;

第三,橋接多後端支持。XDL 創造性地採用了橋接的架構設計理念,復用了現有的開學深度學習框架的單節點稠密計算能力,支持 TensorFlow 與 MxNet 作為其單節點計算後端。這種橋接的架構,使得 XDL 跟業界的開源社區無縫對接。此外,對於已經在使用其它開源框架的企業或者個人用戶,也可以在原有系統基礎上輕鬆進行擴展。

第四,高效的結構化壓縮訓練。XDL 針對互聯網數據的特點,提出了結構化壓縮訓練模式,大幅縮減 IO 通信量和訓練計算量,訓練效率可達 10 倍以上的提升;

第五,獨創的高級模型伺服器。XDL 提出了全新的 model shuffle 模式,原生支持多模態網路、異構計算網路等複雜演算法。

創新的演算法解決方案

除了核心的 XDL 訓練框架外,阿里媽媽透露將全面開源面向高維稀疏數據場景的系統化解決方案,計劃分批次對外發布,包括面向在線實時服務的高性能深度學習預估引擎、面向全庫實時檢索的全新深度學習匹配引擎。值得一提的是,這些系統解決方案還內置阿里媽媽自主研發的一系列創新演算法,包括:


  • 點擊率預估領域的深度興趣網路(Deep Interest Network,DIN)、用戶興趣演化網路(Deep Interest Evolution Network,DIEN)以及跨媒介網路(Cross Media Network,CMN)

  • 轉化率預估領域的全空間多任務模型(Entire Space Multi-task Model,ESMM)

  • 匹配召回領域的樹型深度匹配模型(Tree-based Deep Match,TDM)

  • 模型壓縮領域的基於蒸餾模式的模型壓縮訓練演算法(Rocket Training)

最後,我們也來回顧一下 TensorFlow、PyTorch 以及國內的 Paddlepaddle 等深度學習開源框架:


  • TensorFlow:谷歌於 2015 年 11 月宣布開源 TensorFlow 深度學習框架,這一框架基於谷歌推出的第一代內部深度學習框架——DistBelief 框架。在開源時,谷歌曾表示,開源 TensorFlow 能夠加速谷歌在人工智慧上的部署,幫助其在人工智慧發展日益重要的未來搶佔更多主導權。過去三年間,TensorFlow 在開發者社區享有盛譽,已成為最為常用的深度學習框架之一,目前不僅支持 Eager Execution 動態圖機制,還集成了 NVIDIA TensorRT,此外,TensorFlow 中文社區論壇(https://www.tensorflowers.cn)也正式上線。據悉,谷歌將於 2019 年發布 TensorFlow v 2.0。

  • PyTorch:2017 年初,Facebook 在 Torch 的基礎上,針對 Python 語言發布了全新的機器學習工具包——PyTorch。目前,PyTorch 已經融合了 Caffe2 和 ONNX 支持模塊化、面向生產的功能,並保留了其靈活、以研究為中心的設計。

  • Paddlepaddle:2016 年 8 月底,百度開源自研深度學習平台 PaddlePaddle。2017 年 11 月,PaddlePaddle 發布三項新功能:PaddlePaddleFluid,PaddlePaddleCloud,PaddlePaddleEDL,這三大新功能的推出,進一步加強了 PaddlePaddle 的易用性,提高了效率,並降低了開發者的使用門檻。雷鋒網

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

曠視科技聯合IDC發布AI+手機行業白皮書 人工智慧引領手機「視」界革命
賈躍亭欲將恆大踢出FF;滴滴順風車維持無限期下線

TAG:雷鋒網 |