當前位置:
首頁 > 新聞 > 新一代計算平台Dataworks 會成為阿里計算引擎的「聚寶盆」嗎?

新一代計算平台Dataworks 會成為阿里計算引擎的「聚寶盆」嗎?

雷鋒網記者在雲棲大會現場參加了一場計算智能峰會,對阿里巴巴的計算引擎系統產生了極大的興趣。除去現場聆聽阿里巴巴集團副總裁周靖人、阿里巴巴研究員&PAI平台負責人林偉、阿里巴巴資深技術專家&Dataworks負責人徐晟、阿里巴巴研究員&Maxcompute負責人關濤、阿里巴巴研究員&實時計算負責人蔣曉偉等五人的演講,更是在會後對其進行了深度採訪。在整個對話交流中,對阿里巴巴的新一代計算引擎有了全局的掌握。

我們了解到,阿里巴巴計算平台的新一代計算引擎,支撐了整個阿里經濟體90%以上的結構化、非結構化數據的存儲、交換、管控,數據規模已超EB級別。其中:

MaxCompute是阿里巴巴自主研發的大數據計算引擎,在阿里集團歷屆雙11海量數據的大規模並行計算中,在高並發、吞吐量等各方面承受住了大規模計算的考驗,在2015年Sort BenchMark排序競賽中,一舉打破四項世界紀錄,奠定了阿里集團大數據離線計算引擎的地位;

Blink作為Flink的演進版本,是阿里集團最新一代實時計算引擎,提供了流式數據計算能力,能夠支持百萬級吞吐量的作業,計算可達秒級延遲,關鍵指標超越開源Storm性能6到8倍,計算成本遠低於開源軟體。自2017年以來,經歷了雙11實時業務數據複雜分析考研的Blink已成為阿里集團最重要的實時計算引擎。

PAI是阿里巴巴機器學習平台,無縫對接了強大的計算引擎及大數據研發平台,具備超大規模稀疏模型的CPU系統級優化、大規模圖像&語音&文本領域的GPU系統級優化、在線推理加速需求的模型壓縮等核心能力,支持在線學習、深度學習、增強學習及遷移學習等多種學習方式。

而現場,阿里巴巴展示了新一代計算引擎,布局整個大數據和AI生態鏈,這就是DataWorks。有個很形象的比喻是:如果把MaxCompute 、Blink、PAI等類比為一台PC的CPU、GPU、SSD等硬體設備,那麼DataWorks就是這台大數據PC的Windows操作系統。可見,DataWorks是對計算引擎整體上進行了封裝。

據雷鋒網了解,實際上,DataWorks這個項目早在2009年就已啟動,到目前已經成為阿里集團數據開發的標準平台,支撐著阿里集團、螞蟻金服、菜鳥、優酷、高德等所有事業部的數據開發任務。

進入公共雲市場,要前推到2013年,那時候DataWorks系列產品在全世界16個國家和地區實現部署可用,包括新加坡、悉尼、香港、德國、馬來西亞、日本、美國等。當然也在國際上攬獲了一系列獎項,比如2017年,以DataWorks為主體的阿里雲數加,獲得了國際軟博會金獎;2018年,DataWorks名列國家大數據博覽會十佳產品,榮獲最佳案例實踐獎;在2018國際權威評測機構Forrester公布的Cloud Data Warehouse第二季度的榜單上,代表阿里雲,攜手MaxCompute,獲得了世界排名第二的成績。

在對話交流環節,雷鋒網就業界關心的話題向5位平台負責人進行了提問,以下為對話實錄,雷鋒網做了不改變原意的編輯與整理:

提問:Dataworks對計算引擎做歷史傳承,有何目的?

周靖人(阿里巴巴集團副總裁):阿里巴巴從2008年、2009年就開始做大數據和雲計算,之前都是為了支撐核心的電商業務,也是隨著阿里巴巴的業務,大數據的平台得到了高速的發展,這個平台也就是Maxcompute的前身。其實今天所發布的所有的計算引擎包括Maxcompute、Blink、PAI、Dataworks,都不是簡簡單單一個產品,首先都是在阿里巴巴自身的業務場景裡面取得了巨大的成功,也是幫助整個業務發展起到了一個至關重要的作用。

經過這麼大的業務體量高強度的驗證過後,我們也希望把同樣的技術普惠到全球,特別是中國的企業用戶,所以才把這些產品通過阿里雲的方式對外輸出,去服務各行各業的企業用戶。所以從歷史來講,因為至少在中國,阿里雲整個計算平台應該是歷史最悠久,當然可以說也是技術積累最深,同時也是經受住了非常大的業務考驗,具有真正企業級服務能力的大數據的智能計算平台。

提問:產品的發布看似順理成章,實際上最難點在於?

周靖人:每個業務都有不同的計算引擎,導致很多不同業務採取的計算方案還是有一些不一樣。隨著阿里巴巴整個業務的體量發展,隨著整個核心技術的研發,整個阿里巴巴集團也越來越體會到我們今天需要有一個統一、高效的計算平台,會支持各種的計算模式,而不是單一的引擎。難點在於,怎麼樣保證高性能、效率、功能和穩定性,甚至安全等等。

我們也非常清楚整個大數據以及人工智慧的開發,不是簡簡單單只包含了一些引擎的優化,整個的流程是非常長的。訓練一個模型,不是說模型就不變了,很多時候是因為所有的應用各方面不斷產生數據,新的數據會給我們帶來一些新數據,我們也會通過一些新的數據來修正我們之前的模型,同時修正的模型也能實時去進行發布,中間的每一步都至關重要。

提問:計算平台會隨著阿里雲的全球化而全球化?

周靖人:是的,也就是說我們今天為中國公司的業務國際化提供了一個堅實的基礎。隨著他們的業務發展,其實他們並不需要擔心是不是到了另外一個國家,是否需要把整個應用移植到另外一個平台。今天隨著阿里雲的成長,有了成熟的技術,他們可以使用同樣一個引擎,能夠在不深度變化他們的APP,就可以很快把他的業務拓展到海外,我覺得這都是我們整個計算平台、阿里云云基礎建設給用戶提供的巨大的優勢。

提問:做一站式平台,是否意味著目前第三方的IT外包公司就會消失?

周靖人:恰恰相反。阿里巴巴提供的是一個基礎的開發的環節,今天還需要大量甚至更多的第三方公司在上面,根據他們的業務特徵、業務專長去搭建更專業的平台、更專業的引擎。我也相信由於雲計算、大數據的發展,今天其實跟第三方的公司會促成更大的機遇。因為有了這樣一個雲平台,有了這樣一個大數據的系統,我們的合作夥伴真正意義上有了機會接觸更大的用戶群體。

提問:機器學習領域,在充分訓練的前提下,是不是深度學習網路參數越多,數據量越大,效果就越好?

林偉(阿里巴巴研究員、PAI平台負責人):不是的。模型越大參數越多,其實會造成更多的問題——因為參數表達能力空間更大。這就是為什麼我們在訓練的時候要控制一些參數規模。因為機器學習是捕獲背後的邏輯關係,但是它的邏輯關係從真實和自然來說不會有那麼多。如果一個很大的參數,理論上其實是在違背它的自然規律。所以並不是數據越多就越好。

但為什麼深度學習最近這麼熱?是因為有很多潛在的關係,人是看不到的,所以它通過一個很深度的網路,通過數據的能力,可能原來達不到的好效果,現在就能達到了。但大家不要忽略了數據。我們做機器學習的都知道數據最關鍵,如果數據都是一些不準確的數據,那是無法訓練出一個靠譜的模型。

提問:阿里為什麼會選擇Flink作為新一代流式計算引擎?Flink目前有哪些核心的技術值得外界關注?

蔣曉偉(阿里巴巴研究員、實時計算負責人):2013年之前我們開始Flink項目,調研了業界所有的計算引擎,當時的目標不是簡單選一個流計算的引擎,我們只想選一個通用引擎,我們堅信在不同的計算模式下,有一個東西能支持多種計算場景。但由於很多流計算引擎需要你在延遲和吞吐之間做一定的取捨,所以在本質上流計算引擎是不可能做到最優的,特別是在對延遲要求比較高的時候,它是很難滿足這種需求。所以這時候我們開始調研其他的各種引擎。經過調研之後,我們覺得Flink價格最符合我們的理念。

Flink的出發點跟spark正好相反,它是把流計算當做基礎,能夠實現連續處理。這樣的批處理用流計算來做(雷鋒網註:批處理和流處理基本的區別在於每一條新數據在到達時是被處理的,還是作為一組新數據的一部分稍後處理。批處理指稍後執行,流處理指立即執行)。Flink這種價格能夠長期讓我們在流計算和批處理做到非常完善,所以我們決定用Flink。

過去三四年時間裡,我們在Flink引擎上做了非常多的投入:Flink的多版性能改進、引入新的價格、共享更好的代碼等等。在阿里內部,由於我們有更好、更先進的硬體架構,我們開始支持存儲分離計算架構。在這種架構下,流計算引擎在失敗的時候能更快速修復,使我們能夠更加動態適應流量的變化,來更新我們執行計劃。

提問:為什麼阿里計算引擎今天要做一站式?

徐晟(阿里巴巴資深技術專家、Dataworks負責人):我們希望對用戶來說是一個統一的體驗。至於說用戶要解決的問題,很可能我們下面有不同的引擎來解決不同的問題。因為對於用戶來說,我希望他看到的是一套產品,而不是讓用戶做選擇題。至於用哪種技術,可能對用戶來說就不是那麼重要。畢竟對用戶來說,我們看到的是同一個層,我們不希望用戶更多介入怎麼解這個問題。

今天用戶如果要做模擬訓練還是要做什麼事情,我就相應給你做事情就好了,至於說代碼最後跑到什麼地方,我覺得對用戶來說不太關注。畢竟,谷歌做AlphaGo不是為了下圍棋,而是證明有能力提供這樣一個平台來幫大家解決問題。這也是我們的初衷。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

北京大學工學院教授謝廣明-智能仿生機器魚
最新移動支付報告:用戶規模約為8.9億,由「雙寡頭」向「三足鼎立」演進

TAG:雷鋒網 |