性能提升百倍，看Zilliz如何用GPU玩轉數據分析

最新 01-24

調研 | 李喆王琦

撰寫 | 王琦

大數據時代，在線數據變得異常豐富，多來源、實時、大量、多類型的數據遠遠超出了目前典型資料庫管理系統獲取、存儲、管理和分析的能力，常規的CPU資料庫在進行大數據分析時效率很低，已經無法滿足日益增長的數據精細化運營需求。

憑藉突出的並行運算能力和高性能的內存使用效率，GPU已經被廣泛應用於大數據分析和深度學習編程等諸多的需要高強度運算的非圖形處理領域，儼然成為分析型資料庫的突破口。

100倍的速度，1/10的硬體成本

成立於2016年3月的Zilliz，是一家專註於人工智慧技術和大數據技術的初創公司。

2017年公司發布的OLAP資料庫系統，基於GPU硬體加速，與傳統的CPU資料庫相比，可以將數據處理性能提高30-100倍，同時降低10倍硬體成本、20倍計算能耗，允許企業使用機器學習、商業智能分析和可視化技術更快速地分析海量數據，為企業提供了新的技術方案。

Zilliz創始人星爵，曾任職於資料庫領域巨頭Oracle美國總部，負責資料庫系統產品的核心研發工作，他作為奠基人之一研發的Oracle 12c版多租戶資料庫模塊和容器資料庫模塊已經為Oracle創造了超過10億美金的營收。

星爵認為，之所以在這個時點發布一款GPU資料庫，一方面是需求驅動，更重要的是硬體性能的提升。上層軟體受下層硬體的約束，而英偉達等晶元廠商已經為GPU建立了良好的生態圈，幫助開發者降低了門檻。

揚長避短，充分發揮GPU運算能力

GPU能夠在大數據分析和深度學習領域廣泛應用，有其內在優勢。

從內部結構上來看，CPU中70%晶體管都是用來構建Cache（高速緩衝存儲器）和一部分控制單元，負責邏輯運算的ALU模塊並不多。控制單元等模塊的存在都是為了保證指令能夠一條接一條有序執行。

這種通用性結構對於傳統的編程計算模式非常合適，但對於並不需要太多的程序指令，卻需要海量數據運算的大數據分析需求，這種結構就顯得有心無力了。

GPU的設計初衷是為了應對圖像處理中大規模並行計算，與CPU少量的邏輯運算單元相比，GPU整個就是一個龐大的計算矩陣，GPU具有數以千計的計算核心，將GPU應用在大數據分析，可實現100倍數據吞吐量。

當然，GPU由於延遲較高和分支預測較差等原因，在數據寫入和刪改等方面存在一定劣勢。但OLAP工作的重點本身就不是事務處理而是查詢、數據分析、決策支持。

在犧牲了部分寫入性能的條件下，Zilliz的OLAP資料庫恰好發揮了GPU擅長處理需要大量數學密集型運算任務的特點，大幅提高海量數據的查詢和分析速度。

小步快跑，直面客戶需求

業務形態的多樣化造成了數據分析應用的碎片化，即使是Oracle這樣在資料庫領域投入幾十年的龍頭，也無法滿足所有用戶的應用場景。

對於一家初創企業來說更是如此，市場需求變化如此之快，以至於越長時間的投入意味著越大的風險。Zilliz則沿用互聯網產品的思路，首先將資料庫的核心功能研發出來，然後與客戶需求直接對接，再來打磨產品，豐富資料庫的功能。

對於資料庫平台來說，其核心部分無疑是執行引擎。其核心作用體現在高並發運算執行、多級緩存調度、向量化流水線運作和多顯卡算力協調等多個方面，執行引擎的性能高低體現了一個公司的研發能力。

目前公司推出的資料庫產品已經在公共安全、金融、電信、互聯網等多個行業的眾多企業中進行測試，其查詢分析性能比傳統資料庫至少提升了一個數量級。

無感遷移，打消用戶使用新技術的疑慮

在眾多的CPU硬體資料庫當中，GPU資料庫無疑是小眾產品。用戶在上線新的資料庫時，心中難免產生疑問，存儲在CPU伺服器上的大量數據如何快速遷移到GPU伺服器當中？傳輸過程會不會耗費大量的時間和算力？

而Zilliz「無感遷移」的產品理念很好地解決了這些疑問。在產品設計之初，研發團隊就有針對性地將ETL工具做了相應的兼容，並提供標準的SQL介面，使用戶在接入新的資料庫時，不會對其業務層面產生影響，儘可能的減小用戶在數據遷移過程中的代價和痛苦。

另外，為了實現數據在CPU伺服器與GPU伺服器的快速交換，Zilliz選擇與IBM和英偉達進行合作生產一體機產品，該產品搭載英偉達的GPU伺服器晶元，並採用IBM與英偉達合作開發的NVLink技術作為支撐，大大提升了不同晶元類型伺服器的數據傳輸速度。

不僅僅是產品上的合作，作為一家初創企業，Zilliz更希望能夠藉助IBM成熟的銷售渠道推廣客戶、打開市場。

一體機方面，除了IBM POWER伺服器的方案，Zilliz也提供X86構架的方案，只要伺服器上面搭載英偉達的伺服器顯卡，Zilliz的解決方案都能夠支持。產品上的縱深將為其打開市場提供優勢。

近期，愛分析對Zilliz創始人星爵進行了訪談，現將部分內容分享如下。

根據客戶需求痛點，專註研發產品核心

愛分析：Zilliz是從什麼時間開始研發資料庫產品的？

星爵：我們是從2016年3月份開始研發Zerone這個產品的，到2017年我們發布了第一代產品，目前我們的主要工作是產品的升級2.0版本。整體來說，資料庫軟體的研發周期確實比較長，是一個持續的投入過程。

我們首先將資料庫的核心功能和核心引擎做出來，再來豐富資料庫的功能。市場變化比較快，長時間的投入研發風險比較大，因此，我們希望儘快的打造出一個精鍊的內核，與客戶需求直接對接，再來繼續打磨產品，像互聯網思維一樣，快速的迭代產品。

愛分析：資料庫的核心由哪些部分組成？

星爵：就我們的產品來說，它是一個基於GPU加速的OLAP類型資料庫，執行引擎毫無疑問是它的核心。執行引擎拆分來看的話，會分成很多部件，比如怎樣執行高並發運算，怎樣利用GPU數據調度緩存，怎樣做向量化的流水線，多塊顯卡怎樣去調度算力等等。

核心的另外一塊是存儲管理，那麼我們要看怎麼更好調度多級緩存，怎麼處理在GPU上的數據壓縮問題等。

再有一點就是，在有了好的執行引擎和存儲管理之後，怎麼樣封裝一個好的產品，怎樣去兼容現有的數據結構，不管在設計上還是工程上都是一個很大的挑戰。

GPU具有高並行運算特點，更適用於大數據、人工智慧的領域

愛分析：有哪些具體場景比較適合GPU引擎資料庫？

星爵：企業現在的數據分析需求發生了很大的變化，數據量指數型增長，數據分析速度需要變得更快，而且客戶希望通過數據分析結果增強自身的運營能力，整個大數據行業可以說變得「更大、更快、更強」。

在行政、金融、電信、互聯網等領域，現有的資料庫結構很難滿足他們的數據分析需求，數據產生的速度遠大於數據分析的速度。

舉個例子來說，一個地區級的電信企業每天產生的數據量可能就有幾個TB，但他們要很好地分析這些數據的話，可能要四五天時間，速度無法匹配，造成的局面就是數據喪失了時效性。

再舉個例子，遊戲公司對用戶的行為分析是十分看中的，他們可能想了解用戶對於剛上線的遊戲皮膚的喜好程度，希望很快拿到結果，顯然現在的資料庫無法滿足。

愛分析：公司提到的「無感遷移」功能具體指什麼？

星爵：無感遷移不是一個功能，而是我們的一個理念。一個技術的應用本質上要服務於業務的需求，我們希望用戶在接入我們的新資料庫的時候，他的業務層面不會發生改變，所以我們提供一個標準SQL介面、提供各種ETL工具，儘可能的減小用戶在數據遷移過程中的代價和痛苦。

ETL這部分跟之前是一模一樣的，我們有意識的做了一個兼容。ETL本身已經形成了一套完整的生態，企業一般不願去改變。另外，我們還提供了標準的SQL介面，方便用戶使用。

愛分析：相比CPU，有哪些應用場景是GPU資料庫獨有的？

星爵：我認為在人工智慧領域，GPU資料庫是有著獨特優勢的。如果把人工智慧比做一個火箭，那麼深度學習演算法就是火箭的引擎，而大數據就是火箭的巨型燃料艙，二者相互作用才能推動人工智慧的快速發展。

我們知道，數據量越大、數據維度越好，越是能夠訓練出一個更好的模型。目前的狀況是，海量的數據擺在這，算力卻達不到要求，傳統的CPU資料庫已經很難支撐深度學習的數據量要求，這已經成為一種共識。

GPU代替CPU處理大數據顯然已經成為一種趨勢，我們的GPU資料庫能夠更高效的對數據進行組織、查詢、分析，而且我們打通了資料庫和Tensorflow的壁壘，在我們的資料庫中可以直接調用TensorFlow的資源，很好的完成深度學習的絕大部分任務，這一點傳統的CPU資料庫是做不到的。

愛分析：有人指出GPU延遲較高還有分支預測較差，那麼數據的寫入是不是沒有CPU做得好？

星爵：GPU在這方面的短處是存在的，但數據的寫入是OLTP來做的，我們做的是OLAP，主要負責數據的查詢和分析，所以我們的產品本身不會涉及過多的數據寫入和更新，充分發揮了GPU的長處，而避免了它的短處。

愛分析：對於這種新技術的推廣Zilliz是怎麼考慮的？

星爵：推廣模式我們分兩塊，對於私有部署，我們採用一體機的方案。最近，我們跟IBM合作推出了一款OLAP一體機產品，性能在全球範圍內同類產品中也算是頂尖的，主要面向行業中的頭部客戶。另外，我們也在推動雲端的方案，提供雲端SaaS服務。

對於這種底層的基礎軟體來說，我們認為收入還是主要來自於線下的直銷，或者說私有部署，預計在將來我們95%以上的營業額都來自於線下，但云端這個方向我們也不會放棄。

與IBM進行深度合作，提升產品性能同時開拓客戶渠道

愛分析：與IBM的合作方式是怎麼樣的？

星爵：我們的GPU晶元是NVIDIA英偉達提供的，IBM負責大數據處理機的整機方案。之所以選擇IBM，是因為目前只有NVLink技術能夠實現GPU與CPU的數據快速交換，而研發者就是IBM和英偉達，應用這種技術可以將我們產品的性能提升1倍以上。

而英特爾的X86架構，只能支持PCI-E數據介面，數據傳輸效率較低。我們的低配資料庫伺服器採用X86架構。。

愛分析：市場中X86架構的伺服器應該佔據多數，會不會影響到我們的業務？

星爵：我們既有IBM POWER伺服器的方案，也有X86構架的方案，只要伺服器上面有英偉達的伺服器顯卡，我們的方案都能夠支持，在一體機方面我們還是有這個縱深的。當然了，我剛才提到，與IBM合作生產的一體機應該是我們性能最好的產品。

為客戶提供更優惠方案，收費模式仍在探索

愛分析：會考慮將Zilliz的技術開源嗎？

星爵：開源是一種市場策略，好處是在技術研發之初，可以吸引一批程序員進行共同開發。但開源並不意味著免費，也是要追求利潤的，我們暫時沒有開源的打算，但將來也不排除這種可能。

愛分析：Zilliz的產品是按照節點收費的嗎？

星爵：其實我們也在探索自己的收費模式，對用戶來說，如果按照節點收費的方式其實是不公平的，因為現在用戶在每個節點上配備的GPU數量不一樣或者型號不一樣，所達到的效果也是不一樣的。

我們是這麼考慮的，在雲端能不能按照用戶使用的數據量的大小來收費，一體機方面我們的收費也可能更加靈活，並不一定按照節點收費，目的是希望能夠為用戶提供一個更公平更實惠的方案。

愛分析：Zilliz目前團隊有多少人？

星爵：目前我們的團隊有20多個人，以研發為主，1-2個人負責市場方面的工作。

國內OLAP資料庫市場增速加快，為公司產品提供更大空間

愛分析：如何看待國內市場OLAP佔有率比國外市場小的情況？

星爵：OLTP是數據的來源，銀行產生的交易，肯定要先寫入TP當中嘛，只有在TP中積累了足夠的數據之後，企業才會想到怎麼去用這些數據，所以，TP先行是個必然的趨勢。

美國企業信息化發展較早，數據的採集和運營已經比較成熟，中國在數據方面發展還是比較慢的，美國市場AP佔40%，而國內市場AP只佔10%，確實還存在差距。

這種局面我認為剛好為AP的發展提供了機會，將來國內資料庫市場的增量很可能來源於AP的增長而不是TP。事實上也正是如此，全球範圍內AP的增速確實也確實要比TP快很多

大數據時代，更強調的是對數據更精細的分析，要考慮如何將分析的結果用起來去指導業務。

愛分析：OLAP未來的發展趨勢會變成什麼樣？

星爵：市場中是先有TP，當數據量足夠大的情況下，當TP無法滿足大數據量的分析需求時，才催生了AP。最開始AP是依附於TP的，後來大家的想法是怎麼讓這兩件東西很好地融合，但最終的結局是顧此失彼，兩者不能兼得。

所以我們認為AP應該會發展成一個獨立的產品，就算是犧牲寫入和刪改能力，我們也要盡量去提高查詢分析能力，所以我們認為GPU是一個機會。

愛分析：公司未來的定位是什麼樣的？

星爵：未來的兩年的話，我們要堅定不移地做兩件事情，第一件事是，我們要建立起我們在GPU資料庫領域全球的領先地位，在這個過程中我們不排除嘗試使用FPGA和TPU等其他技術方案；第二件事是，跟行業中其他的夥伴一起，推動GPU資料庫為更多的客戶所接受，能夠服務更多的客戶，建立起GPU資料庫的生態系統。

愛分析熱文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 愛分析 的精彩文章:

※巴歌出行CEO孫楊：與傳統租車市場相比，共享汽車想像空間更大

TAG:愛分析 |