當前位置:
首頁 > 最新 > 大數據架構:HTAP與Hadoop的定位與競合

大數據架構:HTAP與Hadoop的定位與競合

轉載請註明出處:微信公眾號fintechview

HTAP Database

在Hadoop成為大數據架構的事實標準之後,在企業應用中也發現了其諸多問題,例如不支持在線交易應用、跑批性能差等問題。與此同時,Spark逐漸成為主流計算引擎。一些大數據發行版公司如Cloudera、Hortonworks、Transwarp、Huawei等開始在SQL on Hadoop領域發力,主張一站式解決方案,即通過統一大數據平台同時支持Ad-hoc和離線查詢與分析。由於這些公司定位於交付強大的SQL引擎、計算性能,充分優化Hadoop/Spark的源碼,部分解決了開源大數據框架的性能問題,因此取得了不錯的市場反饋。

不過,由於Hadoop/Spark天生並非定位於OLTP(聯機事務處理),無論優化還是改造都改變不了其更適合大批量離線數據的查詢分析應用。因此,融合式架構需要找到另外一種解決方案來同時滿足企業在事務處理和分析型應用上面的需求。在此背景下,Gartner提出混合式交易/分析型資料庫HTAP(Hybrid Transactional/Analytical Processing),即在同一分散式數據架構中兼具聯機事務和聯機分析的應用能力。

一些主流的HTAP資料庫已經在多家企業中得到應用或者POC測試。國內如TiDB、HybridDB for MySQL、OceanBase,國外如SAP HANA等是其中典型代表。對於金融機構,當前主流的方案是Hadoop/Spark+傳統RDBMS資料庫(如Oracle/DB2/MySQL),前者提供大數據量的分析型服務,後者為在線交易和業務系統提供支撐。HTAP屬於新興NewSQL資料庫,目前主要作為替代傳統RDBMS的解決方案出現。

有些廠商是針對MySQL或PostgreSQL集群提供了事務與分析的複合處理能力,如HybridDB for MySQL;有些則是全新資料庫架構,如OceanBase、TiDB。HTAP資料庫在高可用、彈性伸縮、ACID、SQL、分散式事務方面均提供了很好的支持,這對於企業來說能夠在降低存儲成本的同時,兼顧了資料庫開發的通用性和標準SQL的適配性。

HTAP vs SQL on Hadoop

堅持SQL on Hadoop的流派主要是Hadoop發行版本的廠商,其提供了一站式的大數據基礎平台。有些大數據廠商也將內存計算、ACID融入到Hadoop框架中,並將SQL03標準、PL/SQL、存儲過程的支持作為其商用化產品的高附加值屬性。同時,線性擴容、存儲與計算分離也同樣是此類框架的天然優勢。

但即便當前SQL on Hadoop/Spark商用化產品已經較好的支持了大批量數據的離線分析應用(如數據倉庫、BI和多維分析),在OLTP聯機事務處理上仍是其軟肋,我也並不認同Hadoop框架應該被改造為支持核心系統的高並發在線查詢。

HTAP資料庫提供了較好的在線交易系統的解決方案,也兼顧了數據分析服務,似乎具備了一站式數據架構的能力。但在技術與實踐中看到,在大批量數據的離線多維分析與寬表join方面的能力,HTAP還不能與SQL on Hadoop相提並論。只有在對低延遲要求較高的在線數據分析場景中,且在數據不超過一定量時(TB級,單表千萬行級),HTAP資料庫或可作實時數據倉庫,支持在線報表及敏捷型BI等服務。

Hybrid Data Architecture

我一直主張金融機構在設計企業數據架構時,需從場景本身出發,因地制宜選擇不同組件和框架應對不同業務需求。試圖找到一種統一方案來適配所有業務場景並不現實。在數據中心的架構設計中,金融機構或可採用數據湖(Data Lake)和HTAP的聯合解決方案。

數據湖的理念已經逐漸被企業接納,並作為全局視角下的大數據採集、原始格式存儲、初級加工的緩衝池。數據湖也改變了用戶使用數據的方式,其整合了結構化、非結構化數據的分析和存儲,用戶不必為海量不同的數據構建不同資料庫、數據倉庫,通過數據湖就可以完成或實現不同數據管理的功能。

相比於數據湖專註於數據資產的集中存儲與探索的定位,HTAP資料庫提供了更明確、有針對性的關係型查詢與分析服務。其通常提供了標準的SQL或BI介面,為事務型的業務系統、分析型的實時ODS、集市與報表提供支撐。

在構建企業級數據中心時,可以考慮建設數據湖與HTAP的混合式架構:數據湖基於Hadoop/Spark技術方案,利用其低成本存儲、多維數據結構、實時流計算、NoSQL圖數據存儲等能力,作為企業統一數據集中、數據治理與標準管理平台,並為歷史數據查詢與批量檢索、模型與客戶標籤存儲、大數據與人工智慧數據探索等服務提供支撐;HTAP基於分散式資料庫方案,主要支撐核心交易,以及實時數據倉庫、報表與BI。

此外,在設計數據即服務(DaaS)架構時,金融機構往往採用大數據平台作為計算與存儲層。HTAP應用架構的出現提供了一種混合式數據服務層(Hybrid Data-as-a-Service)的設計思路:基於Hadoop框架提供了流計算、大批量離線分析、圖計算和數據緩存能力;基於HTAP資料庫提供事務處理和實時在線分析能力。

誠然,混合式架構的弊端在於難以做到統一數據管理,且異構帶來的數據標準不一致問題也同樣存在。在應用實踐中,我發現很多金融機構由於業務部門的應用場景複雜、多個系統供應商等問題,導致了異構、煙囪式的數據架構問題。無論是Hadoop/Spark還是HTAP資料庫,當前均難以覆蓋企業全部應用場景。因此,通過數據湖形成數據資產的集中管理和治理,令HTAP貼近於應用層提供在線敏捷型數據服務,是可行的解決方案。

專註於金融科技領域的深度思考

您的轉發是對我最大的支持

歡迎在文章下方留言與交流

金融科技精華文章


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 金融科技顧問 的精彩文章:

TAG:金融科技顧問 |