通常,企業在知曉編寫代碼和構建內部解決方案所需的成本和複雜性之後,首先會意識到對 ETL 工具的需求。提取,轉換和載入 (ETL) 工具使企業能夠在不同的數據系統中訪問有意義且可用的數據。
企業也可嘗試組裝開源 ETL 工具。有時,這種方法更節省成本,同時可自定義需要的功能,提供更多靈活性和支持。但是,如果企業內部不具備相關技術人才,選擇商用解決方案可以免去很多麻煩,也可以獲得更好的服務。
本文列舉了現代 ETL 工具與傳統商用解決方案,現代 ETL 工具通常是基於雲的解決方案,並提供端到端的支持,支持不斷增長的基於網路的數據流列表 (這不是一份完整清單,但它確實涵蓋了主要產品)。

隨著對實時數據訪問需求的增加,企業體系結構發生根本變化。今天的模型基於流處理和分散式消息隊列,如 Kafka。現代 ETL 工具套件以實時流數據處理和雲計算為基礎,可與雲數據倉庫良好集成,並支持日益增多的數據源和數據流。
Alooma 是為雲構建的企業數據管理平台。Alooma 為數據團隊提供了現代的,可擴展的,基於雲的 ETL 解決方案,可實時將來自所有數據源的數據彙集到數據倉庫。
Confluent 是一個基於 Apache Kafka 的全面數據流平台,能夠在數據流中發布和訂閱,也可存儲和處理數據,Confluent 提供了其平台的開源版本。
Fivetal 是一款 SaaS 數據集成工具,可從不同雲服務,資料庫和商業智能 (BI) 工具中提取數據並將其載入到數據倉庫。
FlyData 是一款 SaaS 數據遷移工具,可用於管理 MySQL,PostgreSQL,MariaDB,Percona 中的數據載入過程,並以 CSV / TSV / JSON 格式記錄到 Amazon Redshift 數據倉庫。
Matillion 提供專門為 Amazon Redshift,Google BigQuery 和 Snowflake 構建的雲數據集成 ETL 工具。
SnapLogic 為雲數據源,SaaS 應用程序和本地商業軟體應用程序提供數據集成平台即服務。
Stitch 是一款雲優先的開發者專用工具,用於快速移動數據。
StreamSets 是雲本地產品集合,用於控制數據漂移,數據,數據源,數據基礎架構和數據處理方面的變化。
Striim(發音為 「stream」) 是一個實時流媒體分析和數據集成平台。

傳統商用解決方案
商用 ETL 工具構成 ETL 工具市場的大部分 - 因為其在各個領域積累的用戶群,因此商用 ETL 工具的預裝客戶群是可觀的。其中,一些工具包括套件是為了解決特定問題而出現的,它們存儲在傳統的單一資料庫和系統中。不過,供應商已經準備好提供工具來遷移這些數據。
·IBM InfoSphere Information Server
IBM InfoSphere Information Server 是一個 ETL 工具,是 IBM 信息平台解決方案套件和 IBM InfoSphere 的一部分,使用圖形界面構建數據集成解決方案,並提供各種版本 (伺服器版,企業版和 MVS 版)。
Informatica PowerCenter 是 ETL 產品套件的通用名稱,包括 PowerCenter 客戶端工具、伺服器和存儲庫。數據存儲在由客戶端工具和伺服器訪問的存儲庫中,操作在伺服器上執行,伺服器連接源和目標以獲取數據,應用所有轉換並將數據載入到目標系統中。
Information Builders 的 iWay Integration Suite 提供應用程序和數據集成功能,包括 iWay DataMigrator,iWay Service Manager 和 iWay Universal Adapter Framework。
·Microsoft SQL Server 集成服務
Microsoft SQL Server Integration Services(SSIS) 是構建高性能數據集成解決方案的平台,包括用於數據倉庫的 ETL 包。
OpenText Integration Center 是一個集成平台,使企業能夠從一個或多個存儲庫中提取,增強,轉換,集成並遷移數據和內容到任何新平台。
Oracle GoldenGate 是一個全面的軟體包,用於在異構 IT 環境中進行實時數據集成和複製。
Pervasive 的 Data Integrator 平台是一種企業數據集成軟體解決方案,使公司能夠在任何類型的數據源和應用程序之間建立連接,Data Integrator 支持實時集成方案。
Pitney Bowes 提供大量工具和解決方案,Sagent Data Flow 是一款靈活的集成引擎,可整合來自不同來源的數據並提供全面的數據轉換工具以提高業務價值。

·SAP BusinessObjects Data Services
SAP Business Objects Data Services(BODS) 的前身是 Business Objects Data Integrator,它是一種用於數據集成、數據分析和數據處理的 ETL 工具,允許企業將可信數據集成並轉入數據倉庫系統以進行分析。
SAS Data Management 建立在 SAS 平台之上,是 SAS 進入 ETL 工具市場的平台,由 20 多種 SAS 工具和服務組成。
Sybase ETL 包括 Sybase ETL Development 和 Sybase ETL Server。
Sybase ETL Development 是一款用於創建和調試環境的 GUI 工具,旨在加速 ETL 轉換流程開發。Sybase ETL Development 包含 ETL Development Server,可以控制實際的處理,如連接資料庫和執行程序。
Sybase ETL Server 是一種可伸縮和分散式的網格引擎,使用轉換流連接到數據源並將數據提取載入到目標系統。
SyncSort 雲解決方案可訪問整合各種來源的數據,並有助於將數據移至雲存儲庫。
傳統工具最大的限制是被設計成批處理模式:收集數據,上傳數據,收集更多數據,上傳更多數據等。批量載入數據在某些情況下有效,但是,僅有批處理模式就存在問題。
批處理 ETL 工具很難整合跨平台數據源,尤其是涉及變更數據捕獲 (CDC) 的情況。當批量數據上傳出現問題,研發人員需要跟蹤問題、排除故障並快速重新提交作業。
隨著越來越多的數據流和其他類型的數據源出現,需要現代化的數據集成方法。無論希望整合來自資料庫,流媒體服務,文件還是其他來源數據,選擇正確的工具都至關重要。雲,可以為企業提供所需優勢。
喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!
本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!
請您繼續閱讀更多來自 ITPUB 的精彩文章:
※PUBG 開發商起訴網易;共享自行車國抽結果公布:部分摩拜單車不合格;英國皇室將推出加密貨幣
※百思買停售華為手機;亞馬遜計劃籌拍《三體》三部曲;阿里巴巴市值超過Facebook
TAG:ITPUB |