最全面跨組件數據Apache Atlas實現跨組件沿襲Apache Hadoop

最新 04-24

ApacheHadoop 存在於更廣泛的企業分析包生態系統中。這包括ETL工具，ERP和CRM系統，企業數據倉庫，數據集市等。現代工作負載從這些不同的傳統分析資源流入Hadoop。

哪個數據集來自哪個系統，何時以及如何隨著時間而改變？能夠回答這些問題，管理監管鏈並跟蹤特定數據的跨組件沿襲，對於滿足企業合規性和審計要求至關重要。

如果有對java感興趣java程序員，可來我們的java技術學習群的哦69122，

2579裡面免費送java的零基礎教程噢！

Apache Hadoop中如何實現跨組件血統的治理目標？雖然有一些商業解決方案可以顯示少數Hadoop組件的數據沿襲，但它們要求所有工作流程都只能通過狹窄的專有工具集運行。此外，為了保持合規性標準，這些解決方案要求禁止其他工具或訪問方法。我們認為這種方式既不開放也不合作。

現代數據驅動的公司需要一種開放和全面的數據治理方法，因為他們在Hadoop生態系統中使用多個組件來解決各種數據分析需求。例如，用戶可以通過Apache Kafka將數據流式傳輸到Apache Storm中，並將數據存儲在HDFS中。用戶還可以使用Apache Sqoop將數據從傳統資料庫導入到Apache Hive表中。然後可以將這些數據作為文件存儲在HDFS中，或者使用Apache Falcon複製並移動到雲位置。用戶需要將所有這些Hadoop組件中的數據沿襲綁定在一起，並統一了解如何創建，處理和移動數據。

Apache Hadoop的常見交叉組件沿襲用例包括：

· 運營：影響分析，這是多租戶數據湖的關鍵要求

· 合規性：審計和合規性報告監管鏈，可隨時重建數據格局

· 分析：對聚合數據集的隱私要求。譜系有助於回答可接受的用例問題

交叉組件譜系

Apache Atlas現在提供了跨多個Hadoop組件提供整合視圖的功能。Atlas社區決定採取循序漸進的方式提供全面的互操作性能力。由於Apache Hive的成熟性，現有的Hadoop用戶的足跡以及它在概念上類似於受到數據治理挑戰的現有企業數據倉庫技術的事實，因此選擇Apache Hive作為此次旅程的起點。

Apache Atlas的發布，Community大大擴展了跟蹤其他Hadoop組件的數據沿襲的能力。除了Hive之外，Atlas現在還可以管理Apache Falcon的系統，該系統管理數據生命周期，例如基於預定義時間間隔進行的數據複製或逐出任務。

Atlas還支持Apache Kafka和Apache Storm。如果用戶使用Storm拓撲從卡夫卡攝取數據，則此數據現在將由Atlas追蹤。使用Apache Sqoop或任何在Sqoop之上運行的連接器（例如Teradata連接器）移動的數據也是如此。

藉助Atlas，開發人員現在也可以靈活地編寫自己的自定義活動報告。例如，如果一個組織擁有一個駐留在Hadoop環境之外的企業調度器，它可以直接寫入REST API並增加其沿襲以保持連續性。

開放綜合覆蓋

Apache Atlas現在提供最全面的跨組件數據沿襲覆蓋率。此外，這種沿襲跟蹤是在數據訪問層完成的，允許在應用層繼續使用任何分析工具，以利用基礎組件。

報告連接器功能內置於適用的項目中。用戶只需使用Apache Ambari或CLI命令打開此功能即可。這意味著與附加應用程序相比，集成得到了強化和測試。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 暢玩游喜 的精彩文章:

TAG:暢玩游喜 |