Hadoop-CERN案例研究

最新 09-27

在這篇文章中，我們將研究一個CERN案例研究，以突出顯示使用Hadoop的好處。

瑞士的大型強子對撞機是世界上規模最大，功能最強大的機器之一。它配備了大約1.5億個感測器，每秒產生一百PB的數據，數據不斷增長。

CERN的研究表明，這些數據在數量和複雜性方面都有所擴大，其中一個重要的任務是提供這些可擴展的要求。所以他們設置一個Hadoop集群。通過使用Hadoop，它們限制了硬體成本和維護的複雜性。

他們集成了Oracle和Hadoop，並具有集成的優勢。Oracle優化了其在線事務系統和Hadoop，為其提供了可擴展的分散式數據處理平台。他們設計了一個混合系統，首先他們將數據從Oracle轉移到Hadoop。然後，他們使用Oracle API執行查詢來自Oracle的Hadoop數據。他們還使用Hadoop數據格式（如Avro＆Parquet）進行高性能分析，無需更改連接到Oracle的最終用戶應用程序。

他們在CERN-IT Hadoop服務中使用的主要Hadoop組件：

集成Oracle和Hadoop的技術：

·將數據從Oracle導出到HDFS

Sqoop對於大多數情況來說都是足夠好的，他們還採用了一些其他可能的選擇，如自定義攝取，Oracle DataPump，流媒體等。

·從Oracle查詢Hadoop

他們使用Oracle中的DB鏈接訪問Hadoop引擎中的表。這也通過在Oracle和Hadoop中透明地組合數據來構建混合視圖。

·使用Hadoop框架來處理Oracle資料庫中的數據

他們使用Hadoop引擎（如Impala，Spark）來處理從Oracle導出的數據，然後從JDBC直接從Spark SQL讀取RDBMS中的數據。

從Oracle卸載到Hadoop

步驟1：將數據卸載到Hadoop

步驟2：卸載查詢到Hadoop

步驟3：從Oracle查詢訪問Hadoop

·使用資料庫鏈接從Oracle查詢Apache Hive / Impala表

create database link my_hadoop using impala-gateway ;

select * from big_table@my_hadoop where col1= :val1;

·查詢通過ODBC網關卸載到Impala（或Hive）

在oracle上創建混合視圖的示例

create view hybrid_view as

select * from online_table where date > 2016-10-01

union all

select * from archive_table@hadoop where date

基於CERN案例研究，我們可以得出結論：

·Hadoop是可擴展的，非常適合數據分析

·Oracle被證明用於並發事務工作負載

·解決方案可用於集成Oracle和Hadoop

·使用混合系統（Oracle + Hadoop）有很大的價值：

§用於舊應用程序和OLTP工作負載的Oracle API

§商品的可擴展性用於分析工作負載的硬體

我希望這個篇文章的信息能為您的知識增值。在我們的下一個Hadoop Tutorial系列文章中詳細討論Hadoop，詳細了解HDFS和YARN組件的任務。還不知道hadoop是什麼？點擊公眾號下方菜單，裡邊有hadoop專家視頻哦，同時想了解更多內容，請掃下方二維碼加大數據導師獲取。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 ITStar 的精彩文章:

※大數據學習的正確姿勢，教你從哪裡下手！
※物聯網醫療器械在醫療保健中的主要安全擔憂，調查顯示
※Hadoop輝煌還能延續多久——Hadoop 2.0版本出現了新的潛在的功能

TAG:ITStar |