當前位置:
首頁 > 最新 > Hadoop-CERN案例研究

Hadoop-CERN案例研究

在這篇文章中,我們將研究一個CERN案例研究,以突出顯示使用Hadoop的好處。

瑞士的大型強子對撞機是世界上規模最大,功能最強大的機器之一。它配備了大約1.5億個感測器,每秒產生一百PB的數據,數據不斷增長。

CERN的研究表明,這些數據在數量和複雜性方面都有所擴大,其中一個重要的任務是提供這些可擴展的要求。所以他們設置一個Hadoop集群。通過使用Hadoop,它們限制了硬體成本和維護的複雜性。

他們集成了Oracle和Hadoop,並具有集成的優勢Oracle優化了其在線事務系統和Hadoop,為其提供了可擴展的分散式數據處理平台。他們設計了一個混合系統,首先他們將數據從Oracle轉移到Hadoop。然後,他們使用Oracle API執行查詢來自Oracle的Hadoop數據。他們還使用Hadoop數據格式(如Avro&Parquet)進行高性能分析,無需更改連接到Oracle的最終用戶應用程序。

他們在CERN-IT Hadoop服務中使用的主要Hadoop組件:

集成Oracle和Hadoop的技術:

·將數據從Oracle導出到HDFS

Sqoop對於大多數情況來說都是足夠好的,他們還採用了一些其他可能的選擇,如自定義攝取,Oracle DataPump,流媒體等。

·從Oracle查詢Hadoop

他們使用Oracle中的DB鏈接訪問Hadoop引擎中的表。這也通過在Oracle和Hadoop中透明地組合數據來構建混合視圖。

·使用Hadoop框架來處理Oracle資料庫中的數據

他們使用Hadoop引擎(如Impala,Spark)來處理從Oracle導出的數據,然後從JDBC直接從Spark SQL讀取RDBMS中的數據。

從Oracle卸載到Hadoop

步驟1:將數據卸載到Hadoop

步驟2:卸載查詢到Hadoop

步驟3:從Oracle查詢訪問Hadoop

·使用資料庫鏈接從Oracle查詢Apache Hive / Impala表

create database link my_hadoop using impala-gateway ;

select * from big_table@my_hadoop where col1= :val1;

·查詢通過ODBC網關卸載到Impala(或Hive)

在oracle上創建混合視圖的示例

create view hybrid_view as

select * from online_table where date > 2016-10-01

union all

select * from archive_table@hadoop where date

基於CERN案例研究,我們可以得出結論:

·Hadoop是可擴展的,非常適合數據分析

·Oracle被證明用於並發事務工作負載

·解決方案可用於集成Oracle和Hadoop

·使用混合系統(Oracle + Hadoop)有很大的價值:

§用於舊應用程序和OLTP工作負載的Oracle API

§商品的可擴展性用於分析工作負載的硬體

我希望這個篇文章的信息能為您的知識增值。在我們的下一個Hadoop Tutorial系列文章中詳細討論Hadoop,詳細了解HDFS和YARN組件的任務。還不知道hadoop是什麼?點擊公眾號下方菜單,裡邊有hadoop專家視頻哦,同時想了解更多內容,請掃下方二維碼加大數據導師獲取。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 ITStar 的精彩文章:

大數據學習的正確姿勢,教你從哪裡下手!
物聯網醫療器械在醫療保健中的主要安全擔憂,調查顯示
Hadoop輝煌還能延續多久——Hadoop 2.0版本出現了新的潛在的功能

TAG:ITStar |