Hadoop輝煌還能延續多久——Hadoop 2.0版本出現了新的潛在的功能
Hadoop輝煌還能延續多久——Hadoop 2.0版本出現了新的潛在的功能
GIF/1317K
Hadoop正在尋找用作批量處理引擎和大型數據登陸墊。 2.0版本預示著更廣泛的應用,但同時也預示著新用戶面臨挑戰。
Hadoop分散式處理框架為IT,數據管理和分析團隊提供了處理,存儲和使用數據的新機會,特別是在大數據應用中。但它們也面臨新的挑戰,因為他們希望部署和使用Hadoop系統。而且由於Hadoop及其周邊的大量開源技術正在迅速發展,所以組織必須準備好頻繁更新和更改——最新的形式就是新建的Hadoop 2版本。
Apache Software Foundation於10月15日通常提供的Hadoop 2將最終將框架遠遠超出目前的核心配置,將Hadoop分散式文件系統(HDFS)與基於Java的MapReduce程序相結合。早期採用者公司正在使用該配對來幫助他們處理大量的交易數據以及各種類型的非結構化和半結構化數據,包括伺服器和網路日誌文件,感測器數據,社交媒體Feed,文本文檔和圖像文件。
Hadoop通常在商品伺服器的群集上運行,導致相對較低的數據處理和存儲成本。由於其具有非常輕的結構的數據處理能力,Hadoop應用程序可以利用不適合傳統資料庫的新信息源,「San Mateo Ventana Research副總裁兼研究總監Tony Cosentino表示,加利福尼亞州。
但是Cosentino補充說,現有Hadoop架構的實現受到批處理方向的限制,這使得它更像一輛卡車,而不是跑車。他說:「Hadoop是時間延遲不成問題,需要處理大量數據的理想選擇。」
數據網格供應商ScaleOut Software Inc.的首席執行官William Bain表示:「在其HDFS-MapReduce配置中,」Hadoop非常適用於分析非常大的靜態非結構化數據集,其中包含多達TB或甚至PB級信息。「例如,他引用了一個情緒分析應用程序「大量的Twitter數據」,目的在於辨別客戶對於某個公司或其產品的想法和推論。
貝恩強調,由於其批處理性質和處理工作的「大起動開銷」,Hadoop通常對實時數據集的實時分析並不有用,儘管這可能會改變, Hadoop 2和最近由一些供應商引入的新查詢引擎,希望支持Hadoop數據的臨時分析。
數據倉庫門為Hadoop打開
根據加州Los Gatos的Impetus Technologies Inc.軟體開發服務提供商的首席架構師Sanjay Sharma的說法,涉及大量數據的數據倉庫應用Hadoop是目前最好的選擇。它有所不同,他說:「數十兆位元組是Hadoop的最佳點,但是如果非結構化數據有很大的複雜性,那麼可能是幾十GB。」
一些用戶,如汽車購物信息提供商Edmunds.com Inc.已經部署了Hadoop及相關技術來取代傳統的數據倉庫。但是Hadoop集群通常被定位為登陸墊和分段區域,用於數據湧入組織。在這種情況下,可以通過MapReduce減少數據,將其轉換成關係結構或匯總在一個關係結構中,並轉移到企業數據倉庫或數據集市,供業務用戶和分析專業人員進行分析。這種方法還提供了更大的靈活性:原始數據可以保存在Hadoop系統中,並根據需要進行建模,以便使用提取,載入和轉換過程進行分析。
Sharma描述了這樣的實現,例如「下游處理的數據湖」。亞歷山大諮詢公司BI Research總裁Colin White使用「煉油廠」一詞。在2013年2月發布的一份報告中,Gartner Inc.分析師Mark Beyer和Ted Friedman寫道,使用Hadoop收集和準備數據在數據倉庫中進行分析的數據是在大型數據分析應用程序中支持大數據分析應用程序的最受歡迎的策略研究諮詢公司。 272名受訪者中甚至有50%表示,他們的組織計劃在未來12個月內這樣做。
圍繞Hadoop的開源生態系統的活力幾乎不能誇大。
從最早開始,Hadoop吸引了軟體開發人員,希望創建附加工具來填補其功能的差距。例如,分散式資料庫,SQL風格數據倉庫和用於在MapReduce中開發數據分析程序的高級語言分別有HBase,Hive和Pig。已經成為Hadoop子項目或Apache項目的其他支持參與者包括Ambari,用於配置,管理和監視Hadoop集群; Cassandra,NoSQL資料庫;和ZooKeeper,它維護配置數據並跨群集同步分散式操作。
YARN在Hadoop 2中變得更加靈活了
而現在Hadoop 2——最初被稱為Hadoop 2.0正在進入藍圖之中。這其中更新的核心的部分是YARN——一個多次修復過的資源管理器,使MapReduce以外的應用程序能夠與HDFS一起工作。通過這種方式,YARN(對另一個資源談判者來說是一個很好的縮寫),旨在使Hadoop免受批處理的依賴,同時仍然提供與現有應用程序編程介面的向後兼容性。
Cosentino說:「YARN是Hadoop 2.0的主要特徵,」他補充說。不是讓MapReduce工作看到自己是「HDFS唯一的租戶」,它允許多個工作負載同時運行。一個早期來自雅虎的例子,它已經在YARN上實施了Storm複雜事件處理軟體,以幫助將關於網站用戶的活動的數據匯總到Hadoop集群中。
Hadoop 2還可以通過新功能實現高可用性改進,使用戶能夠在HDFS中創建聯合名稱(或主)節點體系結構,而不是依靠單個節點來控制整個集群。 此外,它增加了在Windows上運行Hadoop的支持。 同時,商業供應商正在醞釀其他管理工具酏劑 - 例如新的作業調度程序和集群配置軟體,以進一步提升Hadoop的企業準備。
需要大數據視頻的同學可以到鵬右圈留言,可以通過:rsbk_Rock找到。
點擊展開全文


TAG:ITStar |
※iPhone iOS 12,蘋果發布的beta 2版本將增加哪些新功能?
※最新版本13寸MacBook 竟然要和 6.1寸iPhone一樣延遲推出了?
※你的Android版本還是7.0?Google已經帶來了Android 9.0的開發者預覽版
※蘋果的ios 11.3和版本又又又出問題了!這次是iphone8和8Plus!
※新的Windows Server 2019測試版本增加了更多的群集功能
※蘋果iOS12.1beta4版本更新了這些功能和改進
※B&O Beoplay E8更新2.0版本,但看起來就是賣新充電盒
※Windows 10 October 2018 更新版本十大最強功能
※蘋果推出iOS 11.3 beta2版本解決了降頻門,沒想到又出現了新bug
※iOSbeta7中,beta版本才有的APP Feedback消失了
※Air Jordan 1 「Homage to Home」竟也推出了絲綢版本
※Bitcoin Core 0.16.0版本正式發布:都有哪些新功能?
※實現一份數據的夢想,Apache CarbonData里程碑式版本1.3發布
※Apple MacOS 10.14 Beta 版本發現「Dark Mode」功能選項
※#Xsneaker新聞#Adidas Adidas Yeezy 500 「Blush」即將發售,AJ13推出Tinker 版本?
※Surface Phone 真的要來?微軟在 Windows 10 新版本劇透了
※16G的iphone6現在是主力機,能否升級版本到ios11呢?
※最新iOS 11.4 beta版本:Messages in iCloud 再度回歸
※驚喜!Hyper Boost加速引擎將通過ColorOS 5.2.1版本更新
※Boost 還能做鞋面!adidas Crazy BYW 還有這麼多全新版本!