大數據技術學習中,這五大基礎框架一定要了解的!
大數據的浪潮已經興起,不少小夥伴都開始收拾行囊,準備大數據技術的學習之旅了。在大數據技術學習中,這五大基礎框架一定要了解的!
基礎原則一:架圍繞大數據選擇存儲
在成功的大數據策略下,企業可以將來自內部的高質量數據與Hadoop挖掘自多個雲供應商的低質量數據進行整合。這也就改善了業務相關數據的質量,讓分散在各地的數據能組織成為具備一致和及時性的大數據資源。
大數據正在改變中央數。據倉儲和松耦合數據集市的決策基礎,後者的存儲庫規模要小得多,既可以替代中央數據倉庫,也可以成為中央數據倉庫的數據源。隨著各地辦事機構或者國際子公司的增加,中央管理層在業務線擴大的同時更需要高質量的數據來維持管控力度,避免權力的分散。
基礎原則二:支持大數據的硬體
大數據導致的存儲需求量每年都將增長60%至80%.鑒於這種快速增長和當前的成本限制,IT採購者應選擇在可擴展性和存儲速度上極具成本效益的硬體。類似大型機的向上擴展體系結構重新興起,因為它們能夠經濟高效地擴展,降低總體擁有成本。同樣,在提升性能方面,固態硬碟(SSD)和固態卡帶都比傳統磁碟做得更好。
基礎原則三:大數據分析和報告能力
雖然嵌入式分析工具已經可以利用報告和自動優化功能改善業務流程,但大數據再次改變了分析規則。例如,和傳統上對單個客戶進行主要行為分析洞察相比,大數據戰略能為每個客戶創建一個迭代和洞察分析線程,讓公司能跟蹤客戶並更好地維持與所有客戶的長期關係。
典型的大數據分析從業人員被稱為數據科學家,和常規的IT主管不同,他們更可能同時擔任CMO。然而,IT專業人員必須明白他們公司的大數據策略對數據科學家的工作產生的影響。
基礎原則四:利用SSD的存儲分層策略
存儲成本很高,而且越快的存儲也就越昂貴。極重要的是,大數據要求存儲同時提供大容量和「大」性能。存儲分層在存儲資源池中提供多種成本/性能選項,從昂貴的高性能固態存儲到傳統的串列SCSI(SAS)磁碟存儲,這些選項的組合降低了總擁有成本。在主內存和磁碟之間增加一個固態層將有助於將大數據任務的性能維持在高位,而且不會引起存儲成本失控。
SSD的用量應遵從「90-10」的存儲分層規則:成本和速度的極佳組合比例是:使用大約10%的SSD和90%的機械硬碟。這一策略讓IT公司用僅增加10%成本的代價就能獲得90%以上的性能提升。主內存和SSD的容量比例也遵從同樣的規則。
基礎原則五:企業中的Hadoop
Hadoop為數據密集型應用提供「緊貼著」MapReduce文件系統處理程序框架的分散式文件系統。此文件系統支持針對富文本數據的並行事務擴展,例如社交媒體數據。許多IT公司通過在企業內創建自己的Hadoop版本來解決從Web獲取Hadoop數據源的問題。然而,缺乏專業知識是一種挑戰:精通這種發展中的 Web數據管理框架的專業和藝術的IT管理人員猶如鳳毛麟角。
組織開發他們自己的數據管理工具時應該留意,如IBM、Oracle和EMC 的這些主要供應商,往往既提供專有產品用於訪問Hadoop數據,也可進行定製開發,讓IT公司不需要專門的數據歸納措施就能訪問需要的數據。如果您決定搭建自己的數據平台,供應商也提供整合服務,使Hadoop更貼合現有IT資源來高效運作。
TAG:上海千鋒 |