當前位置:
首頁 > 最新 > 不懂Hadoop的CEO不是合格的架構師

不懂Hadoop的CEO不是合格的架構師

知道Hadoop么?知道Hadoop是幹什麼的嗎?如果你不知道,也許你當不了CEO。這可不是危言聳聽,因為Hadoop代表的不僅僅是資料庫的未來,而且是公司未來架構發展的方向。

數據帶來的瓶頸

毫無疑問,我們生活在數據的時代。我們的生活被「衡量一切」的數字化經濟全面覆蓋,你的一舉一動都變成了數據。且不說你在於互聯網進行交互時,產生了大量的數據;智能手機、可穿戴設備、智能家居,這些可以稱為人類的「科技延伸」,都在收集數據,在為你提供服務的同時,也都存儲在雲端,天知道會怎麼使用。對公司而言,這年頭誰不存點數據,說不定哪天就會用上。再說了,對於創業公司來說,數據就是未來,可以現在就變現的。只要手裡有用戶數據,風險投資都會趨之若鶩。2006年,根據IDC的估計,數字全球項目的數據總量為0.18ZB,到2011年這個數字漲了10倍;此後,商業數據每1.2年會翻一番;到2020年,數字經濟佔GDP的比例會超過25%。ZB什麼概念,相當於10的21次方位元組的數據,也就是10億個TB。現在的活動硬碟基本上都是1TB容量的。就IT系統而言,計算機產生的數據可能比人產生的還要大,要存儲和分析這些數據,計算機行業付出了很大的努力。1990年,普通的硬碟驅動器其容量為1370MB,傳輸速度為4.4MB/s,只要5分鐘讀完整個硬碟的數據;到了2010年,常見的硬碟容量為1TB,容量增加了730倍,但讀取速度僅僅增加到100MB/s左右,讀完整個硬碟的數據需要兩個半小時。就硬碟的技術特點而言,傳輸的速率對應於磁碟的帶寬,尤其是需要從很多硬碟調取和分析數據的時候,這個帶寬就成為了「瓶頸」。

Hadoop橫空出世

Hadoop,可不是為大數據而生。人家2006年就誕生了,而大數據的概念,2008年才由計算機社區聯盟首次提出。Hadoop的前身是Apache Nutch,一個始於2002年的開源網路搜索引擎項目,但是項目組意識到他們的架構無法擴展到擁有十億網頁的網路。為解決這個數據的「瓶頸」,唯有對系統進行重構。2004年,google發展了論文,向全世界介紹了MapReduce演算法,受此啟發,Nutch移植到了新的框架,並發明了專用的文件系統。後來,Hadoop在Yahoo!發揚光大,並由多個重量級的互聯網公司參與,包括google、Facebook。今天,Hadoop是一個分散式計算基礎架構這把「大傘」下相關子項目的集合。這些項目屬於Apache-開源軟體項目社區。Hadoop為了解決十億級數據存儲和分析的瓶頸,其核心在於HDFS和MapReduce。HDFS全稱為Hadoop Distributed Filesystem。HDFS建立在這樣一種場景基礎上:數據一次寫入、多次讀取。並且支持超大文件,可以運行在普通的PC上。MapReduce則是一種用於數據處理的編程模型,可以並行的處理大批量數據,只要你的機器足夠多。

Hadoop對企業管理的啟示

未來的企業管理,很重要的是管理信息,尤其是企業大了之後。那麼,按照康威定理,是否可以這麼理解,企業數據存儲、組織和實用的方式決定了企業的架構。比如,從Hadoop誕生的初衷來看,是為了解決資料庫帶寬不夠的問題,傳統的資料庫雖然磁碟容量在增加,讀寫的速度在增加,但是定址的時間隨著數據量的增長而大幅增加,原有的資料庫的架構已經不適應大數據量的發展。這像極了企業的組織架構。當企業成長到一定規模,人員的數量(數據量)在不斷增加,部門(資料庫)在不斷增加,人員素質(處理速度)也在不斷增提高。但是,大企業的瓶頸在於帶寬,即企業越大,部門間的溝通成本越大。Hadoop解決資料庫的這個瓶頸問題的原理是HDFS和mapreduce,跟傳統資料庫最大的不同是在增加數據量以及節點的時候,「溝通」成本不會呈指數級增長,而只是線性增長。數據分散式存儲,而不是集中存放;各個數據節點(datanode)靠namenode來進行協調。

Hadoop型公司

Hadoop架構的精髓在於,數據是共享的,誰都可以用;數據的調用通過namenode來協調,而不是datanode相互之間調用;企業的架構,則應該向Hadoop學習:定義好datanode;企業的datanode就是劃小經營單元,相互之間可以容錯(支援),有冗餘備份;數據的調用通過namenode來協調;企業的namenode就是公共的數據服務,由後台統一提供;MapReduce:公司需要一個類似MapReduce的協調機制,這種機制通用性比較強,無論是小數據集還是大規模數據,都能原封不動的應用。HDFS:公司的戰略具備可執行性,「一次寫入,多次讀取」;戰略落地可操作性強,對人員要求不高(「普通的PC」也能運行)。總之,Hadoop型公司具有比較強的彈性和適應性,其經營單元(datanode)可以無限拓展,而公共服務(namenode)和組織原則(MapReduce)則可以相對保持不變,並且可以密集的投入,形成基於人和組織的核心競爭能力。這麼看來,Hadoop型公司像極了阿里的「大中台,小前台」。參考書目:《Hadoop權威指南》《大數據時代》

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 產品經理書單 的精彩文章:

TAG:產品經理書單 |