2017年大數據技術的回顧與展望
回望,我從事大數據行業已經第5年了。
可以說,從大數據非常技術,很難商業化,到今天各種各樣的大數據創業公司井噴式發展。
2017年,非常特殊,已經有人開始唱衰Hadoop
而此時,人工智慧AI,開始在國內外大肆炒作,這樣的場面何其相似。
2007年,Hadoop面世,2009年國內開始有人嘗試Hadoop,到今天Hadoop在互聯網公司大規模部署,幫助企業實現高效率的數據變現。
Hadoop最早是始於Yahoo孵化,用於存儲海量的日誌數據和爬蟲數據,並且定期清洗、聚合數據。
互聯網公司,有海量的數據,需要這樣的分散式系統幫助解決日誌問題。
隨著Hadoop的開放性,Hadoop受到了更多的應用場景的檢測,逐漸顯現出不足,但是他強大的可擴展性和容錯依舊優秀。
由於開源的特性,導致更多的公司嘗試利用Hadoop解決生成問題,不足之處很多。
慢慢的Hadoop生態圈的概念出來了,最開始就是pig、hive這樣封裝MapReduce的框架出現,大大降低企業使用Hadoop的門檻。
國內,最早使用Hadoop解決業務問題的是電商(互聯網企業),推薦系統;傳統企業最早始於運營商、銀行、金融;開始滲透到公安、交通、政府、工業等領域。
在海里數據中,可以高並發寫入和查詢,於是就社區發起了Hbase項目,到目前為止依然是個大互聯網公司熱愛的技術,社區非常活躍。
為保障Hadoop生態圈個組件之間數據一致性、以及Hbase高並發寫入多節點數據一致,通過zookeeper進行協調。
Hadoop無法支持低延遲數據分析,出現了流處理技術storm。
MapReduce中間結果寫磁碟特別慢,而如今硬體發展快,可以大量利用內存,出現了內存計算技術spark。
今天,以Hadoop為中心,已經出現太多的針對各種場景特殊優化的組件。
目前主要分一下幾個方向:
目前Hadoop主要分為:批處理靈活可編程系統、流處理系統、SQL即席查詢、機器學習&深度學習系統、NoSQL目前使用廣泛的如上所示,隨著Hadoop進入各行各業,集群安全和數據安全也是Hadoop各大發行版公司重點研發的方向。
目前Cloudera CDH和Hortonworks HDP,都在不同程度上完成對集群數據安全和訪問安全的控制。
目前CDH和HDP主流的企業級大數據發行版,CDH產品成熟度和企業級安全方面做做得最成熟和可靠的,屬於半閉源產品。HDP是大而全的功能,並且以完全開放的路線在發展,讓更多的公司能參與其中,讓客戶有更多選擇。
國內企業,大都以CDH和HDP做為參考目標,產品也都有各自的特色,幫助客戶更要的解決生產問題。
2017年,Hadoop整體開始回歸SQL,各家都在發力,因為在企業級市場,SQL on Haodop的SQL語法兼容度和高性能是很關鍵的特性,包括兼容現有客戶投資的DB系統。
2017年
2017年是Hadoop在企業級市場更多落地,解決實際問題,更務實的一年。
SQL on Hadoop系統,在更多傳統客戶那裡更受青睞,駁雜的技術辭彙,客戶浪費大量時間調研和考察。
商業Hadoop發行版公司都提出了自己Hadoop on Cloud方案,彈性伸縮,按需建立集群、數據統一存儲Cloud Storage Pool。
Spark、Impala、greenplum、NewSQL、NoSQL與Hadoop結合沒那麼緊密的獨立系統,更容易雲化,底層直接讀寫S3、Azure Blob Storage,基本拋棄了Hadoop。
2018年,Hadoop會變得更加的成熟和適應企業現有基礎設施架構。
SQL on Hadoop系統,大浪淘沙、只留精品。
Hadoop on Cloud有更加優秀的平台和產品出現。
DL&ML on Hadoop有更加成熟的產品和方案。
BigData on Cloud湧現更多商業企業和開源軟體。
企業級流處理系統,務必更加易用和可商業化。
Hadoop 3.0更多案例,更高的性能。
Hadoop系統的選擇,更多企業會變得更加慎重。
中小規模企業,尋找Hadoop之外的系統方案,管理企業數據。
GreenPlume OpenSource 將會有越來越多的案例,本地和雲端。
真正的批處理和流處理系統Flink將會有更多應用案例。
沒人真正關心流處理和批處理模型,我們要的是快、超快、超超超快。
OpenSource 企業級BI工具更加成熟,原生支持SQL on Hadoop系統。
Hadoop將會在數據安全、集群安全、訪問控制提供完整的產品。
文末
非常繁忙的年底,新的一年研發新一代的企業級流處理系統,支持完整的BI可視化工具,完整的數據採集可視化。目前正在爭取年後發布一個版本,一個純粹的企業級流處理系統。
2018年,專註於企業級數據倉庫技術,業餘計劃擼一套分散式OLAP資料庫產品,極致性能、數據可視化;積極學習業界領先的分散式數據技術,閑暇之餘玩faceswap,DL App產品。
技術成熟,已經用在了歪門邪道上,國外有個工程師因此火爆了一把,上了頭條。
關於FaceFake,GitHub空空如也,目前還是我的想像啦,上線再通知各位。
文章,是即興創作,如未描述清楚,請留言討論。
TAG:whoami |