當前位置:
首頁 > 最新 > 2017年大數據技術的回顧與展望

2017年大數據技術的回顧與展望

回望,我從事大數據行業已經第5年了。

可以說,從大數據非常技術,很難商業化,到今天各種各樣的大數據創業公司井噴式發展。

2017年,非常特殊,已經有人開始唱衰Hadoop

而此時,人工智慧AI,開始在國內外大肆炒作,這樣的場面何其相似。

2007年,Hadoop面世,2009年國內開始有人嘗試Hadoop,到今天Hadoop在互聯網公司大規模部署,幫助企業實現高效率的數據變現。

Hadoop最早是始於Yahoo孵化,用於存儲海量的日誌數據和爬蟲數據,並且定期清洗、聚合數據。

互聯網公司,有海量的數據,需要這樣的分散式系統幫助解決日誌問題。

隨著Hadoop的開放性,Hadoop受到了更多的應用場景的檢測,逐漸顯現出不足,但是他強大的可擴展性和容錯依舊優秀。

由於開源的特性,導致更多的公司嘗試利用Hadoop解決生成問題,不足之處很多。

慢慢的Hadoop生態圈的概念出來了,最開始就是pig、hive這樣封裝MapReduce的框架出現,大大降低企業使用Hadoop的門檻。

國內,最早使用Hadoop解決業務問題的是電商(互聯網企業),推薦系統;傳統企業最早始於運營商、銀行、金融;開始滲透到公安、交通、政府、工業等領域。

在海里數據中,可以高並發寫入和查詢,於是就社區發起了Hbase項目,到目前為止依然是個大互聯網公司熱愛的技術,社區非常活躍。

為保障Hadoop生態圈個組件之間數據一致性、以及Hbase高並發寫入多節點數據一致,通過zookeeper進行協調。

Hadoop無法支持低延遲數據分析,出現了流處理技術storm。

MapReduce中間結果寫磁碟特別慢,而如今硬體發展快,可以大量利用內存,出現了內存計算技術spark。

今天,以Hadoop為中心,已經出現太多的針對各種場景特殊優化的組件。

目前主要分一下幾個方向:

目前Hadoop主要分為:批處理靈活可編程系統、流處理系統、SQL即席查詢、機器學習&深度學習系統、NoSQL目前使用廣泛的如上所示,隨著Hadoop進入各行各業,集群安全和數據安全也是Hadoop各大發行版公司重點研發的方向。

目前Cloudera CDH和Hortonworks HDP,都在不同程度上完成對集群數據安全和訪問安全的控制。

目前CDH和HDP主流的企業級大數據發行版,CDH產品成熟度和企業級安全方面做做得最成熟和可靠的,屬於半閉源產品。HDP是大而全的功能,並且以完全開放的路線在發展,讓更多的公司能參與其中,讓客戶有更多選擇。

國內企業,大都以CDH和HDP做為參考目標,產品也都有各自的特色,幫助客戶更要的解決生產問題。

2017年,Hadoop整體開始回歸SQL,各家都在發力,因為在企業級市場,SQL on Haodop的SQL語法兼容度和高性能是很關鍵的特性,包括兼容現有客戶投資的DB系統。

2017年

2017年是Hadoop在企業級市場更多落地,解決實際問題,更務實的一年。

SQL on Hadoop系統,在更多傳統客戶那裡更受青睞,駁雜的技術辭彙,客戶浪費大量時間調研和考察。

商業Hadoop發行版公司都提出了自己Hadoop on Cloud方案,彈性伸縮,按需建立集群、數據統一存儲Cloud Storage Pool。

Spark、Impala、greenplum、NewSQL、NoSQL與Hadoop結合沒那麼緊密的獨立系統,更容易雲化,底層直接讀寫S3、Azure Blob Storage,基本拋棄了Hadoop。

2018年,Hadoop會變得更加的成熟和適應企業現有基礎設施架構。

SQL on Hadoop系統,大浪淘沙、只留精品。

Hadoop on Cloud有更加優秀的平台和產品出現。

DL&ML on Hadoop有更加成熟的產品和方案。

BigData on Cloud湧現更多商業企業和開源軟體。

企業級流處理系統,務必更加易用和可商業化。

Hadoop 3.0更多案例,更高的性能。

Hadoop系統的選擇,更多企業會變得更加慎重。

中小規模企業,尋找Hadoop之外的系統方案,管理企業數據。

GreenPlume OpenSource 將會有越來越多的案例,本地和雲端。

真正的批處理和流處理系統Flink將會有更多應用案例。

沒人真正關心流處理和批處理模型,我們要的是快、超快、超超超快。

OpenSource 企業級BI工具更加成熟,原生支持SQL on Hadoop系統。

Hadoop將會在數據安全、集群安全、訪問控制提供完整的產品。

文末

非常繁忙的年底,新的一年研發新一代的企業級流處理系統,支持完整的BI可視化工具,完整的數據採集可視化。目前正在爭取年後發布一個版本,一個純粹的企業級流處理系統。

2018年,專註於企業級數據倉庫技術,業餘計劃擼一套分散式OLAP資料庫產品,極致性能、數據可視化;積極學習業界領先的分散式數據技術,閑暇之餘玩faceswap,DL App產品。

技術成熟,已經用在了歪門邪道上,國外有個工程師因此火爆了一把,上了頭條。

關於FaceFake,GitHub空空如也,目前還是我的想像啦,上線再通知各位。

文章,是即興創作,如未描述清楚,請留言討論。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 whoami 的精彩文章:

TAG:whoami |