摸底10餘家一線互聯網公司大數據架構圖：Hadoop滲透力太強！

知識 03-18

國內外對Hadoop生態系統的生存狀況爭論不休，既然如此，我們不妨摸底調查一番，看看國內一線互聯網公司(具備自我搭建大數據平台能力的廠商)的大數據平台是如何搭建的?是否基於Hadoop生態系統?Hadoop的存在感有多少?龐大的Hadoop生態系統中又有哪些組件真正脫穎而出了呢?(本文內容來源於公開資料整理)

BAT之阿里巴巴

如果要論數據，恐怕只有以電商起家的阿里巴巴才能擁有如此豐富且龐大的數據。有業務場景也有技術能力，阿里巴巴的大數據實力不容置疑。目前，阿里巴巴對外提供基於阿里雲的大數據服務。眾多大數據產品中，筆者看到了Elasticsearch的身影。

在數據分析和搜索等方面，阿里提供基於開源Elasticsearch及商業版X-Pack插件。Elasticsearch想必大家都不陌生，是繼Hadoop之後非常受歡迎的後起之秀。阿里巴巴的大數據解決方案中會有它的出現一點也不讓人驚訝，有了Elasticsearch還有Hadoop的用武之地嗎?

在阿里巴巴早年的數加平台(整個大數據部分統稱為數加)介紹中，阿里雲大數據事業部數加平台技術負責人陳廷曾表示，阿里統一的自主可控的大數據平台是在Hadoop的基礎上構建的，這套平台支撐了阿里很重要的一些業務，可見Hadoop對於阿里大數據平台的構建起到了至關重要的作用。

BAT之騰訊

騰訊的數據量雖然也不小，但多來源於社交數據。在離線數據處理的介紹中，我們看到騰訊大數據套件基於Hadoop體系的MapReduce、HIVE、PIG、Spark技術向企業用戶提供強大的數據離線批處理能力。

摸底10餘家一線互聯網公司大數據架構圖：Hadoop滲透力太強！

除此之外，Hadoop生態體系還包括Yarn、HBase、Sqoop、Ambari、Zookeeper、Flume、Kafka、Storm、Spark Streaming、Elastic Search、Impala、Presto、HAWQ、HUE、Log Search、Solr、Kylin。

很多人認為Hadoop生態體系中實力最弱的就是MapReduce，然而目前的騰訊大數據體系中仍然可以看到MapReduce的身影，不知道之後是否會考慮更換。

BAT之百度

百度的數據與上述兩家又不同，百度的數據來源多為搜索數據，依託自身百度引擎。進入百度的大數據產品頁面，可以發現百度主打的招牌是「智能」。百度的大數據產品中應用了大規模的機器學習、深度學習等能力。

摸底10餘家一線互聯網公司大數據架構圖：Hadoop滲透力太強！

百度的大數據基礎套件「魯班」的基礎架構如下，可以很直觀地看到，百度大數據基礎套件中的Kafka和YARN均來源於Hadoop生態系統。

京東：

京東的電商業務和物流業務如今也是越做越大，京東大數據部為了解決公司越來越廣泛的實時業務需求，推出了一整套技術解決方案——JRDW(JD Realtime Data Warehouse)。

摸底10餘家一線互聯網公司大數據架構圖：Hadoop滲透力太強！

根據介紹，整個大數據平台有不少開源組件的加入，京東大數據部門在開源組件的基礎上又針對其缺點進行了部分調整，形成了最終框架。在後期的發展中，京東意識到如果要搭建一個穩定可靠的實時任務運行平台很重要，通過對Storm、Hadoop、HBase、Kafka等的研究，京東自主開發了高可用調度平台Magpie。

圖中可以很直接地看出Hadoop的身影，明顯Hadoop對其大數據平台架構的搭建過程起到了啟發作用。

美團：

美團的大數據平台主要支撐了美團的到店餐飲、到店綜合、酒店旅遊、貓眼電影、外賣配送等業務，中間則是基礎數據部，最下層基於美團雲。如果將基礎數據部放大，基本如下圖所示：

摸底10餘家一線互聯網公司大數據架構圖：Hadoop滲透力太強！

離線計算部分是基於Hadoop的數據倉庫數據應用。具體到組件，基礎服務層有HDFS和YARN的參與，計算引擎層有HBase、Kylin、Hive、Spark、Presto等來自Hadoop生態系統的組件參與。

摸底10餘家一線互聯網公司大數據架構圖：Hadoop滲透力太強！

根據一年前的統計數據，這套平台有42P+總存儲量，每天有15萬個MapReduce和Spark任務，現在想必數據量和複雜度已經再一次升高了。

網易：

網易的一站式大數據管理和應用開發平台——網易猛獁，覆蓋了大閨蜜數據存儲與計算、應用開發、數據管理與集成等場景。

摸底10餘家一線互聯網公司大數據架構圖：Hadoop滲透力太強！

在其公布的大數據架構圖中，我們可以看到底層基本完全構建於Hadoop生態系統，數據集成、數據存儲、資源管理都和Hadoop生態系統有關。這套系統支持HDFS、Hbase、Kudu等從GB到PB級別的存儲方案，支持Hive和MapReduce等批量計算、Spark內存計算、Kylin多維分析等多種計算方案。

今日頭條：

2014年之前，今日頭條並沒有專門的人負責做數據。隨著活躍用戶數的迅猛增長，各種各樣的需求不斷，今日頭條意識到幾個數據工程師單打獨鬥根本解決不了問題，於是數據平台團隊成立了。

該團隊將Hadoop、Hive、Spark和Kylin等封裝成工具，將工具與分析模式相結合包裝成解決方案以提供給業務部門。在數據生成與採集方面，今日頭條使用Spark實現類Sqoop的分散式抓取;在數據傳輸方面，採用Kafka作為數據匯流排，連接在線和離線系統;在數據計算方面，今日頭條使用了Spark SQL和Hive;在Cube類查詢引擎，今日頭條已經成為Kylin國內最大使用用戶之一。

滴滴：

作為目前最大且最活躍的獨角獸企業，滴滴的大數據架構部門十分年輕，成立時間僅一年有餘。去年，滴滴宣布向各地交通管理部門開放「滴滴交通信息平台」數據，而滴滴當時的平台日訂單量已經超過2000萬，流量高峰期每分鐘接到的用戶需求高達兩萬次。

摸底10餘家一線互聯網公司大數據架構圖：Hadoop滲透力太強！

從圖中不難看出，滴滴大數據平台分為多個組成部分，數據加工和數據採集兩階段明顯用到了不少Hadoop生態系統的組件，數據加工部分完全依託Hadoop生態系統。

知乎

截止2017年8月，知乎註冊用戶數破億，全站DAU達2600萬，月瀏覽量180億......知乎大數據架構分為數據採集、數據計算、數據服務和數據產品層。

摸底10餘家一線互聯網公司大數據架構圖：Hadoop滲透力太強！

對於很多公司都會出現的MySQL數據實時查詢需求，知乎調研了Hive和HBase，但最後選擇了將BinLog實時打入Kafka，起一套Spark Streaming程序，將數據寫入Kudu，這樣做的性能會更高一些。雖然這部分組件來源Hadoop生態系統，但知乎內部架構師曾表示公司正在考慮採用TiDB。

新浪

新浪同樣掌握著大量社交數據，在之前有關新浪大數據體系架構的介紹中，我們可以了解到新浪的技術架構同樣基於Hadoop生態圈，最下面是日誌接受傳輸，然後進入Hadoop層，在這之上是ETL數據的整合，隨後是中央數據倉庫，數據挖掘、實時統計與計算等操作。

近幾年，隨著新技術的不斷發展，新浪的大數據體系也在不斷改變，但Hadoop生態體系依舊佔據著重要位置。

58同城

58的大數據體系主要分為數據應用、數據應用平台、數據基礎平台三層。在接入層，58使用了Canal/Sqoop解決數據接入問題，另一部分數據使用Flume，其中Sqoop和Flume均來源於Hadoop生態體系;存儲層全是熟人：HDFS、HBase、Kafka;調度層是Yarn;計算層全部來自於Hadoop生態體系，比如MR、Hive等。

摸底10餘家一線互聯網公司大數據架構圖：Hadoop滲透力太強！

......

總結

最新調查結果顯示，中國每年進口最多的不是石油，而是晶元。國內一線互聯網公司的大數據生態體系建設基本被Hadoop包圓，這種存在感快趕上晶元在中國的地位了吧。龐大的Hadoop生態體系中，MapReduce、HDFS、Kafka和Yarn的出現頻度最高。然而，不少言論都認為MapReduce的市場競爭力在逐漸減弱，如今這個應用狀況似乎一點失寵的意思都沒有啊!

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 IT168企業級 的精彩文章:

※什麼是無伺服器計算？沒有伺服器誰去計算？
※特朗普阻止博通收購高通,稱為美國國家安全考慮

TAG:IT168企業級 |