大數據學習路線

最新 04-12

你要的全拿走

覅忒好

胡彥斌

00:00/04:59

小編根據自己目前對大數據的學習，將學習線路先做一個初步的總結，總結中的內容不是很完善，大家可以提出建議，我們一起完善學習路線，便於我們後續的一起學習和交流。

第一階段：Linux和Hadoop生態系統的學習

1.Linux基礎

1）Linux系統安裝（點擊可以進入Linux系統安裝）

小編的大數據學習是基於在Linux環境上的，所以安裝Linux系統是搭建大數據環境的前提。

部分的Hadoop命令與Linux系統的命令相似，功能差不多，所以有些Linux系統的命令還是需要掌握的，而且這部分的命令也是我們在學習中需要使用到的。

2.Hadoop生態系統

1）認識Hadoop的體系結構

a.分散式存儲（HDFS）

b.Yarn：分散式計算（MapReduce）

c.HBase的體系結構

2）Hadoop環境的搭建

a.本地模式搭建?

本地模式，不涉及HDFS的存儲，只是對MapReduce的數據分析，此篇文章注意是羅列如何搭建，並以Hadoop自帶的wordcount來舉例。

偽分散式模式,覆蓋了全分散式模式中的HDFS存儲和MapReduce的數據分析,本篇也是環境的搭建，以及簡單示例驗證,對於自學的朋友完全滿足。

全分散式模式在實際工作環境中使用比較多，而我們的宗旨是一起學習大數據，所以對這個不做擴展，只是提供一個搭建環境文章。

羅列了後續學習需要的HDFS命令，大家可以與Linux系統操作的命令對比，很類似，功能差不多。

3.Hadoop深入學習

1）HDFS運行原理

2）MapReduce分散式計算

4.Hadoop實戰系列

此篇文章是針對上面HDFS命令操作文章的部分命令來使用JAVA API來實現對應的操作，主要是mkdir、get、put命令

此篇文章是熟悉MapReduce是如何處理單詞計數，其中涉及到Mapper階段、Reduce階段對單詞的分詞、統計的講解，以及編寫代碼的實現。

第二階段：Storm實時計算處理

1.認識Storm體系結構

2.Storm的安裝和配置

3.示例演示

第三階段：Spark內存計算處理

1.Spark的體系結構

2.Spark安裝配置

1）偽分布模式

2）全分布模式

3.Spark任務運行機制及原理分析

4.Spark編程示例

如果大家對這塊有好的分享，可以與小編聯繫，小編會儘力完善，後續也會同步完善這個學習線路，並細化每個線路的內部內容。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 全棧工程師成長記 的精彩文章: