大數據學習路線
你要的全拿走
覅忒好
胡彥斌
00:00/04:59
小編根據自己目前對大數據的學習,將學習線路先做一個初步的總結,總結中的內容不是很完善,大家可以提出建議,我們一起完善學習路線,便於我們後續的一起學習和交流。
第一階段:Linux和Hadoop生態系統的學習
1.Linux基礎
1)Linux系統安裝(點擊可以進入Linux系統安裝)
小編的大數據學習是基於在Linux環境上的,所以安裝Linux系統是搭建大數據環境的前提。
部分的Hadoop命令與Linux系統的命令相似,功能差不多,所以有些Linux系統的命令還是需要掌握的,而且這部分的命令也是我們在學習中需要使用到的。
2.Hadoop生態系統
1)認識Hadoop的體系結構
a.分散式存儲(HDFS)
b.Yarn:分散式計算(MapReduce)
c.HBase的體系結構
2)Hadoop環境的搭建
a.本地模式搭建?
本地模式,不涉及HDFS的存儲,只是對MapReduce的數據分析,此篇文章注意是羅列如何搭建,並以Hadoop自帶的wordcount來舉例。
偽分散式模式,覆蓋了全分散式模式中的HDFS存儲和MapReduce的數據分析,本篇也是環境的搭建,以及簡單示例驗證,對於自學的朋友完全滿足。
全分散式模式在實際工作環境中使用比較多,而我們的宗旨是一起學習大數據,所以對這個不做擴展,只是提供一個搭建環境文章。
羅列了後續學習需要的HDFS命令,大家可以與Linux系統操作的命令對比,很類似,功能差不多。
3.Hadoop深入學習
1)HDFS運行原理
2)MapReduce分散式計算
4.Hadoop實戰系列
此篇文章是針對上面HDFS命令操作文章的部分命令來使用JAVA API來實現對應的操作,主要是mkdir、get、put命令
此篇文章是熟悉MapReduce是如何處理單詞計數,其中涉及到Mapper階段、Reduce階段對單詞的分詞、統計的講解,以及編寫代碼的實現。
第二階段:Storm實時計算處理
1.認識Storm體系結構
2.Storm的安裝和配置
3.示例演示
第三階段:Spark內存計算處理
1.Spark的體系結構
2.Spark安裝配置
1)偽分布模式
2)全分布模式
3.Spark任務運行機制及原理分析
4.Spark編程示例
如果大家對這塊有好的分享,可以與小編聯繫,小編會儘力完善,後續也會同步完善這個學習線路,並細化每個線路的內部內容。
TAG:全棧工程師成長記 |