靠轉型大數據漲薪的日子一去不復返了
TL;DR(too long don"t read)
大數據還是值得轉型的,但是想著只靠一個技能翻身的機會沒了
前言
在 2013 年,大數據剛剛嶄露頭角,有一大批程序員,在那個時間點,踏上了靠轉型大數據升職加薪的日子。在那個時候,只要稍微懂一點點 Hadoop,會寫一點點 HQL,工資翻一番是分分鐘的事情。
但是現在是9102年。單單靠一個技能就想轉型到大數據已經沒什麼機會了。
原因有這麼幾個。
1. 數據開發平台化比較成熟,普通的開發人員已經可以完成絕大部分的大數據開發,不需要專業的數據開發人員介入,所以靠單一簡單技能已經不吃香了。
2.市場已經趨於飽和,紅利期已經過去,對於數據開發人員的要求也隨著變高。
3.各種培訓機構已經批量產出了大批大批的大數據人才,一個個體是拼不過經過系統學習的培訓的人的。
4.市場對於大數據已經不反應過度了,已經不會給出幾年前那種趨之若鶩那麼高的待遇了,就是一個普通的工程師
當然,也不是說就不能轉型大數據了,恰恰相反,我們要把大數據技能納入到我們的日常技能樹里,就像 MySQL、Oracle 一樣。但是我們從觀念上可能要有所改變,不要把大數據看成是一個單一的技能,也不要把大數據就當成是救命稻草。大數據更應該是一種態度,是一種常態,我們要能夠有用數據看問題的眼界,使用數據分析工具,洞悉數據背後的商業潛能。這才是接下來我們要發力的點,單單靠努力學習大數據工程師技能,已經不太行了。
但以防萬一,我還是介紹一下當前大數據中端人才正在乾的事情,低端人才基本不要了。
究竟轉型大數據有多少種
很多小夥伴一聊到數據挖掘和大數據呢,都會無法自拔地想到機器學習演算法,其實嘛,絕大多數的數據崗位並不需要這麼高深的知識。但是如果你掌握了技能書的更多內容呢,你可能可以對你數據的上下游有更加強的把控力度,你可能可以進階到下一個階段。
數據挖掘的技能樹橫向和縱向都是很深的,並不適合所有的門外漢,因為往深了學確實很難,需要機器學習、深度學習、概率論、線性代數、智能優化方法等很深層次的數學知識,需要分散式一致性的各種演算法,需要資源調度的各種理論。
很多人都覺得要掌握所有的技能才能開始這項工作。兩個字概括今天這篇文章,未必。一句話,每個崗位都有自己的側重點,各項技能在每個崗位的權重都不一樣。
數據從產生到被使用,最基礎的鏈路就是。採集 - 清洗 - 處理 - 分析 - 決策。而在這個鏈路上,從前到後,所需要的技能是不一樣的。一般來說,越處於後端門檻越高,複雜程度也越高。當然我不是說前面就不重要了,每一個環節都很重要,只是門檻高低而已。每個階段做到牛逼你都可以很牛逼。
所以數據開發的職位從縱向來說,可以分為 數據採集工程師-ETL工程師-數據開發工程師-數據演算法工程師-數據分析師。從橫向來說,還可以有數據集群運維工程師、大數據平台開發工程師、數據治理架構師、數據服務架構師、大數據系統架構師、大數據框架開發工程師 這些職位來支持前面的這些流程更加方便快捷地開發和落地,以及更好地維護。
如果我想轉型,我需要什麼技能呢?
從職業發展來說,大數據開發一般來說有這麼三條線。
主線1:服務支持線(新手基本不受歡迎了)
數據集群運維工程師-大數據平台開發工程師-大數據系統架構師-大數據框架開發工程師
必選:Linux、Hadoop集群,Hive、Zookeeper、HBase、Ozzie、Flume
可選:Impala、各種框架源碼
語言:shell、Python
建議路線:1、先學習基礎的 Hadoop 集群維護技能,寫一些 shell 腳本,使用定時調度功能。2、學會使用平台工具進行監控和維護,並參與到平台開發和工具開發中。3、對現有系統架構和框架進行重新架構或改良。
主線2:數據倉庫線(新手基本不受歡迎了)
數據採集工程師-ETL工程師-數據治理架構師-數據服務架構師
必選:HiveQL、Spark、Hive、Flink、Kafka
可選:Storm、分散式一致性演算法、JVM調優、MapReduce、BitTable
語言:Scala,SQL,Java
主線3:數據挖掘線(分析能力強的還是很吃香)
數據開發工程師-數據演算法工程師-數據分析師
必選:可視化技術、SQL、統計學、概率論、智能優化、機器學習工具(Tensorflow、scikit-learn)
可選:caffee,torch,OpenCV
語言:Python,R
我是不是學 Scala 就算轉型了?
最後聊聊數據從業人員的語言問題。總是有小夥伴問我,該不該學 R,該不該學 Scala ,該不該學 Python,該不該用 Java。我的觀點就是,每個語言都只是自己的工具,不要守著一門語言死磕,每個語言都有它自己擅長的領域,在每個領域你盡量用它擅長的語言去處理,就好了。當然,如果你已經工作了五六年還被語言局限,那你可能要好好思考一下了。
2019年08月編程語言排行榜
Scala:Spark的實現語言是 Scala,現在也有大神用 PySpark 來實現一些數據處理的東西,為了兼容機器學習框架。
Python:數據爬取和機器學習從業必備,其他語言基本都是旁支。不要以為Python跑得很慢,其實那些框架都是 C 和 C 實現的,只是套了一個 Python 的殼,還做了很多優化,比你自己寫的 C 還快。
R:數據探索和數據可視化有非常多場景是用 R 語言來進行做的。
Java:Hadoop 套件基本都是用 Java 實現的,熟悉 Java 可以讓你更加清晰你所佔用的資源分布,瓶頸是在 cpu 還是 內存,是磁碟 IO 還是 網路 IO。
結論
大數據還是值得轉型的,而且很值得,但是想著只靠一個技能翻身的機會沒了,想靠著轉型大數據漲薪的日子,也一去不復返了。
但是,大數據中高端人才,正在為推動行業發展發揮著越來越大的作用,你,還有機會。


※Kotlin技術分享-運算符重載
※使用AOP功能和ThreadLocal類實現自定義事務管理
TAG:千鋒JAVA開發學院 |