數據分析師掙多少錢?爬一家招聘網站給你看!
作者/ 魏凱
Udacity 「數據分析師」納米學位項目學員
從去年7月份開始學習Udacity的「數據分析師」納米學位課程,到現在也算學了不少內容,接下來打算慢慢開始找工作了。既然想要從事數據分析師這個崗位,那自然首先需要對這個崗位有所了解。最直接、最真實的方式就是從企業那裡獲得需求訊息,這樣才最能夠指導自己的學習方向和簡歷準備。本次項目即是要利用爬蟲爬取拉勾網上數據分析這一崗位的信息,然後進行一些探索和分析,以數據分析來了解『數據分析』。
數據來源
本項目所使用的數據集全部來自拉勾網,是通過集搜客這一網路爬蟲工具來爬取的。集搜客是一款簡潔易用且功能強大的網路爬蟲產品,通過滑鼠點選和簡單的命令操作即可實現爬蟲的定製和運行,這裡也推薦一下。之所以選擇拉勾網作為本項目的數據源,主要是因為相對於其他招聘網站,拉鉤網上的崗位信息非常完整、整潔,極少存在信息的缺漏。並且幾乎所有展現出來的信息都是非常規範化的,極大的減少了前期數據清理和數據整理的工作量。(筆者畢竟是工作之餘完成,時間有限,能省則省)本次爬取信息的時候,主要獲得了以下信息:
內容 | 欄位 |
---|---|
崗位名稱 | title |
月薪 | month_salary |
公司名稱 | company |
所屬行業 | industry |
公司規模 | scale |
融資階段 | phase |
投資人 | investors |
所在城市 | city |
經驗要求 | experience |
學歷要求 | qualification |
全職/兼職 | full_or_parttime |
職位描述及任職要求 | description |
項目目的
主要是希望通過實際的數據來解答針對數據分析崗位的一些疑惑,Udacity數據分析師課程的童鞋一些參考性的意見。具體來說,主要針對以下幾個問題:
- 數據分析師崗位需求的地域性分布;
- 整個群體中薪酬分布的情況;
- 不同城市數據分析師的薪酬情況是怎樣的;
- 該崗位對於工作經驗的要求是怎樣的;
- 根據工作經驗的不同,薪酬是怎樣變化的;
- 從用人單位的角度看,數據分析師應當具備哪些技能?
- 掌握不同技能是否會對薪酬有影響?影響是怎樣的?
技術和工具
本項目主要分為兩大部分,第一部分是數據爬取,採用的是集搜客網路爬蟲工具。第二部分是數據分析,以python編程語言為基礎。數據分析部分主要使用pandas作為數據整理和統計分析的工具,matplotlib用於圖形的可視化,seaborn庫包用於圖形美化。在進行技能需求分析的時候,使用了jieba作為分詞工具包,並使用wordcloud包製作詞雲。
數據整理
載入和清理
* 點擊圖片縮略圖可放大,下同。
可以看到,經過初步清理後,數據集中有效變數為13個,數據記錄575條。除了投資人這一項之外,其他各欄位的數據完整度非常好,幾乎沒有缺失值。這對於後面的分析來說是個大大的好消息。
數據分析
地域性分布
<matplotlib.text.Text at 0x1102e1f90>
在拉勾網上,全國有29個城市的企業郵數據分析師的人才需求,其中將近一半需求產生在北京市,需求量全國第一。排在前5的分別是:北京、上海、深圳、杭州、廣州。數據分析這一職業大量集中在北上廣深四大一線城市,以及杭州這個互聯網和電子商務企業的聚集地。北京市巨大的需求比重令我稍感意外,不過,考慮到拉勾網是一個偏重互聯網相關行業的招聘平台,而我國大量互聯網企業在北京聚集,這個結果倒也算合理。以後有時間,可以對全國互聯網行業分布特點做個分析。
總而言之,可以得出一個清晰的結論:數據分析這一崗位,有大量的工作機會集中在北上廣深以及杭州,期待往這個方向發展的同學還是要到這些城市去多多嘗試。當然,從另一個方面說,這些城市也都集中了大量的各行業人才,競爭壓力想必也是很大的。
總體薪酬情況
/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__main__.py:16: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead
See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
([<matplotlib.axis.XTick at 0x11ccaa290>,
<matplotlib.axis.XTick at 0x11d478210>,
<matplotlib.axis.XTick at 0x11d5652d0>,
<matplotlib.axis.XTick at 0x11d602f10>,
<matplotlib.axis.XTick at 0x11d6116d0>,
<matplotlib.axis.XTick at 0x11d528290>,
<matplotlib.axis.XTick at 0x126eb4c10>,
<matplotlib.axis.XTick at 0x11d441e90>,
<matplotlib.axis.XTick at 0x11d611bd0>,
<matplotlib.axis.XTick at 0x11d618390>,
<matplotlib.axis.XTick at 0x11d618b10>,
<matplotlib.axis.XTick at 0x11d6242d0>,
<matplotlib.axis.XTick at 0x11d624a50>,
<matplotlib.axis.XTick at 0x11d62d210>,
<matplotlib.axis.XTick at 0x11d62d990>,
<matplotlib.axis.XTick at 0x11d637150>,
<matplotlib.axis.XTick at 0x11d6378d0>,
<matplotlib.axis.XTick at 0x11d642090>,
<matplotlib.axis.XTick at 0x11d642810>],
<a list of 19 Text xticklabel objects>)
如同大多數其他工作一樣,數據分析師的薪酬也是一個右偏分布。大多數人的收入集中在5k-20k每月,只有少數人能夠獲得更高的薪酬,但有極少數人薪酬極高,讓人充滿期待。需要說明的是,拉勾網上的薪酬值是一個區間值,並且相互之間互有重疊,為了便於分析,我取區間的中值作為代表值進行的分析。因此,實際的薪酬分布情況可能會比圖中的情況更好一些。總是有人能夠拿到薪酬的上限。綜合來看,數據分析師的薪酬收入整體還是可觀的,從這方面說,選擇這個職業還是不錯的。
不同城市薪酬分布情況
<matplotlib.text.Text at 0x115796650>
忽略掉那些人才需求量比較小的城市,我重點關注排名前六的城市。從圖上看,這六大城市的薪酬分布情況總體來說都比較集中,這和我們前面看到的全國的薪酬總體情況分布是一致的。深圳市薪酬分布中位數大約在15k,居全國首位。其次是北京,約12.5k,之後是上海和杭州。深圳確實是個創造奇蹟的城市,在這裡也給了我一個小小的驚喜。
從待遇上看,數據分析師留在深圳發展是個不錯的選擇。
工作經驗需求
/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__main__.py:7: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead
See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
/Users/carrey/anaconda/lib/python2.7/site-packages/pandas/core/indexing.py:132: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame
See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
self._setitem_with_indexer(indexer, value)
/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__main__.py:13: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame
See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__main__.py:25: FutureWarning: sort(columns=....) is deprecated, use sort_values(by=.....)
<matplotlib.text.Text at 0x110577dd0>
不出所料的,工作經驗的需求分布近似於正態分布。工作1-3年經驗的熟手需求量最大,其次是3-5年工作經驗的資深分析師。工作經驗不足1年的新人,市場需求量比較少。另外,工作經驗要5-10年的需求量非常稀少,而10年以上的更是鳳毛麟角。
從這個分布我們大致可以猜測出:
數據分析是個年輕的職業方向,大量的工作經驗需求集中在1-3年;對於數據分析師來說,5年是個瓶頸期,如果在5年之內沒有轉型或者質的提升,大概以後的競爭壓力會比較大。
不同工作經驗的薪酬分布
<matplotlib.text.Text at 0x11cc58f50>
毫無疑問的,隨著經驗的提升,數據分析師的薪酬也在不斷提高。另外,從現有數據來看,數據分析師似乎是個常青的職業方向,在10年內大概不會因為年齡的增長導致收入下降。
職業技能關鍵詞
Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/p7/6s6n_sw53dq_w9j52wlzyl800000gn/T/jieba.cache
Loading model cost 0.417 seconds.
Prefix dict has been built succesfully.
/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__main__.py:7: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead
See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
詞雲顯示出的情況,有點超出了我的預料。對於數據分析師這一崗位,企業需求頻率最高的技能並不是Python語言和R語言等如今非常時髦的數據分析語言,而是傳統的結構化查詢語言SQL和表格神器Excel。這一點需要各位小夥伴注意,要想從事數據分析師崗位,SQL和Excel看起來是必備技能。 從詞雲上看出,數據分析師技能需求頻率排在前列的有:SQL,Excel, SAS,SPSS, Python, Hadoop和MySQL等。另外,Java, PPT, BI軟體等屬於第二梯隊。
掌握不同技能對薪酬收入的影響
/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__main__.py:13: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead
See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
<matplotlib.text.Text at 0x11f59b890>
我對需求頻率最高的前15個技能進行統計計算,得出每一個技能對應的平均薪酬水平,如上圖。點的大小代表該技能需求量的多少。
在前15項技能中,shell,Hive, Spark這三者的平均薪酬水平最高,並且相對其他技能來說有比較大的差異。對數據分析師工作有所了解的人應該都知道,這三個工具中,Hive和Spark都是應用於分散式數據處理,而shell腳本則是Linux系統下工作的必須技能。這三者共同指向了一個方向,那就是海量數據的分散式處理!
所以,想要拿高薪的小夥伴注意了,海量數據處理、分散式處理框架是走向高薪的正確方向。 另外值得注意的是,在數據分析領域,Python語言的平均薪酬水平要高於目前如日中天的Java語言。而SQL語言和傳統的SAS,SPSS兩大數據分析軟體,則能夠讓你在保證中等收入的條件下,能夠適應更多企業的要求,也就意味著更多的工作機會。
分析結論
通過上面的分析,我們可以得到的結論有這些: 數據分析這一崗位,有大量的工作機會集中在北上廣深以及杭州。 大多數據分析師的收入集中在5k-20k每月,只有少數人能夠獲得更高的薪酬,但有極少數人薪酬極高,讓人充滿期待。
從待遇上看,數據分析師留在深圳發展是個不錯的選擇,其次是北京、上海。 數據分析是個年輕的職業方向,大量的工作經驗需求集中在1-3年。
對於數據分析師來說,5年似乎是個瓶頸期,如果在5年之內沒有轉型或者質的提升,大概以後的競爭壓力會比較大。 隨著經驗的提升,數據分析師的薪酬也在不斷提高,10年以上工作經驗的人,能獲得相當豐厚的薪酬。
數據分析師需求頻率排在前列的技能有:SQL,Excel, SAS,SPSS, Python, Hadoop和MySQL等,其中SQL和Excel簡直可以說是必備技能。 海量數據、分散式處理框架是走向高薪的正確方向。 SQL語言和傳統的SAS,SPSS兩大數據分析軟體,能夠讓你在保證中等收入的條件下,能夠適應更多企業的要求,也就意味著更多的工作機會。
思考和總結
對於數據分析師技能的分析是比較簡陋的,在本次分析過程中,僅針對工具型的技能進行了分析。但其實,數據分析師所需要具備的素質遠不止這些,還需要有紮實的數學、統計學基礎,良好的數據敏感度,開拓但嚴謹的思維等。如果要對這些內容進行深入挖掘的話,應該會更加有趣。不過,要進行這項內容的話,需要掌握大量中文分詞、關鍵字提取等方面的知識和技能,難度也會更高。時間所限,在這裡不再進一步展開了,希望以後有時間再做一個專項分析吧。 讓人忍不住吐槽的是,Python2.X環境對中文編碼的支持著實不夠好,在處理數據的時候消耗了大量的時間和精力,也犯了不少錯,走了很多彎路。以後這一塊的內容要找時間專門攻堅一下,也可以考慮換到python3平台去。
特別說明:
本次數據源完全來自拉勾網,但拉勾網本身是專註於互聯網相關行業的招聘平台,所以本次分析出的結論更加適用於互聯網行業的相關企業,對於其他行業的企業,未必合適。━━━━━
Facebook & Tableau 官方聯合打造
數據分析師認證項目
此項目分為入門與進階,旨在幫助學員從零開始,熟悉符合矽谷標準的數據分析流程,掌握從數據清洗到數據可視化各環節的關鍵技能,最終成為頂尖數據分析師,獲得Facebook、tableau 官方認證,通過工作內推加入領先科技企業,幫助團隊或自己的事業做出通往成功的正確決策!
項目將於 7月26日 正式開放報名,全國僅限300名額,
回復關鍵詞「
DAND
」, 加入Facebook & Tableau
數據分析師認證 項目交流群:
免費獲得來自矽谷的數據領域職業指南;
限時免費體驗課程;
搶先預訂本期席位!


※python 最快 web 框架 Sanic 快速入門
※金融數據分析全新升級 | 學好風控,日進斗金
※現代情感分析方法
※共享經濟+大數據?這或許是一個值得考慮的模式
※如何在3個月內成為數據科學家,挑戰起薪30萬
TAG:Python開發者 |
※玩家去哪看數據?
※雲計算,大家都跑到了哪兒?看看這些數據
※買年貨的錢都去哪裡了?大數據告訴你!
※坦克一天能夠花掉多少錢?真實數據大多國家都難以接受!
※大數據殺熟:你知道嗎?你每多購買一次,就要多挨宰一次!
※這場一次性軍事打擊,美國花了多少錢,專家稱:花多少賠多少,詳細數據分析
※這些大數據,你敢看嗎?
※JR談超遠三分:從不在乎數據,哪怕少掙錢
※UFC總裁白大拿到底多有錢?身價是多少?看完這組數據就知道了
※看下這幾項數據,火箭輸給爵士就不足為怪了!
※六親不認?威少為了數據竟從隊友手裡搶板,頭一次見到!美解說怒斥:恥辱
※五點原因告訴你,為什麼威少刷數據這麼招人恨?
※遼寧艦出海一次費用要多少錢?一數據曝光,土豪都表示玩不起!
※「五一」小長假消費數據出爐,你貢獻了多少?
※遼寧艦每行駛一百公里,需要多少油錢?一組數據你絕對猜不到
※大家知道我國現在子彈儲藏有多少發嗎?軍迷看到數據驚訝了!
※你貢獻了多少?一文看遍各種春節「大數據」
※買鎚子手機的人都是人傻錢多?大數據告訴你答案!
※中國為了研製出原子彈,花了多少錢?一組數據說了你都不相信
※你好,大數據了解一下!