當前位置:
首頁 > 知識 > 都是數據科學家,為什麼TA薪水比你高?

都是數據科學家,為什麼TA薪水比你高?

選自towardsdatascience

作者:Andre Sionek

機器之心編譯

參與:張倩、王淑婷

同樣做數據科學,為什麼有人賺得多,有人賺的少?為了科學地回答這個問題,Kaggle 進行了一項系統的調查。結果表明,行業、經驗、掌握的數據類型等是影響數據科學家薪酬的主要因素。行業是自己選的,經驗是自己攢的,這些都沒啥好說的。至於數據類型,你會的更高級就賺得越多。

如何提高薪酬?本文作者從 2018 年 Kaggle ML & DS 調查問卷中總結出 124 條「該做」和「不該做」之事。

做什麼能為你的數據科學職業生涯加碼?很多人已經非常清楚鞏固數據科學職業和加薪的重要因素。但我從沒有見過一個系統的、基於數據的方法來回答這個問題。所以我想通過建模來解釋「哪些因素可以提高數據科學家的市場價值」。有些你可能已經了解,但有些可能真的有助於你加薪呢~

完整研究報告及代碼地址:

https://www.kaggle.com/andresionek/what-makes-a-kaggler-valuable

根據數據估計薪酬

我們只能做這種研究,因為 Kaggle 已經發布了其第二次年度機器學習和數據科學調查的數據。該調查於 2018 年 10 月展開,耗時一周,共獲得 23859 份回復。結果包括一些原始數據,如什麼人在研究數據、不同行業中機器學習的情況、新數據科學家進入該領域的最佳方式。

有了這些數據,我們想了解影響 Kaggler 薪酬的因素(我們把回復調查的人稱之為 Kaggler)。我們想讓你了解什麼對市場更有價值,這樣你就可以停止把時間花在投資回報率(ROI)低的事情上,並加速獲得更高的報酬。根據這些從數據中提煉出來的見解,我希望你有一天能夠像 Babineaux 一樣——躺在錢堆上。

Huel Babineaux,《絕命毒師》和《風騷律師》中的角色。圖源:AMC

在進入正題之前,我們可以先做一些基本的探索性數據分析(EDA)。首先看一下大家的薪水

數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

薪酬主要集中分布在較低的水平範圍內(每年 1 萬美元),在 10 萬美元左右還有另一個高峰。很多學生也填寫了這份調查問卷,看看他們賺多少?

數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

不出所料,學生們賺得不多,因為他們還沒有正式工作。既然如此,我們可以把學生從數據中剔除並確定收入前 20% 的 Kaggler 薪酬是多少。

數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

根據這些數據,我們定義了用於建模的目標變數,如下:

我們將計算一個 Kaggler 年收入超過 10 萬美元的概率。

數據科學中的性別不平衡

在繼續建模之前,我想告訴你的是,在收入最高的 20%Kaggler 中存在性別不平衡,但是其餘的 80% 中不存在這種現象。這意味著男性高管的薪資要高於女性。如下圖所示:

數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

預測模型

為了創建模型,我們從 29 個問題中提取了 138 個可以解釋高薪的特徵。經過一定的數據清洗之後,我們運行了Logistic 回歸和隨機森林模型。

經過評估,我們發現 Logistic 回歸表現更好。該模型在提取特徵係數方面也具有優勢。這可以幫助我們理解每個特徵對(收入最高的 20%Kaggler)最終結果有何貢獻。我們做了欠採樣、交叉驗證及網格搜索,代碼見完整版調查報告。

模型性能:薪水前 20% 和後 80% 的預測分數。數據:Kaggle 第二次年度機器學習和數據科學調查。

幫你加薪的幾個方法

選擇特徵之後,我們的模型總共有 124 個特徵。從它們的係數我們總結了幾點幫你加薪的建議。

我們模型的截距是 0。這意味著每個人都是從 0 分開始的。接下來你可以在你分數的基礎上加分或減分,這取決於你針對每個問題給出的答案。

正係數:係數為正表示肯定的答案有助於你擠進前 20%

負係數:係數為負表示肯定的回答不利於你擠進前 20%

模型係數。數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

學生身份可能是挫敗感強、薪水低的一個原因。走出學校門找份工作吧!做一名數據科學家很不錯,但軟體工程師薪水更高。為什麼不去做一名 B 型數據科學家(註:B 型數據科學家具有很強的編程能力,可能是經過訓練的軟體工程師。詳見:https://medium.com/@jamesdensmore/there-are-two-types-of-data-scientists-and-two-types-of-problems-to-solve-a149a0148e64)並將模型部署到生產中呢?

模型係數。數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

如果想致富,不要再待在學界/教育界了。從完整的 EDA 調查中可以看出,與其它領域相比,學界/教育界的平均薪水最低,模型的係數也佐證了這一點。作為對數據科學的未來最重要的領域之一,學界/教育的平均薪資水平居然最低,這讓人非常沮喪。如果你想多賺點錢,投身計算機/技術行業有利於你擠進薪水的前 20%。

模型係數。數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

顯然,經驗越豐富,賺得就越多。所以看開點,你不太可能憑藉兩年經驗就成為收入前 20% 的 Kaggler 之一。

模型係數。數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

說到活動,試著構建原型或機器學習服務。探索機器學習在新領域的應用並利用它來改進產品或工作流,這也是離年入 10 萬美元更近一步的方法。

另一方面,如果你的工作主要是運用商業智能來分析和理解影響產品或商業決策的數據,那就不要期望高薪了。運行數據基礎架構也是如此。

使用雲計算服務!習慣使用 AWS 或其它領先的雲供應商,如谷歌或微軟。

模型係數。數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

有些機器學習框架可能會增加你的市場價值。學習並使用 SparkMLlib、Xgboost、TensorFlow 會讓你的簡歷更有分量。

模型係數。數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

說到可能會增加薪酬的數據類型,不妨試著學學時間序列(Time Series)和地理空間數據(Geospatial Data)。所有人都在用數值型數據(Numerical Data),所以先學好基礎數據,如果你想獲得高薪,那就去學習更高級的數據類型。

模型係數。數據:Kaggle 第二次年度機器學習和數據科學調查。圖表:作者

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

Recurrent AI:呼叫系統的「變廢為寶」
專欄 | 微軟亞洲研究院:NLP將迎來黃金十年

TAG:機器之心 |