當前位置:
首頁 > 科技 > 你離年薪100萬的數據科學家還差10個「碼農

你離年薪100萬的數據科學家還差10個「碼農

全文共1900字,預計學習時長5分鐘

《哈佛商業評論》曾評價,「數據科學家」是21世紀最「性感」的工作。性感不性感不知道,但是「有錢」是真的。在某求職網站隨便輸入「數據科學家」,跳出來的薪資怕都是小編的10倍了……

數據科學是數學plus?

事實上,數據科學現今的概念還較為模糊。它是一門基於數據價值研究的交叉學科,堪稱「全方位、多層次、寬領域」。既包含大量應用技術,與應用數學、統計學、運籌學等多個學科相關,又與最新的技術領域,機器學習、深度學習、人工智慧、物聯網等緊密相聯。

簡而言之,數據科學家就是可以通過定量和編程方法以及所研究領域的知識,從數據中創造知識和價值的高素質人才。他們同時擁有程序員和數學家的部分基礎技能。

知識和技能領域

數據科學家應具備以下領域的技能和知識:

1. 數據、統計、數學或其他定量方法

2. 編程、計算機科學或計算機系統工程

3. 正在調查的域名

要成為一名全面的數據科學家,應對每個領域中的內容都有所涉獵。如果沒有運行高級機器學習和部署生產模型的編程技能,只在統計學方面做得好,一個人不一定能成為優秀的數據科學家。

數據,統計或其他定量方法

數據科學的核心是將數據轉化為知識。這些知識可以包括對事物的分類或估計。分類是離散值(即整數值或類別)的預測,並且可以包括將電子郵件分組為垃圾郵件或非垃圾郵件,估計或回歸是連續變數的預測。例如,預測客戶的未來收入。

數據是根據世界上觀察到的內容創建的。由於無法觀察所有現實,它幾乎總是現實的樣本。數據樣本來自一組數據——完全觀察到的宇宙。

為了創造知識,數據科學家應該理解描述性和推論性統計數據。描述性統計表徵現實樣本並且包括諸如中心(例如,平均值,中值),離差(即,觀察的分布如何),形狀(例如分布的偏度)之類的度量。如果測量多個變數,它還測量變數之間的依賴關係。

推論統計基於樣本數據的描述得出關於總體的結論。數據科學家需要了解先進的推理技術,例如機器學習——基於觀察創建新知識的技術和手頭任務的績效測量。

數據科學家也可能了解其他定量方法,包括預測。比如:服裝店的未來銷售預測——這取決於季節。

數據科學家遵循數據分析流程來創建知識。一個常見的過程是跨行業標準數據挖掘過程(CRISP-DM),其中包括以下六個步驟:

1. 業務理解:將在下文中描述的領域知識。

2. 數據理解:描述性統計和數據質量評估。

3. 數據準備:數據清理、構建新變數和合併數據集。

4. 建模:模型是對數據觀察樣本的假設結構的描述。建模包括選擇技術(機器學習有許多構建模型的演算法)並運行它們。

5. 評估:評估所選模型與業務目標的匹配程度。

6. 部署:部署模型,以便用戶可以將其與未來數據一起使用,以及制定維護計劃。

數據科學家需要充分了解數據收集和通用的數據管理方法。

他們還需要使用適當的數據可視化來傳達數據的結果。這些可視化包括餅圖、條形圖和折線圖。

編程、計算機科學或計算機系統工程

編程是構建執行任務的計算機程序的過程。編程通常是計算機科學和計算機系統工程等領域的中心。

數據科學家需要先進的編程技能來處理數據,計算複雜的指標以及進行高級機器學習。這些程序需要結構良好,以便於維護和性能——計算機科學或計算機系統工程的技能和知識。編程語言包括Python、R、SAS和SPSS。

數據科學家需要對數據存儲技術有所了解,包括資料庫、數據倉庫和數據湖。

數據科學家不一定需要是合格的計算機科學家或計算機系統工程師,但他們確實需要對這些領域的技術有足夠的了解,才能有效地進行數據科學研究。

領域知識

數據科學家還需要對領域知識庫有一個很好的理解,以便為該領域貢獻更多有價值的知識。

領域知識也有助於更好地定義問題,確定已知的內容,並準確地解釋結果。

領域知識是一種捷徑,數據科學家利用已有的知識更好地創造新知識,並有助於將研究範圍縮小到該領域尚未知曉的範圍,以便數據科學家不重複研究。

技能的結合增加了價值

數據科學家不一定必須是這三個領域中任何一個領域的專家。 然而,他們肯定需要具備良好的跨學科知識,才能從數據中創造有價值的領域知識。

留言 點贊 發個朋友圈

我們一起分享AI學習與發展的乾貨

編譯組:安然、盧佳琦

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

哈工大劉一佳:通過句法分析看上下文相關詞向量
麥考瑞大學:用視覺和文本聯合建模突破放射學極限

TAG:讀芯術 |