當前位置:
首頁 > 最新 > 轉型數據科學 需要什麼技能傍身?

轉型數據科學 需要什麼技能傍身?

很多擁有計算機科學、統計學、工程學、經濟學背景的人會疑惑,我怎樣才能開始數據科學? 我如何建立自己的技能和知識,才能把數據科學作為職業呢?

所以今天這篇文章希望幫助到那些試圖轉型的人,使他們的經歷中擁有數據科學技能、知識庫存的標籤。

從宏觀角度來看,現展示下面的維恩圖給大家,以幫助理解所需的技能/知識。

從上面的維恩圖可以看到有三個組成部分:

1-數據和IT管理

2-數學模型

3-領域的專業知識

·數據和IT管理

先來解釋下為什麼是這些組件。作為一名數據科學家,我們必須就IT和數據基礎設施中的一些領域提出建議,例如如何處理缺失值,能否更細緻地捕獲數據,如何提高數據質量,如何實施記分卡到現有的系統等。通過對數據和IT基礎設施的深入了解,我們可以提出建設性的管理數據並使用我們建立的模型的建議。通過實際的建議,數據科學可以在組織中不斷增值和蓬勃發展。

·數學模型

數學模型不需要數據科學家知道它的重要性。但是,有必要考慮計算的複雜性,而不是只有單向的街道進入「最高精度」的城市。

·領域專長

那麼,域名專業知識呢?以前作者把這個圈子當做商業專業知識,不過隨著經驗的積累,發現非政府組織和慈善機構已經開始利用他們現有的數據來使這些捐贈或者事業更長久。因此,這兒想改為「專業領域」,以正確地反映當前的數據科學環境。

一般來說,當我們決定建立任何模型時,數據科學家應該考慮利益相關者對它的反應。例如,如果我們建立一個模式,將學生細分,並為可能在分班後取得成功的學生提供資源,這將在學生中引起軒然大波,特別是那些被歸類為「窮人」的學生。因此,我們希望以真正符合業務目標的方式來構建業務/組織目標和模型,而不會將「損害」帶給業務的其他方面。這需要對商業模式、流程和運營等商業專業知識有很好的了解。

另一個例子是,如果我們需要建立一個推薦系統,精確度永遠不會是選擇最佳模型的唯一考慮因素。作為一名數據科學家,我們也必須確定所選模型的計算複雜性。

結論

對於任何想要學習數據科學的人來說,他們可以從兩個主要領域著手,即「數據與IT管理」和「數學模型」。

以上是一個數據科學家所需要的技能和知識的全面觀點。以下的內容將重點解讀維恩圖中的一個內容:數學模型

介紹

如果你對數據科學稍有了解,就可以發現我們實際上是使用數學模型來模擬(並希望通過模型來解釋我們已經看到的一些事物)如一些業務、環境等,並通過這些模型,我們可以得到更多的見解,如我們做決定的結果,下一步應該做什麼,或者我們應該怎樣做才能提高勝算。所以數學模型很重要,選擇正確的答案能夠為企業帶來巨大的價值。

1.線性代數與微積分

首先是最重要的,就像大多數的功夫電影,主角總是會被一個不好的老闆擊敗的時候,然後繼續在外面打拚的時候,遇到了一個聰明的老師教功夫,逆襲擊敗了那個大壞的老闆。在這個過程中,你可以看到,老師們總是從基礎的東西開始教起比如:蹲馬步。

線性代數和微積分將被認為是最基本的。鑒於我們所處的「深度學習」環境,尤其如此。深度學習需要我們理解線性代數和微積分,理解它是如何工作的,例如向前傳播,反向傳播,參數設置等。我們了解這些模型是如何工作的,做出了什麼假設以及如何得出參數。

那麼潛在的數據科學家應該學習什麼?

對於線性代數,有矩陣運算(加,減,乘,除)、標量積、點積、特徵向量和特徵值。

對於微積分,數據科學家需要了解各種微分(到二階導數)、積分、偏微分。在閱讀一些材料時,他們確實觸及了像泰勒級數等數學系列。

在設計機器學習/統計模型的損失函數、正則化和學習率時,微積分和線性代數的應用非常廣泛。

2.統計數據

那麼在分析的時候如何能逃離統計而不需要進一步的介紹呢?根據經驗,當我們打算做市場營銷等實驗和測試時,需要理解統計,我們有A / B測試。我們通常想了解兩個樣本之間是否存在統計學差異,或者在某些「治療」之後是否產生統計學顯著效應。

所以統計學領域就是簡單的統計學,比如測量中心性、分布和不同的概率分布(威布爾,泊松等)、貝葉斯定理(後來學習人工智慧時非常重視)、假設檢驗等。

3.機器學習/統計模型

計量經濟學,可能是最接近機器學習/統計模型的。在這項研究中,還有線性和邏輯回歸需要注意。該模塊在回歸模型的假設中涵蓋非常大,即異方差性、自相關性、E(e)= 0和多重共線性。為什麼這些假設是重要的,因為在訓練模型中,我們試圖實現所謂的BLUE(最佳線性無偏估計)參數,即包括截距的係數。

但是當學習機器學習模型時,發現對於回歸模型的課程,不再強調這些假設,而是強調設置損失函數、正則化背後的原理、梯度下降和學習率。

回顧一下,對於任何數據科學家來說,了解機器學習模型是必須的,因為他們需要提出可以幫助為組織提供見解的機器學習模型。數據科學家需要轉換業務目標,並將其轉化為機器學習模型,以獲得答案和見解。

通常有兩種類型的機器學習模型,有監督和無監督學習模型。

·監督學習模型

假設你有兩組數據。設置A的行為數據在第1期和第二階段的結果。集合B僅具有第三階段(或2)中的行為數據,但是在第四期(或3)中沒有任何結果。

使用集合A,你將訓練一個模型,通過觀察行為,就能「預測」(或給出概率)結果。隨著模型的訓練,你將「評分」行為數據,並試圖「預測」(或有概率)結果。

可以使用的模型被稱為監督學習模型。它的監督是因為A組「監督」模型的結果提出了很好的預測指標。

·無監督的學習模式

所以你可能已經猜到了,對於無監督學習模型,A組數據沒有「結果」,它通常不用於B組數據。實際上,無監督學習模型只是試圖找出集合A中的模式,這些模式是由模型的訓練演算法識別的。

·從業務目標轉向建模目標

對監督型和無監督型模型有很好的理解,數據科學家需要知道每個業務目標,使用哪種機器學習模型,如何使用它們,按照何種順序使用它們以實現業務目標。很多的培訓課程通常都是使用單一模型來實現商業目標,例如創建電子郵件營銷響應模型,選擇邏輯回歸或決策樹或支持向量機來構建它。這就造成了一個盲點,即它將成為每個業務目標的一個機器學習模型,而這並不是必要的。

根據業務目標推薦使用哪些模型並構建建模目標的能力來自經驗。所以對於潛在的數據科學家來說,開始研究它吧。

·模型訓練

在機器學習中,你遇到的每種機器學習模型都有許多「旋鈕」和「開關」,供你在模型訓練過程中調整或翻轉。這些「旋鈕」和「開關」被稱為超參數。具有良好數學背景的數據科學家對於如何將這些「旋鈕」和「開關」變成「最佳」模型有著很高的理解。事實上,如果他們有一個良好的背景,他們可能會提出自己的損失函數,並建立自己的隨機梯度下降法,這是訓練不同機器學習模型(主要是監督)的兩個關鍵組成部分。

·模型選擇度量

大多數情況下,我們可以訓練幾個不同的模型(給定目標和超參數),然後我們需要了解模型選擇指標是如何計算的以及他們喜歡哪種模型。

選擇最佳模型不一定總是基於準確性,因為在現實生活中,預測錯誤的成本可能與錯誤預測的負面成本大不相同。例如,在一個流行病中,一個可以減少假陰性的測試比一個高度準確的測試更為重要。

4.運營研究

我們都在需要不斷作出決定的環境中工作。能夠部署數學模型來幫助做出更好的決定是運營研究的關鍵。運籌學的一些例子是什麼?他們是優化、博弈論、預測、排隊論、模擬、圖論等等。當然,運籌學也包括統計/機器學習模型來幫助模擬商業環境,從而做出合理的決策。這是一個數學領域,需要大量的非統計學研究。

我相信數據科學家應該能夠使用這些模型,以及數據支持的參數,以便做出「更好的」決策,幫助企業組織實現其業務目標。

結論

分析了這麼多,我們發現,數據科學家應該精通數學和統計學,為他們建立數據科學事業打好基礎。筆者的觀點是,數據科學家最基本的技能是數學知識,能夠將業務目標或挑戰轉化為數學模型,並將這些模型作為基礎的一部分,以做出最佳決策。

還有一些人認為編程是一項基本技能,不否認,它很重要,因為我們現在正在使用計算機來處理我們擁有的大量數據。但想像一下,如果沒有數學知識,要了解如何為環境建模,那麼,編程技能對數據科學家又有多大用處呢?評論告訴大家你的想法吧!


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 全球大搜羅 的精彩文章:

別爭了!古猿變人的秘密都在這裡
宮頸癌前病變和宮頸癌有啥區別

TAG:全球大搜羅 |