當前位置:
首頁 > 最新 > 從 1 數到 13,想當數據科學家的你這些錯誤可別犯

從 1 數到 13,想當數據科學家的你這些錯誤可別犯

本文為AI研習社編譯的技術博客,原標題 13 Common Mistakes Amateur Data Scientists Make and How to Avoid Them,作者為 PRANAV DAR 。

翻譯 | 姚秀清 李照寒 郭蘊哲 校對 | 石金紅 整理 | MY


當你看這篇文章的時候,我們知道你已經決定把數據科學當作你的工作。當下越來越多的企業需要數據支持其決策,世界也變得越來越緊密,幾乎每個企業都需要大量的數據科學實踐。因此,對數據科學家的需求是巨大的。當然,人才短缺也是業內所公認的。

然而,成為一名數據科學家並不容易。它需要解決問題的能力、結構化思維、編碼以及各種技術技能,才能真正成功。如果你只有非技術和非數學的背景,那麼你很有可能通過書籍和視頻來學習。然而這類資源大多並沒有教你工業界對數據科學家要求的能力。

這也是渴望成功的數據科學家需要努力彌補自我學習與實際工作之間差距的主要原因之一。

在本文中,我將討論業餘數據科學家所犯的常見錯誤(我自己也犯了其中某些錯誤),並提供了一些比較實用的資源,旨在幫助您避免數據科學中的這些陷阱。


學習理論概念而不應用它們

不學習先決知識而直接學習機器學習技術

完全依靠認證和學位

誤以為你在機器學習競賽中看到的是真實的工作現狀

注重模型的精度勝過其適用性和可解釋性

在簡歷中使用過多的數據科學術語

優先考慮該使用的工具和各種庫而不是業務本身要解決的問題

沒有花費足夠的時間去探索和可視化數據

缺乏結構化的方法來解決問題

試圖一次學習多個工具

不能堅持學習

遠離討論和競賽

不去提升溝通技巧


資料來源:認知課 - YouTube

正如我在 AV 實踐問題那篇文章中提到的那樣:掌握機器學習技術背後的理論是很好的,但如果你不應用它們,它們只是理論。當我開始學習數據科學時,我也犯了同樣的錯誤:我學習了書籍和在線課程,但並不總是用它們來解決問題。

因此當我有機會應用我所學的知識去解決面臨的挑戰或問題時,我卻忘了一大半!我們需要學習的東西有很多,比如演算法、推導、研究論文等。你很有可能在中途失去學習動力並放棄。我已經看到這種情況發生在很多試圖進入這個領域的人身上。


你必須在理論和實踐之間保持一個平衡。一旦你學習了一個概念,請立即訪問 Google,找到可以使用它的數據集或問題。你會發現這樣做之後可以更好地理解理論知識。您還可以使用 AV 的 DataHack 平台,完成上面的練習題和參與比賽。

必須承認的是你無法通過一次學習掌握所有的東西,在練習時查漏補缺,這樣會使你學到更多東西!


資料來源:倫敦帝國理工學院 - YouTube

大多數立志要成為數據科學家的人都受到機器人視頻或有趣的預測模型的鼓舞,當然也有些人是在高薪誘惑下入行的。遺憾的是(不好意思讓你們失望了!),在你到達那裡之前,你還有一條漫長的路要走。

在應用一項技術解決問題之前你應該了解其背後的工作原理,這樣做將有助於你了解演算法如何工作,知道如何去微調它,並且還將幫助你在現有技術的基礎上搭建新的技術。數學在裡面發揮著重要作用,因此了解某些概念總是有幫助的。在日常的企業數據科學家角色中,您可能不需要了解高級微積分,但有一個總體的了解肯定是有幫助的。

如果您有好奇心或想要進入研究領域,那麼在深入了解機器學習的核心技術之前,您需要了解的四個關鍵組件是:

線性代數

微積分

統計學

概率論


正如房子是一磚一瓦建造的,數據科學家的看家本領也是由掌握一個一個知識點開始的。有大量的資源可以幫助您學習這些知識點。為了幫助您入門,下面我為每個知識點主題列出了一個資源:

數據科學家線性代數綜合入門指南

(https://www.analyticsvidhya.com/blog/2017/05/comprehensive-guide-to-linear-algebra/)

可汗學院的微積分課程

(https://www.khanacademy.org/math/calculus-home)

數據科學概率基礎的案例解釋

(https://www.analyticsvidhya.com/blog/2017/02/basic-probability-data-science-with-examples/)

您還可以查看 Analytics Vidhya 的「數據科學入門」課程,其中包括了有關統計和概率的綜合模塊。


資料來源:CIO.com

自從數據科學變得非常受歡迎以來,各地的認證和學位幾乎都出現了,給招聘經理和招聘人員增加了不少煩惱。瀏覽我的 LinkedIn 資料,至少 5 張認證圖片被我自豪地展示在那裡。雖然得到這些認證並非易事,但完全依賴它們也是非常危險的。

數以萬計渴望成功的數據科學家報名並完成了種類繁多的在線課程。如果說完成這些課程曾經能為你的數據科學簡歷添加一些獨特的價值,那麼現在已經不是這種情況 了。招聘經理對這些證書並不那麼看重了, 他們更加重視你的知識結構,以及你如何在現實生活中應用它們。

與客戶打交道、處理項目截止日期、了解數據科學項目的生命周期如何工作、如何設計模型以適應現有業務框架,這些只是你作為一個成功的數據科學家所要做好的工作的一部分,而這些僅僅只有課程認證或學位是不夠的。


不要誤解我的意思:認證是很有價值的,但只有當你將這些知識應用到課堂之外並將其展示出來時才有價值。不管你對真實數據做何種分析,確保你寫下它。創建自己的博客、在 LinkedIn 上發布,並徵求社區的反饋意見。這表明你願意學習並且有很多想法,願意接受別人提出的建議並將其用於你的項目中。

你應該對實習持開放態度(無論你的經驗水平如何)。你將學習到很多關於數據科學團隊如何工作的經驗,這會使你在參加下一次面試時受益。

如果你正在尋找下一個項目,那麼你來對地方了。我們有一個很棒的按難度分級的項目清單(https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/)。現在就開始吧。


這是近來數據科學家們最大誤解之一。競賽和黑客馬拉松提供了相當乾淨、一塵不染的數據集(好吧,說得是有點過了,懂我的意思就好)。你下載它們然後著手解決問題。即使這些數據集有一些缺失數值的數據列也不會多麼麻煩,找到一種插補技術然後填空就好。

不幸的是真實世界裡的項目並不這樣。真實世界中有一條涉及與一群人一起工作的端到端的流程。你幾乎總得和混亂、未清洗的數據打交道。俗話說得好,「花費你 70-80% 的時間,收集、清洗數據」是一點也不為過的。你會(很可能)不喜歡這個令人筋疲力盡的過程,但它最終會變成你日常工作的一部分。

此外還有一點我們將在下文中詳談,那就是簡單的模型要優先於任何複雜的、堆砌的集成模型。準確性不總是最終目標,這是你會在工作中學到的最矛盾的事。


令人尷尬的是避開這個誤區的重要因素是經驗,你獲得越多經驗(這種情況下實習會大有助益),你越能區分這兩者。這就是社交媒體的方便之處:多跟數據科學家們聊聊,問問他們的經驗。

另外,我建議看看這個 Quora 問題(https://www.quora.com/How-similar-are-Kaggle-competitions-to-what-data-scientists-do),來自世界各地的科學家就這個問題在上邊表達了他們的看法。競賽排行榜確實適合衡量你的學習進度,但面試官想知道的是你怎樣去優化一個演算法來產生影響,而不是為優化而優化。學習一個數據科學項目如何運轉,一個團隊里有哪些不同的角色(從數據工程師到數據架構師),基於你的理解構建你的回答。

閱讀這篇領英帖子(https://www.linkedin.com/pulse/standard-methodology-analytical-models-olav-laudy/?trk=prof-post),其中解釋了分析模型的標準方法。


來源:Design Shack

正如以上所述,精確度並不總是業務所追求的。固然一個能以 95% 的精確度預測貸款違約的模型相當不錯,但若你無法解釋這個模型如何做到這一點,什麼特性使其如此,以及你在建構模型時的思路是什麼,你的客戶就會拒絕這個模型。

極少地,如果有的話,你會看到深度神經網路用於商業應用中。向客戶解釋一個神經網路(更別說深度神經網路)是如何利用其隱藏層、卷積層等來得到其結果是不可能的。首要且必須考慮應該是我們能夠理解模型之下發生著什麼。如果你沒法判斷年齡、家庭成員數目、抑或此前的信用記錄是否與拒絕信貸申請有關,你該如何向你的客戶做出建議讓他們能改進他們的業務?

另一個關鍵方面是你的模型能否契合組織業已存在的框架。如果開發環境不能支持你使用的 10 種不同的工具和庫,這將相當失敗,你將不得不用一種更簡單的方法從零開始重新設計並重建模型。


避免這個錯誤的最好方法便是與業界人士交流,沒有比經驗更好的老師。選擇一個領域(金融,人力資源,銷售,運營等)並與他們聯繫,了解他們的項目是如何運轉的。

除此之外,練習構建簡單的模型並向非技術人員解釋它們。隨後提升模型的複雜度並繼續這麼做,直到即使是你也不能理解其表層之下發生著什麼。這將教會你何時停止,以及為何現實世界的應用中簡單的模型總是更受青睞。


如果你之前這麼干過,你就應該知道我指的是什麼。如果你的簡歷現在就有這個問題,請立即修正!你或許清楚一堆技術和工具,但只是簡單地羅列他們無異於使潛在的招聘經理對你失去興趣。

你的簡歷是對你取得的成就以及你如何做到的概括,而不是不是簡單羅列的事情清單。當招聘官查看簡歷的時候,他/她希望能以簡潔明快的方式了解你的背景知識以及你所取得的成就。如果半頁簡歷都充斥著模糊的數據科學術語,例如線性回歸、XGBoost、LightBGM,卻沒有任何解釋,你的簡歷可能通不過篩選輪。


使簡歷變得整潔的最簡單方法便是使用項目符號。只列出你用來完成某件事情(可以是項目或競賽)的技術。扼要地闡述你是如何使用它們的,這將幫助招聘官理解你的想法。

當你申請對經驗要求較少或入門級的工作時,你的簡歷需要反映你能給業務帶來何種潛在影響。你可能會申請不同領域的工作角色,因而有一個固定的簡歷模板是非常有幫助的,你只要對應於不同的崗位要求對你的簡歷稍作調整以反應出你對此行業的興趣就可以了。

這篇由 Kunal Jain 所著的文章(https://www.analyticsvidhya.com/blog/2014/11/tips-prepare-cv-data-science-roles/)為如何準備一份出眾的數據科學方向的個人求職簡歷提供了一個很好的參考。


來源:Data Science Lab

讓我們通過一個例子來理解一下為何這是一個錯誤。想像你有一個房價數據集,而且你要預測未來房地產的價值。資料庫中有超過 200 個變數,包括建築物數量、房間數量、租戶數量、家庭規模、庭院大小、是否有水龍頭等。你很可能無法理解某些變數的意義,但你依然可以建構一個準確的模型,只是關於為何某個特定變數不產生影響,你可能完全沒有頭緒。

隨後事實證明,那個變數是現實世界中的關鍵要素。這是個災難性的錯誤。

有著庫和工具的堅實基礎是件好事,但這也只能在一定程度上幫到你。將這些知識與領域提出的業務問題結合起來才是真正的數據科學家所做的,你應該了解你感興趣(或正謀求職位)的領域中的基本挑戰。


這裡有不少選擇:

如果你正在謀求某個特定領域中的數據科學家職位,去關注該領域的公司如何應用數據科學。

若可行,尋找特定領域的數據集並著手處理它們。這會是你的簡歷中一個非常突出的要點。

閱讀這篇紐約時報的精彩文章(https://www.forbes.com/sites/kalevleetaru/2016/06/12/why-we-need-more-domain-experts-in-the-data-sciences/#44d76b893b50),了解為何領域知識是數據科學的主要驅動力。


數據可視化是數據科學中的一個重要方面,但許多渴望成功的數據科學家都傾向於草草了事並進入後續的模型構建階段。這種方法或許能在競賽中奏效,但絕對會在現實世界中失敗。理解你的數據是你要去做的最重要的事情,你的模型的輸出會反映這一點。

通過花時間了解數據集並嘗試不同的可視化圖表,你將能對要解決的挑戰或問題有更為深入的理解。你定會驚訝於通過這麼做獲得的洞見!逐漸明晰的模式和趨勢、一目了然的暗含規律,更棒的是,可視化是向客戶展示你的發現的最佳方式!

作為一名數據科學家,你需要有天生的好奇心。這是數據科學非常有吸引力的地方之一:你越是好奇,你便會問越多的問題,這將助你對數據有更好的理解,並助你發現之前沒有發現的問題!

練習!下次處理一個數據集的時候花更多時間在這個步驟上,你會驚訝於它給你帶來的洞見。提出問題,並請教你的經理、領域中的專家,在互聯網上尋求解決方案。若你什麼都沒找到,可以在社交媒體上繼續詢問,條條大路通羅馬!

為了助你起步,我在下邊列出了幾項你可以參閱的資源:

Comprehensive Guide to Data Visualization in R(https://www.analyticsvidhya.com/blog/2015/07/guide-data-visualization-r/)

A Comprehensive Guide to Data Exploration(強烈推薦)(https://www.analyticsvidhya.com/blog/2016/01/guide-data-exploration/)

18 Free Exploratory Data Analysis Tools For People who don"t code well

(https://www.analyticsvidhya.com/blog/2016/09/18-free-exploratory-data-analysis-tools-for-people-who-dont-code-so-well/)

9. 缺乏結構化的方法來解決問題

結構化思考對數據科學家有諸多好處:

讓你將一個問題從邏輯上分為幾個部分

讓你將問題如何發展以及如何設計你的方法的過程可視化

讓你以邏輯化和易於理解的方式幫助用戶或客戶理解你框架的流程

有更多的理由認為具有結構化的思維方式是非常有幫助的。可以想像,沒有結構化的思維方式是違反直覺的。你的工作和解決問題的方法都是隨意的,當遇到複雜的問題時,你還會忘記自己的步驟。

當你面試的時候,你將不可避免地面對一些案例研究的題目,例如一些估計問題或者謎題。在面試的壓力和時間限制之下,面試官會看你如何組織你的思路來得到你最終的結果。很多情況下,這將成為你取得工作的關鍵因素,要麼因此與這個工作失之交臂,要麼因此得到這個工作。

如何避免這個問題?

你可以通過簡單的培訓和嚴謹的方法獲得結構化的思維方式。下面列出了一些文章,可以幫助你開始這個關鍵的學習:

The Art of Structured Thinking and Analysis(https://www.analyticsvidhya.com/blog/2013/06/art-structured-thinking-analyzing/)

Tools for Improving Structured Thinking(https://www.analyticsvidhya.com/blog/2014/02/tools-structured-thinking/)

Must for Data Scientists & Analysts: Brain Training for Analytical Thinking(https://www.analyticsvidhya.com/blog/2015/07/brain-training-analytical-thinking/)

10. 試圖一次學習多個工具

我見過這個太多次了。由於每個工具都有其缺點和其獨特的功能,人們傾向於嘗試一次學習所有的工具。這是個壞主意,因為你最終掌握不了它們中的任何一個。工具只是實現數據科學的一種手段而不是最終目標!

如何避免這個問題?

選擇一個工具並堅持下去,直到你掌握它為止。如果你已經開始學習 R,那麼不要被 Python 誘惑。堅持使用 R,從入門到精通,然後嘗試將另一種工具融入你的技能組合中,你可以通過這種方法學到更多。

每個工具都有一個出色的用戶社區,你可以在遇到困難時使用。使用我們的論壇來提問,在線搜索,永不言棄。我們的目的是通過一個工具學習數據科學,而不是通過數據科學學習一個工具。

如果你仍未確定應該使用哪種工具,請查看這篇精彩的文章,其中列出了每個工具的優點和缺點(這個文章還包括 SAS,如果你對此感興趣的話可以看看)。

11. 不能堅持學習

來源:The Brooks Group

這個問題適用於所有數據科學家而不僅僅是新手,那就是我們容易分心。我們學習一段時間(比如一個月),然後我們在接下來的兩個月里停止了學習。在那之後試圖接著之前的知識點繼續學習,那將是一場噩夢。早先學過的概念基本忘光了,筆記也丟了,感覺就像我們最近幾個月完全浪費了一樣。

我個人也經歷過這一點。由於總是需要同時處理各種事情,我們可以找借口和理由不學習。但這最終是我們自己的損失。如果數據科學就像打開教科書和塞滿一切一樣容易,那麼到今天,每個人都能成為數據科學家。然而事實上它需要長期的努力和學習,這是人們容易忽視的一點,直到為時已晚。

如何避免這個問題?

為自己設定目標。繪製出時間表並貼在牆上:計劃你想要學習的方式和內容,並為自己設定截止日期。例如,當我想學習神經網路時,我給了自己幾周時間學習,然後在黑客馬拉松比賽中測試了我學到的東西。

當你決定成為一名數據科學家,你就應該準備好投入時間和精力。如果你不斷尋找不去學習的借口,這個領域可能並不適合你。

12. 遠離討論和競賽

來源:Interview Skills Consulting

這一節是對我們上述其中幾點的一個總結。渴望成功的數據科學家傾向於迴避在社區中發布他們的分析,因為他們擔心受到批評。但是如果你不收到社區的反饋,你就不會成長為數據科學家。

數據科學是一個需要討論、思考和頭腦風暴的領域。你不能坐在井底工作,你需要合作並理解其他數據科學家的觀點。同樣,人們不參加比賽是因為他們覺得自己不會贏,這顯然是一種錯誤的心態!你參加這些比賽是為了學習而不是贏,贏是額外的獎勵,而學習才是目標。

如何避免這個問題?

這很簡單,開始參加討論和比賽!沒有進入前 5%是沒什麼問題的。如果你從整個過程中學到一個新技術,那麼你就是靠自己贏得了勝利。

13. 不去提升溝通技巧

來源:Jim Harvey

溝通技巧是最容易被數據科學家低估和忽略的一項能力,我還沒有遇到一個強調這一點的課程。你可以學到所有的最新技術,掌握多種工具並製作出最好看的圖表,但如果你無法向客戶解釋你的分析結果,你不會成為一個出色的數據科學家。

不僅僅是客戶,你還將與不熟悉數據科學的團隊成員合作,IT、人力資源、財務、運營等。可以打包票的是在面試中,面試官會自始至終地觀察你的溝通表達能力。

假設你使用邏輯回歸構建了一個信用風險模型。作為一個練習,請花點時間思考一下你將如何向非技術人員解釋你是如何得出最終結論的。如果你的解釋中出現了任何一個技術辭彙,那麼你需要儘快行動起來,提高你的表達溝通能力了!

如何避免這個問題?

目前大多數數據科學家來自計算機科學背景,所以我理解這可能是一項令人生畏的技能。但要成為一名成功的數據科學家並取得職業提升,你別無選擇,只能磨練自己的個性。

我認為最有用的一點是向非技術人員解釋數據科學術語,它可以幫助我衡量我對問題闡述的清晰度。如果你在中小型公司工作,請在營銷或銷售部門找一個人並與他們一起做這個練習。從長遠來看,它將會極大地幫助你。

互聯網上有大量的免費資源可以幫助你入門數據科學,但請記住,練習是培養軟技能的關鍵。確保你今天就開始行動起來。

結束語

這絕對不是一個詳盡的清單,渴望成功的數據科學家往往還會犯很多其他的錯誤,但這些是我見過的最常犯的錯誤。如前所述,我的目標是希望幫助其他人儘可能多地避免這些提到的問題。

我很想聽聽你對本文內容的看法以及你對類似問題的個人經歷。請使用下面的評論部分告訴我們!

https://www.analyticsvidhya.com/blog/2018/07/13-common-mistakes-aspiring-fresher-data-scientists-make-how-to-avoid-them/

想知道關於數據科學更多知識?


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

和AI 大牛共進晚餐的機會來了!
微軟發布 1.25 億美國建築足跡開放數據

TAG:AI研習社 |