當前位置:
首頁 > 科技 > 這樣寫簡歷,數據科學HR主動加你為好友

這樣寫簡歷,數據科學HR主動加你為好友

全文共5380字,預計閱讀時長11分鐘

相信對於同學們來說,求職是最關心的問題之一了。對於想從事數據科學行業的人來說,如何知道應該學習哪些工具,從而擴充自身的技能包?

本文從僱主的角度討論了求職者需要具備哪些技能,以及求職者應該如何高效地展示自身的技能。值得一提的是,本篇文章的強大之處在於舉了諸多的例子來告訴大家應該如何呈現你的每一個技能,並對如何邁出第一步提供一些建議。讀完本文之後,你應該就會明白為什麼需要有意識地學習不同的方法擴充自己的數據科學技能包,並且知道從何處著手了。

僱主想要什麼

僱主在招聘的時候,是在找能夠創造價值的員工。一般而言,就是那些能夠為生意創造利潤或者機會的人。作為一個數據科學家,你能夠為僱主的生意增值的方法主要有4個:

從原始數據中提煉觀點,然後分享給大家。

例如一個數據分析師可以分析一支廣告的點擊率,從而發現這支廣告能夠引起18-21歲這個群體的興趣,而對21-25歲的群體則效果不佳——那麼企業就可以優化自己在廣告上的投入,從而提高商業價值。

構建能為客戶提供直接價值的系統。

比如Facebook的數據科學家通過優化新聞訂閱系統,可為用戶提供更優質的內容——這為Facebook帶來了直接的收益,因為更多的新聞訂閱意味著更多的廣告空間。

構建能為組織中其他成員帶來直接效益的系統。

例如可以通過寫一個腳本,把3個資料庫的數據整合到一起然後形成1個規範的數據集,供其他人來進行分析——這樣就通過節省其他人的時間來達到增值的效果。

在組織中分享你的專業知識。

例如與產品經理探討如何構建一個特徵來進行機器學習——這可以避免不切實際或功能不全的產品上線,從而提供價值。

毫無疑問,當僱主挑選求職者的時候,他們希望候選人能夠完成上面4種增值方式的一種或多種(具體滿足哪幾項條件要看公司的特點和定位)。為了向公司展示你能夠幫助他們獲得上述4個方面的價值,你還需要向他們展現你關於下列這些技能的綜合能力:

溝通能力

合作能力

技術實力

基於數據的推理能力

自我驅動能力

一個全面的數據科學技能包需要揭示你方方面面的能力,以及能方便別人來了解你——每項技能都要有詳細的記錄和解釋,這樣招聘經理就能迅速評價你的技能組合。

為什麼需要技能組合簡歷

如果你在頂級院校拿到機器學習或者相關領域的學位,那麼相對來說比較容易找到數據科學的相關工作。僱主相信你能夠為企業增值,因為你畢業的院校非常有名望,並且你的專業又跟他們的工作息息相關。如果你沒有頂級院校相關專業的學位,那麼你就要靠自己來建立信任關係了。

試想一下:僱主一下子收到200份工作申請。假設招聘經理有10小時來篩選簡歷,選擇部分簡歷進行電話面試,這就意味著平均分配給每個求職者的時間只有3分鐘。此時招聘經理並不確定你是否能為公司帶來價值,而你只有3分鐘的時間來博取信任,從而得到電話面試的機會。

數據科學工作的好處在於錄取之後你要做的工作與你之前做的項目會非常相似,比如在Lending Club分析徵信數據與分析匿名借貸數據是有很多共同之處的。

Lending Club匿名借貸數據集樣例

與HR建立信任關係的最佳方法就是證明你能夠完成他們需要你完成的事情。對於數據科學來說,這就需要通過項目來學習很多知識。這些項目越實用,招聘經理就會更加相信你會為企業增值,那麼你得到電話面試的機會就會更加大。

你的工具箱里應該有什麼

現在你已經了解為什麼要構建數據科學的工具箱了,現在需要搞清楚往裡放什麼東西。至少,你需要在Github或博客中展示一些你做的項目,而且代碼應該是可見而且注釋清晰的。對招聘經理來說,越容易找到你的這些項目,那麼他們就越容易對你技能的進行評估。每個項目應該有完備的說明文件,比如在README文件中解釋這個項目是如何建立的,以及數據中有什麼缺陷。

Github上的一個結構完備的項目

什麼樣的項目應該放進簡歷中?建議大家把各種類型的項目都放進來,特別是你想要從事的工作所涉及的相關項目。比如你想要申請與機器學習相關的職位,放一些端到端的機器學習項目就會有所幫助。另外,如果你想要申請分析崗位,數據清洗和故事描述型的項目就顯得至關重要了。

數據清洗項目

數據清洗項目可以向招聘經理展示你獲取完全不同的數據集並把它們聯繫到一起進行理解的能力,這正是數據科學家的工作,這便是你要展示的關鍵技能。這個項目需要收集雜亂無章的數據,然後整理、分析。數據清洗是數據科學家的主要工作之一,告訴大家你有這方面的經驗會對求職非常有利。

你需要在原始數據基礎上整理一份可以直接做分析的數據集,要做到這一點,你需要:

找一份混亂的數據集

可以嘗試在data.gov, /r/datasets或者 Kaggle Datasets找一點數據。

不要找那些已經清洗好的數據——應該找涉及多文件的數據集,而且數據中有瑕疵。

如果可以的話,應該能夠找到其他關聯的數據集——例如,如果你下載了一份航班數據集,你能在Google中找到相關聯的其他數據集嗎?

嘗試去找你感興趣的東西——如果發自內心喜歡的話,你就能夠做一個更加出色的項目。

通過數據來回答一個具體的問題

探索數據。

從一個有意思的角度來分析。

清洗數據

如果有多個數據文件,統一它們的結構。

確保手中的數據能夠支撐你要研究的問題。

做一些基本分析

嘗試回答你在開始提出的問題。

展示你的結果

建議大家使用Jupyter notebook (http://jupyter.org/)或 R Markdown(http://rmarkdown.rstudio.com/)來進行數據清洗和分析。

確保代碼與解決問題的邏輯能夠被理解,對其進行足夠多的注釋和評論以解釋清楚。

把項目上傳到Github。

由於數據隱私許可的緣故,你不一定可以將這些原始數據上傳到你的git存儲庫中,但是至少你可以對源數據進行描述,講清楚它的來源。

如何一步一步創建一個完整的數據清洗項目?你可以參考下面的網頁:https://www.dataquest.io/blog/data-science-portfolio-project/。

紐約城部分學校數據集的數據字典。

如果你很難找到一個好的數據集,這裡有一些建議:

US flight data(美國航班數據)

http://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time

NYC subway turnstile data(紐約地鐵檢票數據)

http://web.mta.info/developers/turnstile.html

Soccer data(足球數據)

http://www.jokecamp.com/blog/guide-to-football-and-soccer-data-and-apis/

紐約地鐵站的盛況。

如果你想找一些靈感,這裡推薦一些好的數據清洗項目:

Analyzing Twitter data(分析Twitter數據)

https://marcobonzanini.com/2015/03/09/mining-twitter-data-with-python-part-2/

Cleaning Airbnb data(清洗Airbnb數據)

http://brettromero.com/wordpress/data-science-kaggle-walkthrough-cleaning-data/

講述數據故事的項目

講述數據故事的項目可以體現出你從數據中提取觀點並說服其他人的能力,這能夠在很大程度上反映你的商業價值,因此是簡歷中的一個亮點。這個項目需要取一個數據集,然後用它來講述一個吸引人的故事。例如,通過航班數據會發現某些機場總是出現延誤,而通過調整航行線路就可以進行改進。

一個好的故事描述型項目會重視數據的可視化,讓讀者了解每一步分析沿著什麼軌跡在進行。下面是做一個好的數據故事描述項目需要遵循的步驟:

找一個有意思的數據集

可以嘗試在data.gov, /r/datasets或者 Kaggle Datasets找一些數據。

找一些與當前事件相關的數據可以吸引讀者。

嘗試去找你感興趣的東西——如果發自內心喜歡的話,你能夠做一個更加出色的項目。

從不同角度來對數據進行探索

探索數據。

在數據中發現有意思的相關關係。

一步一步作圖來展示你的發現。

寫下動人的描述性文字

從你的探索中找到最有意思的一點。

將從原始數據到發現問題這個過程寫成一個故事。

繪製一些引人注目的圖表來升華你的故事。

對於每一步你的想法進行詳細的描述,並對代碼的作用進行注釋。

對每一步得到的結果進行詳細的分析,並告訴讀者為什麼這麼做。

通過分析來教給讀者一些東西。

展示你的結果

建議使用Jupyter notebook 或 R Markdown來做數據分析。

確保代碼與解決問題的邏輯能夠被理解,對其進行足夠多的注釋和評論以解釋清楚。

把你的項目上傳到Github上。

在早期刊載的系列文章Analyzing NYC School Data我們介紹了如何按步驟用數據來講一個故事,你可以參考下面的網頁:https://www.dataquest.io/blog/data-science-portfolio-project/

紐約市根據分區的SAT( Scholastic Assessment Test 學術能力評估測試)分數分布地圖。

如果你難以找到一個好的數據集,這裡有一些好的建議:

Lending club loan data(俱樂部借貸數據)

https://www.lendingclub.com/info/download-data.action

FiveThirtyEight"s datasets(538網站數據集)

https://github.com/fivethirtyeight/data

Hacker news data(黑客新聞數據集)

https://github.com/sytelus/HackerNewsData

如果你需要一些靈感,可以參考這些優秀的故事描述型項目:

Hip-hop and Donald Trump mentions(嘻哈音樂對特朗普的提及)

http://projects.fivethirtyeight.com/clinton-trump-hip-hop-lyrics/

Analyzing NYC taxi and Uber data(分析紐約計程車和Uber的數據)

http://toddwschneider.com/posts/analyzing-1-1-billion-nyc-taxi-and-uber-trips-with-a-vengeance/

Tracking NBA player movements(追蹤NBA運動員的動作)

http://savvastjortjoglou.com/nba-play-by-play-movements.html

歌詞對2016年美國總統主要候選人的提及(來自上面第一個項目)。

端到端項目

前面提到的項目涉及了探索性數據的清洗和分析,這向招聘經理展示了你能夠從數據中提取觀點並展現給大家的能力。然而,這不代表你就可以構建一個面向客戶的系統。面向客戶的系統需要對數據進行多次讀取,並得到不同的結果,代碼的性能要求很高。一個例子就是預測股市走向的系統——它會在每天早上下載新的股市數據,然後對一整天的股市走向進行預測。

為了展示你能夠構建這些系統,就需要做一個端到端的項目。端到端的項目可以導入數據、處理數據,然後輸出結果。通常來說,這是機器學習演算法的一個結果,不過也可能是別的結果,比如符合某個標準的記錄總數。

關鍵在於要讓這個系統面對新的數據時有足夠的靈活性(比如股市的數據),並且具有高性能。讓代碼能夠很容易地構建並運行也是非常重要的。這裡是構建一個好的端到端項目的基本步驟:

找一個有意思的主題

我們不會用單個的靜態數據,所以你需要找一個主題而不是數據集。

這個主題需要有定期更新的數據,而且能夠開放獲取。

一些例子:

The weather天氣預報

https://www.wunderground.com/weather/api/d/pricing.html

Nba games NBA賽況

http://www.gregreda.com/2015/02/15/web-scraping-finding-the-api/

Flights 航班信息

http://www.faa.gov/nextgen/programs/swim/products/

Electricity pricing 電力價格

http://www.eia.gov/electricity/data.cfm

Import and parse multiple datasets導入並讀取多個數據集

下載足夠多的數據,直到你能利用它們完成項目。

讀入數據。

搞清楚你想預測什麼。

建立預測

計算需要的特徵。

分配訓練集和測試集。

進行預測。

整理代碼並存檔

把代碼分塊保存在多個文件中。

寫一個README文件來解釋如何安裝和運行項目程序。

加入內聯的文件。

讓代碼能夠在命令行中輕鬆運行。

把項目上傳到Github中。

在早期刊載的系列文章Analyzing Fannie Mae loan data中,我們介紹了如何構建一個完整的機器學習項目,你可以參考下面的網頁:https://www.dataquest.io/blog/data-science-portfolio-machine-learning/

如果你感覺很難找一個好的主題,這裡有一些建議:

Historical S&P 500 data(標準普爾500指數數據)

http://www.marketwatch.com/investing/index/spx

Streaming twitter data(推特數據流)

https://dev.twitter.com/streaming/overview

標準普爾500指數數據

如果你需要一些靈感,可以看看下面這些優秀的完整項目的文章:

Stock price prediction(股價預測)

https://github.com/wzchen/stock_market_prediction

Automatic music generation(自動生成音樂)

https://github.com/MattVitelli/GRUV

解釋性的帖子

對數據科學複雜概念的理解和解釋也是非常重要的,比如一些機器學習的演算法。招聘經理要知道你是否能夠與其他團隊成員或者客戶來講解這些複雜概念。這也是數據科學技能簡歷的重要部分。這些技能可以證明你是否在一個很深的層次理解這些概念是如何運作的,而不僅僅是能夠把概念背出來而已。如果你有深刻的理解,就可以幫助大家理解自己的工作。

要寫一個解釋性的帖子,你需要挑選一個數據科學的主題,然後寫一個博客,從根本層面一步一步解釋這個概念。關鍵在於用樸實無華的語言來解釋——如果你的語言過於學術化,招聘經理就很難判斷你是不是真的懂了這個概念。

選擇一個你理解得很好的話題是很重要的,這樣你才能夠帶領讀者了解這個概念,最後再利用這個知識做一些有趣的事情。下面是可以遵循的一些步驟:

找一個你比較了解或能夠學好的概念

像KNN這種機器學習演算法是非常好的選擇。

統計學的概念也是很好的選擇。

要確保你描述的概念有足夠多的晦澀之處來解釋。

要確保你真正理解了這個概念,而且要解釋清楚這個概念並不難。

選一個數據集或合適的場景來幫助你解釋這個概念

比方說,如果你要講述KNN的話,可以用NBA的數據集(找到相似的球員)。

給你的文章寫一個梗概

要假設讀者對你要解釋的主題一點也不了解。

把概念分為小的部分來講解。

以KNN為例,可以分為以下的部分:

利用相似性來預測

如何度量相似性

歐氏距離

當k=1時如何運作

當k>1時如何運作

完成你的文章

用清晰簡潔的語言來描述。

在可能的時候,隨時利用你引入的場景來解釋問題。

讓非專業人士來讀你的文章,看看他們有什麼反應。

分享你的文章

最好放在個人博客中。

如果沒有博客的話,上傳到Github。

如果你覺得很難找到一個好的概念,下面是一些例子:

k均值聚類

https://en.wikipedia.org/wiki/K-means_clustering

矩陣的乘法

https://en.wikipedia.org/wiki/Matrix_multiplication

卡方檢驗

https://en.wikipedia.org/wiki/Chi-squared_test

如果你需要一些靈感,可以看看下面這些優秀的例子:

線性回歸

http://eli.thegreenplace.net/2016/linear-regression/

自然語言處理

https://www.dataquest.io/blog/natural-language-processing-with-python/

樸素貝葉斯

https://alexn.org/blog/2012/02/09/howto-build-naive-bayes-classifier.html

KNN

https://www.dataquest.io/blog/k-nearest-neighbors-in-python/

其他可加寫進簡歷的內容

儘管放一些項目在博客或者Github上至關重要,其他的元素也是有幫助的,比如在Quora上回答別人的問題、演講和數據競賽的成績。這些對於招聘經理來說可能不是首要考慮的因素,但這些也是一個證明自己能力的好方法,有時候能夠讓你脫穎而出。

演講

演講可以幫助你教別人一些東西,這樣可以讓招聘經理知道你能深入理解一個主題並教授給大家,同時招聘經理也知道你擅長溝通和展示。儘管這些技巧與其他的技能可能有重疊的地方,但是依然很有幫助。

通常能夠提供演講機會的地方是某個具體領域的Meetup(https://www.meetup.com/),在這裡可以找到很多像「Python」或「利用D3進行數據可視化」的專題。

要做一個好的演講,可以遵循下面的步驟:

找一個你正在研究的有意思的項目或主題

一個好方法是在你的技能項目或博客中直接選一個出來。

不管你挑什麼話題,需要符合聚會的主題。

把項目做成幻燈片

你需要把項目分為一張又一張的幻燈片。

每張幻燈片中盡量不要放太多文字。

先對演講進行幾次演練

正式演講吧!

把你的幻燈片放到Github或博客中

如果你需要一些靈感,可以參考下面的例子:

計算統計學

https://www.youtube.com/watch?v=VR52vSbHBAk

Scikit-learn vs Spark:機器學習流水線上的比較

https://www.youtube.com/watch?v=v7EX5aYE0xM

分析NHL比賽中的懲罰

https://www.youtube.com/watch?v=uW02_GnQKeM

數據科學競賽

數據科學競賽,就是要訓練數據找到最準確的機器學習模型,這些比賽是學習的好機會。從招聘經理的角度來說,如果在比賽中表現非常好,說明你技能達標,如果肯努力說明你有自我驅動性,如果組隊參加說明你擅長合作。

數據科學競賽的平台包括Kaggle 和DrivenData等。

要參加數據科學競賽,你只需要註冊一下就可以直接開始了!你可以在這裡找到好的競賽(https://www.kaggle.com/c/titanic),或者先看一下相關的教程(https://www.dataquest.io/course/kaggle-competitions)。

Kaggle比賽的排行榜

總結

現在你應該掌握在簡歷中展示的技巧了,也知道如何去學習這些內容的技巧。是時候開始了!

留言 點贊 發個朋友圈

我們一起分享AI學習與發展的乾貨

編譯組: 黃天元、韋振琛

相關鏈接:

https://www.dataquest.io/blog/build-a-data-science-portfolio/

如需轉載,請後台留言,遵守轉載規範


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

今日芯聲 : 馬雲再出金言:理想比錢重要!網友看後都哭了
今日芯聲:siri用來控制汽車的她還會那麼「傻」么

TAG:讀芯術 |