當前位置:
首頁 > 最新 > 數據科學 Kaggle入門最權威指南

數據科學 Kaggle入門最權威指南

這次醞釀了很久想給大家講一些關於Kaggle那點兒事,幫助對數據科學(Data Science)有興趣的同學們更好的了解這個平台,最好能親身參與進來,體會一下學校所學的東西和想要解決一個實際的問題所需要的能力的差距。雖然不是Data Science出身,但本著嚴謹的科研態度,在進行了大量的調研、學習以及對相關經驗者的訪談之後,決定寫下這篇專欄,一方面讓那些對數據科學(Data Science)有興趣的求職者和申請者能真正了解這個項目,另一方面也讓那些有想法參與進來的人get到正確的打開方式。

註:本文只允許ApplySquare(申請方)的相關媒體轉載,其他不給予轉載權。

什麼是Kaggle?

Kaggle成立於2010年,是一個進行數據發掘和預測競賽的在線平台。從公司的角度來講,可以提供一些數據,進而提出一個實際需要解決的問題;從參賽者的角度來講,他們將組隊參與項目,針對其中一個問題提出解決方案,最終由公司選出的最佳方案可以獲得5K-10K美金的獎金。

除此之外,Kaggle官方每年還會舉辦一次大規模的競賽,獎金高達一百萬美金,吸引了廣大的數據科學愛好者參與其中。從某種角度來講,大家可以把它理解為一個眾包平台,類似國內的豬八戒。但是不同於傳統的低層次勞動力需求,Kaggle一直致力於解決業界難題,因此也創造了一種全新的勞動力市場——不再以學歷和工作經驗作為唯一的人才評判標準,而是著眼於個人技能,為頂尖人才和公司之間搭建了一座橋樑。

Kaggle的競賽模式是什麼樣的?

Kaggle上的競賽有各種分類,例如獎金極高競爭激烈的的 「Featured」,相對平民化的 「Research」等等。但他們整體的項目模式是一樣的,就是通過出題方給予的訓練集建立模型,再利用測試集算出結果用來評比。同時,每個進行中的競賽項目都會顯示剩餘時間、參與的隊伍數量以及獎金金額,並且還會實時更新選手排位。在截止日期之前,所有隊伍都可以自由加入競賽,或者對已經提交的方案進行完善,因此排名也會不斷變動,不到最後一刻誰都不知道花落誰家。

由於這類問題並沒有標準答案,只有無限逼近最優解,所以這樣的模式可以激勵參與者提出更好的方案,甚至推動整個行業的發展。

Kaggle競賽另一個有趣的地方在於每個人都有自己的Profile,上面會顯示所有自己參與過的項目、活躍度、實時排位、歷史最佳排位等,不僅看上去非常有成就感,更能在求職和申請的時候起到Certificate的作用。

Kaggle參賽者的背景大多是什麼樣的?

從比賽目標出發,參賽者主要分為兩種,一種是以獎金和排名為目的,包括靠獎金為生的職業Kaggler;另外一種就是以提升相關skills和背景為目的業餘愛好者甚至在校學生了。

從背景來看,前者的來源主要有豐富data science、data mining、machine learning工作經驗的業內人士,或者是實力強勁的民間「技術宅」;而後者則往往是一些有一定技術能力,但經驗欠缺,從中進行學習和鍛煉的「長江後浪」。

零基礎的人如何上手Kaggle?

理論上來講,Kaggle歡迎任何數據科學的愛好者,不過實際上,要想真的參與其中,還是有一定門檻的。一般來講,參賽者最好具有統計、計算機或數學相關背景,有一定的coding技能,對機器學習和深度學習有基本的了解。Kaggle任務雖然不限制編程語言,但絕大多數隊伍會選用Python和R,所以你應該至少熟悉其中一種。此外,對於那些對成績有追求的人,Feature Engineering也是必不可少的。但對於Data Science的入門者來說,這樣的要求實在是有些過分了。

當然,如果你從未獨立做過一個項目,還是要從練習賽開始熟悉。因為競賽模式中的任務是公司懸賞發布的實際案例,並沒有標準的答案;而練習賽不僅項目難度低,而且是有官方給出的參考方案的,大家可以用來對比改善自己的測試結果,從中進行提高。所以呢,建議感興趣的同學先去獨立做一下101和playground的訓練賽,至於做多少個案例才能上道,就要看個人素質啦。這裡為大家推薦幾篇非常好的文章,裡面手把手的教了大家入門級的三個經典練習項目,供大家學習。

1. Titanic(泰坦尼克之災)

中文教程: 邏輯回歸應用之Kaggle泰坦尼克之災

英文教程:An Interactive Data Science Tutorial

2. House Prices: Advanced Regression Techniques(房價預測)

中文教程:Kaggle競賽 — 2017年房價預測

英文教程:How to get to TOP 25% with Simple Model using sklearn

3. Digital Recognition(數字識別)

中文教程:大數據競賽平台—Kaggle 入門

英文教程:Interactive Intro to Dimensionality Reduction


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 申請方 的精彩文章:

TAG:申請方 |