解析:躋身數據科學領域的五條職業規劃道路
本文長度為4970字,建議閱讀6分鐘
本文為你提供如何切實參與到數據科學和/或大數據職業道路的建議。
最近有許多人聯繫我(大部分都是通過領英)尋求著手數據科學和/或大數據的建議。這些人普遍對切入這個「領域」感興趣,並且需要些關於如何切入方面的指導。
然而,我懷著極大的尊重來說這個話,這些請求的中心含義體現出請求者對自己所要求的事情其實並不理解。是的,不論在學習什麼,每個人都需要從某個地方開始。我不會再一個個去回答這些相似的問題,這篇文章會列出和數據科學和/或大數據職業道路相關的一些基本的概念,並且,很希望提供一點如何切實參與到這個複雜領域的建議。
預備閱讀
在我們繼續深入之前,讀一讀這些文章。我是說真的,讀,這些,文章。
解析數據科學謎題
(http://www.kdnuggets.com/2016/03/data-science-puzzle-explained.html)
再析數據科學謎題
(http://www.kdnuggets.com/2017/01/data-science-puzzle-revisited.html)
解析數據科學和大數據
(http://www.kdnuggets.com/2016/11/big-data-data-science-explained.html)
預測性科學 VS 數據科學
(http://www.kdnuggets.com/2016/11/predictive-science-vs-data-science.html)
第一篇文章概覽數據科學中一些最主要的概念,而第二篇文章則是今年早些時候對這些概念的更新。第三篇文章更深入地解析了數據科學和大數據之中的概念。最後一篇文章對比了一些其他術語,對「數據科學」這個術語的複雜性和微妙性進行了簡短的探討。
我將眾多的職業可能性拆分成五條能夠輕鬆掌控的道路。雖然可能有很多人強烈反對這種角色劃分並且因此感到恐慌,但它確實對技能和職業責任進行了高度的分類。因此,我相信接下來的內容能有效地幫助新來者在這個專業領域中所存在的令人混淆和迷惑的無數機會之中確認方向。
數據管理專員
這本質上是一個IT職業,類似於資料庫管理員。數據管理專員被認為和管理數據以及支持數據管理的設施有關。這個職位和數據分析只有很少關聯,也類似Python和R語言的使用也不是很必要。可能會用到SQL語言,以及和Hadoop相關的查詢語言,比如Hive和Pig。
關鍵技術以及需要關注的技能:
Apache Hadoop和它的生態系統
Apache Spark和它的生態系統
SQL以及關係資料庫
NoSQL資料庫
延伸閱讀:
解析大數據關鍵術語
(http://www.kdnuggets.com/2016/08/big-data-key-terms-explained.html)
解析資料庫關鍵術
(http://www.kdnuggets.com/2016/07/database-key-terms-explained.html)
解析Hadoop關鍵術語
(http://www.kdnuggets.com/2016/05/hadoop-key-terms-explained.html)
解析Apache Spark關鍵術語
(http://www.kdnuggets.com/2016/06/spark-key-terms-explained.html)
解析雲計算關鍵術語
(http://www.kdnuggets.com/2016/06/cloud-computing-key-terms-explained.html)
七步理解NoSQL資料庫(http://www.kdnuggets.com/2016/07/seven-steps-understanding-nosql-databases.html)
七步掌握數據科學所需的SQL
(http://www.kdnuggets.com/2016/06/seven-steps-mastering-sql-data-science.html)
數據工程師
這是一條非分析大數據職業道路。記得在剛剛的職業道路之中提到的數據設施嗎?是的,它們需要被設計和執行,數據工程師就承擔了這部分工作。如果說數據管理專員是汽車修理師,那麼數據工程師就是汽車工程師。不過不要搞錯了,這兩個角色都對你的汽車的行駛和持續工作至關重要,對你從A點駕駛到B點同樣重要。
說句實話,數據工程師和數據管理專員所需要的技術和技能是相似的,然而,他們各自在不同的層次理解和使用同樣的概念。我不會重複之前一種職業中所提到的那些信息(所有這些信息對數據工程師都很重要),但我會專門給數據工程師補充延伸閱讀的清單。
延伸閱讀:
頂級NoSQL資料庫引擎
(http://www.kdnuggets.com/2016/06/top-nosql-database-engines.html)
頂級大數據處理框架
(http://www.kdnuggets.com/2016/03/top-big-data-processing-frameworks.html)
頂級Spark系統環境項
(http://www.kdnuggets.com/2016/03/top-spark-ecosystem-projects.html)
Hadoop和大數據:對於前六大問題的回答
(http://www.kdnuggets.com/2016/01/hadoop-and-big-data-questions.html)
為什麼數據科學家和數據工程師需要理解雲中的虛擬化
(http://www.kdnuggets.com/2017/01/data-scientist-engineer-understand-virtualization-cloud.html)
商業分析師
在本文里,商業分析師指的是與數據分析和數據呈現緊密相關的角色。包括報告,儀錶板和任何被稱為「商業智能」的東西。 這種角色通常要求與關係資料庫和非關係資料庫以及大數據框架的交互(或查詢)。
雖然前兩種角色與設計基礎設施來管理數據以及實際管理數據有關,但商業分析師主要關注從那些或多或少存在的數據中提取信息。 這與以下兩個角色(機器學習研究者/從業者和以數據為導向的專業人員)形成對比,兩者都側重於從數據或數據以外已知的一些表面信息中獲得洞察力。 因此,商業分析師需要在所呈現的這些角色中具有獨特的技能。
關鍵技術以及需要關注的技能:
SQL和關係型資料庫
NoSQL資料庫
經常會用到商業報告和儀錶盤封裝技術
報告從本質來講是沒有固定模式的,快速掌握工具的使用是關鍵
數據倉庫
延伸閱讀:
2016年人工智慧的10大趨勢
(http://www.kdnuggets.com/2015/12/10-business-intelligence-trends-2016.html)
嵌入式分析:人工智慧的未來
(http://www.kdnuggets.com/2016/09/embedded-analytics-future-business-intelligence.html)
自建還是購買–分析錶盤(可視化分析)
(http://www.kdnuggets.com/2016/07/build-buy-analytics-dashboards.html)
機器學習研究員/從業者
機器學習研究人員和從業者指的是那些製作和使用預測和相關工具進行數據利用的人。 機器學習演算法允許以較高的速度應用統計分析,並且那些操作這些演算法的人不滿足於讓數據以其當前形式呈現出來。 數據詢問是機器學習愛好者的工作方式,但是具有足夠的統計理解才能知道何時推進的足夠遠,以及什麼時候提供的答案不可信。
統計和編程是機器學習研究者和實踐者最大的財富。
關鍵技術以及需要關注的技能:
統計學!
代數與演算(從業者的中級水平,研究員的高級水平)
編程技能:Python,C ++或其他一些通用語言
學習理論(從業者的中級,研究員的高級水平)
理解機器學習演算法的內部工作原理(演算法越多越好,理解越深越好!)
TAG:數據分析 |
※黃衛偉:中國管理學領域的道路探索
※論硬筆書法和其他藝術領域專業與業餘的區別
※我國科學家開發生命科學領域專業資料庫
※奠定計算機科學領域的十大研究論文
※科學史領域的不朽名篇:《牛頓綜合的意義》
※「十二五」國家科技支撐計劃農業領域「黃淮區小麥抗逆增產技術研究集成與示範」項目順 ……
※互聯網項目中關於大數據分析之路的學習和拓展領域
※地球科學領域首個大數據刊物《地球大數據》創刊
※計算神經科學:科學界最令人激動的一個領域,你知道嗎
※婦產科學領域發展態勢分析
※伏泰科技談數據管理在環衛領域的實踐探索
※科創板四大核心領域優質項目路演推薦,助「專業玩家「錨定估值
※數據科學領域的20位傑出女性
※一周硬科技領域投融資匯總,人工智慧領域遙遙領先
※走進非人類領域的經濟學
※重磅:七位經濟管理領域學者獲得資助項目!
※區塊鏈的應用領域解析
※專註醫學人工智慧、數字病理領域 「知識視覺科技」完成千萬級融資
※解讀:醫療健康領域的區塊鏈技術
※區塊鏈金融科技年會:解讀區塊鏈技術在金融科技領域的應用