當前位置:
首頁 > 最新 > 《數據科學家訪談錄》讀書筆記

《數據科學家訪談錄》讀書筆記

《數據科學家訪談錄》

【美】Carl Shan(單研) 、William Chen(陳子蔚) 、Henry Wang(汪強明)

Max Song(宋邁思)著

點擊封面購買紙書

一、本書內容的介紹

《數據科學家訪談錄》是一本對當前全球最知名的25位數據科學家的深度採訪,然後匯聚成冊的訪談錄,讀者可以從中學習到這25位數據科學領域的大師的個人經歷及其成長過程,以及在各自的職業生涯所面臨的各種選項時所做出的選擇,具有很高的參考價值。

這25位數據科學家大都擁有國外名校的博士學歷文憑,但是大都不想繼續從事科研工作,而是希望能夠將自己的科學研究成果應用到現實生活當中,從而讓人們的生活變得更加美好,因此他們大都從學術界走向了工業界,這些大師從學術領域向工業領域轉變的經歷和過程非常值得學習和參考。雖然他們的專業研究領域各不相同,但數據科學這個研究方向把他們聯繫到一起,共同推動了數據科學領域的發展。他們各自所擁有的領域知識以及計算機專業技能,幫助他們在各自的研究應用領域獲得豐碩成果,這也從另外一個方面驗證了數據科學其實是一門理論與實踐相結合的科學。

此外,本書當中這些大師們給出的方法論和經驗也同樣非常值得讀者學習和思考。比如去大公司還是小公司的問題,Hillary認為應該是去那些能讓你學到很多東西並且快速成長的公司。再比如做事情是從簡單的開始還是複雜的做起,DJ認為做事情要從簡單的開始做起,然後慢慢開始做複雜而又艱難的事情。這樣子做事情就會有一個好的開始,進而一步一步的完成。

總的來說,《數據科學家訪談錄》是一本經得起時間考驗的好書,處於各種不同階段的人群都可以從本書當中獲取知識和經驗,而且每次閱讀都會有新的認識和收穫。

二、數據科學的組成

1、數學相關的基礎知識(85%): 包含了線性代數、概率論、微積分、統計學(工具)、機器學習(演算法)等內容。

2、編程基礎技能(15%): 1)SQL/NoSQL 2)Hadoop/Spark 3)R 4)主流編程語言,比如:C++/Java 5)主流腳本語言,比如:Python 6)Excel

三、數據科學的步驟

1、 獲取數據 通過資料庫、web介面、網路爬蟲等獲取網路上的數據(結構化和非結構化數據)。

2、 清洗數據 通過數值化、降維等手段去除數據噪音,實現數據的清洗。

3、 探索數據 在數據清洗工作的基礎上,通過變數分析、處理缺失值、處理離群值等手段對數據進行初步的探索。

4、 數據建模 在探索數據工作的基礎上,通過數學等工具建立合適的數據模型。有人認為好的數據模型是數據科學當中最核心的步驟,列出的優先順序順序是:高質量的數據>數據規模>好的數據模型。

5、 解釋數據 數據可視化(D3、highcharts),通過可視化的web界面把數據和結論表達出來。

四、數據科學與大數據、人工智慧的關係

大數據是一個內涵豐富的辭彙,包含了技術、商業等因素的描繪,而數據科學是作為一門實實在在的應用科學而存在,是實現大數據應用的基礎應用型學科,人工智慧則是在數據科學的基礎之上,向著讓機器或程序有著類似人類智能的方向前進。因此數據科學是實現大數據的工具,是實現人工智慧的基礎。

數據科學也是一門理論與實踐相結合的學科,並且有著與其它領域相互結合、共同發展的趨勢。隨著數據科學問題的規模越來越大,現代科研和應用更加強調擁有多領域、多學科背景的人進行團隊合作,因此數據科學也有著軟體工程的特徵。

人工智慧的基礎是大數據(數據科學),大數據(數據科學)的基礎是雲計算。當前大數據技術已經與人工智慧技術緊密結合,讓各種程序和系統更加智能,從而進一步影響我們的生活。

五、推薦資源

延伸推薦


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 非同步社區 的精彩文章:

初識Scrapy,在充滿爬蟲的世界裡做一個好公民

TAG:非同步社區 |