「我的第一次數據科學家實習經歷」

知識 05-14

AI 研習社按：「數據科學家」可謂是近幾年的一大熱門職位，很多學習了數學、信息、計算機相關專業的同學都對它表示躍躍欲試。Admond Lee 學習了物理專業，曾參加瑞典歐洲核子研究中心（CERN）的物理夏令營，而今他也走上了數據科學家的道路。近期他撰文回憶了自己的數據科學家實習經歷，AI 研習社編譯如下。

Admond Lee：

在寫本文時，正是我在 Quantum Invention 做數據科學家實習生的倒數第二天。此刻，我坐在筆記本電腦屏幕前，再回想起過去幾個月的學習歷程，非常艱辛但充滿成就感。

旅程總有終點，但問題長存

––––你學到了什麼？這就是你想要的嗎？

作為一個搞物理的人，請原諒我總是問正確的問題，以適當的回答來尋求真理。

事實上，作為一個數據科學家，提出正確的問題毫無疑問是重要的（後面將會解釋…）

給你們大致介紹下，這篇文章主要分為三個部分（實習前、實習期間和實習後）來講述我的實習旅程的經歷。根據你的目前的學習階段可跳轉到任意部分。讓旅程開始吧！

謝謝您！當我在 Medium 上發表的第一篇文章時，我情緒高漲。因為其受到了非常多人的大力支持，甚至因其特色而發表在了 towardsdatascience.com 。這真的成為我繼續與更多的人分享我的學習經驗的動力，僅僅是因為學習樂趣，幫助他人變得更好！

實習之前

我仍然清楚地記得，在 2017 年 11 月我的期末考試結束後，我開始閱讀課本，《統計機器學習入門—R語言的應用》。這是我在基本和統計層面上第一次接觸到機器學習。

一旦我掌握了這些概念，我就開始學習一門流行的課程，那就是吳恩達在慕課上教的《機器學習》課程。一開始課程內容並沒有大家預想的那麼容易，但是吳恩達卻一直能抓住大家的注意力，儘管許多概念都很複雜，但都能被他簡化以便於理解消化，似乎沒有其他人能做到。我想這就是我真正學會機器學習的原因。我敢打賭，試一試你就會知道機器學習這個熱門辭彙並不像聽起來那麼複雜。

同時，我還學習了人工智慧的另一個重點領域––––深度學習。回顧一下，這個看似外來用語其究竟是什麼含義，請看神經網路的解釋以及神經網路可用來計算任何函數。好了，如果讀完了推薦的文章之後，還像我一樣，總是需要某種可視化以了解事物是如何工作的，那就請訪問http://u6.gg/dwYHY，按「播放」按鈕，坐下來，放鬆，觀察神經網路是如何用來做分類和回歸的。很酷，不是嗎？

所有的閱讀、學習和作業都為我 2017 年 12 月的實習做好了準備。

實習期間

我申請的 Quantum Invention 公司致力於利用其集成的移動性應用套件、企業物流與分析平台向消費者、企業和政府提供移動性情報。而我是第一個加入 R&D 和分析團隊的數據科學家實習生。

在接下來的幾天里，我認識了許多同事，了解到各種行業術語，以及正在進行的令人興奮的項目。實習過程中我最喜歡的一點是信任和自由，作為實習生我可以自由選擇我感興趣的項目並全力以赴！

令我驚訝的是，我意識到我是第一個開始這個項目的人，因為以前沒有人這麼做過。當沒有人做過某事時，就需要研究，這是我感激的地方，儘管帶有不確定性和困難。為什麼？僅僅因為我有機會體驗從零開始進行數據科學工作的整個流程（如果不是全部）。

請允許我列出我所經歷過的這些工作流程，因為這些建立了我的數據科學基礎。我希望你在某一天發現它有用。

1.了解商業問題

所選擇的項目是短期高速公路行駛時間預測。看起來似乎非常簡單，然而就像我說的，問正確的問題對於數據科學家來說是非常重要的。在項目最終確定之前，提出了很多問題來真正理解真實的商業問題，包括數據來源、項目的最終目標（甚至在我離開之後）等。從本質上講，我們的目標是預測未來幾分鐘在新加坡高速公路的行駛時間且要比當前的基線估計更準確。

2.採集數據

在新項目的激勵下，我開始從資料庫和同事那裡收集數據（基本上是在辦公室四處走動，詢問數據源的問題）。收集正確的數據類似於從各種不同的數據網站中提取數據然後進行數據預處理的情況。這是非常重要的，它能影響你在後期構建的模型的準確性。

3.數據預處理

真實世界的數據是髒的。我們不能指望數據像 Kaggle 提供的那樣格式整潔且沒有雜訊。因此，數據預處理（其他人可能稱之為數據整理或數據清理）是非常重要的，以至於我不得不多次強調它有的重要性。它是最重要的一個階段，因為它可以佔據整個工作流的 40% 到 70% 的時間，只是為了清理數據以供你的模型使用。

我喜歡數據科學的一件事是你必須對你自己誠實。當你不知道你還不知道什麼的時候，你就會開始覺得數據預處理已經足夠乾淨，並準備把它用在你的模型上，此時就存在著用錯誤數據試圖建立正確模型的風險。

換句話說，總是不斷質疑自己，用你擁有的領域知識判斷數據在技術上是否是正確的，請嚴格而仔細地檢驗數據，以檢查在整個數據集中任何其他的離群值，缺失或不一致的數據。

有一次，我餵給模型的數據是錯誤的，只是因為在預處理步驟中的一個簡單錯誤，在犯了這個錯誤後我特別小心。

4.建立模型

經過研究，我提出了支持向量回歸（SVR）、多層感知器（MLP）、長短期記憶網路（LSTM）和狀態空間神經網路（SSNN）四種模型並用在我的項目中。此處不詳細展開，你可以在許多網站上找到每個模型的詳細解釋的資料。

對於一個像我這種仍在學習慕客課程以及教科書的人看來，從頭開始構建各種不同的模型是一個陡峭的學習路線。幸運的是，Scikit-learn 和 Keras（採用 Tensorflow 作為後端）算是我的一個救星，因為它們很容易讓你快速學習模型原型且是採用 Python 實現的。此外，我還學會了如何優化模型及使用各種各樣的技術微調每個模型的超參數。

5.模型的評價

為了評估每個模型的性能，我主要使用以下的一些度量：

1. 平均絕對誤差（MAE）

2. 均方誤差（MSE）

3. 決定係數（R2）

在這個階段，上述步驟 3 - 5 被重複（互換）直到確定最佳模型能夠超過基線模型的估計精度。

實習之後

嗯，實習已經印證加強了我對數據科學的熱情，我很感激我的實習工作，其確實為我將來工作帶來了一些動力。在研究和開發階段，與不同的利益相關者交談所需的溝通技巧、用數據來解決商業問題的好奇心和熱情等等方面都提高了我對此領域的興趣。

數據科學行業仍然很年輕，它的工作描述對我們這樣的求職者來說可能顯得模糊不清。不具備所有需要的技能是非常正常的，因為大多數工作描述是理想化的，以符合他們的最佳期望。

當有疑問時，只要從慕課、書籍和文章（我現在還在做的）中學習基本原理，然後通過你自己的個人項目或實習來運用你所學到的東西。要有耐心。學習之旅需要時間。津津有味地去開始你的學習旅程吧。因為…

旅程總有終點，但問題長存

–––– 你學到了什麼？這就是你想要的嗎？

謝謝大家的閱讀。這篇文章簡短地介紹了一些關於數據科學的流程以及我的學習之旅。如果你覺得這個有用，可以自由分享給別人，或者推薦這篇文章！=）如果你有任何問題，只需添加我，讓我們在 LinkedIn上聊天或訪問我的個人網站（http://admond1994.strikingly.com/ ）了解更多信息。

從Python入門-如何成為AI工程師

BAT資深演算法工程師獨家研發課程

最貼近生活與工作的好玩實操項目

班級管理助學搭配專業的助教答疑

學以致用拿offer，學完即推薦就業

新人福利

關注 AI 研習社（okweiwu），回復1領取

【超過 1000G 神經網路 / AI / 大數據資料】

看矽谷數據工程師如何使用TensorFlow構建、訓練和改進RNN

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！