IBM首席數據官:高效的數據科學團隊如何建設
作者:Seth Dobrin、 IBM Analytics
編譯:周佳玉、Shan LIU、魏子敏
數據科學是一項團隊活動。這一點不僅基於我們IBM內部的工作經驗,對於那些經常向我們諮詢應如何在自己的組織內組建數據科學團隊的企業客戶也同樣適用。
然而在此之前要記住,對於一個數據科學項目,其所需的各種技能都是非常罕見和獨特的。因此我們需要確保團隊中的每個成員都能專註於他們自己最擅長的事情。
數據科學項目的角色分配、以及每個角色所需的技能如下表所示:
雖然每個角色分配都是明確的,但每個團隊成員都必須具備T形技能——這意味著他們不僅需要深入自己的角色,而且還要粗略理解相鄰角色。
下面讓我們更深入地探索上述圖表中的四個角色。
產品所有者
產品所有者是所負責產品的主題專家,他們對特定的業務部門及其相應關心的問題有深入的了解。在一些情況下,產品所有者將主要負責業務方面,他們也定期與數據科學團隊合作以解決特定的數據科學等一系列問題,然後再回到更宏觀的主題專家角色上去。
事實上,回到原始角色是數據科學團隊的一個好處。這意味著產品所有者作為模型的最終用戶,可以提供具體的反饋和請求。這也意味著產品所有者可以從業務部門本身提倡數據科學。
產品所有者主要負責:
定義業務問題並與數據科學家合作來定義工作假設
根據需要幫助查找以及管理數據
代理和解決數據質量問題
數據工程師
數據工程師是將所有數據移動到重心並通過服務和消息隊列連接數據的嚮導。他們還通過構建API以使數據可用於企業,他們負責將數據設計到最適合團隊需求的平台上。作為一位數據工程師,需要具備下面三大技能:
熟練掌握以下至少三種語言:Python,Scala,Java,Ruby,SQL
熟練使用和構建REST API
能熟練的將預測和規範模型整合到應用程序和流程中
數據科學家
數據科學家往往指的是兩個不同的角色之一:機器學習工程師和決策優化工程師。由於市場條件導致「數據科學家」成為相當熱門的角色,所以做出這種區分可以幫助消除理解上的困惑。
機器學習工程師
機器學習工程師需要建立機器學習模型,也即識別每個模型中使用的重要數據元素及其特徵。他們確定要使用哪種類型的模型,並測試這些模型的準確性和精度;他們還負責模型的長期監測和維護。他們需要這三大技能:
應用概率和統計的培訓和經驗
具有數據建模和評估經驗,對有監督和無監督機器學習有深入的理解
能在以下至少兩種語言中進行編程:Python,R,Scala,Julia或Java,其中偏好Python專業知識
決策優化工程師
決策優化工程的技能和經驗與機器學習工程師重疊,但也有一些重要的差異。決策優化工程師需要這三大技能:
具備通過應用數學建模和/或約束規劃的經驗解決一系列行業問題的能力
熟練的Python編程技巧,具備將預測模型應用於決策優化問題的能力
具有建立蒙特卡羅模擬/優化進行假設情景分析的經驗
數據記者
接下來是數據記者,他們在推動數據的背景下呈現模型輸出,並且可以清楚地表達業務問題。成為一名數據記者,我們尋找這三大技能:
具備Python、Java或Scala編碼技能
具備在業務問題的背景下整合數據、預測模型和預定性模型輸出的相關經驗
熟練掌握數據解析、抓取和糾錯
如果你能把一個擁有這些基本技能的團隊聚集在一起,並且能確保他們相互協作、保持對彼此工作的深刻理解,那麼你定將發現你的洞察力和理解能力,可以成為你領導任何組織的超強動力。
但是如果沒有他們,你將會迷失方向。
Seth Dobrin是IBM Analytics的副總裁兼首席數據官。
https://venturebeat.com/2017/12/22/how-ibm-builds-an-effective-data-science-team/amp/?from=singlemessage&isappinstalled=0
志願者介紹
回復「志願者」加入我們


※看了10集《老友記》就被系統推薦了10季,Hulu如何用深度學習避免視頻推薦的過擬合
TAG:大數據文摘 |