當前位置:
首頁 > 知識 > 數據科學的3個階段

數據科學的3個階段

公告:明天Python部落新課程《機器學習入門-分類》即將發布,敬請期待。

各地的企業正在競相從他們的數據中提取有意義的見解。許多組織都在研究數據科學團隊和攻擊問題(有些人比其他人更成功)。然而,確定組織內當前的數據科學階段是其中的挑戰之一。下一步是確定數據科學的預期階段。

以下是真正成熟的數據科學的3個階段。

1. 儀錶盤(Dashboards)

數據科學的初始階段就是dashboards。這是關於回答「多少?」和「發生了什麼」,通過查看歷史數據所得出的報告。如果做的好的話,它甚至可以幫助組織報告出為什麼會發生。許多組織將這一階段稱為商業智能。

Dashboard階段對於組織來說還是很昂貴的,耗費的人力、時間和資金還是相當大的,通常它涉及的投資有:

1.數據倉庫或者其他存儲環境,用於數據存儲以便於報告

2.ETL (提取轉換負載) 工具,用於操縱、合併和移動數據到數據倉庫

3.報告工具 ,用於展示結果並允許用戶「挖掘」數據

以下是傳統儀錶盤可展示的常見問題:

  1. 每個地區有多少用戶?

  2. 黑色星期五的銷售額是多少?

  3. 上個月有多少人去醫院看病?

正如你所見, 只有這個階段可以獲取到大量的數據價值。企業要去了解歷史業績這個點非常重要,但這個階段是大部分企業停止的階段。

2. 機器學習(Machine Learning)

數據科學的真正「科學」直到第二階段的機器學習才開始。它專註於不能直觀獲取數據的估計,也就是可以根據現有數據分析隱藏數據。這可能是用戶喜歡的某個電影,公司明天的股價,或特定廣告活動的因果影響。機器學慣用第一階段的數據,並應用統計學或其他方法來分析出更多的見解內容。

目前機器學習思考如下問題:

  1. 當客戶出門了,他/她會去五金店消費嗎?

  2. 當信用卡購買時,收費是欺詐的概率是多少?

  3. 預計新用戶會存在多久?

  4. 如果颶風來臨,用戶會購買什麼? (蛋撻?很有可能哦)

注意起因和結果之間的關係。機器學習的價值內容是來自於估計潛在事物的因果。這個階段充滿了術語如:機器學習,數據挖掘和數據建模等術語。機器學習階段是在分析潛在可能發生的事情,是未來的展望。

3. 執行(Actions)

決定執行的操作是第三個階段也是最後一個階段。它會試圖利用機器學習的結果來採取適當的操作執行。以下操作可能適用於上述預測分析的部分事件。

  1. 當用戶出門時,向附近五金店發送一個帶有優惠券的「歡迎來到附近」的信息包。

  2. 拒絕欺詐消費或停用信用卡。

  3. 如果預測新用戶的預期存在時間非常高,可以提供一些特殊優惠或待遇,以便於讓新客戶成為永久客戶。

  4. W當颶風來臨時,將蛋撻放在商店最前面。

正如你所見,第二階段良好的機器學習可以導致第三階段做出明確的選擇。

結論

要想在數據科學方面成功,都必須要達到第三個階段。每個階段都建立在前一階段之上。如果你已經努力完成第一階段,為什麼不繼續去發展第二階段和第三階段呢?


英文原文:http://101.datascience.community/2017/08/09/the-3-stages-of-data-science/譯者:IC

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Python部落 的精彩文章:

使用Cython來保護Python代碼庫
看NASA的編碼哲學
每月好書:Python與機器學習實戰
Python到底怎麼讀?
一個Python包,學會所有基礎演算法

TAG:Python部落 |

您可能感興趣

數據科學領域的20位傑出女性
2018年新技術:大數據時代的神經科學
數據科學家必用的25個深度學習的開放數據集!
數據科學的大坑
數據科學與數據科學家
閉關4年,投入8億資金,500位頂級數據科學家完成了一個「臟活兒」
工業4.0時代下的數據科學家
10個最佳科學探索故事
科學飲酒的6個最佳
數據科學進階之路:了解數據科學工作,管理數據科學家團隊
數據科學項目失敗最常見的4個原因
做過120個項目的「老兵」談復星集團的大數據布局 數據科學50人·甄浩
15 個科學頻道,看視頻,玩科學
80年代兩個科學家對人類未來的一個經典賭注
2018年QS世界大學學科排名:材料科學專業排名
2018年2月份Github上最熱門的數據科學和機器學習項目
智能家:美國50個最棒的工作 數據科學家位居首位
2018年國家科學技術獎受理項目出爐:5個塗料項目入圍
張學良五個子女的結局:三個死於非命,一個年逾百歲,一個科學家
隨筆-九次方大數據科學院的聚餐