想趕上機器學習的火車,你的企業現在應該怎麼做?
雷鋒網按:本文為「範式大學系列課程」第 2 篇文章:機器學習老司機:如何成為 ML-ready 的公司?
機器學習已經在商業領域展示了巨大潛力,那麼管理者如何將其納入日常決策和長期規劃?一個公司怎樣才能 ML-ready?
當你考慮在企業中應用機器學習技術時,很多問題就會出現。
我的業務是否適合機器學習模型?
我可以從機器學習模型中獲得什麼收益?
這是一個降低成本的問題,還是增加收入的問題?
我現在的數據積累足夠嗎,如果不夠的話該怎麼辦?
我需要什麼樣的人才幫助我實現企業人工智慧的升級?
換句話說,如果你的企業想趕上機器學習的火車,現在應該怎麼做?
先給你一張信息表,然後我們會從 6 個步驟詳細解析。
步驟一:定義問題
應用機器學習的公司一般有兩種:
一種是以機器學習模型作為企業核心業務的公司,例如今日頭條、News in Palm;
另一種是通過機器學習增強現有業務流程的公司,例如抱抱通過機器學習優化主播推薦。
對於後一種公司,清楚的定義問題會是第一個挑戰。無論是個性化推薦、增加活躍度還是降本增收,都應該收斂到一個點,即我們可以通過獲得正確的數據把任務變成機器學習可解決的問題。
例如,如果你想通過數據發現「高流失風險」的客戶,以此降低用戶的流失率,這就是機器學習可以解決的問題。你會擁有已經流失的用戶(這就是機器學習的標籤),流失行為背後相關的數據(例如社交媒體的活動、使用頻率等),那就可以通過機器學習演算法找到用戶流失和用戶行為之間的隱藏關係。 當然,這裡面更重要的問題是,當你知道這個用戶將要流失時,你準備做些什麼?機器學習可以告訴你使用什麼樣的挽留策略能拉回他。
另一個例子是提高用戶滿意度。用戶滿意度是一個主觀的指標,不同的人、場合對用戶滿意度的衡量標準都不一樣。如果要通過機器學習來預測用戶滿意度,最終的結果可能就會不理想。
定義機器學習的問題,最終可以落在兩個點上:
1、從業務出發,機器學習往往致力於解決標準商業邏輯和系列規則不能解決的問題。所以在考慮是否需要機器學習的時候,不妨問問自己,當你做決策的時候,有多經常是基於經驗假設而非清晰的分析論據?
2、從技術出發,機器學習往往需要客觀的預測指標,例如流失率、點擊率、停留時長等。同時你也需要考慮數據反饋的周期,例如在信用卡反欺詐的任務中,盜刷後被用戶發現並提交反饋的時間往往需要 1 周甚至 1 個月,那麼系統就要考慮到負面反饋的時間。
通過機器學習強化業務流程是一個非常廣泛的領域,我們可以在內容推薦、金融反欺詐、醫療健康等各行各業都看到它的身影。
步驟二:強化業務流程
當你建立了機器學習模型,下一步便是結合模型強化業務流程。一般來說會有三個層次:
1、描述
採集數據進行機器學習分析,通過圖表和報告描述現狀
2、預測
找到業務發展的模式,做出預測
3、行動
結合模型預測,給出不同的解決方案
麥肯錫曾經披露了一家國際銀行的故事,他們通過機器學習改進違約客戶相關的業務流程。通過機器學習模型,他們發現有一群平時白天使用信用卡的客戶,在晚上也在大量使用信用卡。機器學習發現該行為模式和違約風險緊密相關,在進一步的問詢後發現,這群人正在經歷某些緊張的時刻。銀行的解決方案是向這群高風險的人提供財務建議,並為他們建立新的信用額度。
步驟三:確保你的數據質量足夠好
機器學習是關於數據的科學,它從數據中獲得有價值的洞察。一般來說,使用機器學習輔助決策是避免偏見的好方法,但這比想像的更為棘手,因為它不能避免數據本身的偏見。例如 Google 最近陷入了一起爭議,在對男人和女人的廣告中,他們在男人的廣告中展示了更多高級崗位。Google 的數據科學家並沒有性別歧視,但演算法背後的數據是有偏見的,因為它是從社交網路的互動中收集上來的。
確保數據質量足夠好
基本可以說,你所擁有的數據質量,定義了演算法的質量。數據可能是嘈雜的、衝突的、有偏見的和缺失的,這會對問題解決有非常不良的影響。為了優化模型開發,你需要讓數據更匹配要解決的問題,所以在早期最好有熟悉業務的數據科學家支持,逐步開發和收集解決問題所需的數據。不過這裡需要注意的是,儘管業務決策者尋求的是具體建議和結果預測,但數據科學家往往只能提供相關的數據特徵。只有真正把數據投入到機器學習系統,才能知道最終的結果會怎麼樣。
確定最小預測準確度
我們需要定義最小的預測準確度。不同的業務會有不同的準確度要求,例如在涉及醫療的業務中,有些任務需要高達 95% 以上的預測準確度。而在一個預測飛機票價的演算法中,預測準確度高於 75% 就足以支持客戶的預定任務。
打破數據孤島,匿名化並共享數據
數據科學家小組經常面臨一個障礙,在項目的談判階段就需要獲取數據。對於業務人員來說,了解成本是決定是否開展機器學習業務的關鍵因素,但在看不到實際數據的情況下,幾乎不可能準確估計預測準確度水平和實施價格,這往往是談判癱瘓的原因。企業高管不能將商業敏感數據交給技術公司,而技術公司在獲得數據之前幾乎無法給出明確的答案。
我們的解決方案是提供數據子集而不是整個資料庫,並將其匿名化。對於擁有數據科學家的公司,在不同的部門之間共享數據也是共同的管理挑戰。過度管制的數據策略,或者僅僅在各部門囤積數據,會大大減緩數據分析的進程。這就是為什麼要在更高層面給數據科學家和技術公司許可權的原因。
好消息:即便數據不夠好,它可以修復
即便你的數據集是凌亂的而非結構化,也有辦法獲得好的結果。今天,數據科學家已經準備好在起步階段應用一些方法,重組、清洗數據集,並進一步優化得到更好的建模效果。
但壞消息是,數據科學家可能需要相當長的時間完成數據清洗並進行到建模階段。如果你沒有專業知識,是否應該提前自己處理?一般來說是否定的,因為即便自己做了,最後的數據集也可能需要重新處理。
步驟四:彌合技術和商業願景之間的差距
如果你問數據科學家最喜歡的演算法,你可能會聽到決策樹、神經網路、邏輯回歸、Kernel 方法、主成分分析等。但是這些演算法如何和商業願景結合起來?你會需要一個懂得業務和基本數據分析知識的人,他能夠在業務流程中找到機器學習能夠起作用的指標,領導數據科學計劃,擴大機器學習應用場景的選擇,調整業務和技術的願景。
一般來說有四種方法:
1、建立機器學習團隊
機器學習科學家的價格要比普通程序員高很多。當你打算建立一個機器學習的團隊時,一定要給他足夠的支持,因為他需要創造性的工作才能發揮作用,而這往往會和很多組織的結構發生衝突。
2、公司內專家 + 機器學習平台
你可以使用公司已有的業務專家,在 1-2 個數據科學家的幫助下,就可以通過機器學習平台解決問題。這些平台往往擁有友好的界面,公司內部的業務專家可以通過短時間的培訓學習如何使用,這樣你就可以把數據計劃擴展到更大的專家組,解決更多的公司業務問題。利益相關,我們推薦自家的產品:第四範式先知平台。
3、機器學習解決方案公司
現在市面上已經有一些機器學習解決方案公司了,但機器學習和傳統的編程不同,因為它需要克服信任的門檻。機器學習解決方案的任務面臨的挑戰是共享數據。根據擁有的數據類型,也許你需要以某種方法匿名化,隱藏敏感信息,例如客戶聯繫人和他們的位置。當然,當你匿名化的時候,你也要接受解決方案公司會難以使用外部數據來豐富數據集以得到更好的建模結果。
4、和大學院校、研究機構合作
大學院校、研究機構已經有很多數據科學的研究生和博士,他們大多擁有建立機器學習模型的能力。不過和高校研究機構合作的費用一般會比較貴。
步驟五:模型過時了,需要更新
大多數的機器學習模型是在靜態數據子集上開發的。一旦部署了模型,它們將會隨著時間的推移而變得過時,預測也會變得不準確。根據業務環境的變化,你應該在一段時間後更換模型,或者重新培訓,一般來說會有兩種基本方法:
A/B測試:一個新的模型會被引入和舊的模型競爭。當新的模型超過了舊的模型,舊的模型就會被替代。這個過程將會一直重複。
在線更新:模型的參數會隨著連續性的新數據流而變化。
因此,如果你希望機器學習的分析保持在穩定的水平,一定要及時更新機器學習的模型。
步驟六:是否需要定製的演算法
定製的演算法會有一些好處,例如它能夠更匹配你的數據集和要解決的問題,訓練的速度也會更快。但相對應的,它的開發和進一步迭代都價格不菲。所以如果你是一個大型企業,你可以考慮採用定製演算法;如果你是中小型的企業,定製演算法會帶來嚴重的財務和管理負擔。
實際上,如果是常見的預測任務,那麼現成的演算法模型是可行的。通過一些成熟的演算法,集成好的機器學習軟體,你可以很輕鬆的部署機器學習系統,快速解決業務流程中的問題。
無論你最終是否決定定製演算法,我們都建議你先用成熟的演算法試一試。
參考文章:
Developing Machine Learning Strategy for Business in 7 Steps,altexsoft.
How to Make Your Company Machine Learning Ready,hbr.
「範式大學」由第四範式發起,致力於成為「數據科學家」的黃埔軍校。「範式大學系列課程」會和大家推薦戴文淵、楊強、陳雨強等機器學習領域頂尖從業人士的最新分享,以及由第四範式產品團隊推薦和整理的機器學習材料。


※投放近7000台車、總用戶超60萬,盼達用車能把分時租賃做成一門賺錢的生意嗎?
※華為張露峰:超60%的商業組織已使用IoT技術丨2017通信行業物聯網大會
※上海車展活動預告 | 構建智能駕駛系統的關鍵
※杉數科技CTO王子卓:4大案例告訴你,如何用機器學習玩轉企業大數據 | 硬創公開課
※小眾精品 | 開發者彈藥庫升級 推薦五個機器學習框架
TAG:雷鋒網 |
※火車上鋪的孕婦想和下鋪的你換,你會怎麼辦?
※慈禧的「御用火車」太講究,司機必須跪著開,如遇剎車還要先跳車
※火車你見過,可是用馬拉的火車?慈禧做的都是什麼事啊?
※讓你把行駛中的火車搬回家,就是這麼愛玩!
※實拍印度也有整潔人少的火車,但車上的食物的確看起來不怎麼樣
※火車上遊客的奇葩睡姿,沒有想像力還真的睡不好!
※這樣的火車,免費的,我也不敢坐,真的大嚇人了!
※火車上鋪的孕婦,想和下鋪的你換位子,該換嗎?沒想到這麼大爭議
※火車上有人佔了你的座,還死活勸不走,你會怎樣?
※帶娃怎麼乘飛機坐火車?看看這篇實戰經驗就夠了
※污力火車發動了,是不是老司機 上車就知道啦!
※你坐過綠皮火車嗎?還記得當初的你為什麼會坐那樣不舒服的火車?
※飛機火車上睡不好覺?它應該可以幫到你
※在印度坐火車需謹慎,你可能坐著無人駕駛的火車,司機經常會逃跑
※講真,只有火車最能給我帶來「在路上」的感覺。
※這就是搶火車票時候的你,看哭了!
※印度曾經掛火車,可是現在,他們會坐上這種車
※火車上鋪的孕婦想和下鋪的你換,你換還是不換?
※火車上睡在我下鋪妹子,我真的好睏怎麼都睡不著