機器學習時代，企業如何應對？你需要克服這「三座大山」！

科技 10-27

圖：pixabay

原文來源：O'Reilly

作者：Ben Lorica

「雷克世界」編譯：嗯~阿童木呀

如今，機器學習的發展如火如荼，而想要成為一家機器學習公司，你就需要相應的工具和流程以克服來自數據、工程和模型方面的挑戰。

在過去幾年中，數據社區專註於採集和收集數據，並為此而構建基礎設施，同時還使用數據提高決策。現在我們可以看到，在許多行業的的垂直領域中，對於高級分析和機器學習的興趣處於一個急速增長的狀態。

在這篇文章中，我分享了Strata Data會議中發表的演講幻燈片和筆記，主要是為那些對增加機器學習能力感興趣的公司提供了一些看法和建議。這些信息主要來源於實踐者、研究學者和企業家之間的對話，他們這些人都是走在該領域發展前沿的人，在將機器學習運用到各種問題領域中有著獨到的見解和經驗。

與任何技術或方法一樣，一個成功的機器學習項目應該是從確定正確的用例開始的。毋庸置疑的一點是，有關機器學習的應用程序非常的多，比如推薦系統、減少客戶流失等，但對應用程序進行合理的分類是很有必要的，可參照如下：

?提高決策的應用程序

?提升業務運營的應用程序

?創造收入的應用程序

?可以幫助預測、預防欺詐或風險的應用程序

為了成為一家「機器學習公司」，在你開始部署模型時，掌握你將要面對的關鍵障礙是非常有用的。如果你諮詢的是行業領導者的話，通常會有下面這三個關鍵點值得注意：

?數據：現如今大多數應用程序都是依賴於監督學習的，所以一切都是源於高質量的已標記（訓練）數據集開始的。

?工程：你該如何運用一個模型以及它是如何產生的？從部署到投入生產後，你該如何多模型實施監督？

?模型：雖然現代機器學習庫使你更容易地將模型與數據進行匹配、擬合，但仍然存在哪些挑戰呢？

在接下來的文章中，我將就這些問題一一給出答案。

在構建用於訓練機器學習模型的標註數據集時，使用已經可以訪問的數據是非常重要的。隨著網路上不斷地有數據源湧現，對於大多數公司來說，數據集成都是一項重要工作——你目前在數據基礎設施上的投入，可以讓你獲得足夠的數據，用於啟動項目。當然，你還可以使用公開的（開源）數據或從第三方提供商購買的數據，豐富現有的數據集。

好消息是，機器學習社區已經意識到訓練數據是一個主要的問題瓶頸，因此，研究學者一直在鑽研相關技術，使你能夠使用較少的訓練數據（弱監督）來啟動項目，或者使得你能夠將從一個問題中學到的知識、經驗成功地運用到另一個環境中（遷移學習）。

隨著數據變得越來越重要，一些初創企業和公司正在開始探索數據交換。數據交換使組織可以在保護隱私和機密的同時共享一些數據。與此同時，還有一些類似的研究也在不斷推進，致力於開發安全的機器學習演算法。在消費者金融領域存在應用欺詐檢測，例如，如果隱私和安全能夠得到保證的話，那麼在機密數據上共享學習就可能是有價值的。

今年早些時候，我們觀察到，企業開始在生產機器學習模型和監控它們的行為方面挖掘新角色。但是機器學習工程師的這個新角色真的有必要嗎？

對於越來越多的公司來說，答案是：是的，需要這樣的專家。如果你創建了一個有關生產和監控模型的需要注意事項的清單，那麼你就會得到一組應用廣泛的工具和技術。有關更多詳細信息，請參考上一篇關於《應用數據科學的現狀》的文章。

在機器學習領域的研究正在飛速發展。可以這樣說，大多數公司都無法跟上那些研究人員發布的所有新技術和工具的步伐。想像一下，在未來而五年里，發展停滯不前（極不可能，僅為一個猜測）我認為在相當長的一段時間裡，會有足夠的工具可以讓公司保持正常運營。

深度學習，一種已經成功運用於計算機視覺和語言問題的技術。而大多數公司仍然處於將深度學習應用到他們熟悉的數據類型（文本、時間序列、結構化數據），或者使用它來替換現有模型（包括其當前的推薦系統）的早期階段。在接下來的幾年裡，我希望能夠看到許多涉及深度神經網路的有趣案例研究。

隨著深度學習的廣泛應用，我們有時都會忘記，其實有很多有趣的新數據應用程序是不依賴於神經網路的。而在公司發展中，很重要的一點是要始終選擇適合你的技術和業務要求的技術。

隨著模型被推向邊緣設備，我很對最近在聯盟學習（federated Learning）和協作學習（collaborative learning）方面的研究很感興趣。展望人工智慧的未來，在線學習（online learning）和持續學習（continuous learning）的工具將是必不可少的。

數據社區開始意識到，除了優化數量或業務指標之外，更重要的是關注模型。模型是否強大到能夠抵禦對抗性攻擊？在某些應用程序中，模型需要具有可解釋性和理解性。

?公平：你了解你的訓練數據的分布情況嗎？如果你真的不了解的話，要注意現在的一知半解將會導致未來的無知。

?透明度：隨著機器學習變得越來越流行，用戶也對指標組織正在優化的事物表示出越來越大的興趣，想要知道它們是什麼，並想在其中佔有話語權。

「我們正處於人工智慧和機器學習發展的經驗主義時代，比我職業生涯中的任一時刻都要顯著，而在理論和認知上，我們還處於遠遠落後的狀態。」

——michael jordan，加州大學伯克利分校教授

近年來，儘管在這一領域取得了很大的進展，但仍然有很多是研究人員和理論家都不甚了解的知識。我們依舊處於一個「試錯」的時代。深度學習可能減少了對人工特徵工程的需求，但要建立一個DNN，仍然需要很多的決策（包括網路架構和許多超參數的選擇）。

我們可以將模型構建視為探索機器學習演算法的空間。企業需要能夠以一種具有原則性和高效性的方式進行探索。這意味著維護可再生流水線、從實驗中保存元數據、為協作提供工具，併合理利用最近的研究成果。

那麼，企業應該做些什麼，讓這種探索成為可能呢？大多數機器學習需要標註的（訓練）數據，因此任何平台都要以魯棒的數據流水線為基礎，這些數據流水線可以輸入到數據存儲系統，數據科學家和機器學習工程師便可以訪問這些數據存儲系統。對於所有公司來說，數據集成都是一項重要的、需要持續進行的練習。

企業還允許數據科學家共享特徵，以及產生這些特徵的數據流水線。為了讓你了解特徵的相對重要性，可以這樣說：「讓公司告訴你他們使用的是什麼演算法通常會容易得多，而要讓他們描述一下對於他們的模型來說最重要的特徵是什麼，這就要困難的多了」。

在行業中佔據領先地位的企業會讓他們的數據科學家使用多個機器學習庫，而迫使你的數據科學家只使用一兩個「無憂」的庫是很瘋狂的。因為他們需要能夠運行實驗，而這可能意味著要讓他們能夠使用各種庫。

有些公司為生產機器學習模型提供工具，並在部署後對其進行監控。與此同時，公司還在使用開源技術構建自己的部署和監控工具。如果你正在尋找一個用於部署和監控的開源工具，則Clipper是一個不錯的選擇。Clipper是加州大學伯克利分校的RISE實驗室的新項目。它現在可以讓你輕鬆地部署一個使用幾個流行的機器學習庫編寫的模型。更重要的是，Clipper團隊很快就能夠添加模型監控。（在2018年3月於聖何塞舉辦的Strata Data大會上，幾家公司將展示他們是如何進行模型部署和檢測的）。

要成為機器學習公司，你需要工具和流程來克服數據、工程和模型方面的挑戰。企業正在開始在其產品中使用並部署機器學習。工具在不斷完善，而最佳實踐還僅僅是一個開始。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷克世界 的精彩文章:

※Google公布OpenFermion：量子計算機的開源軟體包
※詳解Nervana最新開源深度強化學習庫Coach
※KDnuggets整理最新機器學習必備十大入門演算法！都在這裡了
※人類如何從不同角度識別物體？你需要對「小樣本學習」有所了解

TAG:雷克世界 |