AI 的困境
當下那些超大公司在如何克服AI方面的幾大挑戰。
摘要:許多企業試圖改造業務,打造競爭優勢,於是大力投入於AI技術。這份針對多個行業跨國公司數據科學和工程團隊領導人的調查發現,將近90%的人在大力投入於AI,但全面獲得投入回報的寥寥無幾。
只有三分之一的AI項目成功,從概念階段到生產階段歷時超過6個月,相當多一部分根本就沒有進入到生產階段,這給企業組織帶來了AI困境。
數據成就了AI,但也讓AI實施起來困難重重。約96%的企業稱,AI項目進入到生產階段時,與數據有關的挑戰是最常見的障礙。企業數據不支持AI,並分散在數百個系統中,比如數據倉庫、數據湖、資料庫和文件系統。TensorFlow之類的機器學習框架又不搞數據處理。
由於數據系統不「搞AI」、這些AI技術不「搞數據」,企業到頭來平均使用7種不同的工具,這造成了摩擦,阻礙了項目。雪上加霜的是,調查發現,由於數據科學團隊和工程團隊分屬獨立的部門,其中80%面臨數據協作挑戰。
所以,什麼有望幫助這些企業克服AI困境?據調查聲稱,90%的調查人員認為,統一分析(Unified Analytics)可破解AI困境。這種方法將數據處理與機器學習框架統一起來,在整個機器學習生命周期為數據科學團隊和數據工程團隊的協作提供便利。統一分析是一類新的解決方案,它整合數據科學和數據工程,極大地方便了企業搞AI項目。統一分析讓數據工程師更容易跨孤立的系統構建數據管道,並準備用於建模的標記資料庫,同時讓數據科學家能夠探索和顯示數據、協作構建模型。
引言:CIO/IDG研究服務公司調查了歐美大企業(員工超1000人)正在考慮或使用AI技術的200多名IT高管。我們想全方位了解AI投入、預期的業務成果、挑戰以及促進AI成功的因素。
AI困境――近90%投入於AI,但成功的寥寥無幾
很顯然,多個行業的調查對象往AI項目投入了大量的資源,希望打造新的業務模式,以便充分利用數據和機器學習,包括發現挽救生命的新葯、檢測欺詐和惡意行為、改善全球供應鏈管理,以及為客戶打造高度個性化的數字化體驗。
儘管面臨挑戰,但調查對象還是全力投入於AI。如此一來,三分之二的調查對象預計AI投入在今後一年會加大也就不足為奇了(見下圖)。
Databricks的產品營銷副總裁巴拉什?高達(Bharath Gowda)說:「AI大有潛力帶動顛覆性創新,從而影響全球大多數企業。它廣泛應用於各行各業。它現用於基因組學,加快藥物發現、促進個性化醫療。它還用於製造業,提高產品開發和交付過程的運營效率。儘管大有潛力,但是成功地擴大AI項目規模的公司卻寥寥無幾。」
與數據有關的挑戰在阻礙96%的企業搞成功AI
但CIO/IDG調查顯示,由於諸多原因,企業還沒有完全獲得AI的好處,但數據是一個絕對的話題。說到項目進入到生產階段時,幾乎所有調查對象(96%)提到了多個與數據有關的挑戰(見下圖)。
而談到與數據有關的挑戰時,數據孤島的提及率遠高於其他問題,技術複雜性則是第二大挑戰。
高達說:「對於數據科學家來說,事實已證明,用大量數據做出來的簡單模型得到的效果比用少量數據做出來的複雜模型要好。所以,數據越多模型就越好――數據是AI的助推器。數據科學家易於獲取乾淨可靠的數據,這是成功的關鍵。因此企業面臨的挑戰就是,將孤立的凌亂數據轉換成乾淨的標記數據,用於開發模型。」
日益增加的複雜性:企業平均購置七種不同的機器學習工具
數據工程團隊和數據科學團隊的區別還延伸到它們使用的工具,而工具有好多種。
絕大多數(87%)購置各種各樣的數據和AI相關技術,幫助準備數據、探索數據和構建模型,包括:
85%的調查對象使用數據處理工具,比如Apache Spark、Hadoop/MapReduce和Google BigQuery。
65%的調查對象使用數據流工具,比如Flume、Kafka和Onyx。
80%的調查對象使用機器學習工具,比如Azure ML、Amazon ML和Spark MLlib。
65%的調查對象使用深工學習工具,比如Google TensorFlow、微軟CNTK和Deeplearning4j(DL4J)。
總的來說,調查結果顯示,企業平均使用七種不同的機器學習和深度學習工具和框架,這帶來了很複雜的環境,會降低效率。
高達說:「為了從AI獲得價值,企業依賴現有的數據和對海量數據集迭代搞機器學習的能力。今天的數據工程師和數據科學家使用眾多相互脫節的工具來完成這項任務,包括一大堆機器學習框架。」
孤立的數據科學團隊和工程團隊:80%因而遇到生產力下降的情況
技術技能、領導能力和缺乏連貫一致的策略是數據工程和數據科學團隊面臨的三大障礙(見下圖)。
統一分析--許多企業需要一類新的解決方案來化解AI困境
調查對象很清楚,自己會歡迎這類工具。近五分之四(79%)表示,統一大數據和AI的端到端分析平台會非常寶貴,同時促進數據工程團隊和數據科學團隊之間的合作。
這類平台應有的其他功能包括:
處理龐大數據集時性能出眾
內置與各個數據源集成的功能
讓擁有不同技能的數據科學家可協同工作的協作空間
能夠支持彈性擴展的雲原生平台
內置的數據管理功能,用於構建龐大的數據管道
支持多個雲


※相變內存中訓練神經網路壓倒GPU:性能高出100倍,節能勝過100倍
※Elastic 已申請上市
TAG:雲頭條 |