當前位置:
首頁 > 最新 > 專註分析40年,SAS如何看待數據

專註分析40年,SAS如何看待數據

大數據文摘作品

記者:魏子敏

「如果把神經網路的層數從10增加到50,輸出結果可以更好一點嗎?……再高一點呢?」

美國丹佛市當地時間4月8日晚,在SAS 2018全球論壇(SAS Global Forum 2018)的開幕演講中,年近八旬的SAS創始人兼CEO Jim Goodnight,與SAS年輕的數據科學家Jonathan一起,合力上演了一幕程序員的辦公室日常噩夢:

焦急等待結果的挑剔老闆,和嘗試各種模型來輸出更好結果的絕望程序員。

SAS創始人兼CEO Jim Goodnight在SAS 2018全球論壇開幕演講中演示SASViyaTM最新版本

面對6300位來自世界各地的SAS用戶,SASViyaTM最新版本在Jonathan的操作下顯示出了強大的機器學習能力:數據可通過拖拽直接載入;不同模型、甚至神經網路層數的調整都可以通過點擊實現;輸出只需要幾秒鐘;結果的優化從面板顯示的數字上一目了然。

而出現在開幕演講中,這一場景的設計遠比展示最新產品效果更加意味深長:它代表著SAS正在擴展自己的用戶群體——不再只是傳統的程序員、科學家,它瞄準的是不太懂編程,但看好並急於進行數據和人工智慧轉型的公司高層。

斯坦福大學教授李飛飛曾公開表示:人工智慧、機器學習仍然是一個進入門檻高的領域,需要大量專業知識和資源,而很少有公司自己能負擔得起這些資源。今天,雖然AI能為企業提供無數的益處,但由於資源稀缺,多數企業還無法開發個性化的模型。

SASViyaTM最新版本在演算法自動化上的設置顯然是奔著解決這一痛點而來。

本次大會上,SAS表現了對AI和機器學習自動化程序這一新聚焦點的全面擁抱。SAS分析產品部負責人Saurabh Gupta在次日發布了ViyaTM最新版本,並解釋了其一系列新特點:AI分析植入和自動化;更加透明的結果輸出;更好地數據治理功能;用戶體驗地提升;更加開放,支持更多分析工具。

來自加拿大的SAS資深用戶、Mcdoougall Scientific公司的副總裁John Amrhein對這最新版本ViyaTM操作的「便利性(ease)印象深刻:「支持各類數據格式,而且通過拖拽點擊就可以實現各種模型的調整,非常高效。」這一友好的用戶界面可謂SAS本次全球論壇中的最大亮點。

2018年4月8日至11日,SAS 2018全球論壇在美國丹佛召開

對於自動化,除了便利性,參會用戶對於最新的分析工具也有一些反思。「太過簡單的工具也可能會讓人忽略數據的重要性」,加拿大的獨立諮詢顧問、SAS資深用戶Peter Eberhardt非常認可ViyaTM產品的優質性能,但也向大數據文摘表達了自己的擔憂:很多用戶因為工具太簡單,反而會不認真思考數據的質量。

「我曾經見過一個廣告領域的客戶,輸入的數據真的非常差,但是因為工具好所以跑出來的模型很棒,客戶會因此覺得數據其實也不錯。」

「好的數據非常重要。」正因此,Jim Goodnight在採訪中一直強調數據清洗和管理的重要性,而他自己也一直以一位「統計學家」自稱。

專註數據四十年,SAS分析經驗的全球化輸出

儘管扮演了一位「技術盲」的挑剔老闆,Jim Goodnight的數據分析能力絕不弱於他身邊的數據科學家:四十多年前,他在美國北卡羅來納州立大學進行一項農業數據研究時,開發了一款數據分析軟體,並基於此,創立了SAS公司。

SAS創始人兼CEO Jim Goodnight

40多年來,SAS的整體營收保持了持續的增長。即使在開源軟體大行其道的今天,略顯昂貴的SAS依然是全球多數金融、醫療機構、甚至政府的首選數據分析軟體。根據IDC的數據,SAS佔全球高級和預測分析市場30.5%的份額。

經歷了數據寫在紙上的時代,到大數據、雲存儲,再到今天的機器學習、人工智慧,SAS儘管經歷了多次技術探索方向的變更,作為一家專註「分析」40餘年的老牌公司,其在行業內積累的豐富數據和業務經驗鮮有匹敵者。而在演算法和模型愈加「自動化」的今天,這些寶貴的行業知識積累顯然比技術更難複製。

這些經驗也是SAS開拓國際市場的秘密武器。

博雅融創軟體技術有限公司是SAS在中國的重要合作夥伴,其總經理陳建文告訴大數據文摘,中國客戶非常看重SAS在數據分析領域的先驗經驗。

「我們正在和中國一些省市的疾控中心合作,開展疫情相關的數據分析項目,而SAS之前協助美國相關部門進行了很多案例積累。儘管數據不同,但是業務經驗、模型都可以直接借鑒,這是客戶非常看中的。」

開放包容,和更年輕的數據科學家一起成長

但是,SAS也面臨著所有老牌巨頭同樣的挑戰:新生的數據分析工具。

從丹佛向北飛兩小時,你將從下著雪的西部到達陽光普照的矽谷。這裡是新生互聯網巨頭Facebook、Apple、谷歌等的大本營,也是一批數據科學、人工智慧創業公司的誕生地。在這些公司中,新生代的80、90後數據科學家正在佔據技術世界的主力。儘管SAS的名字依然響亮,這些動手和學習能力都極強的程序員更樂於自己探索開源的程序包。

「開源軟體更便宜、更酷,自己開發的應用也更順手。」來自Facebook的一位90後數據科學家告訴大數據文摘,「SAS是挺好用的,但是對個人使用來說太貴了」。

價格太過昂貴顯然也是SAS現任CTO Oliver Schabenberger本次SAS全球論壇中,受到最多質疑的地方。

SAS CTO Oliver Schabenberger在SAS 2018全球論壇演講

採訪中,Oliver沒有否認新出現的開源軟體有自己的優勢,尤其是在價格方面。

「(開源軟體)確實更便宜,我們也希望我們客戶有更多選擇。」面對質疑,Oliver的回應相當坦誠,「但你不能拋棄價值只談價格,我們相信SAS的品質,我們也在不斷改善產品應對挑戰。」

近年來,SAS也確實有一些轉而使用開源軟體的客戶。

亞洲最大的銀行星展銀行DBS是SAS的老客戶,其首位首席分析官(Chief Analytics Officer)Sameer Gupta告訴大數據文摘,除了SAS,DBS之前也曾嘗試使用開源軟體R、Spark等以確保產品的多樣性。

為應對用戶對多樣性產品的需求,2016年,SAS整合了自身的分析能力,推出了通用部署的計算平台ViyaTM:這是一個開放的、支持雲計算方式部署的內存計算平台,面向企業內部提供一個單一、開放和統一的分析環境。

作為一個開放的架構,ViyaTM期待可以滿足所有分析專業人士的需求,其支持包括REST API、SAS語言、Python、Java、R和Lua等方式的數據操控和分析開發。

中科聚信是SAS目前在中國較為重視的合作夥伴,其創始人兼CEO馬占軍告訴大數據文摘,相比無人維護的開源軟體,SAS的產品會更加穩定專業,這是銀行、保險公司、醫療機構這種公司非常看重的,這樣的機構根本無法承擔開源軟體的不穩定性帶來的風險。

而為了抓住數據分析領域的新生力量,SAS對高校和年輕人的投入也一直不遺餘力。

Jim Goodnight告訴大數據文摘,SAS與全球非常多的高校、教授建立了持續的合作關係,並向學生提供優惠價格下載軟體,每年都有成千上萬的高校學生從中受益。

當然,抓住新一代數據分析者的關鍵不只是導師需要或者免費的軟體,能切實用最前沿的技術做炫酷的項目,才能真正征服這群「最聰明的腦袋」。

「數據為善」

在主論壇的keynote演講上,兩個有趣的例子把SAS「數據為善(Data for good)」的主題體現到了極致。

WildTrack:用腳印識別保護瀕危野生動物

SAS 2018全球論壇中提到了一個人工智慧有趣的應用場景:使用動物的數字足跡來識別瀕危野生動物物種。

野生動物的腳印是觀察瀕危種群並實施保護的起點,通過腳印,工作人員可以確定物種的性別,有時也會鑒別年齡。

之前,這樣的腳印信息只能靠當地誌願者人工發現、拍照,並手動錄入數據,效率極低,數據的缺失也讓研究人員很難確切地了解哪些物種需要監測。

SAS將AI圖像識別技術應用於此,並為此建立了一個野生動物的腳印資料庫項目。

在這一資料庫中,SAS工作人員已經為15種不同的物種開發了相關軟體及其演算法,包括黑犀牛,白犀牛,孟加拉虎,阿穆爾虎,和北極熊等動物的腳印數據都被收錄其中。

通過收集這些數據,工作人員可以更好地確定瀕危物種棲息地物種的數量和分布情況,以便實施保護方案。目前,識別準確度已經達到了90%以上。

SAS Graphics Accelerator移動端上線:讓盲人通過音樂感知圖表

SAS Graphics Accelerator的移動端應用是本次SAS 2018全球論壇又一驚艷發布:通過和蘋果合作,SAS Graphics Accelerator可讓盲人通過音樂的形式使用和理解圖表。

在大會上,來自SAS的盲人體驗師現場展示了如何在手機上「觀看」一副折線圖。在app中,我們可以通過三種方式閱讀圖表:由屏幕閱讀器讀取圖形描述;將圖形轉換為易於閱讀的表格;或者獲得圖形的聲波表示。

現場觀眾和體驗師一起感受了聲波隨著折線沿y軸改變而產生的變化:圖聲波表示沿著X軸傳播;在Y軸上較高的數據點的聲音比在Y軸上較低的數據點的音調聲音更高。

自誕生到現在的40多年,SAS和用戶也都沒有停止對數據分析的思考。除了業內用戶,歷屆SAS 全球論壇都會邀請到一些全球各行業領袖代表,比如薩利機長、全球首個半機械人Neil Habisson,還有《赫芬頓郵報》創始人Arianna Huffington等。

今年,SAS邀請到了美國第一位女性F-14飛行員Carey Lohrenz、總統歷史學家Jon Meacham、紐約時報暢銷書作家Dan Heath。他們的演講是論壇的「驚喜」,也引導聽眾們思考,數據分析在人文、歷史和領導力建設中如何應用。

【今日機器學習概念】

Have a Great Definition

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大數據文摘 的精彩文章:

MIT自動駕駛技術突破:實現濃霧中物體觀測和測距,超人類水平
AI=神經網路?這8個技術就不是!

TAG:大數據文摘 |