當前位置:
首頁 > 新聞 > 漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

新智元報道

漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

「螞蟻金服是一家技術驅動的公司,我們做的事情,是使 AI 技術成為普惠金融的支點。」螞蟻金服副總裁、首席科學家漆遠博士,在有中國「 AI 春節」之稱的新智元2017開源·生態AI技術峰會上表示。

大約一個月前,在北大「人工智慧前沿」系列課程的講堂上,作為特邀演講人的漆遠已經將 AI 技術和普惠金融的概念結合到了一起。在新智元 AI 技術峰會上,漆遠再次強調:「螞蟻金服核心的關鍵點在於普惠的金融服務,而實現普惠金融服務依靠的技術就是人工智慧和大數據。」

場景!場景!場景!

從技術到落地,AI 的場景化應用成為本次新智元技術峰會上的一個關鍵詞。漆遠指出,在杭州,螞蟻金服和城市政府直接對接了超過100項市政服務,比如司機闖紅燈,可以通過支付寶進行直接賠付。「再舉幾個例子,支付寶可以在杭州城區購買地鐵票;當芝麻信用超過一定分數時,人們可以免押金入住酒店,免押金租房;人們可以使用支付寶在中醫院挂號,可以乘坐公共汽車。其實所有這一切,都是依託場景。」

漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

而杭州的變化只是中國萬千城市的一個縮影,「在浙江,一年有6億人次享受城市服務,全部通過手機實現。例如,95%的超市、便利店可以用支付寶進行付款。這些數據背後,可以看到一個人的吃穿住行等方方面面。如此觸達的條件實際上為我們奠定了非常堅實的基礎,能夠讓我們把技術和場景結合起來,提供真正有價值的服務。」

漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

「大家會問,講 AI 為什麼要講這些?最近有人寫了一篇文章,講 AI 的娛樂化趨向。這其實是講了一個 common sense,就是做 AI 離不開場景……我相信技術是第一生產力,關鍵是怎麼落地,在商業場景里發揮出價值。」

漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

漆遠認為,一個非常重要的經驗是,「不要為了做技術而做技術,一定要想到有商業價值的、有數據的場景,場景非常關鍵。否則,只是在公司裡面閉門造車,做了也沒有用。如果是初創公司,這公司已經註定要完蛋。這其實是非常關鍵的一個point。比如說我在阿里做第一個項目,是做參數伺服器,就是分布式機器學習平台。但是我們找的第一個應用點特別簡單,大家猜猜什麼場景會有商業價值?對,就是廣告。」

「於是我們就在CTR預估上採用了這個系統。因為這個系統只要能提升1‰,就有很多收益;提升1% 的收益就更多。我們當時做這個項目,應用在雙11實時預測的用戶產品推薦上,後來變成了阿里巴巴第一個大規模機器學習平台。所以一開始你要找到一個商業價值的落地點,如果我們做參數伺服器,同樣的技術,就是死路一條。在公司,在商業環境中,這肯定是沒有前途的。」

漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

「又比如深度學習技術的應用。它帶來了圖像識別、語音識別、NLP 等領域的長足進步,但是它的落地點在哪裡?這就要問你的核心價值在哪裡。一開始我們就很具體,就做客服。大家可能覺得這不是一個sexy的行業,但是真正能做好就有巨大的商業價值。這同樣是要在場景中體現能力。」

而對於場景和數據、雲計算以及演算法的關係,漆遠論述到,「其實很多公司今天都正在、或者已經完成國內互聯網領域的上半場角逐。之後,大家開始真正競爭的是雲計算的能力,比如阿里,比如螞蟻金服的雲,比如微軟和Amazon的雲,而這背後其實就是數據。比拼的是誰的場景數據本身有價值。其實阿里內部有一個比喻:數據是土壤,土壤上要蓋高樓,才能產生價值,這要靠演算法,靠人工智慧。要真正能把價值體現出來,而不是坐在金山上吃饅頭。我們需要通過人工智慧,讓用戶產生的社會數據發揮價值,並將有價值的服務帶給用戶。場景的 vertical domain 非常重要。場景一邊為我們帶來數據,一邊為用戶帶來真正有價值的服務。」

從智能客服到保險業

在金融服務這一大場景下,漆遠特別以其中的智能客服、個性化產品和資訊推薦、保險及自動核賠等多個小場景為例,展現了AI 技術的應用及產生的價值。

漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

「螞蟻金服正在構建人工智慧方方面面的能力和應用,我們在能力上的配備還是比較標準的——機器學習、自然語言處理(NLP)、圖像識別、語音識別,尤其是語音識別,完全使用的是阿里集團自己的語音識別能力。螞蟻金服也在開發許許多多的商業應用。」

漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

「在今天有件事情已經變成共識——如果做平台,沒有業務都是會死掉的,這是我們當時戰略官的名言。在螞蟻金服,我們有非常豐富的場景,從信用芝麻分、租車到貸款消費貸、風險控制、營銷、智能助理等等,技術本身、數據和商業場景有非常好的結合。」

漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

  • 智能客服

「智能助理在螞蟻金服有很多的例子,聊天機器人不是我們的重點,我們的重點在產品知識問答,比如金融產品,完成訂電影票或者旅行甚至訂餐,還有金融服務,比如選擇哪個保險比較適合。

「在螞蟻金服,一個標準化的機器人應用就是客服。客服項目在螞蟻金服可以說是第一個標杆性的人工智慧落地項目,它一開始是典型的人力服務工作,在成都客服中心有幾千人,每年雙11接電話非常繁忙。我們在2015年要做智能客服,使用人工智慧演算法提升整體客服效率。我們做了大約半年,自助率從60%一下子升到94%,2016年自助率高達97%,去年雙11最忙的時候,客服小二實際上非常輕鬆。今年我們有了一個新的標杆性的指標,兩三個星期前剛剛做到。這個新的指標就是不光要自助率高,還要把服務的質量提高,我們要更好地解決問題。兩周前,我們已經做到機器人的問題解決率達到了73%,超過了人的在線解決率71%。這是一個標杆的提升。

漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

PPT上顯示的是三個簡單的真實APP展示,展示了機器人本身是怎麼來回答問題的;第二,在你沒有問問題之前,不靠語音信號或者NLP輸入信息,而是通過用戶的行為軌跡自動判斷當前可能的問題在哪裡,系統會根據用戶的行為軌跡做出時間訓練模型進行分析;第三,人工+智能。我並不是說用機器全部代替人,而是什麼時候用人,怎麼用機器把人的效率提升。這裡我以我們的客服小二和工作台為例,怎麼把好的小二的經驗變成工作台自身的一部分,利用他們幫助其他的小二工作。這就叫智慧工作台,大規模提升了人類「小二」的服務質量。不光減少了人力,這個項目做了不到半年時間,我們公司統計減去人的成本,減去GPU的成本,公司省下來一個億多的資金。在螞蟻金服整體業務迅速擴張的情況下,我們的客服部門人員一直在減少,而所有其它業務人員都在增加——只有客服人員一直在減少,可以看到這個技術的效用。」

漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

  • 個性化產品和資訊推薦

「個性化產品和資訊推薦,這裡面有很多數據的融合問題,比如電商行為購買數據如何能夠幫助財富升值、資訊閱讀能不能幫助我們支付消費等等。

漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

這裡面有一個比較簡單的思想,就是藉助我們大量的數據源,建立比較大規模的深度學習網路,把所有數據做一個隱含的表達,在一個空間裡面把很多數據源融合到一起。基於此,可以保護數據的隱私,也可以做出很多有意思的應用。

漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

通過用戶屬性可以分析他的閱讀偏好,聚寶頭條諮詢和社區觀點推薦,比原來的演算法直接提升了六倍的點擊率。大家看PPT,這裡顯示的是用戶對緊身褲、連衣裙選擇偏好,漂亮女孩有什麼共性?其中一個是她們經常穿比較緊身的牛仔褲,她們中的很多人會購買手機屏幕服務,所以我們為這一人群開發了碎屏險的保險產品。這是個性化產品非常碎片化、但又非常長尾的應用的例子。」

漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

  • 保險及自動核賠

「保險業非常注重大數據應用,從人群定位到識別、從反欺詐到風險定價等等,從頭到尾貫穿著數據。運費險是一個現在比較經典的例子,我買東西要退,保險費只要一塊多錢,但是每個人不一樣,我們做到了完全個性化。一開始這並不是差異化的,而是一口價,所以最初這個生意一直賠錢,後來我們把一個廣告的演算法用到保險裡面,建立了一個人退貨概率和產品之間的關係——這其實和很多廣告非常類似,一個人點擊廣告也有概率——計算之後產生新的保險產品,這個保險產品一天盈利就達到幾千萬。這是典型的碎片化但是極為廣泛的應用的例子。」

漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

「自動核賠,用戶在手機上報被盜32塊錢。人臉識別之外下面還有很多演算法和模型自動判斷是不是您,其實並不是只做一個人臉識別。整體能夠大幅度提升效率。」

一些挑戰

對於 AI 技術應用中一些特別需要注意的問題和挑戰,漆遠此前有過精彩論述。

  • 基於加強學習的對話系統

「其實在對話系統沒有很多數據的情況下,一開始你很難做加強學習,有可能你就只能做一個規則技術。但再往後面,可能當你需要完成任務,以任務為目標的時候,你在做 task completion 的時候,就像下圍棋,你要完成任務,贏別人。這時候你和用戶其實是 interation。這個時候你可以考慮,怎麼來介入。大家也知道翻譯模型,對話系統很多用翻譯模型,我們叫做 seq2seq,也就是sequence to sequence。假如有一堆 sequence,假如是多輪對話,你能不能應付,就是一個 sequence 到另一個 sequence,再到另一個 sequence。這其實都是對技術的挑戰,對數據收集的挑戰,對數據標註的挑戰。」

  • 小數據學習

「這個問題現在也越來越明顯了。其實今天講大數據,有點令人誤會。就很多場景下問題的複雜度而言,其實數據並不大。我們要分析風雲變幻的市場。就如剛才雷老師說,你看一個公司過去兩年的交易數據,其實一點不多,把季報全都加進來。其實一年就4份財報。在數據並不多的情況下,怎麼能夠把這個小數據學習的問題解決?」

  • 推理和知識圖譜

很多問題需要你做推理,如果A發生了,到B,B發生,回到C,你怎樣把推理過程做好?今天,大家做了很多深度學習,比如說一個文本裡面,A會導致B的發生,你把這個相關的答案找到。但是並不能推理出B到C和C到D。如果做知識圖譜,其實跟深度學習沒什麼關係,今天的深度學習圖譜其實是建了一個圖模型,然後把這個點一個一個往下推,而這兩個框架是完全分離的框架,這其實也是分裂的。大家能不能真正有一套機制,能有推理的功能?這其實既有理論上的價值,更有商業上的價值,巨大的價值。剛才已經提到知識圖譜了,大家其實現在有一系列演算法講知識圖譜,knowledge graph,但是學術上發表的很多文章,工業上暫時是沒法用的。有一些演算法——我就不說哪個演算法了,有的還是我好朋友寫的——很難應用在工業上,為什麼呢?因為它基本上不能達到需要的準確性。

  • 無監督學習

「另外,無監督學習也喊得比較響。這是跟小數據學習相關的。很多數據是有標註的,還有很多數據沒有標註,那怎麼能夠把沒有標註的數據都用起來,真正做到把數據的所有價值都真正體現出來?當然,在無監督學習和有監督學習中間,還有一個半監督學習(有一部分有標註)。我們怎麼把它們結合起來一起進行學習?這也是一個在今天的背景下非常有意義的方向。」

  • 數據和模型的壓縮

「從工業界來講,更實用的是數據和模型的壓縮。剛才有人問我說深度學習能不能用於量化交易,尤其是高頻。我說高頻的話,如果深度學習有好幾層的模型,比如做圖像有 100 多層。而高頻交易希望在千分之一秒或者萬分之一秒之內把交易完成,這兩個互相矛盾。工業很多應用非常在乎實時性,不能有大量 delay。怎麼能做得快呢?這就需要模型的壓縮,要用 hashing 等技術,這也是非常好的方向。」

漆遠在演講的最後總結道:我們在做從移動互聯網到雲計算到端的擴展。螞蟻金服核心的關鍵點在於普惠的金融服務,而實現普惠金融服務依靠的技術就是人工智慧和大數據。

漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

3月27日,新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開,包括「BAT」在內的中國主流 AI 公司、600多名行業精英齊聚,共同為2017中國人工智慧的發展畫上了濃墨重彩的一筆。

點擊閱讀原文,查閱文字版大會實錄

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

《紐約客》深度長文:當人工智慧遇上醫生
微軟CNTK 2.0版本發布,支持結合Azure GPU在雲端使用
「哈佛商業評論」所有AI公司都面臨的兩難:性能優先還是應用優先?
埃隆·馬斯克(Elon Musk)的腦機介麵糰隊揭秘
「特稿」萬維網之父獲圖靈獎,紀念閃耀人工智慧歷史長廊十位大師

TAG:新智元 |

您可能感興趣

行情周報:震蕩反彈迎機遇 量能萎縮存危機
奇簡 Terark:數據壓縮存儲方面,我們幹掉了 Facebook、Google|創業
奇簡 Terark:數據壓縮存儲方面,我們幹掉了 Facebook、Google
零壹網貸周報:《1號文》發布要求平台繼續壓縮存量