專訪戴文淵:第四範式是一家怎樣的公司?
李根 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
第四範式創始人及CEO戴文淵
第四範式是一家備受關注的公司。
僅創始團隊成員來看,哪一個不是計算機、機器學習領域響噹噹的名字?
戴文淵是ACM2005全球冠軍,百度機器學習系統帶隊打造者,百度最年輕高級科學家,華為諾亞方舟實驗室主任科學家;陳雨強設計了全球第一個商用深度學習系統,還曾是今日頭條推薦系統的負責人;胡時偉則先後任職百度、鏈家網,負責多個核心系統的系統設計及研發管理。
2015年,他們和楊強、塗威威一起,發起創立了AI公司第四範式。
但第四範式又是一家大眾「陌生」的公司。
有時外界把他們比作AI時代的Windows,有時也把他們和「iPhone相機」放在一起。總之,第四範式所要做的事情,是要提供一整套可以直接拿起來用的系統工具——一整套AI系統工具。
拿創始人及CEO戴文淵的話來說,第四範式當前的核心任務,是要不斷降低企業使用人工智慧的門檻。
在烏鎮世界互聯網大會現場,他決定用產品說話,推出「第四範式先知」3.0產品,並向量子位詳解了背後邏輯。
先知3.0
戴文淵說,先知系統的核心出發點是讓企業零門檻擁有AI能力。1.0解決了IT上的門檻,2.0解決了演算法方面的門檻,3.0的針對門檻則是「認知」——讓企業用戶知道如何正確打通數據閉環,如何喂「正確的數據」。
先知3.0把AI使用門檻降低到什麼程度?
戴文淵告訴量子位,利用先知3.0系統,一個完全沒有機器學習經驗的HR、前台等公司職員,也能輕鬆打造一個新聞資訊軟體使用的推薦系統。
為此,一方面是讓機器學習系統程序化,另一方面,第四範式在先知3.0系統打磨中引入了「學習圈」概念。
戴文淵認為,人工智慧是模擬人類智能、實現機器智能的科學,要想機器可以更聰明地學習,就要研究下人類的學習過程。
所以可參考「庫伯學習圈」理論,這是人類心理學研究史的著名理論,其認為人類學習的過程是由「行動——經驗——反思——理論」這四個階段構成,即通過行動產生經驗,再通過反思將經驗總結為理論,指導新的行為。
學習圈
類比到機器學習領域,機器決策則是由過程數據(行動)、反饋數據(經驗)、機器學習(反思)、產出模型(理論)構成的「機器決策閉環」。
換而言之,就是建立機器對複雜事情的判斷能力和場景決策能力,模擬人的思維過程,訓練機器能像人一樣作出決策規劃、產生策略。
以較常見的新聞個性化推薦場景為例。
首先,業務人員需要定義清晰需要達成的目標;
其次,第四範式先知會幫助企業「規範化」收集、記錄用戶行為的「過程數據」,如用戶看了哪些新聞、系統曾經推薦了哪些新聞;
進而,系統會記錄結果明晰的「反饋數據」,如推薦的新聞,用戶點擊與否;
在此基礎上,系統通過智能的模型,對「過程數據」、「反饋數據」進行計算,最終指導機器做出決策。
信息推薦系統「學習圈」原理
戴文淵表示,先知3.0結合了機器學習特點,以及第四範式數百個行業應用案例的經驗,產品迭代中,已經實現了從面向系統開發者的「機器學習平台」,迭代為企業經營管理人員服務的一體化「企業AI核心系統」,也就意味著,在生產決策層,AI也可以系統性發揮作用。
他舉了個不能具名的銀行使用案例。在第四範式與某全國性股份制銀行的合作中,先知企業AI核心系統幫助該行制定了超過25億個新的信用卡欺詐偵測策略,提升了超過7倍的反欺詐識別準確率。
不僅如此,該銀行利用這套AI核心系統在其它20多個業務場景中發揮價值,快速實現業務線的全面智能升級。
「機器在策略方面相較人是有優勢的。」戴文淵認為,機器能夠依靠計算力從數據中發掘更多、更細的業務規則,精細化地做出判斷。
「企業構建AI核心系統之後,大多數的一線決策行為會由效率更高的人工智慧來完成,企業可以在投入最少人力、財力的成本下,獲得強大生產力。」
不過,企業想要快速搭建定製化AI系統,並快速高效使用AI服務,還需要「三駕馬車」。
企業AI系統「三駕馬車」
這三駕馬車分別指的是:數據核心、演算法核心與生產核心。
企業AI系統只有連接這三駕馬車、打通這三大核心,才能實現數據接入和處理、數據管理與訪問、模型調研、智能建模、模型倉庫、應用服務等能力。打造出具有海量數據存儲和處理能力、超高維度演算法、實時反饋的全流程企業AI核心系統。
企業AI核心系統
第四範式的具體邏輯如下:
首先,數據核心方面,數據作為AI的輸入端,價值日益凸顯。但從現階段來看,各個行業數據標準差異明顯,且數據的組成與處理手段只為BI系統做過針對性優化,面對AI多格式、高維度、高實時性的要求顯得捉襟見肘。
於是,先知3.0中的數據核心直接面向AI應用的需求,支持結構化與非結構化的數據接入,可將業務指標等結構化數據、文本等非結構化數據以及圖關係數據進行處理,產生海量高維特徵,並通過分散式內存資料庫和統一的元數據管理系統,使機器學習訓練和上線的過程能夠高速獲取特徵數據。
與此同時,為提升智能決策的實時性和準確度,數據接入的時效性通過實時數據集成平台從T+1/T+N提升為「毫秒級」。一體化的數據平台不僅為單一業務提供支撐,更能夠將企業部門間的數據壁壘打通,使多個業務的數據在同一個機器學習模型中產生化學反應,形成「1+1大於2」的效果。
其次,演算法核心方面,基於第四範式技術研發,企業AI核心系統提供決策能力的生成演算法及降低機器學習成本和門檻的協助演算法。
其中,決策能力生成演算法包括高維機器學習與深度學習訓練演算法、基於深度學習的高維特徵生成演算法、圖像文本以及圖關係的高維特徵挖掘演算法;協助演算法則提供了自動模型選擇、自動調參、特徵組合自動探索等功能。
以特徵組合自動探索為例,特徵組合是一種提升模型預測效果的方法,以往業務人員需要在成百上千個特徵中進行組合,組合後的特徵數量呈指數級增長,而第四範式自主研發的FeatureGO演算法,可以實現機器自動組合特徵的功能,有效解決人為添加組合特徵門檻高、耗時長等問題。
除此之外,先知3.0基於底層知識圖譜,提供金融、教育、地理位置的特徵增強服務以及地址驗真、商戶分類等應用級服務。
最後,生產核心方面,通過提供一套私有PaaS架構,將數據服務、演算法任務、線上服務等基礎能力服務化,成為AI應用運行態的載體。
不僅如此,先知3.0將「學習圈」中的步驟轉化成運行中的具備高可用、可伸縮、可監控的應用程序。在保證功能完整性之外,生產核心還具備模型管理、灰度發布、資源隔離、審計支持等企業級關鍵特性,滿足企業對AI業務應用的管理、運維、審計需求。
還是金融領域的例子,第四範式方面稱,正是由於三駕馬車並肩前行,不僅可以信用卡交易等反欺詐準確性,還把線上數據集成到提供最終欺詐評分的全過程縮短至20毫秒,而強大的生產平台能力,也使得系統可以快速通過橫向擴展x86伺服器的方式、達到每秒鐘數十萬筆交易的吞吐量。
不過,戴文淵也強調,第四範式的AI應用目標絕非止於金融,他們的初心始終未變,希望幫助企業零門檻擁有AI能力,而且今年以來,在金融之外,醫療行業的突破也已經展開。
之所以第四範式目前把金融作為當前領域,是因為內部認定,金融是服務於各行各業的。
戴文淵認為,科技+金融,能服務到更多的領域,他堅信金融在未來會和科技成為一體化服務的行業。
他還透露,銀行領域的「戰役」基本結束。第四範式把業內能拿下的標杆客戶都拿下了,而且潛在的標杆也被收入囊中,「未來有競爭對手進入這個行業,已經沒有機會拿到標杆了,在市場覆蓋上,難度就會更大。」
不難看出,創立兩年來,第四範式已經在企業市場打開了局面。
但這算不上第四範式創業兩年的全部。
第四範式這兩年
在烏鎮,戴文淵還向量子位講述了公司的其他進展。
比如在內部,「一顆賽艇」比賽已經舉辦了兩屆。區別於其他互聯網公司的程序設計比賽,第四範式的「一顆賽艇」旨在檢測先知系統的「門檻」性。
第一屆,機器學習相關的工程師,都不被允許參加「一顆賽艇」,但公司其他全員中的70%,達到了公司開源科學家的水平,可以做到機器學習領域開源科學家可以做到的事情。
第二屆,機器學習科學家和非專業選手可以分隊混合參賽,但最終結果來看,專業選手參賽的成績,並沒有比非專業公司成績更好。
這樣的結果讓戴文淵十足興奮,他認為由於工具系統不斷提升,更低AI使用門檻的產品,已經越來越近了——這也是先知3.0打磨完成的「前夜」。
戴文淵說,現在公司有超過一半的人,都擁有了為企業開發機器學習模型和演算法的能力,即便這些人中不少人是前台、行政、HR等非技術人員。
他表示這兩年來,AI門檻已經被第四範式降低到了什麼程度?「類似今日頭條的信息推薦應用,在我們公司有一半以上的人做得出來。」
戴文淵並不擔心作為To B公司在大眾視野中的短暫「缺失」。他表示IBM到底是一家什麼樣的公司呢?公眾層面很少有統一答案。
「但對於每一家銀行或我們的客戶來講,第四範式就是那家幫助他千人千面、服務更廣泛受眾用戶的服務者。」
戴文淵很自豪,由於第四範式的所在,讓越來越多B端企業擁有了新能力:對每一個客戶都能提供不同的專屬服務。而且由於第四範式,讓這些「為科技進展而焦慮」的企業,擁有開發出智能的能力。
這位為百度打造了機器學習系統的前百度T10還說,現在通過第四範式所做的事情,可以說是「普及AI能力」,並讓這種能力擁有普適性。
戴文淵比喻,他之前在百度,打造的是一輛賽車,每一個部件,都是榔頭敲打出來的,可能只有參與的人才知道如何駕馭。但如今通過第四範式打造的企業AI核心系統,是民用車,每一個駕照考到C的人,都可以開。
即便公司層面進展還不錯,但戴文淵認為AI普及依然任重道遠。
他告訴量子位:AI仍舊是個稀缺的產品、奢侈品,並不是每一個人都能用的。我們希望讓更多人駕馭這個能力,讓每一個都有一個「智能手機」,現在進展而言,還屬於大哥大時代,擰著出去是財富的象徵。
但戴文淵同時表示,AI能力進入千行百業會比智能手機普及更快、更迅猛,他認為會是指數級增長,應該用不了5年。
此外,這種AI洶湧也體現在第四範式的增速上。
過去一年,他們業務上完成了新一輪爆髮式增長——末位添0式的增速。員工也增加了一倍,即便已經在刻意控制。
對於第四範式的現在和未來,戴文淵認為,核心導向依然是「問題」。他向量子位強調:始終關注的,一定是在解決什麼樣的問題。
其他進展,都會順其自然而來。
—完—
※谷歌推出開源工具DeepVariant,用深度學習識別基因變異
※彭博無人車報告:全球47城已在路測,「最後一公里」是最強痛點
※「不正經」NIPS大會指北:嘻哈歌手、感人長隊,以及最佳論文
※量子位攜搜狐,與行業大咖一同解讀AI晶元的前世今生
※「每天AI資訊這麼多!該看哪些?」推薦一份優質資料清單
TAG:量子位 |