當前位置:
首頁 > 最新 > 第四範式戴文淵:公司構建AI能力需五大核心要素

第四範式戴文淵:公司構建AI能力需五大核心要素

「華興·湃」是華興的報告會議系列論壇。湃形容水波相擊之聲,亦有冰鎮冷浸之意。華興希望搭建共享灼見的平台,將投資機構、企業匯聚於此,碰撞思想火花,激蕩行業澎湃,弄潮新經濟。

第二期論壇主題聚焦人工智慧,5月27日下午,來自AI行業的頂尖創業者和投資人,通過4場主題演講和1場圓桌對話的形式,開啟了一場「燒腦」風暴。

第四範式創始人兼CEO戴文淵做了題為《AI+:贏在維度》的主題演講,他用統計學的VC維理論闡釋了AI能力的構建,認為一家商業公司構建AI能力需具備五個核心要素,並結合實戰經驗對各個要素逐一拆解。

精華觀點一睹為快:

在一個垂直領域,如果能用機器基於數據寫出超過1000萬條業務規則,那麼一個資深的業務專家,基本上沒有辦法比機器強。

對於一家商業公司來說,構建AI的能力有5個核心的要素,分別是Big data(大數據)、Response(持續的反饋)、Algorithm(演算法)、Infrastructure(計算能力)和Needs(明確的需求),合在一起就叫做Brain。

有意義的大數據叫過程數據,一個優秀的AI模型需要約1000萬以上過程數據的樣本。模型越大,需要的數據量越大。

反饋最關鍵要做到兩點:第一點:數字化反饋,即反饋是可被度量的。第二點:持續不斷的反饋。

以下是演講實錄:

用VC維理論構建AI方法論

我們在學術領域研究機器智能,是基於統計學來構築AI整個方法論。統計學裡最重要的理論叫VC維理論,為什麼叫VC維?是因為這兩個科學家提的,一個姓V一個姓C,各取一個首字母,叫VC維。

VC維反映的是什麼?結論就是,如果一個機器模型,他的VC維越高,這個機器的模型會越強。VC維不只能刻畫機器的智能,還能刻畫生物的智能。人腦的VC維也能算出來,大概是多少、約等於大腦腦細胞個數,前面可能只差一個常數項。

未來無論人的智能還是機器智能,都可以套在VC維理論的框架下解決。企業構建AI能力,就是要不斷把VC維做大。

機器和人誰更強?1000萬條規則是個門檻

以牛頓三大定律為例,牛頓是物理學專家,他看了很多物理的自然現象,最後總結出三條規則。如果機器做牛頓的事,他會把整個自然現象按照速度分成3000萬個區間,然後在每個區間里總結出三條定律。

目前的人工智慧的應用,都是由機器來總結規律,由於機器不知疲倦,所以能夠做得更細、達到更好的效果。現在我們也在思考如何把這樣的技術應用到各行各業,用機器替代原來的業務專家,基於數據去寫業務規則。比如在內容分發的領域,當機器把規則寫到1000萬、幾十億甚至幾千億的時候,可以顯著地實現原來傳統業務專家達不到的效果。

我們有一個經驗,在一個垂直領域,如果能用機器基於數據寫出超過1000萬條業務規則,那麼一個資深的業務專家,基本上沒有辦法比機器強。

但是其實也不是所有領域都能寫出1000萬條業務規則,因為你能寫出業務規則的數量,或者模型VC維的數量和數據量幾乎成正比,而在一些垂直細分領域樣本數是不夠的。比如醫療領域,一些罕見病只能找到100個病人,這時候用機器只能寫出100條業務規則。在這個場景下,機器就遠不如人。

商業公司構建AI能力的五大核心要素

人工智慧在不同領域所面臨的環境是不一樣的。對於一個商業公司來說,構建AI的能力有5個核心的要素,分別是Big data(大數據)、Response(持續的反饋)、Algorithm(演算法)、Infrastructure(計算能力)和Needs(明確的需求),合在一起就叫做Brain。如果這5個核心要素是齊備的,機器就非常有可能超過人。但是如果暫時還有局限,我們就要思考如何彌補目前的局限,來達到比較高水平的人工智慧,未來各行各業都需要走這樣一條路。

1、數據:人工智慧需要收集有意義的過程數據

前幾年我們對大數據的誤解體現在只去比較數據量的大小,其實大數據還分有意義的大數據和沒有意義的大數據,有意義的大數據叫做過程數據。

以圍棋為例,什麼叫有意義的數據?棋譜、下棋的過程。什麼是沒有意義的數據?比如那些棋手或者等級、排名。好比說兩個人下棋,我在旁邊看,看著看著我自己也會下棋了。但我每天聽新聞說柯潔又輸給AlphaGo了等等,聽得再多也不會下棋。所以一定要餵給機器他能學會的那些數據。

回到商業上看過程數據的收集,以一個抽象的Model為例,用戶會對公司有一個請求,公司會提供一個服務,完成後會收集到用戶正向或負向的反饋。具體到一些場景,比如在線廣告,用戶通過搜索看到一個廣告,會選擇點或者不點,點擊就是正反饋,沒有點擊就是負反饋。又比如對於個性化推薦來說,我訪問了你這個APP,你給我推薦了很多內容,如果我接受了這個推薦,就是正反饋,沒有接受就是負反饋。

我們經驗來說,一個優秀的AI模型需要約1000萬以上過程數據的樣本。VC維理論也是一樣,我們把VC維做到1000萬以上,人就做不過機器了。

如何支撐1000萬的VC維?其實需要1000萬以上的樣本,這裡面實際有一個統計學的原理來支撐。這個公式稍微有點複雜,但只要記著這個科學家就行了,他叫Valiant,是2011年的圖靈獎的獲得者。他得獎的這條公式,簡單說就是規則數或者模型的維度要和數據量相匹配,所以我們要收集大量的過程數據,就是為了支撐我們做出更大的模型。

2、反饋:兩個關鍵:一是要數據化,二是要持續反饋

反饋(Response),就是說我提供服務以後,要能得到一個正向或者負向的結果,告訴我提供的服務到底好還是不好。比如在廣告里的點擊和非點擊,比如在推薦里的接受和拒絕。反饋一定得是能數字化的,因為計算機只聽得懂0和1,比如點擊是1,沒點擊是0。現實情況是,我們經常會告訴機器你要推薦一個好的結果,或者你要推薦一個相關的結果,但好和相關是計算機聽不懂的語言。

過去我們認為推薦系統要推薦相關的內容,很強調相關性,但機器根本不知道相關是什麼意思,機器只知道,叫0還是1,所以過去的推薦其實很不合理。

反饋最關鍵要做到兩點:第一點:數字化反饋。第二點:持續不斷的反饋。

任何一個機器都會犯錯,犯錯不怕,怕得是永遠犯同樣的錯誤。比如最早AlphaGo的模型只有30萬盤棋,就是通過自己和自己下,贏了得到一個正反饋,輸了得到一個負反饋,持續不斷又下了8000萬盤棋,達到一個可以打敗棋手的效果。

3、演算法:改變演算法受眾,降低AI能力構建的門檻

演算法(Algorithm)是現在被比較關注的。一家公司構建AI能力的瓶頸是很難招到科學家,因為科學家永遠是相對小眾的一群人,最後發現空有一堆數據卻用不起來。

我們的受眾人群實是開發者,互聯網、移動互聯網都是開發者在做應用。而現在AI處在一個不太正常的狀態,所有的應用基本上都是科學家做的。

第四範式希望改變這個狀態,我們把科學家的能力封裝到一個平台里,讓業務人員能夠完成AI科學家團隊做的事情。第四範式正在致力於研究一些新的演算法,比如兩個獨特的演算法:第一個:線性分形演算法。第二個:He-Treenet演算法,是一個樹和網路結合的模型。這些事情能夠讓過去一些門檻高的事情變簡化。比方說過去為什麼使用演算法的門檻高?因為要做大量的數據清洗、特徵變換、歸一化、特徵組合、離散化這樣的一些事情。學習這些需要很長的時間,當我們把這些東西全都由機器自動完成,這樣才能讓機器完成學習的過程,就是數據進來,跑一個演算法,出來一個模型就可以用。如果只是這麼簡單,其實絕大多數人都是可以使用的。

4、計算能力:大數據下沒有簡單的架構問題

第四個叫計算能力(Infrastructure),機器學習沒有簡單的問題, 其實管理機器和管理人是一樣的,當你管理20團隊的時候,會出現一些問題,超過100人的時候又會出現一些問題,可能每天都會有員工請假等等。同樣的道理,超過100台機器去跑一個任務,每次跑任務都會有機器宕機。超過1000台機器的時候,會出現各種分配任務的不均衡,有的機器可能在跑,做了很多的事,有的機器閑著沒事幹,這都是很複雜的。當數據量大的時候就有架構問題,這甚至是不亞於演算法的難題。

所以我們也在設計一些門檻很高的架構,比如支持萬億級機器學習的架構。舉個例子,做機器學習和原來做分布式計算有什麼區別?大家都知道,像Hadoop、Spark這樣的架構其實已經相對成熟了。他們做這樣一件事情:我有一本書,我要讓10個人抄這本書,能做得比一個人抄得更快。而機器學習,是讓10個人學一本書,學得比一個人更快。

抄書只要撕成10份,抄完之後訂起來就行。機器學就不行,各自學完之後,可能還要交流,還要互通有無。所以整個設計理念會不一樣,我們和Spark做過這樣的對比。隨著數據量的增加,我們速度會比Spark有平方級速度的差別。比如在5萬太(Terabyte, 1T=1024G)數據的時候,提升並沒有那麼多,只有28%。如果再有600多萬的話,提升了86倍,在3000多萬,提升了400多倍。更大的情況下,Spark已經沒法跑了,就沒有數據了。

所以需要把這些門檻很高的技術,都屏蔽並封裝到這樣一個平台上,讓大家感覺不到這叫分布式,只是一個簡單的學習。

5、需求:邊界清晰的問題定義

最後,機器學習還需要一個清晰的問題定義,也就是所謂的需求(Needs)。目前機器學習沒有通用之門,只能解決一個單一的目標,存在邊界問題。其實所謂通用的人工智慧,都是一大堆單一目標的人工智慧的組合。能到當我們解決的問題極大的時候,才會產生通用的人工智慧。

像AlphaGo是一個清晰目標的問題,就是贏和輸。當然大家會說,單一目標可能不能解決業務問題,比如推薦就單一目標來說是不能解決的。所以我們可以將多個模型和目標做組合優化,就可以達到多目標優化的結果。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 界面 的精彩文章:

雷諾慶祝其征戰F1賽場40周年
火幣網比特幣高位調整 拉各斯成為全球比特幣熱情最高城市
大疆發布新款無人機 蘋果位居《福布斯》全球科技公司榜首
2017年4月中國主要經濟數據分析
在這些地方買房,補繳社保無效

TAG:界面 |

您可能感興趣

黃少堂:智能技術平台先行 保障廣汽五大核心能力
智商高邏輯思維性好能力強的四大星座
有能力控制世界的七大石油公司
NBA 星海哥恢復良好 稱讚教練執教能力
薛萬國:醫療大數據應用的核心是服務能力建設
商湯科技副總裁楊帆:安防行業需要具備強大自我進化能力的 AI
美國海軍第七艦隊建設移動電磁測試能力設施
大腦教練五星級認證體系發布,大腦行業正式進入「專業能力階段」
「活力、能力、效力」三位一體——第七季上海服裝服飾展注入產業新動能
韓國第二艘「准航母」下水 綜合作戰能力要強於第一艘
阿甲科技告訴你開發APP需要具備什麼能力?
歐顏柳趙四大家的核心能力
中科恆運陳興軍:提升洞察數據能力 構建行業認知模式
一個流程貫思路:大數據中心的核心能力之存儲計算域
馬上消費金融CTO蔣寧:消費金融須鍛造五大核心能力
穩紮穩打,繼續提高創新能力、OPPO研究院正式成立
吳維庫:領導者核心能力之七力模型
長期積累專註用戶體驗,極具創新能力的OPPO研究院正式成立
盤點《海賊王》中能夠作為大勢力發展核心的十大惡魔果實能力
海賊王SBS分享 四分五裂惡魔果實能力的限制範圍!