第四範式戴文淵：公司構建AI能力需五大核心要素

最新 05-28

「華興·湃」是華興的報告會議系列論壇。湃形容水波相擊之聲，亦有冰鎮冷浸之意。華興希望搭建共享灼見的平台，將投資機構、企業匯聚於此，碰撞思想火花，激蕩行業澎湃，弄潮新經濟。

第二期論壇主題聚焦人工智慧，5月27日下午，來自AI行業的頂尖創業者和投資人，通過4場主題演講和1場圓桌對話的形式，開啟了一場「燒腦」風暴。

第四範式創始人兼CEO戴文淵做了題為《AI+：贏在維度》的主題演講，他用統計學的VC維理論闡釋了AI能力的構建，認為一家商業公司構建AI能力需具備五個核心要素，並結合實戰經驗對各個要素逐一拆解。

精華觀點一睹為快：

在一個垂直領域，如果能用機器基於數據寫出超過1000萬條業務規則，那麼一個資深的業務專家，基本上沒有辦法比機器強。

對於一家商業公司來說，構建AI的能力有5個核心的要素,分別是Big data（大數據）、Response（持續的反饋）、Algorithm（演算法）、Infrastructure（計算能力）和Needs（明確的需求），合在一起就叫做Brain。

有意義的大數據叫過程數據，一個優秀的AI模型需要約1000萬以上過程數據的樣本。模型越大，需要的數據量越大。

反饋最關鍵要做到兩點：第一點：數字化反饋，即反饋是可被度量的。第二點：持續不斷的反饋。

以下是演講實錄：

用VC維理論構建AI方法論

我們在學術領域研究機器智能，是基於統計學來構築AI整個方法論。統計學裡最重要的理論叫VC維理論，為什麼叫VC維？是因為這兩個科學家提的，一個姓V一個姓C，各取一個首字母，叫VC維。

VC維反映的是什麼？結論就是，如果一個機器模型，他的VC維越高，這個機器的模型會越強。VC維不只能刻畫機器的智能，還能刻畫生物的智能。人腦的VC維也能算出來，大概是多少、約等於大腦腦細胞個數，前面可能只差一個常數項。

未來無論人的智能還是機器智能，都可以套在VC維理論的框架下解決。企業構建AI能力，就是要不斷把VC維做大。

機器和人誰更強？1000萬條規則是個門檻

以牛頓三大定律為例，牛頓是物理學專家，他看了很多物理的自然現象，最後總結出三條規則。如果機器做牛頓的事，他會把整個自然現象按照速度分成3000萬個區間，然後在每個區間里總結出三條定律。

目前的人工智慧的應用，都是由機器來總結規律，由於機器不知疲倦，所以能夠做得更細、達到更好的效果。現在我們也在思考如何把這樣的技術應用到各行各業，用機器替代原來的業務專家，基於數據去寫業務規則。比如在內容分發的領域，當機器把規則寫到1000萬、幾十億甚至幾千億的時候，可以顯著地實現原來傳統業務專家達不到的效果。

我們有一個經驗，在一個垂直領域，如果能用機器基於數據寫出超過1000萬條業務規則，那麼一個資深的業務專家，基本上沒有辦法比機器強。

但是其實也不是所有領域都能寫出1000萬條業務規則，因為你能寫出業務規則的數量，或者模型VC維的數量和數據量幾乎成正比，而在一些垂直細分領域樣本數是不夠的。比如醫療領域，一些罕見病只能找到100個病人，這時候用機器只能寫出100條業務規則。在這個場景下，機器就遠不如人。

商業公司構建AI能力的五大核心要素

人工智慧在不同領域所面臨的環境是不一樣的。對於一個商業公司來說，構建AI的能力有5個核心的要素,分別是Big data（大數據）、Response（持續的反饋）、Algorithm（演算法）、Infrastructure（計算能力）和Needs（明確的需求），合在一起就叫做Brain。如果這5個核心要素是齊備的，機器就非常有可能超過人。但是如果暫時還有局限，我們就要思考如何彌補目前的局限，來達到比較高水平的人工智慧，未來各行各業都需要走這樣一條路。

1、數據：人工智慧需要收集有意義的過程數據

前幾年我們對大數據的誤解體現在只去比較數據量的大小，其實大數據還分有意義的大數據和沒有意義的大數據，有意義的大數據叫做過程數據。

以圍棋為例，什麼叫有意義的數據？棋譜、下棋的過程。什麼是沒有意義的數據？比如那些棋手或者等級、排名。好比說兩個人下棋，我在旁邊看，看著看著我自己也會下棋了。但我每天聽新聞說柯潔又輸給AlphaGo了等等，聽得再多也不會下棋。所以一定要餵給機器他能學會的那些數據。

回到商業上看過程數據的收集，以一個抽象的Model為例，用戶會對公司有一個請求，公司會提供一個服務，完成後會收集到用戶正向或負向的反饋。具體到一些場景，比如在線廣告，用戶通過搜索看到一個廣告，會選擇點或者不點，點擊就是正反饋，沒有點擊就是負反饋。又比如對於個性化推薦來說，我訪問了你這個APP，你給我推薦了很多內容，如果我接受了這個推薦，就是正反饋，沒有接受就是負反饋。

我們經驗來說，一個優秀的AI模型需要約1000萬以上過程數據的樣本。VC維理論也是一樣，我們把VC維做到1000萬以上，人就做不過機器了。

如何支撐1000萬的VC維？其實需要1000萬以上的樣本，這裡面實際有一個統計學的原理來支撐。這個公式稍微有點複雜，但只要記著這個科學家就行了，他叫Valiant，是2011年的圖靈獎的獲得者。他得獎的這條公式，簡單說就是規則數或者模型的維度要和數據量相匹配，所以我們要收集大量的過程數據，就是為了支撐我們做出更大的模型。

2、反饋：兩個關鍵：一是要數據化，二是要持續反饋

反饋（Response），就是說我提供服務以後，要能得到一個正向或者負向的結果，告訴我提供的服務到底好還是不好。比如在廣告里的點擊和非點擊，比如在推薦里的接受和拒絕。反饋一定得是能數字化的，因為計算機只聽得懂0和1，比如點擊是1，沒點擊是0。現實情況是，我們經常會告訴機器你要推薦一個好的結果，或者你要推薦一個相關的結果，但好和相關是計算機聽不懂的語言。

過去我們認為推薦系統要推薦相關的內容，很強調相關性，但機器根本不知道相關是什麼意思，機器只知道，叫0還是1，所以過去的推薦其實很不合理。

反饋最關鍵要做到兩點：第一點：數字化反饋。第二點：持續不斷的反饋。

任何一個機器都會犯錯，犯錯不怕，怕得是永遠犯同樣的錯誤。比如最早AlphaGo的模型只有30萬盤棋，就是通過自己和自己下，贏了得到一個正反饋，輸了得到一個負反饋，持續不斷又下了8000萬盤棋，達到一個可以打敗棋手的效果。

3、演算法：改變演算法受眾，降低AI能力構建的門檻

演算法（Algorithm）是現在被比較關注的。一家公司構建AI能力的瓶頸是很難招到科學家，因為科學家永遠是相對小眾的一群人，最後發現空有一堆數據卻用不起來。

我們的受眾人群實是開發者，互聯網、移動互聯網都是開發者在做應用。而現在AI處在一個不太正常的狀態，所有的應用基本上都是科學家做的。

第四範式希望改變這個狀態，我們把科學家的能力封裝到一個平台里，讓業務人員能夠完成AI科學家團隊做的事情。第四範式正在致力於研究一些新的演算法，比如兩個獨特的演算法：第一個：線性分形演算法。第二個：He-Treenet演算法，是一個樹和網路結合的模型。這些事情能夠讓過去一些門檻高的事情變簡化。比方說過去為什麼使用演算法的門檻高？因為要做大量的數據清洗、特徵變換、歸一化、特徵組合、離散化這樣的一些事情。學習這些需要很長的時間，當我們把這些東西全都由機器自動完成，這樣才能讓機器完成學習的過程，就是數據進來，跑一個演算法，出來一個模型就可以用。如果只是這麼簡單，其實絕大多數人都是可以使用的。

4、計算能力：大數據下沒有簡單的架構問題

第四個叫計算能力（Infrastructure），機器學習沒有簡單的問題，其實管理機器和管理人是一樣的，當你管理20團隊的時候，會出現一些問題，超過100人的時候又會出現一些問題，可能每天都會有員工請假等等。同樣的道理，超過100台機器去跑一個任務，每次跑任務都會有機器宕機。超過1000台機器的時候，會出現各種分配任務的不均衡，有的機器可能在跑，做了很多的事，有的機器閑著沒事幹，這都是很複雜的。當數據量大的時候就有架構問題，這甚至是不亞於演算法的難題。

所以我們也在設計一些門檻很高的架構，比如支持萬億級機器學習的架構。舉個例子，做機器學習和原來做分布式計算有什麼區別？大家都知道，像Hadoop、Spark這樣的架構其實已經相對成熟了。他們做這樣一件事情：我有一本書，我要讓10個人抄這本書，能做得比一個人抄得更快。而機器學習，是讓10個人學一本書，學得比一個人更快。

抄書只要撕成10份，抄完之後訂起來就行。機器學就不行，各自學完之後，可能還要交流，還要互通有無。所以整個設計理念會不一樣，我們和Spark做過這樣的對比。隨著數據量的增加，我們速度會比Spark有平方級速度的差別。比如在5萬太（Terabyte, 1T=1024G）數據的時候，提升並沒有那麼多，只有28%。如果再有600多萬的話，提升了86倍，在3000多萬，提升了400多倍。更大的情況下，Spark已經沒法跑了，就沒有數據了。

所以需要把這些門檻很高的技術，都屏蔽並封裝到這樣一個平台上，讓大家感覺不到這叫分布式，只是一個簡單的學習。

5、需求：邊界清晰的問題定義

最後，機器學習還需要一個清晰的問題定義，也就是所謂的需求（Needs）。目前機器學習沒有通用之門，只能解決一個單一的目標，存在邊界問題。其實所謂通用的人工智慧，都是一大堆單一目標的人工智慧的組合。能到當我們解決的問題極大的時候，才會產生通用的人工智慧。

像AlphaGo是一個清晰目標的問題，就是贏和輸。當然大家會說，單一目標可能不能解決業務問題，比如推薦就單一目標來說是不能解決的。所以我們可以將多個模型和目標做組合優化，就可以達到多目標優化的結果。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自界面的精彩文章:

※雷諾慶祝其征戰F1賽場40周年
※火幣網比特幣高位調整拉各斯成為全球比特幣熱情最高城市
※大疆發布新款無人機蘋果位居《福布斯》全球科技公司榜首
※2017年4月中國主要經濟數據分析
※在這些地方買房，補繳社保無效

TAG:界面 |

您可能感興趣

※黃少堂：智能技術平台先行保障廣汽五大核心能力
※智商高邏輯思維性好能力強的四大星座
※有能力控制世界的七大石油公司
※NBA 星海哥恢復良好稱讚教練執教能力
※薛萬國：醫療大數據應用的核心是服務能力建設
※商湯科技副總裁楊帆：安防行業需要具備強大自我進化能力的 AI
※美國海軍第七艦隊建設移動電磁測試能力設施
※大腦教練五星級認證體系發布，大腦行業正式進入「專業能力階段」
※「活力、能力、效力」三位一體——第七季上海服裝服飾展注入產業新動能
※韓國第二艘「准航母」下水綜合作戰能力要強於第一艘
※阿甲科技告訴你開發APP需要具備什麼能力？
※歐顏柳趙四大家的核心能力
※中科恆運陳興軍：提升洞察數據能力構建行業認知模式
※一個流程貫思路：大數據中心的核心能力之存儲計算域
※馬上消費金融CTO蔣寧：消費金融須鍛造五大核心能力
※穩紮穩打，繼續提高創新能力、OPPO研究院正式成立
※吳維庫：領導者核心能力之七力模型
※長期積累專註用戶體驗，極具創新能力的OPPO研究院正式成立
※盤點《海賊王》中能夠作為大勢力發展核心的十大惡魔果實能力
※海賊王SBS分享四分五裂惡魔果實能力的限制範圍！