大數據驅動的開放知識計算

科技 05-31

大數據驅動的開放知識計算

打開今日頭條，查看更多圖片

演講人：王元卓中國科學院計算技術研究所大數據研究院院長

大家好，我是王元卓。開始正式分享之前給大家分享一點我進門之後的心情，我剛進到這個房間裡面來的時候，我們的CEO正在做非常精彩的演講，我坐在嘉賓席上的時候越聽心裡越沉，我發現今天大會的定位、大會的風格好像跟我之前來的時候，和我準備的演講不太一致，我非常擔心我會成為今天最另類的一個講者，因為我講得太學術了，真的是心裏面一直在打鼓，怎麼辦？可是當我聽完前面兩位專家在講宇宙空間、講天體科學之後我的心情馬上就好了很多，大家知道為什麼嗎？因為我之前被主辦方邀請來是跟他們一樣的，是要講宇宙空間的，講天體科學的。大家要知道我的心情，可能是由於年初的時候我給女兒畫過幾幅《流浪地球》的手繪圖，很多人都誤以為中科院的王元卓是搞天體物理研究的，這是一個很大的誤會，我本人是做信息科學，大數據和智能計算相關的研究工作，大家可以想像我的心情，如果我在兩位大專家之後去講天體科學，那我無異在印證一句古老的成語——班門弄斧，所以我現在心情好了很多，我馬上要開始我本專業的分享，大數據驅動的智能計算或者開放知識計算下面的一些研究工作。

首先要提一下大數據，近些年，應該說從2012年開始，大數據被很多人、很多業界、很多學者所熟知，並且在助力推動，我作為中科院計算所的科研人員，我很自豪地講，我們中國科學院計算技術研究所是大數據的發起者和主要推動者之一，我作為其中一員也擔任了很多的工作。

目前大數據要產生大的價值是業界很多人驅動的動力，但是我國雖然擁有很大量的數據，大數據主要有兩類，一類是來自物理空間、物理社會，我們的這樣一些可以通過感知、採集所獲得的，還有一類來自於我們的社交，來自於我們人，我國是地大物博、人口眾多，大數據無論從哪個方面我們都是具有全球最大量數據的國家。但是由於技術的限制，由於各方面行業應用的限制，目前我國大數據的利用率僅僅不到0.4%，應該說還有大量的工作可以做。

大數據驅動的開放知識計算

要想讓大數據真正能夠產生價值，計算是一個很重要的途徑。這裡面我們舉一個典型的案例：我們每天都會經歷的大數據，比如說網路上的大數據，我們每天都會刷微信，現在還有人看抖音、刷微博等等，我們說網路大數據紛繁複雜，要想讓它得到這樣的價值，很關鍵就通過兩個方法、兩個階段、兩個步驟，一個是對這些數據進行統一的表示，讓機器能夠了解它，就是建模的過程。還有計算，怎麼通過演算法的方式能夠產生這樣的價值。我們還是用網路大數據來做例子，要想研究好網路大數據，把它當中的有效價值能夠提煉出來，我們要做什麼樣的工作？我們要找到研究對象，我們說網路當中有幾類非常重要的信息，一類信息是內容信息，我們要發各種郵件，我們可能會發微博，我們會發朋友圈，裡面有很多很多的內容信息，有的是長文本，有的是短文本，還有結構信息，誰跟我是好友，我關注了誰，我跟某個機構的隸屬關係是什麼樣的，我們有很多結構信息，同時這些結構信息又在發生著各種各樣的變化，根據時間的變化，它在發生各種推移。還有一類信息是目前大家都擔心的，說你們搞大數據的就是竊取我們的隱私來變現作為商業價值，很多隱私信息聚集在一起也是目前大數據重點關注的方向。

我們對大數據的研究，從這三個方面來講是非常關注的，三個研究領域，一個是做開放知識的計算，怎麼把內容當中的信息提取出來，第二方面是做演化的計算，怎麼能夠把我們的這種社交的關係，並且能夠關注到這些關係發展變化的情況，今天我們兩個是好友，明天我們兩個反目了，第三個方面就是我們怎麼能夠通過數據的分析，能夠更好地保護我們的隱私，防止我們的隱私泄露。在這個方面其實我本人也是有一個工作，在中國中文的期刊論文，目前是我國大數據領域下載量最高的一篇文章，應該有七萬多次下載，如果大家感興趣的話可以去了解。

我今天要講的內容其實主要就是針對開放知識的計算，我們說大數據當中有很多開放的知識，我們都知道網路上面有大量的知識，我們怎麼通過檢索，通過搜索引擎找到這些開放的知識，把它變成以實際為中心的知識可以去共享、可以去分享的這樣一個形式，並且把這些知識整體化、系統化之後能夠給我們一些我們想要的知識經過整理之後的答案。我們說一個很重要的方法就是構建知識庫，我們現在說的知識庫可能跟80年代時候講的知識庫有那麼一點點不同，什麼不同呢？

大數據驅動的開放知識計算

如果說早期的，從一九八幾年開始的知識庫，更多的是小規模的，是我們把很多書本上的信息電子化、數字之後存在計算機里，是給人用的，人工構建服務於人的。在現階段，在2010年前後的時候，更多做的是用演算法來構建，讓機器可以理解，而不是給人看的，機器要把這個知識做了精化處理之後，給我們更多加工後的信息。引用這樣一句話，我們說知識庫現在的構建需要機器可讀、演算法驅動和自動知識體系的構建方法。

大數據怎麼產生價值？一方面要統一表述，要有一個統一的模型，不用管模型是什麼，另外我們要解決多源異購不完整的這種網路數據當中怎麼去讓它計算的精度和速度都能夠保證起來，這就是我們要解決的問題。我們在模型的基礎上又做了很多的演算法，可以讓它比已有的應用技術，在很多方面都有提升，比如說準確率、比如說融合的準確率、比如推斷的準確率等等。簡單來講，開放知識網路就是構建一個網路，這個網路游點、有邊，點就是我們的實體，比如王元卓就是一個實體，中科院是一個實體，中國也可以是一個實體，邊就是關係，我跟中科院是一種工作關係，或者說隸屬關係，中科院在中國也是這樣的一些關係，每個點、每個邊又有若干的屬性，比如說我是性別男，我有我的年齡、我有我的師承、畢業院校和學生等等，通過這樣的網路讓它賦予時間和空間的屬性，就可以把現在很多的數據當中的知識有效地提取出來。

雖然有一點學術，但是我試圖給大家解釋這個問題，大家要做開放知識計算，要把網路建立起來，要發揮它的作用，不用看細節，通過四個部分，每一個步驟做得好都可能比別人得到更好的結果，你的產品都可能會更加暢銷。什麼部分？第一個，同樣是表示我怎麼能讓機器理解得更好？怎麼能讓後面不明白我們語言的系統依然能夠跟我們兼容，所以首先就是要提出這種表示的方法，要找到這樣一種傳統不同的，比如說傳統的更多的是對這種內容信息做表示，我們就提出把結構信息和內容信息融合在一起進行表示，比如說我們這樣的工作在已有的系統當中得到非常好的效果。我們一旦有了好的表示方法之後，我們就想知識哪兒來？光有好的語言，語言承載什麼樣的內容呢？知識就要抽取出來，有三個主要的方面，一個方面，能不能在那麼多的文章當中找到「王元卓」這三個字，要把實體抽取出來。第二，能不能找出關係，我跟在座各位的關係，我在講，大家在聽，可能是一個授課的關係，但是如果離開這個房間，可能在座的某些人可能跟我成為朋友的關係，也可能成為合作的關係，這個關係怎麼抽取出來？第三個非常重要的方面，就是概念的體系，什麼是概念的體系？我經常舉一個例子，比如生物學，我們都學過生物，生物裡面有界門綱目，一級比一級大，我們各行各業都需要這樣的分級體系，比如醫療大數據，我們搞大數據的人懂醫療嗎？不懂，我需要通過這樣的概念、分類體系構建，使技術人員能夠了解在醫療方面大數據應用的需求和知識。

在所有的可以有的抽取的知識，可以進行表示之後，我們涉及到的就是融合，我們怎麼能夠讓兩類不同來源的知識能夠有效地融合起來？比如我們說英文跟說中文的怎麼能夠很好的交流，比如不同企業和領域的知識怎麼能夠很好地融合，這解決我們第二個要解決的問題。

第三個方面，我們光把知識可以融合了，就可以了嗎？我們說很多基於大數據獲得的知識都是顯性的知識，什麼叫顯性的知識？在某一個文本當中說王元卓就職於中國科學院，王元卓和中國科學院是兩個個體，關係是就職於，但是有一些知識不知道，比如我在清華大學讀書，作的某些人也在清華大學讀書，我們可以推理出來，但是機器不行，但是我們還有更多更深層次的推理關係，我們這裡面有這樣的數據，比如把80年代到現在信息領域、計算機領域的論文做了分析，我們發現如果我們用這種合作作為人與人之間的關係，這些都是顯性的，我們如果再通過這種推理的方法來對它進行深度的挖掘之後會發現，有80%的信息是可以通過我們的深度推理里獲得的。換句話說，我們有了很好的知識推理，我們可以讓大數據擁有更多的知識。

另外一個方面，我們說大數據它有兩個非常重要的應用，或者是應用的需求，一個方面我們叫感知現在，就像體檢一樣，我們通過很多數據的參數化，包括跟閾值的對比，我們知道我們是不是健康還是亞健康。另外一個非常重要的驅動就是我們的預測未來，通過我們已有的知識怎麼能夠預測知識未來發展的趨勢？在這裡面重點提到兩個方面，一個方面是關係預測，我現在看到了，這邊有一位朋友一直在拍照、一直在錄像，我們下面有可能成為合作關係或者朋友關係，這邊有朋友一直在低頭看手機，我覺得我們之間可能認識的可能性不大，通過一些已有的信息、已有的跡象，我們可以對未來知識的發展和走向做這樣的預測。這些不是我們去憑空而談的，我們有成果、有專利、有各種各樣國際頂級的論文支持，所以大數據從2012年發展到今天已經開始進入到可以實用的階段。

前面講了這麼多的技術，很多的演算法、很多的公式，我沒有講內容，大家理解一下，要做一個大數據知識化的計算，那要把開放知識構建成知識庫，剛才講了那麼多的技術，它要有實現的方式，比如開放知識庫，知識庫的構建只有把知識真正存在庫裡面才能發揮作用。這個庫什麼叫作好？三個維度定義它，一個維度是快，一個維度是全，一個維度是准，這就是我們構建一個面向領域的知識庫我們非常關注的三個方向。

首先知識庫能否快速構建？如果大家了解，我們之前在80年代做知識庫的時候是怎麼建的？一個技術人員，或者更多的就是錄入，手要快，旁邊要跟著一個業務人員，一個老專家，比如醫療領域的大數據，我們一定要有一個主治醫師，有一個老專家在這邊，他會告訴我們糖尿病跟什麼是有關係的，不能吃什麼，要用什麼葯。這種錄入方式的好處就是准，準確率達到98%，為什麼還有2%的誤差？第一個是他記錯了，第二個是我聽錯了，通過現階段的需求，大數據量太大了，我們構建一個大規模的知識庫，比如幾十億的關係，我們需要多少人力做這件事情？在這時候我們開放網路知識庫面向領域的構建就非常重要，我們可以通過已有領域簡單的關鍵詞輸入，我們可以不斷迭代自學習的構建，從而實現知識庫的自我構建。同樣還是醫療領域，作為中年人都了解一些常識，都知道如果高血壓你可能不能太吃鹹的東西，你要注意休息，你可能吃芹菜會降壓，我們會有一些基本的常識，通過這些僅有的碎片化的常識知識，不斷地在網路上自我滾動和更新，我們就可以快速地在沒有，或者很少的監督或者領域知識的情況下，就能構建準確率達到70%以上的知識庫，規模很大，速度很快，同時又可以不斷迭代，讓它達到精確的效果。

通過信息的領域、通過技術化的手段，可以從網上獲得各種各樣的知識，我們的通道可以配置，我們的新聞、論壇、博客可以各個渠道配置，所以我們的大數據可以非常全面地獲得。還有一個方面就是准，我們剛才講到在沒有領域專家的情況下，很多領域知識的構建其實很難達到非常精準，我們基本可用，但是怎麼能夠在這個前提下，讓它盡量准，這個方面其實我們也做了很多工作，從2014年開始，我們的很多規律在國際頂級技術評測上都獲得了國際排名第一的成績。我們拿來了一個構建好的開放領域的知識庫怎麼評價它？我們有多維的指標來通過這樣的一些方式判斷。

下面有很多業界的學者要講，我就把前面說的，我們能夠把這種領域知識構建出來，體系化、結構化之後，能夠產生什麼樣的應用，簡單地跟大家做一個分享。首先我們說新聞語義的推薦，傳統在網上搜索，或者我們業務部門，我們有很多工具，比如說新華社、媒體的文字編輯部門，他們需要在大量的網路媒體或者大量的數據當中找到完整的新聞要素做完整的整面，但是通過關鍵詞搜索的情況下，比如人物、地點、組織，可能會漏掉很多的信息。我們現在基於這個開放知識網路可以通過體系化、結構化的對語義進行搜索，就可以較好地彌補這樣的問題。通過數據說話，我們實際的應用，我們可以看到，我們可以獲得超過已有的基於關鍵詞搜索25%的增量的結果，換句話說我可以得到的結果更多，跟大家很多的想法是不一樣的，大家想我在百度上搜一個文章、搜一個信息給了我幾萬個結果，我想要一個就夠了。還有很多要找到更多的信息，從中找到更全面的結果。第二個方面，前面講了，很多的關係、很多的線索是可以推理出來的，這裡面就舉一個簡單的例子，也是系統可以直接完成的例子，這是當年暴恐的例子，裡面人物、關係都可以推理出來的。還可以通過前面結構化、組織化之後的知識，尤其是領域知識對一個領域的事件進行很好的表示，比如說股市熔斷，這個詞有各個方面，包括國家政務、外交、金融、法律監測、監督等等，不同的人收到的信息可能是不同的角度，我怎麼能夠快速地定位到我想要的信息？這就是我們通過體系化知識的知識所能完成的。

大數據驅動的開放知識計算

後面有一個簡單的小小的案例，語義的搜索，我們現在更希望不僅僅是我們給一堆關鍵詞，我們希望給一堆自然語言，我們不知道要什麼的情況下，機器也能知道我們要什麼。可以通過自然語言搜索，怎麼通過語言、語義的輸入，讓計算機知道我們要什麼，便給我們相應的結果。我們整個的工作是很系統性的，比如自然語言的處理，我們要做很多分詞，要做很多表示，還要有語音的識別、文字的合成、語音的合成等等，但是它的核心就是前面講到的這樣一個知識體系的構建，尤其在很多開放式問答的時候，開放網路知識庫尤為重要。我們要構建這個一般問答體系、語義搜索體系，一方面會從底層，從實體層、短語層、問題體，很簡單的就是三個方面，第一方面要建一個庫，把所有可能的知識都存起來，第二方面我需要了解問題是什麼，對問題進行理解，第三個方面通過對問題的理解和定位在裡面找可能是你要的信息。第四個方面，我們把這些可能的信息變成人化給你輸出出來。否則給你250個詞你也不知道表達什麼含義，這就是基本的語義搜索所解決的問題。

簡單講，有點偏技術，我們可以理解為首先是命令實體的識別和鏈接，我們要找到關鍵詞，我們問一個問題說王元卓在講什麼，裡面有一個定語是王元卓，他在講什麼，對於這種實體的識別之後會去庫裡面，已有的體系裡面找，找到這樣一些詞的定位，同時我們還會有很多問題不是直接能夠給出答案的，不是像章網路的客服，我們在很多電話也好，或者是客服也好，他通過自動語音可以回答，為什麼？因為那個問題的答案基本是確定的，會有很少的偏移。而我們在實際的問題當中很可能我問的問題在實際的庫裡面是不存在的，我們就要做相應的路徑的推理和推斷。後面舉這樣一個簡單的例子，時間的關係就不詳細講了。

通過前面語義的問答，我們可以快速地找到我們想要的結果，可能在庫裡面沒有完全存在，我們通過各種組合的方式獲得。我們做一個複雜的語義搜索，我們可以實現對上下位的推理，比如我要寄一個快遞，我要找最近的能寄帶魚的配送站的攬件的服務的最晚的時間是多少，讓機器可以理解我，他要在庫裡面找到帶魚，上位推理出它是海鮮，最近的服務是4很地理位置有關，通過這樣知識的計算可以給出這樣一個問題最直接的答案。

大數據驅動的開放知識計算

目前我所在的或者我所領導的中科院計算技術研究所大數據研究院，目前我們研究院就是致力於大數據在行業的應用，我們可以看到，我們一共有下設了十個中心，其中有一個大數據的創新平台中心，就是把我們現在講到各個領域的知識、各個領域的數據都能夠結構化、知識化、體系化之後放在我們這樣的平台裡面，通過各種演算法的支持產生更高的效果。我們所有的研究中心都是面應用的，我們有政府的數據、科技的數據、環保的數據、交通的數據、物流的數據、金融的數據等等，我們把已有的大數據知識跟行業應用緊密結合起來之後，讓它能夠發揮更多更有效的作用。前面講到很多案例、很多信息都是通過這樣一個創新平台完成的，同時這個平台還應該有這樣的功能，我們數據的來源，如果我們空談大數據的技術，沒有數據的來源還是無源之水，所以我說我們目前的應用，百萬的信源，十億級的網頁數據，包括每天增量千萬的規模標籤，有了這樣的數據獲取和數據處理能力，就可以支持各個行業的大數據應用，這就是我們正在打造的大數據大腦，通過我們的物聯網和互聯網，兩個渠道來為我們的大腦輸入我們的數據，通過我們的開放知識網路的構建，把我們前面講的各個行業的數據都能夠知識化、體系化，並且能夠分領域組織好，並且通過我們上面數千個計算的工具，比如說我們的各種演算法、各種模型，讓它們應用到各個行業裡面去，這是我們目前正在著力打造的工具。

前面講到的知識如果大家感興趣可以翻一翻我去年3月份在清華大學出版社出版的《開放網路知識計算》一書，下面有兩個二維碼，左下角是我目前在做科普的一個微博，大家如果感興趣的話也歡迎大家在上面跟我互動，《流浪地球》手繪這個事件對我衝擊很大，從那個時候開始我一直著力通過手繪的方式對青少年，包括大眾做科普式的教育和科普的講解決目前我已經完成了包括《流浪地球》、包括《星際穿越》等多部科幻電影的手繪工作，後面還會做八部，包括我們講的大數據、量子、人工智慧等等，我都希望通過簡單的手繪的方式能向大眾、青少年傳播這樣的一些科學知識。

謝謝大家。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 PingWest品玩 的精彩文章:

※作為科技創新者的我們，為什麼要傾聽來自宇宙的聲音
※蔚來汽車第一季度總營收16.3億元，ES8銷量環比減少50％

TAG:PingWest品玩 |