當前位置:
首頁 > 新聞 > 牛津大學量化金融創始人:如何獲取並應用互聯網大數據?

牛津大學量化金融創始人:如何獲取並應用互聯網大數據?

導語:「互聯網不是資料庫,互聯網僅僅是數據的集合。這些數據是非結構化的,非結構化的數據以各種形式存在,因此也無法進行結構化的檢索。 」

本文作者:伊莉

雷鋒網AI金融評論報道,日前,「2017中歐金融科技產業發展論壇」在深圳舉行。眾多來自牛津大學、盧森堡大學、歐洲科學院以及法國美國等機構和地區的計算機科學專家也出席了大會,並發表各自領域的演講。George Gottlob教授是牛津計算機係數據研究中心主任、量化金融研究中心創始人。他的分享主題是「網頁大數據——如何獲取數據並應用」。

以下是演講原文,雷鋒網進行了不改變原意的編輯:

過去10到15年,數據提取是我一大重要研究領域,今天我將介紹如何利用互聯網收集數據。

互聯網不是資料庫

數據就存在於我們的日常生活中,數據對今天的發展來說至關重要。很多人說互聯網是最大的資料庫,這是不準確的。互聯網不是資料庫,互聯網僅僅是數據的集合。這些數據是非結構化的,非結構化的數據以各種形式存在,因此也無法進行結構化的檢索。

舉個例子,比如我要讓互聯網列出維也納所有滿足特定條件的公寓,而條件是帶陽台、價格低於50萬美元,附近有很多義大利餐館,但是去互聯網上無法搜到結果。因為互聯網並不是資料庫,只有有了資料庫才能實現搜索。

那怎樣將互聯網變成一個巨大的資料庫呢?數據是結構化的,我們可以創建相應的結構,為此必須提取數據。由於今天的時間問題,我不會涉及太多理論,我給大家展示一下使用方法。

一個網頁有很多的標記,左邊展示了網頁結構,但網頁到底怎麼收集信息呢?我們從標記中來獲取相應的信息。例如我要收集這個網頁上所有電話號碼,網頁上會有電話號碼的標記,樹狀結構上標黃的就是電話。

此外,還需要研究基礎語言和邏輯。對於計算機科學家來說,邏輯學是非常重要的。然後再確定想從網頁當中挖掘到什麼樣的信息, 這些數據記錄是一些非常基本的數據源。如果有人想做編程,就需要做這個語言, 語言可以幫助他找到網頁的很多特異性,它和其它網站相連,屬性、圖片、JAVA語言都非常重要,所以可以從一個語言跳到另外一個語言。

同時它中間有一個邏輯,必須要進行視覺上的處理,同時需要一個視覺工具。在設計產品和搜索產品的時候,還有上層和下層,包括大數據、資料庫的編程以及設計。可視化的發展是指,自動化的工具能讓挖掘信息的過程更加可視化,並且會是一個自動的過程。

比如說從ebay網頁上挖掘相關鏈接。圖上所示就是編程的語言,這些路是單一的數據,表示這些數據屬於哪裡,此頁面數據是使用何種語言。但只是做這個語言是完全不夠的,我們需要從幾萬頁或者是幾百萬頁的網頁上去抓取、挖掘數據,所以會用到雲。我們擁有雲的數據,用雲來做這樣的工具。

在數據挖掘方面,我們有本地化的內容挖掘和雲的內容挖掘。2001年我聯合建立了一家公司,這個公司為客戶提供了不少的幫助。以下是一些使用情景,體現了數據提取的重要性。

我們曾經有一些用戶是電子產品的零售商。對他們來說,他們不僅要考慮市場的情況,還需要考慮競爭對手的情況,包括每日價格、成本、消費趨勢、產品結構信息。這些數據對於他們來說非常難獲得。而實現自動化的數據挖掘卻又十分重要。我們得到了一個電子產品列表,表格列出了客戶的競爭對手,並能顯示出對方哪些方面做得更好。所以客戶能從中看到可以改善的區域,比如是價格還是競爭力。

第二個代表性場景是對沖基金。房屋價格指數由國家統計部門經常性發布的。它影響著不同行業的股價。如果能夠在國家統計部門宣布之前預見房價,可以做很好的投機。

第三個場景是建築公司投標。投標者來自全世界,要想知道潛在競爭對手的信息非常昂貴並且不完整。但我們做的事情切中了競標者痛點。

全自動數據挖掘

英國有超過15000個房地產網站,還有一些沒有被完全覆蓋的聚合,而這高度要求著完全自動的挖掘技術。因為雖然這些信息很容易獲得,但是手動或者半自動化加工數據成本太昂貴。而目前不存在完全自動的挖掘工具或者技術。因此我和一位牛津教授合作,研究固化或者形式化數據挖掘,這樣機器就能自動地挖掘數據。

這幅圖中的黑點是URL的鏈接,這是一個源數據項目,我們通過構建黑盒子來改變數據,從幾千萬的頁面到一個大數據集。

上圖為兩種不同來源的知識類型。就像一個小孩學習知識,在學校里會有許多人告訴他規則,他學習的就是規則。所以這就是一個從機器學習遷移到規則為基礎的推理。這對於研究者來說非常重要。右邊是通過規則建立的推理,我們通過規則實現自動化。規則總共有兩種,本位規則和其它規則。

2015年我們創建了一個公司,為了使用這種系統和規則,我們需要識別和對齊對象、填充表單、區塊分析和對象豐富化以及雲的支持,這樣才能更高效地提取信息。我們使用上面的語言從幾千個網頁提取容量信息,規則也需要語言。在很多領域例如二手車、房地產領域,都可以實現自動化數據提取。如果該領域非常簡單,20天能形成相應的規則。但也存在一些非常複雜的領域,每個領域的特點都不同,每個國家都有自己的語言,這些都是需要克服的問題。

目前深耕知識圖譜技術

最後介紹一下我們目前的研究工作——知識圖譜。知識圖譜能以非常清晰的方式來管理大量的知識。它通過識別信息來改變人們的生活,從而形成一個非常大的知識世界。很多公司也跟隨著我們的研究腳步,包括Facebook、亞馬遜等。當然,小公司也希望利用知識圖譜收集員工、客戶、競爭者、價格等信息,從而提升業務質量。

而這個知識系統的核心(綠色標識)是推理,其中蘊含很多規則,有很多對外介面。其中一個介面就是外部數據的提取,主要從互聯網上提取數據。此外還有內部的知識,資料庫之間也存在著一些關係,可以非常容易地和物聯網對接。事實上這是一個推理引擎, 我們這方面的客戶包括央行以及其它銀行。基於此可以開發很多應用,例如徵信等。使用基於規則的系統也可以檢測出交易中的欺詐行為。可以用來檢測公司貸款的真實性,是否存在騙貸傾向。

上圖展示的是公司的所有權,現實中公司間的股權結構往往非常複雜,可以使用這個系統來理清公司之間的關係,改進公司管理。具體表現在,可以根據股份的多少來確定控股公司。此外,若兩家公司共同持有另外一家公司,而這些信息在SQL中是很難處理和查詢的,但是使用該解決方案可以更方便管理,提高計算速度。

中歐金融科技論壇落下帷幕,但業界交流盛會永不停歇。由雷鋒網(公眾號:雷鋒網)承辦的 CCF-GAIR 全球人工智慧與機器人大會將於7月7日-9日深圳召開,屆時也會舉辦Fintech專場。原牛津計算機系主任 Bill Roscoe 教授、香港科技大學教授張曉泉、平安科技首席科學家肖京、通聯數據CEO王政、北航區塊鏈實驗室主任蔡維德、眾安科技CTO李雪峰等都將為大家帶來精彩分享,敬請期待!如果您希望現場與這些大牛們交流,歡迎參加大會,現在購票還能享有貴賓級優惠哦!

雷鋒網原創文章,網站轉載請至雷鋒網官網申請授權。歡迎熱情討論,轉發分享~


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

《5G經濟社會影響白皮書》發布:2030年將產出3.6億元
20萬國產攝像頭存在漏洞,用戶被實時直播
華為手機在英國被禁售?「假的」,業務並不受影響
擔心市場需求太大 翻新版Galaxy Note 7將推遲發布
《5G經濟社會影響白皮書》發布:2030年將帶動3.6億元GDP增長

TAG:雷鋒網 |

您可能感興趣

互聯網新玩法,讓您快速獲取大量精準數據
聯想商用IoT解決方案:聚焦業務場景數字化創新,幫助客戶獲取、傳輸和分析數據
人工智慧和大數據會幫助黑客更有效地獲取信息並影響人們的日常生活嗎?
人工智慧學習模塊的數據從何獲取?
數據科學淘金熱:如何獲取那些頂尖工作?
高佣聯盟如何獲取自己的拼多多優惠券專屬商城,聚財熊
數據如何賦能店鋪流量獲取和粉絲運營?
如何優雅的獲取數據
元氣騎士:武器怎麼獲得全金框?鍍金與全金框的獲取攻略
清華大學人工智慧研究院成立智能信息獲取研究中心,進一步促進產學合作!
數據破冰團:企業如何駕馭數據獲取價值
清華大學人工智慧研究院成立智能信息獲取研究中心,進一步促進產學合作
安卓應用隨意獲取聯繫人/簡訊等數據?
抖音六大規律,助你獲取流量紅利
旅遊搜索引擎如何成為獲取流量的新工具?
如何利用資源發現系統一站式獲取學術資源?
自媒體創作如何獲取素材?三大法寶讓你不再發愁!
怪物獵人世界大小金是什麼 怪物獵人大小金獲取方法
中國遊戲出海,如何快速獲取用戶與流量?
海賊王頂上戰爭海軍獲取最大利益,獲取最大贏家依舊是海賊陣營!