當前位置:
首頁 > 新聞 > 實戰:利用知識圖譜分析企業信息資產威脅(要點+視頻)

實戰:利用知識圖譜分析企業信息資產威脅(要點+視頻)

知識圖譜能夠把複雜的知識領域通過語義匹配,數據挖掘、信息處理、知識計量和圖形繪製顯示出來,揭示知識領域的動態發展規律,為研究和決策提供切實的、有價值的參考。

因此,當知識圖譜應用於信息資產安全威脅的發現與分析時,能夠顯著提升發現資產安全威脅的效率和準確率,為企業安全人員的威脅分析提供決策依據。

本次雷鋒網硬創公開課,北京數字觀星科技有限公司創始人郭亮分享了如何利用知識圖譜,對企業信息資產面臨的安全威脅,進行構建、繪製、挖掘以及分析的實踐經驗。

嘉賓介紹

郭亮,北京數字觀星科技有限公司創始人,超過20年大型業務信息系統安全運營管理經驗,曾擔任過國家發改委多個重大技術專項課題的技術負責人。

演講提要

以下為雷鋒網該演講提要,要想獲取完整內容,請移步視頻回放區:http://www.mooc.ai/course/443/learn#lesson/2420。

一、知識圖譜的相關概念和構建

1.知識圖譜

Google於2012年首先提出了知識圖譜(Knowledge Graph)概念,目的在於描述真實世界中存在的各種實體、概念,以及它們之間的關聯關係,大幅改善搜索體驗。

本質上, 知識圖譜旨在描述真實世界中存在的各種實體或概念及其關係,其構成一張巨大的語義網路圖,節點表示實體或概念,邊則由屬性或關係構成。

知識是一個內涵非常豐富的概念;知識廣泛存在於社會各個領域。科學知識圖譜廣義上包括:生物的基因圖譜、教育教學中的認知地圖、探索太空的天體圖、描繪地形的GIS、模擬人腦的神經網路圖、各種金屬圖譜等。

知識圖譜是以科學知識為對象,顯示學科的發展進程與結構關係的一種圖形,具有「圖」和「譜」的雙重性質與特徵。

2.知識圖譜的3種節點:

實體: 指的是具有可區別性且獨立存在的某種事物。如某一個人、某一個城市、某一種植物等、某一種商品等等。世界萬物有具體事物組成,此指實體。如圖1的「中國」、「美國」、「日本」等。,實體是知識圖譜中的最基本元素,不同的實體間存在不同的關係。

語義類(概念):具有同種特性的實體構成的集合,如國家、民族、書籍、電腦等。 概念主要指集合、類別、對象類型、事物的種類,例如人物、地理等。

內容: 通常作為實體和語義類的名字、描述、解釋等,可以由文本、圖像、音視頻等來表達。

基於上述定義。基於三元組是知識圖譜的一種通用表示方式,即,其中,是知識庫中的實體集合,共包含|E|種不同實體; 是知識庫中的關係集合,共包含|R|種不同關係;代表知識庫中的三元組集合。三元組的基本形式主要包括(實體1-關係-實體2)和(實體-屬性-屬性值)等。

每個實體(概念的外延)可用一個全局唯一確定的ID來標識,每個屬性-屬性值對(attribute-value pair,AVP)可用來刻畫實體的內在特性,而關係可用來連接兩個實體,刻畫它們之間的關聯。如下圖1的知識圖譜例子所示,中國是一個實體,北京是一個實體,中國-首都-北京 是一個(實體-關係-實體)的三元組樣例北京是一個實體 ,人口是一種屬性2069.3萬是屬性值。北京-人口-2069.3萬構成一個(實體-屬性-屬性值)的三元組樣例。

3.知識圖譜的構建

包括3個步驟:

信息抽取,即從各種類型的數據源中提取出實體(概念)、屬性以及實體撿的相互關係,在此基礎上形成本體化的知識表達

知識融合,在獲得新知識後,需要對其進行整合,以消除矛盾和歧義,比如某些實體可能有多種表達,某個特定稱謂也許對應於多個不同的實體等

知識加工,對於經過融合的新知識,需要經過質量評估之後(部分需要人工參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質量,新增數據之後,可以進行知識推理、拓展現有知識、得到新知識。

實戰:利用知識圖譜分析企業信息資產威脅(要點+視頻)

4.知識樣本數據的獲取

傳統靜態知識

主要數據來源:Web of Science

科學文獻數據:(SCI) (SSCI)

專利文獻數據:德溫特創新索引DII

國際會議文獻數據:(CPCI)

國內資料庫:CNKI、CSSCI、CSCD、萬方等

網路數據源:Google Scholar、arXiv、CiteSeerX

動態知識

主要數據來源:事件數據

另外還有Scopus,Science Direct

設備可讀取以及可輸出的異常數據

4.樣本數據的梳理

基於數據進行知識可視化的質量、合理性和可靠性很大程度上依賴於所用數據的精確性和全面性,不準確或不全面的數據往往造成不精確甚至錯誤的結果。即使目前最權威、公認質量最高的WoS,也存在數據著錄格式(如人名和地名的不統一)和遺漏的問題。

5.數據標準化

為便於可視化,對簡單地頻次計算的單元數據,標準化常常通過數據間的相似度測量。主要有兩大類:一是集合論方法(Set-theoretic measures),包括Cosine、Pearson、Spearman、Inclusion 指數和Jaccard指數;二是概率論方法(Probabilistic measure),主要有合力指數(Association Strength)和概率親和力指數(Probabilistic Af?nity)

6.數據分析-簡化分析

因子分析以較少幾個因子描述許多指標或因素間關係,即把較密切的變數歸在同一類,每類變數成為一個因子,以少量的因子反映原資料中大部分信息。

7.在知識圖譜的解讀過程中,常常需要對圖譜進行相應操作,包括瀏覽、放大、縮小、過濾、查尋、關聯和按需移動等。主要從以下幾方面著手:網路分析、歷時分析、空間分析、突變檢測

二、資產和威脅

資產數字化是趨勢,每個資產都有其特徵;威脅是數字的表徵,威脅數據有其特徵

實戰:利用知識圖譜分析企業信息資產威脅(要點+視頻)

三、關聯和分析

分三步:

第一步,先把企業開展工作需要哪些關鍵知識識別出來,找到源頭,不管是企業內部的還是外部的,不管是資料庫、文檔庫還是網頁,都匯聚起來;

第二步,是通過知識圖譜,讓系統能「認識理解」這些數字和文字代表的含義,把各個源頭的知識抽取出來,把知識和人都關聯起來,形成一張知識網;

第三步,讓知識圍繞業務轉起來,實現智能化應用,包括語義搜索、個性化推薦、智能問答、協同研究、決策支持等等

要想獲取雷鋒網該公開課演講的完整內容,請移步視頻回放區:http://www.mooc.ai/course/443/learn#lesson/2420。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

愛立信發布5G無線點系統 實現室內覆蓋於年底試商用
繼施堯耘之後,又一量子計算大牛入職阿里巴巴達摩院

TAG:雷鋒網 |