數據隱私模型:從技術和演算法角度了解數據隱私
引言
本文是我們的「特約撰稿人」 TalkingData 閻老師原創發表在內部資訊分享平台 Furion 上的一篇文章,從技術和演算法的角度看待數據隱私。
最近數據安全,確切地說是數據隱私安全的事情熱得一踏糊塗,其中兩個重大事件的發生無疑起了很重要的作用。一個是 Facebook 的數據泄漏的問題,一個則是即將在 5 月 25 日實施的歐洲的 GDPR(General Data Protection Regulation)。那麼,應對隱私信息泄露,有什麼方法呢? 下面我們就介紹一些針對隱私的攻擊模式。
一般對於隱私泄漏,包含如下的三種威脅:
Membership Disclosure - 成員隱私泄漏
成員隱私泄漏意味著一個攻擊者可以通過泄漏的數據來判斷一個人相關的數據是否包含在一個數據集中。雖然這並不直接透露數據集本身的任何信息,但它可能允許攻擊者推斷元信息。這種泄漏模型主要涉及的是隱式敏感屬性(一個個體的屬性信息並沒有包含在數據集中),其他的攻擊模式一般都是面向顯示的隱私屬性。
Attribute Disclosure - 屬性泄露
儘管沒有將一個個體鏈接到一個數據集中的一個條目,還是可以實現獲取屬性數據。它保護敏感屬性,這些屬性來自個人數據不願意鏈接的數據集。因此,攻擊者可能對這些數據有興趣,如果屬性被泄露,可能會對數據主體造成傷害。例如,如果一個數據集中的所有記錄共享一個敏感的數據屬性值,則可以通過連接一系列數據條目推斷出隱私數據值。
Identity Disclosure (or re-identification) - 身份公開(或者重新標識)
身份公開(或重新標識)意味著個人信息可以鏈接到特定的數據輸入。這是一種嚴重的攻擊類型,因為根據全球許多國家的法律和法規,這對數據所有者造成了法律後果。根據定義,攻擊者也可以獲取數據中包含的所有敏感信息。
針對這些泄漏攻擊,一個數據集的數據的保護可以分為三類:
Identifying Attributes - 身份識別屬性
身份識別屬性一般是指能夠識別到個人的標識,比如身份證號、社會保險序列號(SSN)等,這些通常要在數據集中清除掉。
Quasi-Identifying Attributes - 准身份識別屬性
准身份識別屬性一般可以結合起來進行身份攻擊,比如性別、出生日期、郵政編碼等,這些數據在數據集中需要進行轉化。
Sensitive Attributes - 敏感屬性
敏感屬性對個人不願意鏈接的屬性進行編碼。因此,攻擊者通常對這些數據有興趣,
並且如果披露,可能會對數據主體造成傷害。 在數據集中它們將保持不變,但訪問可能會受到進一步的約束,如 t-closeness 或 l-diversity,一個典型的例子是疾病診斷數據。
Insensitive Attributes - 非敏感數據
非敏感數據一般不會對數據主體造成傷害,在數據集中一般不會進行任何改變。
常用的保護隱私數據的演算法模型
K-匿名
這是一種對隱私數據進行保護的方法。一個數據集是 K-匿名的,如果能夠保證從任何不少於 K-1 個數據中不能夠唯一識別出一個數據,哪怕是包含准身份識別數據。每一組不能夠被識別的記錄構成了一個等價類。
K-Map
是一種與 K 匿名類似的方法,但是基於基礎的人口信息進行計算。
?-Diversity
這個隱私模型可以用於保護數據的敏感屬性數據的泄漏,通過確保在每個等價類劃分中的每個敏感屬性具有最少 ?個值實來實現。
t-Closeness
這個隱私模型也可以用來保護數據的敏感屬性數據的泄漏。它需要在每個等價類劃分中的敏感屬性數據的值的分布與輸入數據集的屬性分布的距離不超過 t.
δ-Disclosure
也是用於解決敏感屬性數據泄漏的隱私模型。同樣要求等價類劃分的值的分布於輸入數據的分布的距離,只不過更嚴格。
β-Likeness
同樣是用於解決敏感屬性數據泄漏的隱私模型,與前面的模型相比,除了考慮距離,還考慮了正負值的因素。
δ-Presence
用於解決成員隱私泄漏的模型。
Differential Privacy
差分隱私模型與前面的模型的不同在於,對於隱私的保護不是通過對數據集的屬性進行修改,而是通過對數據處理方法進行的修改。它能保證處理的結果輸出在任何輸入數據中一個個體的數據加入或者移除不會產生明顯的改變。這樣就能夠保證攻擊者非常難以從數據集的輸出中推算出任何一個個體的數據。
題圖來自:Jus Imperator
※TalkingData 2018 美國大數據精研之旅第四天見聞
※TalkingData 2018 美國西岸大數據精研之旅首日見聞
TAG:TalkingData數據學堂 |