大數據隱私:隱私原理與模型的挑戰
真實案例
我們先來看一個真實的案例:美國零售百貨集團Target曾經研發出一個模型,用來預測消費者是否懷孕,從而根據該模型的預測結果向潛在客戶發送其嬰兒產品相關的打折券。這個模型應用不久,一位父親質問Target是否在鼓勵他的女兒懷孕,因為他發現自己還在讀高中的女兒收到了此類嬰兒服裝打折券。但沒過多久,事實浮出水面,他的女兒確實已經懷孕了,只是這位父親當時沒有發現。上述案例中,這位女兒的隱私便沒有得到適當的保護。
圖片來源:https://visual.ly/tag/consumer
「大數據」是近幾年來科技界的高頻辭彙,然而大數據時代下隱私保護的缺失也成為我們面臨的嚴峻挑戰。我們知道,多數情況下,數據的收集並不是由數據產生者,即數據主體(如消費者)直接提供的,而是伴隨交易過程(如網上購物)產生,或者由一些免費服務平台(如免費郵箱、社交網路等)提供,再就是一些服務要求的必要的數據輸入(如GPS導航系統為了提供周邊交通信息,需要使用者提供當前目地理位置的數據)。這些數據的收集和使用會產生一定的價值,然而數據隱私的保護卻尚未得到管理。
在Big Data Privacy: Challenges to Privacy Principles and Models這篇文章中,作者詳細的描述了大數據和隱私保護之間的衝突源頭,指出匿名化是目前緩解這一衝突的可行解決辦法,提出了衡量一個隱私模型能否滿足大數據要求的三大特性:可組合,低計算代價,可聯繫。最後應用這一標準對兩種主要的匿名化方法,k-匿名和ε-差分匿名進行了評價,給出它們能夠很好地滿足大數據隱私需求的結論。本文發表於Springer旗下期刊Data Science and Engineering(詳細內容可掃以下二維碼閱讀)
「
用於保護個人可識別信息(PII)的若干原則
目前尚未有完善的方法來保護大數據數據主體的隱私。作者提出,拋開大數據名頭不談,先來看看以下這些應用於若干條例、用於保護個人可識別信息(PII)的一些原則:合法、有許可、目的受限、必要且數據最小化、透明並開放、保障個人權利、信息安全、可信、及設計和默認提供的數據保護。
合法:數據收集必須得到數據發生主體的同意,或是它的處理必須源於合同或法律的需要,符合數據主體的利益,公眾的利益,或者是滿足數據處理商的需要並且和主體的利益相一致。
有許可:主體給定的許可必須簡潔,具體,信息充分明了。
目的受限:在收集數據前,確保數據收集的目是合法的並且是具體說明的。
必要且數據最小化:只收集與使用目的相關的數據。除此之外,數據只能在必要情況下保留。
透明並開放:以數據發生主體可以接受和理解的方式,告知其數據的收集和處理過程。
保障個人權利:主體應擁有使用,修改甚至刪除數據的基本權利。
信息安全:必須保證數據不會受到未經授權情況下對數據的使用、篡改、做其他處理、甚至丟失或銷毀等這些情況的發生。
可信:數據收集者或者處理者應明確並遵循上述原則。
設計和默認提供的數據保護:數據的隱私保護從一開始就是系統內置的,而不是後期才添加的功能。
「
潛在衝突
如果沒有匿名化處理,上述原則和大數據使用之間存在以下潛在衝突:
目的受限:隱私保護要求的是目的具體,而在大數據方面,卻常常存在數據二次使用情況,甚至在收集期間,可能目的性就並不明確。
許可:要求主體發出的許可簡潔,具體。而大數據方面,如果數據收集目的不是明確的,那麼主體連許可都不可能發出。
合法:若大數據在目的限制性和許可兩方面都存在問題的話,法律性就更是個問題。
必要和數據最小化:要求的是僅收集必要的數據並儘可能的不收集不必要的數據,而且數據保留有時間限制。可是大數據本身就是為了潛在需要,不間斷的收集並積累大量數據。
個人權利:要求主體有權使用、修改和刪除數據。可是在大數據情況下,主體可能連他的數據或者數據已經被收集都不知道,更別說主體會想到使用、修改和刪除數據了。
「
現有的幾種觀點
針對上述衝突,作者列舉了幾種現有觀點: 有人提出,為了避免阻撓科技進步,隱私保護應該只注重可能泄露隱私的部分數據而不是數據收集過程。相反,也有人提出,正是數據的收集過程存在隱私泄露隱患,因為一旦數據被收集了,許多潛在的威脅就會顯現,例如數據遭破壞,內部員工濫用數據,數據二次使用,公司改變數據的使用意圖,政府任意調用數據等。
「
用於大數據分析的匿名技術
文章進一步指出,匿名技術也許是解決隱私保護和大數據衝突的可行辦法。一旦數據被匿名化處理,就不再是個人隱私數據了,那麼上文提到的關於保護個人可識別信息(PII)的原則就不必考慮了。作者同時提出,雖然匿名化處理技術對隱私保護有效,同時它也面對著很多挑戰。一方面,過少的匿名處理(如僅僅去掉直接的數據主體身份)可能不足以確保數據不被辨識出出自哪個主體。另一方面,過度的匿名化處理,將為關聯出自同一(或相似)數據主體的各種源數據造成困難,從而削弱大數據帶來的優勢。但是當目標是足夠大的群體,或者是全體人口時,匿名化技術仍然能夠支持大部分的數據分析需求。
「
大數據隱私模型的特性
大數據的環境下,一個有用的數據隱私模型必須適應3V的要求。為了衡量一個模型是否有用,作者提出了以下三大特性:(1)可組合:當模型重複地獨立應用時,模型的隱私仍然能夠得到保證。(2)低計算代價:為了滿足隱私模型要求而進行的數據轉換代價要低,因此要選擇恰當的轉換方法。(3)可聯繫:匿名化的數據集中建立個別數據之間聯繫的可能性必須低於原有數據集。
論文以上述三大特性為標準對k-匿名和ε-差分匿名方法分別給出了評價、分析和對比,指出它們在滿足大數據隱私要求方面各自的長處和相對不足。
來源:Springer
作者:Jordi Soria-Comas, Josep Domingo-Ferrer
Python量化投資實戰營(深圳-香港)
量化交易深入解析
用Python做量化交易
Mongodb資料庫與數據處理
Python量化引擎基礎,執行一個策略
環球FOF投資
股票數據統計與Alpha因子策略
量化策略-CTA策略……
2017年7月17日-21日(第一期)深圳-香港
2017年8月21日-25日(第二期)深圳-香港
點擊展開全文


※讀懂這篇文章就懂大數據,3000字概括《大數據時代》
※雲時代大數據管理引擎HAWQ+全面解讀
※陸銘:應警惕「大數據讓計劃成為可能」滑向政府萬能
TAG:大數據實驗室 |
※數據隱私模型:從技術和演算法角度了解數據隱私
※用數理模型的思維,看待三陰三陽最簡模型
※印度新型隱身無人機風洞模型曝光!遭到「嘲諷」:有隱身技術么
※模型治理是數據治理的關鍵
※密碼學和隱私保護智能合約的區塊鏈模型
※隱形版鴨嘴獸?疑似中國新一代隱形戰鬥轟炸機機頭模型曝光
※辨別中藥材藥性的大統一理論,就是陰陽五行數理模型
※大數據模型的商業化普及和數據建模中的合作共享
※「形」與「戰」的差異,高達模型的獨有魅力
※六代機?沈飛暗箭隱形無人戰機全尺寸模型亮相 主要用於對空作戰
※常見的大數據分析模型
※簡易的戰鬥機器人模型
※「藏著」建築模型的便簽本
※國產遠程隱身戰轟機頭模型意外曝光 獨特設計全球罕見
※更好的體外模型:類器官
※華為的領導力模型與戰略成功
※美國大數據模型理論所向披靡……
※基於WM的螺母自轉問題物理模型的二維動力學模擬
※機器學習模型的數據預處理和可視化
※便簽本的新玩法,是變身建築模型