大數據時代下的用戶隱私保護 差分隱私能成為「技術救星」嗎?
今天,數據成為一種寶貴資產,無數企業都在爭先恐後地收集用戶信息。一方面,用戶信息能夠為企業帶來價值,讓企業可進行商業分析,改進產品和業務,但是另一方面,企業也會造成用戶信息的泄露,危害用戶個人隱私。
如果既可以讓企業合理適度地收集用戶信息,又不至於泄露個人隱私,不僅成為今天許多企業面臨的難題,也影響著大數據行業的發展。
2016年6月,蘋果公司在全球開發者大會上首次提出了差分隱私技術(Differential Privacy),其作用能夠通過密碼學演算法對用戶的數據進行「加密」上傳到蘋果伺服器。蘋果可以通過這些「加密」過的數據計算出用戶群體的行為模式,但是對每個用戶個體的數據無法解析。
根據當時蘋果發給媒體的郵件中這樣解釋:
從iOS 10開始,蘋果將使用差分隱私技術在不影響個人隱私的前提下幫助發現大批量用戶的使用模式。為了掩蓋個人身份,差分隱私會像個人使用模式的小樣本中注入數學噪音。隨著更多的用戶呈現出相同的模式,總體模式就會開始顯現,這可以用來增強用戶體驗。在iOS 10當中,這項技術將會幫助改善QuickType和表情建議,Spotlight深度鏈接建議和備忘錄中的Lookup Hints。
實際上,蘋果提出的「差分隱私」不僅得到一些人的贊同,又讓某些人提出質疑。相比谷歌和Facebook,蘋果這是一種很不錯的做法。但是,它並沒有被完全展現在用戶面前,蘋果一直把它「蒙在霧中」。
如何去理解「既可以分析大批數據,又不會獲得用戶的個人信息」?知乎上名為Kyon的網友解釋道:假如我現在想公布一個數據集,給大眾做數據分析,但我又想保護裡面每一個個體的信息不泄露,那麼一種可行的手段就是給這個數據集注入一些噪音或者說擾動。當然這個擾動不能隨便加,否則數據就喪失了可用性。然而擾動也不能太小,否則就起不到保護隱私的作用了。
通俗來講,這個機制保證了一個數據集的每個個體都不被泄露,但數據集整體的統計學信息(比如均值,方差)卻可以被外界了解。因此,比如一個醫療機構要公布患者的疾病數據給外界以供研究,就可以先對這個數據集做一個滿足「差分隱私」的擾動,再公布出去。
而名為Nemo的知乎網友則指出「差分隱私」的弱點:由於對於背景知識的假設過於強,需要在查詢結果中加入大量的隨機化,導致數據的可用性急劇下降。特別對於那些複雜的查詢,有時候隨機化結果幾乎掩蓋了真實結果。這也是導致目前應用不多的一個原因。
簡言之,對某些企業來說,差分隱私的實用性不高,原因在於它們無法從使用了差分隱私的數據中獲得更加有價值的信息。
在筆者看來,差分隱私在某些領域能夠發揮很好的作用,但是卻面臨著企業商業價值的挑戰。因此,無論如何,這背後都是企業對商業價值和企業道德的衡量結果。
TAG:2B挖掘機 |