當前位置:
首頁 > 最新 > 上網 = 「裸奔」?單憑瀏覽器的歷史記錄就能鎖定你的身份

上網 = 「裸奔」?單憑瀏覽器的歷史記錄就能鎖定你的身份


  來源:數據實戰派


圖片出處:unsplash.com 

圖片出處:unsplash.com 

  通常,網頁瀏覽器會記錄用戶訪問過的網站列表,即網頁瀏覽歷史記錄,這對很多人來說也是特別熟悉的日常之一。


  但是,如果網頁瀏覽歷史記錄可以用來識別每個個體呢?我們下面要介紹的研究,恐怕會讓你對這件習慣的事情有新的認識。


  就在本月舉行的 USENIX 會議上,Mozilla 的研究人員發現了其中的異樣:他們對 5.2 萬名(事先同意)的Firefox 用戶在兩周內的瀏覽歷史數據集進行了分析,結果顯示,48,919 份瀏覽資料具有可區分性,即 99% 的瀏覽歷史是獨一無二的。超過八成用戶可通過瀏覽歷史被識別身份。而且,只需要考慮 50 個最常用網站就足矣。


  如此看來,儘管人類還沒有成為 cyborg,但你的網頁瀏覽記錄,正在從「數字腳印」變成「互聯網指紋」。

  「互聯網指紋」的敏感性


  Mozilla 此項研究名為「Replication: Why We Still Can『t Browse in Peace: On the Uniqueness and Reidentifiability of Web Browsing Histories[1]「 ,其實是對2012年一項研究的進一步拓展。


此次論文。圖片出處:usenix.org

此次論文。圖片出處:usenix.org


  在 2012 年的研究中,研究者首先建立了一個測試網站,並使用 CSS 代碼從 6000 個域名列表中識別出參與者訪問過的網站。當時的研究結果顯示,基於這 6000 個域名,參與的受試者,97%都形成了非常具有獨特性的瀏覽歷史,僅此數據就可以用來追蹤確認這些參與者。

  而 Mozilla 這一次研究所採用的數據則更精確,因為它收集了 5.2 萬名參與者的全部瀏覽記錄,數據包括對 66 萬個獨特域名的 3500 萬次網站訪問,也是該領域規模最大的一次研究。


  參與者首先和 Mozilla 團隊分享他們的瀏覽歷史,然後,Mozilla 團隊開始試驗他們是否能從大量數據中重新識別出這些用戶。令人驚訝的是,99%的瀏覽記錄被發現具有獨特性,能與用戶「對號入座」。


  有趣的是,2012年和2020年的兩次研究,還證明了時代在不斷「進步」:八年前,對於用戶訪問量最大的前50個網站,識別用戶的準確率為38%,對於500個網站的數據集,準確率為70%;今天,以50個網站為基礎的重新識別準確率為50%,以150個網站為基礎的重新識別準確率為90%。


圖片出處:usenix.org

圖片出處:usenix.org

  事實上,網頁瀏覽歷史的敏感性不難理解,因為用戶偏好通常是固定的,一段時間的瀏覽習慣也會比較穩定,網頁歷史記錄往往不會隨著時間的推移而發生重大變化,而且某種程度上,它們能傳達用戶的豐富信息,甚至能捕捉用戶的心理或用作人口統計數據。


  由於網頁歷史記錄的獨特性和穩定性,在某些方面,它們確實類似於生物識別數據。


  Mozilla 團隊表示,「通過網頁和第三方可見的瀏覽歷史記錄重新識別用戶是充分可行的,而瀏覽歷史匯總對個人隱私的潛在威脅也得到了證明」。


  網頁瀏覽記錄會被明確劃為「個人信息」嗎?

  更壞的消息是,團隊觀察到,眾多互聯網機構正無孔不入地收集這類信息,從而利用瀏覽記錄建立用戶檔案或者作為標記符,在整個互聯網上追蹤用戶及用戶行為。


研究團隊發現Alphabet、FaceBook理論上有著最高的訪問記錄識別率,圖片出處:usenix.org

研究團隊發現Alphabet、FaceBook理論上有著最高的訪問記錄識別率,圖片出處:usenix.org


  而且和 2012 年相比,現在用戶的訪問歷史記錄規模又更大了,在過去十年中,網站運營商和廣告商可獲得的網頁瀏覽歷史數據的數量明顯增加了,幾乎所有網路都會記錄用戶的訪問歷史,例如搜索引擎、社交媒體、視頻網站等網路平台等,幾乎都能夠看到自己的瀏覽歷史,平台則會收集、利用這些數據,以提高自身服務,並進行更精準的廣告投放。像谷歌、Facebook 這樣的流量帝國,處理這些信息的次數和程度肯定會更多。


  隱私研究人員、2012年論文作者之一的 Lukasz Olejnik 一語道破之:這項最新研究的發現能帶來更深遠的影響,因為它證實了網路瀏覽歷史所具有的可被用於牟利的屬性。


  如果根據這些信息有可能從許多人中識別出特定的用戶,這些信息也就具有了個人數據的屬性。


  目前,全球最權威的數據隱私法規之一《通用數據保護條例》(General Data Protection Regulation,GDPR),給出了判斷某數據信息是否屬於個人數據的技術標準:


(26) 經過假名化(pseudonymisation)處理的個人數據(如果結合其他數據)仍然有合理的識別到具體自然人的可能性,屬於GDPR定義的個人數據。而已經匿名化(anonymous)的數據將無法識別數據主體,因此不屬於GDPR定義的個人數據。需要注意,假名化處理是GDPR推薦企業採用的個人數據保護方式之一,但經過假名化處理的個人數據仍然屬於GDPR管轄的範疇。


  簡而言之,當該數據能識別出個人時,這類數據將自動受該法規(GDPR)管轄。


  而在我國,與個人數據隱私保護最直接相關的法律——《個人信息保護法》——尚未正式出台,但2019年10月發布的專家意見稿中,也已將「網路瀏覽歷史」劃入個人信息範圍。


  圍繞這個話題,2020年國內也有一起非常典型的案例:愛奇藝的超前點播多重收費機制被其用戶吳先生起訴,在敗訴之後,又被指侵犯隱私,因為愛奇藝在案件庭審中提交了原告用戶吳先生的觀影記錄,目前,對該案件的的審理還在進行中。無論最終結果如何,互聯網平台的許可權邊界都應該退一退了。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!


請您繼續閱讀更多來自 新浪科技 的精彩文章:

金星上可能存在生命