當前位置:
首頁 > 新聞 > 論道:數據共享 v.s. 隱私保護

論道:數據共享 v.s. 隱私保護

本文為「 奧卡姆以氣御剪」投稿,如無雷鋒網授權禁止轉載。

雷鋒網按:隨著信息時代的不斷發展,不同部門、不同地區間的信息交流逐步增加,而計算機網路技術的發展為信息傳輸提供了保障。面對大量的空間數據,多樣的數據格式,數據共享是當下最好的解決途徑,它讓在不同地方使用不同計算機、不同軟體的用戶能夠讀取他人數據並進行各種操作運算和分析。

實現數據共享,可以使更多的人充分地使用已有數據資源,減少資料收集、數據採集等重複勞動和相應費用,而把精力重點放在開發新的應用程序及系統集成上。

而共享的數據很大程度上已經深度涉及到隱私數據,這些隱私數據如果非法使用,將帶來不可估量的後果。

如何處理數據共享和隱私保護之間的矛盾成為當前熱議話題。

7月15日, AI Time舉辦第四期沙龍,邀請了明略集團首席科學家吳信東教授、清華大學朱小燕教授、清華大學的徐葳副教授,以及微眾銀行人工智慧部的吳海山副總經理,一起論道「數據共享開放與隱私保護」。分享會由清華大學劉洋教授和中科創星投資總監,CCF YOCSEF學術秘書李文珏共同主持。

論道:數據共享 v.s. 隱私保護

打開今日頭條,查看更多圖片

本次沙龍圍繞數據開放共享和數據隱私保護進行討論。本文對分享內容進行了不影響原意的改編。

問題一:國內外有哪些影響力非常大的數據開放共享的計劃或者平台?

徐葳:學術研究和教學上,我個人比較推薦kaggle,主要原因是kaggle一般會介紹數據的使用方式,預處理方式等。另外,美國聯邦政府也有個開放數據網站data.gov。

吳信東:學術界有一個比較大的開放數據平台DBLP,數據挖掘,資料庫等領域的研究者用的比較多。

問題二:數據開放共享主要涉及哪些關鍵技術或者說挑戰?

吳信東:我個人認為共享平台裡面的核心技術是數據治理技術。數據治理就是開放平台需要把碎片化的、零亂的、異構的、自治的數據整合在一起,讓研究者能夠看到共有的價值。我們最近發表了一篇關於數據治理技術的文章,核心內容就是數據標準化、數據映射、數據交換、噪音處理。

徐葳:我認為數據共享的核心挑戰在於形成數據流動的閉環。舉一個例子,在數據量上,BAT這些公司可能比不過政府或者公安系統,但是大家都覺得這些公司的數據很多。這是因為這些公司知道各類數據分別可以產生何種價值,同時也知道想要實現某些功能需要採集哪些數據,企業中數據的利用率高才帶來數據量大的印象,數據分享此時能帶來更大的價值。只有形成了數據流動閉環,才能發揮數據的最大價值。

數據開發共享必然要解決隱私保護的問題,接下來主辦方針對數據分享中的隱私保護問題對嘉賓進行提問。

問題三:您認為哪些數據是隱私數據?

徐葳:我認為數據的隱私性不僅僅包含用戶的個人隱私,還有一些企業隱私數據,比如我曾經用過某個企業的反欺詐數據集,這個數據集也是不能公之於眾的,因為欺詐率,用戶流量這種隱私數據可能會涉及企業運營機密。

朱小燕:我個人認為有顯性的隱私,有隱性的隱私。所謂顯性隱私就是大家都比較在意的一些數據。隱形隱私就是你分享那些你認為無害的數據後,自己都沒意料到這些數據會被別人利用來干一些傷害你或他人利益的事。做科研的人開放數據一定要小心。

吳海山:討論數據隱私離不開討論數據服務。。舉一個簡單的例子,你用打車軟體時可以把你的定位服務關掉,對方肯定無不知道你的位置信息,但是這樣的話司機也找不到你了。所以我們談任何個人隱私、企業隱私,都必須考慮服務效率和隱私之間的平衡。

問題四:數據隱私保護主要涉及哪些技術?通俗解釋下技術基本原理。

吳信東:關於隱私保護,我覺得現在基本上可以概括為四大類。第一類是加密,涉及到密碼學的內容。其中清華大學姚期智院士發明的多方安全計算方法,從理論上證明了保護隱私的計算的可行性。

論道:數據共享 v.s. 隱私保護

k-匿名

第二類是各種匿名演算法,比如k-匿名。我在美國遇到有個同事害怕報警遭到罪犯報復。面對這種情況警察上庭通常會講是半徑多大範圍之內的人打了電話報警,從而對報警居民達到匿名效果。

論道:數據共享 v.s. 隱私保護

差分隱私

第三類是差分隱私,基本方法就是加噪音,使得根據這一屋子人的數據算出來的模型,和隨便把某個人踢出去算出來的模型是一樣的,這時候某個人隱私就得到保護。

論道:數據共享 v.s. 隱私保護

聯邦學習

吳海山:第四類是聯邦學習,也是目前微眾銀行在主推的機器學習技術。舉個例子,用戶去過A醫院看病,也去過B醫院看病,A醫院主要看肝臟病,B醫院主要看腦科病,把這些信息綜合起來可以讓模型訓練效果更加準確。這個時候我們採用聯邦學習來達到這個效果,不是用數據的共享,數據的傳輸,而是把模型的參數,包括梯度和損失函數以加密的方式進行傳輸。我們傳輸了損失函數和梯度之後就可以更新模型,我們把這種學習叫做聯邦學習。

問題五:現有的技術能有效保護用戶隱私數據嗎?

徐葳:我研究這個方向,可能會有偏見,但是我覺得能。我說能是有條件的,就是為了保護隱私肯定會大幅降低模型的運算速度。我前幾天做過一個實驗,運算時考慮保護隱私比直接明文計算慢了近100倍。所以這個技術可用么?某些場景中肯定可以,而且我認為在很多實際應用中這不是一個問題,因為即使慢100倍也還是能忍受,當然我們仍然值得思考如何在保護隱私的情況下提升效率。總的來說,我們能夠在效率合理的範圍內充分保護隱私。

吳海山:我的答案和徐老師一樣,我覺得這個答案是非常大的yes。我們現在研發的聯邦學習,無論是從實踐的角度還是從理論角度來看,都是一種非常有效在保護用戶隱私的情況下實現機器學習的演算法技術。同時我們必須去權衡用戶隱私和演算法複雜度以及運算時間。這個權衡的標準是用戶隱私的定價,就是我的用戶隱私到底價值幾何?需要讓我花費更多的計算資源,排放更多的碳,去實現隱私保護演算法,這個是實踐中值得思考的問題。就比如說深度學習,現在大多公司都是拼硬體,我的硬體比別人好,我模型準確性可以提高一丁點,而硬體好的背後意味著數據中心的計算時要花費更多的電,空調要花費更多的錢來維護,由此造成的環境污染以及其他花費和用戶隱私的價值孰輕孰重?這也值得思考。

問題六:數據價值與隱私保護成本之間的平衡?

徐葳:什麼樣的數據值得保護?你要是不計算成本,所有的數據都能保護。但這不是關鍵點,舉一個例子,數據隱私保護技術,不管是加密,還是聯邦學習等等,你可以把它看作是順豐快遞。值不值得寄要看你寄的東西價值相對快遞費是什麼樣的。你不想垃圾分類,把垃圾從上海寄到北京再扔,然而這堆垃圾的並不值得花這麼多郵費以及期間造成的碳排放。所以我們必須評估數據價值,同時是我們也要發展數據隱私保護技術,這兩件事不矛盾。隨著隱私保護技術的發展,越來越多的數據可以得到保護,因為演算法優化的越來越快,技術越來越成熟,價格也越來越便宜。就像過去大家寄一個東西好難,現在十來塊錢就可以寄個快遞。技術成熟了,大家就習以為常了。

吳海山:我覺得今天這些問題背後都隱含著同樣的問題,就是我們如何對數據進行定價。可能很多人都覺得我的數據被監控了,我的隱私被侵犯了,那我問大家一個問題,如果我花一萬塊錢買你個人所有的數據你願不願意?你肯定覺得不行。如果我給你一個億?在座的好多人可能會說Yes。這個問題的本質就在於我們怎麼樣對數據進行定價,然後再討論隱私保護。離開數據的定價以及數據流動所產生的價值去討論數據隱私,或者離開數據服務去討論隱私,都是比較片面的,這是我個人的觀點。作為AI從業者,我們認為如何開發能夠保護用戶隱私的機器學習技術是當務之急。

討論完數據共享與隱私保護,接下來聊一聊現實情況,即現在的國內外隱私保護政策。

問題七:數據隱私保護在政策制定上的挑戰主要有哪些?

徐葳:我不是政策專家,但是GDPR我很關注。我覺得它限制不了像谷歌、facebook這種真正有可能需要你的隱私的互聯網公司,反正這些巨頭運營成本相對低廉,對他們來說也就多交了4%的稅。但對傳統企業來說,運營成本已經很高的這些企業,就會思考這些數據能帶來多少利益價值,要不要冒這個風險。所以我認為政策必須要有可操作性,不能僅僅說要保護隱私,而是要制定切實可行的各種數據使用標準,指導企業使用數字資產。

朱小燕:一是我覺得隱私保護政策肯定是跟國情有關,不能照搬歐洲、美國的政策。二是就像剛才一直在討論的數據價值問題,不能所有數據用一個政策一刀切。比如我覺得金融數據和醫療數據,保護的範圍和深度是不一樣。其他的各種行業的數據都有特點,所以肯定要根據中國國情去制定更細緻的政策。

吳海山:一是我覺得這要分國家看待,我們不能照搬美國、歐洲。。從經濟學角度來講,GDPR會提高數據本身的價格,以及各大公司在使用數據層面上的成本。二是國外可能覺得中國對隱私重視程度不夠。我覺得作為一個AI從業者有義務去給大眾普及聯邦學習、數據隱私、數據資產到底是什麼?

問題八:各位嘉賓,是支持更嚴的隱私保護政策,還是支持更開放的數據共享?

吳海山:更嚴的隱私保護政策無疑會增加數據成本,會讓整個AI行業,尤其是小公司生存更加艱難。創業公司在歐洲的生存環境就比以前艱難很多。更開放的數據共享,可能會讓大眾和媒體放大數據隱私泄露的風險,反而忘掉數據共享帶來的價值。我個人支持靈活的隱私保護,或者靈活的數據共享方案。作為一個技術從業人員,我們更應該思考怎麼樣通過新技術讓隱私保護和數據共享變得更加靈活。

朱小燕:我是教師,從科研的角度來考慮,我是支持更開放的數據共享。我回國二十多年,很多時候都感覺到我國數據共享很不開放。從研究者的角度來講,真的是有很多人把數據或者一些技術當成自己的私有財產,喜歡把這些東西「鎖在抽屜」里,然而「鎖在抽屜」里不用的數據不會產生任何價值。正因為我們有這麼一個不太好的習慣,所以我更加支持尤其是學術界的數據共享。同時可能需要政府的管理,因為我們不能期待人人做活雷鋒,數據共享不等於無價獲取,你應該尊重別人的數據,使用別人的數據至少得致謝。

吳信東:我跟吳海山老師剛好相反,我兩個都支持。我支持更嚴的隱私保護,也支持更開放的數據共享。如果兩者必須選一個,我選更嚴格的隱私保護。我們在國外跟外國人交流會面對一些數據隱私的質疑,我一般回應此一時彼一時,過去我們有些地方確實做的不好,現在我們正在完善自身。國人隱私保護的意識剛剛覺醒,接下來要做的工作還有很多。所以如果二選一,我選支持更嚴格的隱私保護。

徐葳:我支持數據共享。首先我認為隱私保護應該是數據開放的必要條件。監管和開放是不能分開的。就像藥品,研發新葯要保證有效性和安全性,臨床二期做有效性,臨床三期做安全性。如果沒有安全性,只是有效,這個葯不會存在。數據共享也是一樣,沒有隱私保護策略的數據共享就不應該存在。然後我覺得數據共享是非常重要的,但是政府必須有擔當。以現在的環境,法無禁止的操作,過兩天禁止了還是算你犯錯誤。所以現在是法無禁止皆不為,大家都不想共享。另一個原因是大家拿數據當個人財產,比如醫療數據,就是因為醫生收集數據之後,指著這份數據發論文,評職稱,憑什麼給別的醫生或醫院呢?再比如VC投資之後,提供數據的人並沒有任何利益,錢被那些做模型的人拿走了。如果提供數據的人沒得到好處,那麼他們憑什麼繼續提供數據,同時還擔風險。所以我覺得現在的數據共享第一缺乏合理規則,第二缺乏利益協調,這兩方面做好了,數據共享就會越來越好。這是一個過程,期間需要我們的努力。

雷鋒網報道!

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

日本八大車企聯合軟銀組建出行公司,成功的概率越大了
蘋果與微軟聯手,又搞了一件小事情

TAG:雷鋒網 |