當前位置:
首頁 > 最新 > 國家千人計劃教授任奎:數據安全的現狀與趨勢

國家千人計劃教授任奎:數據安全的現狀與趨勢

雷鋒網編者按:數據安全的問題存在於數據的整個生命周期,從數據採集、流轉、傳輸到數據使用,其中尤為受到關注的是數據的機密性、完整性以及可用性。在6月30日舉辦的CCF-GAIR智能安全專場中,浙江大學網路空間安全研究中心主任,國家千人計劃特聘教授,IEEE Fellow  任奎帶來了《數據安全:現狀與趨勢》的演講。

任奎本碩畢業於浙江大學,2007年於美國伍斯特理工學院獲博士學位,2017年成為紐約州立大學冠名教授。任奎教授主要從事雲安全、物聯網安全與隱私保護等領域的前沿研究工作。

任奎教授2016年當選IEEE會士, 2017年當選ACM傑出科學家。他獲得了IEEE通信分會安全技術委員會技術成就獎 、紐約州立大學校長傑出研究獎,紐約州立大學布法羅分校傑出學者獎 、紐約州立大學布法羅分校工程學院年度資深學者獎 、美國國家自然科學基金的青年成就獎 、伊利諾伊理工學院卓越研究獎。任奎教授發表了200餘篇同行評議的期刊與會議文章,獲得了包括IEEE ICDCS』17、IWQoS』17,ICNP』11在內的多篇最佳論文獎。他的H-Index為58,文章總引用次數超過23000,單篇論文引用次數超過2000。

2018 全球人工智慧與機器人峰會(CCF-GAIR)於6月29日在深圳召開。本次大會共吸引超過2500餘位 AI 業界人士參會,其中包含來自全球的 140 位在人工智慧領域享有盛譽的頂級嘉賓。

以下是任奎在現場的演講,雷鋒網做了不改變原意的編輯整理。

任奎:我是浙江大學的任奎,今天很高興能和大家分享在數據安全上我們的一些思考。

顯然數據安全的問題存在於數據的整個生命周期,從數據採集、流轉和傳輸到數據使用。通常情況下我們會在數據生命周期的各個環節里關注數據的機密性,完整性以及可用性。

首先在機密性方面,互聯網出現之初數據泄露事件就不斷發生,且愈演愈烈。比如去年美國最大的一家信用卡公司之一Equifax,泄露了高達1.47億條的用戶數據。其中不僅包括姓名,還涉及到在美國是非常私密的社保卡信息,以及信用卡信息等。除了這種直接的數據泄露,還有進一步的隱私泄露,比如今年4月份,德國郵政出售選民信息,這些選民信息看起來沒有太多私人的信息,但是根據這些信息我們可以用人工智慧的模型進一步挖掘,得到很多政治傾向,可能給選舉結果帶來明顯影響。也就是說,數據的機密性一方面是數據的直接泄露,另一方面是在直接泄露基礎上進一步做隱私的挖掘。

從技術手段的角度看,在不妨礙數據可使用性的條件下,怎樣保障數據的機密性?

第一是數據加密技術,第二是訪問控制策略技術,第三是隱私保護技術。

具體來說,數據加密技術在最近幾年研究較多,從學術界的角度而言,主要談到的有可搜索加密,在安全多方計算的角度,近年學術界慢慢看到了工業界的現實和需求,不少學術界成果也開始慢慢往工業界遷移。

在訪問控制策略方面,目前有很多基於生物特徵的訪問控制策略,指紋、臉部識別等技術飛速發展,也包括基於屬性、角色的訪問控制策略越來越成熟,基於屬性加密的技術越來越被大家認可,開始真正應用到訪問策略控制裡面去。

在隱私保護技術方面,過去十幾年最重要技術之一的就是差分隱私保護。

具體來講,可搜索加密是什麼?

比如怎麼利用雲端數據的機密框架,當用戶把數據外包到雲上,這個雲跟它不在一個信任域裡面,所以希望對資料庫加密起來,如此一來不論雲是主動還是被動的,用戶想看到數據就是密文。

怎麼使用呢?我們可以把數據用加密的方式存儲,把數據裡面的關鍵字提取出來做索引文件,對索引文件也進行加密處理,這樣當我們未來搜索雲端數據的時候,就可以提供一個加密的文件進行比對,比對成功之後再到客戶端進行解密,這只是一個例子。

另外是基於屬性的訪問控制。我覺得在密碼學領域裡面,ABE是一個相對新的工具,這個工具的弊端是在目前情況下,文件存儲的大小、角度都會有一些相對較大,但它的優勢是把用戶抽象成一堆屬性的結合,當上傳文件的時候,給這個文件屬性,就會有一個訪問控制策略,當開始去訪問控制策略的時候,會把用戶屬性和文件屬性以及訪問控制策略的決策數共同計算,來查看用戶是否有能力接觸這個數據文件,但這一數據文件本身可以和加密結合起來,基於屬性的訪問策略可以實現更複雜的訪問策略。

還有一個例子是差分隱私,目前谷歌和iOS都開始使用這一技術。收集整體數據的時候會暴露用戶的所有隱私,那是否可以先將個人數據做一些擾動,對敏感數據做隨機響應。

為什麼差分隱私保護是很好的工具?它給予了一個定量的方法去衡量你把隱私能夠保護得比較好,對任意兩個只相差一條數據記錄的資料庫,這兩個資料庫在面對相同查詢返回結果的時候,差距不會太大。這是非常好的一件事情,可以有一個定量的方法保護隱私強度。

在數據完整性方面,面臨的威脅是數據篡改。任何不被授權的數據改動都是不被允許的,會影響數據的完整性。這裡有一個例子,互聯網詐騙團伙通過修改軟體代碼篡改數據,然後把模擬操盤的獲利操作截圖發布到社交平台欺騙大家。

數據完整性需求存在於數據採集傳輸、數據存儲和數據使用等多個階段。在數據採集和傳輸階段,可以用數據分裝和簽名技術防止數據篡改;傳輸時候有一些丟包恢復的機制,即便有一些包被丟掉了,不用同傳也可以有本地數據、數據審計;在數據使用的時候怎麼保證完整性,可驗證計算等等手段來進行保護。

數字簽名大家都知道,首先數據的上傳者擁有數據文件,有哈希演算法,然後進行簽名,得到文件和簽名一起的信息。這一信息經過傳輸後,在接受端如果接收到的文件被篡改了,是沒辦法成功比對的,相當於不管你是對數據本身做的修改,或者對簽名做的修改,最終導致的結果就是不匹配,也就意味著數據在傳輸過程中或者採集過程中被篡改了。

這是在有數據進行比對的情況,還有一種在雲存儲的情況。

當個人用戶或者企業用戶沒有本地數據時候,比如一開始就把數據放在雲端,此時的雲端數據是否有被篡改過,有沒有被丟失,數據完整性如何得到檢驗?就要做雲的存儲數據比對,上傳到雲端之前,可以把數據和相關的元素放在雲裡面。在未來的時間節點上,想要檢測這些數據在雲里是不是被正確存儲就進行隨機抽樣。這樣計算量和帶寬要求可以控制在合理範圍之內,並拿回來進行驗證。以此做到在沒有本地數據存儲、所有數據都在雲端的情況下,依然可以在未來時不時的檢測我的數據是不是被雲丟失或者被雲篡改了。

當然這個雲不一定是故意的,雲可能本身被入侵了,這裡面更具體的問題還在於當我的數據有動態的更新怎麼辦,當用戶有不停的新用戶和舊用戶的動態變化怎麼辦,所以雲數據審計的技術還一直在不停的開發和完善當中。

講一下安全外包計算。在當前情況下,一方面是個人和中小企業用戶,面對雲,計算任務可以是非常廣闊的,可搜索加密就是計算任務,我也可以讓它幫我進行一些非常大規模的優化運算,我可以讓雲做很多不同類型的計算,這時候就存在一個問題,如果我在本地沒有那麼多計算資源和存儲資源應該怎麼辦?

很顯然要有一個安全外包計算的手段來做這樣一件事,我想讓雲幫我處理我的數據,計算我的數據,但是我不想雲知道數據的內容,也不想讓雲知道數據計算的結果,還要保證雲能夠對我的數據進行完整正確的計算,並且結果返還給我的時候,我能夠驗證。

可以想像,做這些事情的同時也要付出額外的代價,但代價不能太大,如果太大的話就不如在本地進行。所以這些在個人用戶和雲之間的不對稱性,以及怎樣適應這個不對稱性,成了安全外包計算上非常重要的設計考慮。

雲從多個用戶那收集不同的數據,放在一起進行計算,比如說我有一個網貸公司,這個公司從別的網貸公司或者其他銀行收集過來這些數據,要將數據放在一塊進行計算來決定某一個或者某一類用戶的信用分數。這種情況下每個數據公司對自己數據的隱私保護都是有要求的,相互之間可能是衝突的,我不信任你,你不信任我,這種情況怎麼解決?

我前陣子去矽谷訪問,有一個初創公司就是做風控的安全計算。其實大家擁有各自數據的時候,相互之間並不信任,但是數據只有聯合起來才能產生更大的價值。當前的解決方案很多時候完全是非技術的,比如大家共同信任一家公司,就都把數據放到那一家公司去,原因是這家公司在市場上存在了幾十年,口碑較好。大家想要數據時候,都問那家公司要。

這顯然是非技術的手段,這家公司並一定在保護數據安全方面有技術能力,事實上這是一家市場調查公司,並不是一個技術公司。計算任務需要多方多步操作的時候,數據的完整性和正確性就變得非常複雜,如何從技術上保證數據完整性就變得非常有挑戰性。

在數據可用性方面,面臨的威脅主要是DDos攻擊,防禦技術手段主要是本地防護、雲端防護和源端防護。大家都在多管齊下,把這些攻擊帶來的壞的影響控制在最低範圍內。

當然一個重要的技術就是流量清洗,不管是域名解析還是其他方法,在智能防護上他會把你的流量進行分析,通過IP合法性檢查、流量限速、動態指紋識別、特定應用防護等等,去做DDos防護,這也是數據可用性實例。

在整個數據的生命周期裡面,不管從採集還是傳輸到存儲到使用,我們都要考慮機密性、完整性和可用性。在今天人工智慧的時代,數據安全也面臨了很多新的挑戰,對數據安全來說,人工智慧時代到底是更好還是更壞?人工智慧在各個領域帶來的變革,昨天很多講者已經講得非常清楚,今天我主要是講三個方面的事情。

人工智慧的發展使數據安全的保障有了更強有力的工具,這是好的方面。不好的方面,人工智慧也可以被攻擊者惡意利用產生更嚴重的問題。

分別舉幾個例子,第一個就是人工智慧演算法可以用來做精確高效的信息過濾,對谷歌來說,谷歌的郵箱可以過濾高達99.9%的垃圾郵件,這就是利用人工智慧演算法來做過濾。目前為止垃圾郵件還是非常嚴重的問題,我大概常用的三個郵箱,每個郵箱每天還是有很多垃圾郵件,並不能很準確過濾,人工智慧演算法可以幫助我們在這方面取得更重要的突破。

還有一個例子是安全多樣的身份認證,人工智慧演算法能夠幫助我們更精確,更不容易被欺騙,比如人臉識別。當然人工智慧演算法本身也可以做人臉識別的欺騙,這永遠是雙刃劍。

人工智慧還能生成新的加密演算法,Alice和Bob和Eve是三個神經網路,A和B之間共享一個Key,但是沒有一個演算法,這種情況下經過多輪的訓練之後,A和B之間可以用它們自己產生的演算法來對數據進行加密,E卻不能解密。就是我只是讓A和B之間有了一個密鑰而已,並沒有事先載入任何具體加密演算法。這就是在人工智慧年代,可以利用AI演算法來做很多很好的事情。

人工智慧也不只是好處。 劍橋大學講師 Aleksandr Kogan 寫了一個在 Facebook 上做心理測試的第三方小程序,以5美元的酬金吸引了27萬用戶參與測試並收集了參與測試的用戶的好友數據,總計涉及5000萬用戶。

Kogan 隨後將數據賣給了劍橋分析(這一行為違背了 Facebook 的安全協議以及小程序的用戶協議)。劍橋分析利用5000萬 Facebook 用戶數據建立模型,找出「低開放心性,高情緒不穩定性」的選民針對性地投放廣告,試圖影響2016年美國大選結果。

當然我只是說試圖影響,不能說確實影響了。所以說在人工智慧年代,AI演算法被用來去挖掘用戶的隱私,用戶隱私更加難以被保障,尤其是大數據年代,你可以在不同的數據源里把數據提取出來,帶來的負面的效應也非常之大。

人工智慧演算法也可以用來生成以假亂真的音頻和視頻,第一個例子是音頻,Adobo公司研發的語音編輯軟體Voco,只用一個20分鐘的錄音進行訓練,就可以生成出你任意的聲音內容。另外德國慕尼黑工業大學的學者在研究中可以將視頻中的人臉做出任何輸入的表情,AI可以用來產生你從來沒有說過的話,以假亂真,你沒做過的動作和語音配合起來,已經非常接近真實。

還有大大失效的CAPTCHA檢測,為了檢測你是人還是機器,給你一些圖象,圖象對人理解是容易的,但是對機器是比較難的。去年12月份在科學雜誌上發表的文章稱一家公司使用了一個RCN網路,對單一的文本CAPTCHA可以達到90%的確認率,而且訓練不需要大量的數據集。

另外,北京大學的學者提出基於生成式對抗網路GAN的惡意軟體生成器MalGan,經過訓練之後可以生成殺毒軟體難以檢測的對抗樣本。這都是人工智慧給你帶來壞的方面。

第三個方面我想講AI自身數據安全的問題,前面是人工智慧可以幫助我們,人工智慧可以做惡,這裡是人工智慧自身的安全問題。主要包括三個方面的安全:一個是訓練數據安全,一個是模型參數安全,一個是AI應用安全。

在訓練數據安全方面,訓練數據有時候是我們花大價錢得來的,比如說人臉數據以及一些醫學應用數據,如人體的MRI,是以非常大的代價得來的。如果這個訓練數據被偷走了,成本浪費是一個方面,另一方面涉及到用戶隱私泄露。比如人臉數據等。

還有模型參數安全,花了很大代價訓練出來的模型,模型的價值在於參數,如果被你輕易學走拿去了,對企業來說是巨大的損失。

還有AI應用安全,在這個圖裡,對人眼來看這還是一個STOP的標籤,但是一些演算法認不出,那在智能駕駛來說就是很致命的問題。

左邊的人臉數據通過人臉識別系統,給它一個隨機輸入,然後進行不停的更新,經過多輪訓練之後可以拿到右邊的數據,最終可以把右邊的數據給拿出來,你看到對於人臉來說,我看到右邊這張臉,已經可以看出來他是誰了。

訓練數據安全還有一種,當我做合作學習的時候,大家都是上傳本地參數,可以保護本地隱私,最新研究發現,在很多情況下仍然有可能造成本地的訓練數據泄露。

模型參數安全,攻擊者可以與AI系統進行交互,這個模型如果是線性模型的話,就把它的參數求到,如果是非線性的話,利用梯度學習重新獲得近似的學習,可以得到99%的準確率,跟原先訓練好的模型,可以把參數給拿到。

如果我已經知道模型參數了,甚至可以把模型的超參數也可以拿到,參數是你訓練出來的,但是超參數不是不能從數據里得到,而是人工指定的,人工指定的值則是大量的摸索實踐經驗得來的。這就表明,參數和超參數都有可能被竊取。

下面講一個AI應用安全中的對抗樣本攻擊。舉例來說,下面的圖片數據一開始是一個鴨,加了一點噪音之後就被識別成馬。但是對肉眼來說還是一個鴨子,無非就是模糊了一點。對於聲音識別來說,左邊本來是講how are you,加了一點噪音就被識別成open the door。

主要的攻擊模式,一個是黑盒模式,攻擊者不知道AI系統的演算法和參數,但可以與之交互,他能夠盡他最大的可能,把訓練數據、模型參數、超參數欺騙模型。對於白盒攻擊,攻擊者能夠知道AI系統演算法及參數,主要的攻擊演算法包括快速梯隊演算法、投射梯隊演算法等等。

最後想講講數據安全的新規範。

合規和新的數據法律給學術界和工業界都提出了非常多的挑戰,從我們國家來說,從網路安全法到個人信息和重要數據評估安全到信息安全技術數據評估指南,這些都是給你一些法律的框架,你必須要合規。

其實對工業界來說,特別是現在有些系統要求使用國產密碼,在系統開發的時候,你必須要具備這些技術。

另一方面,一些走在前沿的隱私保護的東西,給技術上提出很多新的挑戰,如果一旦不合規的話,給企業帶來的法律義務非常的重。比如說GDPR,從今年的5月25號已經正式開始貫徹了,GDPR規定了遺忘權,一個人的數據應該可以被遺忘在網上。但這是很困難的事情,你的數據一旦被網站上備份過,不同的伺服器上流轉過,怎麼保證這些信息在所有的地方都被刪掉了呢?

包括AI模型可解釋性,我同意張鈸院士的說法,AI有很長的路要走,比如你要取代一個醫生,你要看一個CT片子,醫生說它不是腫瘤,醫生承擔責任。機器說不是腫瘤,可以解釋嗎?出了問題怎麼辦? 因為現在很多AI模型沒有可解釋性,如果我要求你一定要有可解釋性,怎麼辦?這也在技術上有非常大的挑戰,當然還有很多其他挑戰像可遷移性。

AI給我們提出了很多挑戰,新的法律法規也給我們從技術上和合規上提出很多新的挑戰,所以數據安全依然任重而道遠,我的分享就到這,謝謝大家。

問答環節:

雷鋒網:您在演講中提到了AI自身數據安全的三個問題,包括訓練數據安全,模型參數安全,以及AI應用安全。針對這三個方面的攻擊已有實例了嗎?還是處於實驗室模擬攻擊階段?以及有何方式防禦。

任奎:針對這三個方面的攻擊大多處於實驗室模擬攻擊階段,還未出現影響惡劣的相關實例,但這些攻擊仍應受到高度重視。其原因有二:一是演講中所提到的竊取訓練數據和模型參數的攻擊較為隱蔽,不易被現有的檢測系統發現。因而這類攻擊可能已在現實中存在並造成嚴重損失,只是尚未被發現報道。二是現有攻擊手段已經可以被惡意使用於現有的AI系統及AI模型平台上。例如,演講中提到的愛荷華大學團隊的關於模型超參數竊取的工作,相關實驗是在亞馬遜雲計算平台(AWS)上進行的。實驗表明他們所提出的攻擊可以準確地竊取存儲在AWS上的機器學習模型的超參數 [1]。另外,伯克利團隊在STOP 標誌上貼上設計好的貼紙,導致 YOLO自動駕駛識別系統無法識別該STOP標誌 [2]。在自動駕駛汽車的試行至正式投入使用的過程中,這類攻擊如果被惡意使用,那後果將不堪設想。

目前來看,針對於前面提到的這些攻擊,有效的防禦措施還比較少。如有關訓練數據,模型參數的竊取攻擊一般比較隱蔽,現有的系統平台難以及時發現並處理。針對這個問題,一個潛在的防禦手段是利用差分隱私技術,對模型的部分輸出(如置信值)進行擾動,以防攻擊者獲取到更多的信息。針對AI應用安全中的對抗樣本問題,近些年各類防禦方法不斷湧現,但其中很多都已被新的攻擊演算法攻破。例如,在ICLR2018上發表的8個防禦工作中,7個已被新出現的攻擊演算法攻破 [3]。因此,在研究出有效的對抗樣本防禦系統前,我們可能還有很長的路要走。

參考文獻:

[1] Wang, Binghui, and Neil Zhenqiang Gong. "Stealing hyperparameters in machine learning."  IEEE SAP 2019

[2] Evtimov, Ivan, et al. "Robust Physical-World Attacks on Deep Learning Models." arXiv preprint arXiv:1707.08945 1 (2017).

[3] Athalye, Anish, Nicholas Carlini, and David Wagner. "Obfuscated gradients give a false sense of security: Circumventing defenses to adversarial examples." arXiv preprint arXiv:1802.00420 (2018).

雷鋒網:在您看來,目前國外安全領域學術界和產業界結合趨勢是什麼,以及是否有值得國內學習的地方?(可結合具體案例)

任奎:網路空間安全是新信息時代的全球性問題,部分發達國家對這一問題給予了廣泛關注與深入探討。以美國為例,學術界和產業界有著較為成熟的分工合作體系與運行機制,共同推動安全領域的技術發展和創新。一方面,從美國各大高校範圍來看,該方面有著諸多典型案例。比如,斯坦福大學將學科研與人才培養體制與政府和企業需求直接對接,與來自矽谷的企業實現了深層次的融合。加州大學伯克利分校每年舉行業界交流會,使實驗室每位成員與業界人員交流。當學生在研究的問題上遇到了瓶頸,教授會讓學生短期進入工業界實習,以了解研究方向和研究目的。另一方面,美國產業界為了自身可持續性地發展,非常注重和學術界的聯繫。為了加強該聯繫,多種運營模式應運而生。如在企業社團模式下,研究社團負責收集企業的需求並反饋到學術界,大學教授則可以根據自己的研究興趣匹配相應項目和經費。另外,還存在較為新興的企業聯合資助模式,若干公司聯合起來直接定向資助某個大學的實驗室,實現學校與企業的互惠互利。

最近幾年,安全方向國內學術界與產業界之間的聯繫態勢活躍。近期浙江大學阿里巴巴集團聯合成立的「AZFT網路空間安全實驗室」 致力於推動『產學研用』的一體化發展,也引發了學術界和產業界的廣泛關注。

雷鋒網:您剛剛有提到數據遺忘權這一問題,針對這一權利向來有不同聲音,首先是所有權,大數據時代海量數據的所有權屬於誰?如果用戶擁有數據遺忘權又怎麼保證相應數據完全被刪除?是否有相應技術可以解決這一問題?您是如何看待的

任奎:在大數據時代,所有的數據所有權應當屬於用戶。海量數據的採集和使用均應獲得來自用戶的授權。數據遺忘權並不是一個新的概念。歐盟委員會早在2012年就提議,應當在互聯網上為人們賦予「被遺忘權」 ,即人們有權利要求移除自己負面或過時的個人信息搜尋結果。今年6月28日,美國加州簽署了AB375 數據隱私法案,規定掌握用戶數據超過5萬的公司必須允許用戶查閱和刪除自己被收集的數據。然而在實際中是很難保證數據完全被刪除的,主要原因在於數據可以被複制和轉移,即使在某個指定公司的伺服器中被刪除了,但不能保證數據沒有被存其他地方。目前在技術層面上還沒有較好的解決方案,只能通過從法律層面上對侵犯數據遺忘權的行為進行懲罰來保障用戶的權利。

http://www.360doc.com/content/16/1015/14/21733879_598618933.shtml


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

曠視科技首席科學家孫劍:如何打造雲、端、芯上的視覺計算
蘋果禁用iPhone「挖」礦;運營商整改「不限量套餐」宣傳;特斯拉將推全自動駕駛Autopilot|雷鋒早報

TAG:雷鋒網 |