當前位置:
首頁 > 新聞 > AI 大數據在數據隱私保護下如何普惠共享?CCF TF「聯邦學習」研討會給出了答案

AI 大數據在數據隱私保護下如何普惠共享?CCF TF「聯邦學習」研討會給出了答案

雷鋒網 AI 科技評論按:3 月 24 日,由 CCF 主辦、微眾銀行和深圳大學微眾金融科技研究院協辦的第 14 期中國計算機學會技術前線研討會於深圳大學科技樓二號報告廳圓滿召開,研討會的主題為「聯邦學習(Federated Machine Learning):技術及數據隱私保護」。

本次研討會由微眾銀行首席 AI 官、香港科技大學楊強教授主持,同時,楊強教授還進行了主題為《數據孤島,AI 向善與聯邦遷移學習》的開場致辭。

AI 大數據在數據隱私保護下如何普惠共享?CCF TF「聯邦學習」研討會給出了答案

打開今日頭條,查看更多圖片

微眾銀行首席 AI 官、香港科技大學楊強教授

在正式致辭之前,楊強教授就十分謙遜地強調,對於「聯邦學習」這個概念,他們這些開創者也還是在一邊摸著石頭過河,一邊在將相關的知識傳授給大家,因此對於本次論壇,他們更多地希望大家一起探索這個新概念,而不是單方面的教授與聆聽。也正是基於這種考量,他們特地邀請了大學教授,企業科研人員、高管以及法律專家等各界人士來一起有針對性地對話交流。

致辭伊始,楊強教授表示,對於 AI,當前人們最關心的議題就是它與社會的關係,其中兩個比較重要的議題,是在兩會期間由李彥宏提出來的「數據孤島」和馬化騰提出來的「AI 向善」問題。

什麼是「AI 向善」?楊強教授指出:它是指在傳統的只有少數人能夠享受的領域,利用 AI 作為工具,讓廣大民眾也能享受到過去 VIP 所享受的特殊服務,例如 AI 與普惠金融、普惠教育、普惠醫療、智慧城市、災難營救,AI 扶貧,AI +農業以及人工智慧初創公司第四範式提出來的口號「AI for Everyone」等。而之所以提出 「AI 向善」則是由於:


  • AI 系統的有偏性。比如說將男性對電影的評價的數據給到 AI 系統,它得出的結果就僅是男性的意見,而一旦公開就會被別人誤以為是全社會的意見;

  • AI 系統與人類合作爭奪掌控權的問題。以波音飛機為案例,波音飛機和人類駕駛員爭奪駕駛權,造成飛機事故,這一事件給我們帶來了很大的啟示:如果不能以人為中心,將會造成災難;

  • AI 系統的可解釋性。如果監管部門不理解系統模型,這一系統就無法通過檢測並無法得以使用,例如歐盟新提出的 GDPR (《通用數據保護條例》)其中就有一條法律規定自動化模型一定需要是可解釋性的;

  • AI 系統的可靠性。現在的 AI 系統還不具備這一能力,這種能力不是說 AI 無法擁有,而是現在社會還不重視,因此應該得到科研人員的重視;

  • 此外,還有 AI 系統的可信性、公平性,都是「AI 向善」的重要主題。

隨後他指出,雖然「AI 向善」是一個重大的議題,但是當天的論壇要聚焦的則是對 AI 系統至關重要的數據治理問題:數據越多,AI 系統的表現就越好,而這樣的話就會造成數據和 AI 的寡頭,例如 Google 以及國內的 BAT 等大公司,擁有巨量數據。而與之相對的則是小公司所面臨的小數據場景,例如法律、金融、醫療大部分應用場景都存在小數據和「數據孤島」的問題。

針對小數據,楊強教授從技術上提出了解決方案,包括:


(1)通過遷移學習將大數據的能力遷移到小數據上(現在 Bert 就能夠對大數據場景建立大模型);

(2)將(小)數據進行融合,引入隱私和安全的需求,建立一個聯邦模型。

那麼如何將有效的數據孤島聚合起來呢?第一、利用隱私安全的建模工具;第二,需要有好的安全證明,不涉及到隱私;第三,公平利益分配。有了這些工具後,這些小數據擁有者就能夠組成一個跨行業的聯邦學習聯盟。

演講最後,他呼籲道,建立聯邦學習聯盟,應該是整個社會的事情,希望社會各界都能夠參與到其中來。

楊強教授的致辭之後,微眾銀行 AI 部門高級研究員劉洋博士帶來了主題為《聯邦學習的研究及應用》的演講,她主要介紹了微眾銀行針對聯邦學習所做的一些工作以及聯邦學習當前的進展和未來的發展方向。

AI 大數據在數據隱私保護下如何普惠共享?CCF TF「聯邦學習」研討會給出了答案

微眾銀行 AI 部門高級研究員劉洋博士

首先,她介紹了「聯邦學習」這一新概念,即大規模用戶在保護數據隱私條件下的協同學習。具體而言,「聯邦學習」包括自治和聯合兩個方面:自治是指用戶在自己的終端設備中訓練模型,不同的數據持有方就會訓練出不同的模型,這些模型就都擁有不同的參數;聯合則是指將模型的不同參數上傳到雲端從而實現模型的聚合,之後再將聚合的參數返回給用戶,這一過程一直重複持續到訓練完成為止——整個過程只上傳模型參數而不上傳數據,從而在保護隱私的情況下實現數據共享。

谷歌公司率先提出了基於個人終端設備的「橫向聯邦學習」(Horizontal Federated Learning)演算法框架,在之後的一年到兩年時間中,該演算法框架也獲得了較多的進展:


  • 在系統效率的提高和優化上,包括模型壓縮、模型優化、參與方的優化選取、將聯邦學習與邊緣計算相結合;

  • 在模型效果的提升上,包括在數據分布不均勻的情況下提高模型表現,以及將機器學習、多任務學習等與聯邦學習結合去實現用戶終端的個性化;

  • 在數據安全方面,主要考慮的是模型參數的更新是否能實現保護隱私信息,對此該領域提出了兩種解決方案(梯度):第一個方法是加混淆,減弱小數據對整個數據的影響;第二個方法是同態加密來保護梯度的更新。此外,谷歌還提出了 Secure Aggregation,在本地訓練、秘密共享、穩定性、無個人梯度信息泄露以及半誠實假設等方面都實現了較高的表現。

同時,劉洋博士還提到,發展至今,聯邦學習已延伸出三個類別:


  • 橫向聯邦學習——在兩個數據集的用戶特徵重疊較多而用戶重疊較少的情況下,我們把數據集按照橫向 (即用戶維度) 切分,並取出雙方用戶特徵相同而用戶不完全相同的那部分數據進行訓練。

  • 縱向聯邦學習——在兩個數據集的用戶重疊較多而用戶特徵重疊較少的情況下,我們把數據集按照縱向 (即特徵維度) 切分,並取出雙方用戶相同而用戶特徵不完全相同的那部分數據進行訓練。目前,邏輯回歸模型,樹型結構模型和神經網路模型等眾多機 器學習模型已經逐漸被證實能夠建立在這個聯邦體系上。

  • 聯邦遷移學習——在兩個數據集的用戶與用戶特徵重疊都較少的情況下,我們不對數據進行切分,而可以 利用遷移學習來克服數據或標籤不足的情況。

其中,她對縱向聯邦學習的具體工作原理進行了介紹。縱向聯邦學習的目標是 A 方與 B 方聯合建立模型,並且假設只有一方有標籤 Y,兩方均不暴露數據,但可能遇到的挑戰是只有 X 的一方沒有辦法建立模型或雙方不能交換共享數據。而其最終要達到的預期為:雙方均獲得數據保護且模型無損失。

因而在進行保護隱私的機器學習之前,需要先對安全進行定義,其中涉及到三項重要的對比:半誠實和惡意;零知識和一些知識;惡意中心和惡意數據節點。之後再利用隱私保護下的技術工具來建模,包括多方安全計算、同態加密、姚式混淆電路、秘密共享以及差分隱私等。

在介紹聯邦學習當前的進展之後,劉洋博士也提到聯邦學習當前所面臨的挑戰和未來的研究展望。其中,挑戰主要來自兩個方面,一個是模型攻擊;另一個則是數據攻擊。而對於未來的研究展望,劉洋博士認為聯邦學習應該在安全合規、防禦攻擊、演算法效率、技術應用以及聯盟機制等方向上進行發展。

最後,劉洋博士也介紹了目前聯邦學習在金融領域(互聯網公司+銀行)、智慧城市(視覺應用+城市管理)等應用案例,並指出聯邦學習生態建設應該是由開源、技術標準、商業賦能三大要素構建起來的。

劉洋博士演講結束後,微眾銀行的范濤研究員也上台向大家介紹了微眾銀行基於「聯邦學習」開發了聯盟 AI 系統並開源聯盟 AI 解決方案 FATE(Federated AI Technology Enabler)。FATE 是一個工業級聯邦學習框架,提供了一種基於數據隱私保護的安全計算框架,為機器學習、深度學習、遷移學習演算法提供強有力的支撐,能有效幫助多個機構在滿足用戶隱私保護、數據安全和政府法規的要求下,進行數據使用和建模,該項目開啟於 2018 年,目前已在 GitHub 上(http://github.com/WeBankFinTech/FATE)實現了開源。

AI 大數據在數據隱私保護下如何普惠共享?CCF TF「聯邦學習」研討會給出了答案

微眾銀行聯盟 AI 解決方案 FATE 負責人范濤研究員

前一位演講者從技術的角度解釋為什麼要加入聯邦學習聯盟,南洋理工大學南洋助理教授於涵博士則從博弈論的角度講述怎樣激勵擁有高數據的擁有者加入聯邦學習聯盟,他的演講主題是《聯邦學習中的博弈論》。

AI 大數據在數據隱私保護下如何普惠共享?CCF TF「聯邦學習」研討會給出了答案

南洋理工大學南洋助理教授於涵博士

於涵博士提到,一個數據聯盟的可持續發展取決於能否持續吸引高質量的個人或機構數據持有人的參與。然而如何吸引高質量的個人或機構數據持有人參與進來?其中一個重要的課題就是量化個人或機構的收益。

在找到解決方案之前,他先為大家介紹了當前比較成熟的三類利潤分配博弈中的分配方案,包括:


  • 平均主義:數據聯盟產生的收益在參與者中平均分配;

  • 邊際收益:按照某個參與者加入聯盟時帶來的邊際收益確定他所應得的收益;

  • 邊際損失:按照某個參與者退出聯盟所帶來的邊際損失確定他所應得的收益。

而從系統角度考慮,總體的目標就是最大化集體效用。

然後,這些分配方案都存在各自的劣勢,對此,他們提出的是聯邦學習激勵機制(FLI,Federated Learning Incentivizer)利益分配,這一分配方案的核心是從貢獻和代價兩個層面考慮怎樣公平地對待參與者,在最大化數據聯盟的整體效用的同時,也最小化參與者之間在「遺憾」和等待時長兩個維度的不均衡。這樣的話,FLI 能夠同時兼顧對於每個數據擁有者可同時加入多個聯盟、參與者加入/離開聯盟的排序重要性、參與者加入聯盟的代價、參與者加入聯盟的「遺憾」以及參與者等待全額補償所消耗的時間的考量。

演講最後,於涵博士還用基於這套利益分配方案設計的 SmartHS 在中國「智慧民生」中的應用案例,來介紹了這套機制所帶來的實際效果。他指出現有的電子政務系統依舊是工具包式的解決方案,未能解決系統層面的低效率問題,效果不明顯,而 SmartHS 則實現了流程標準化,人員角色定義標準化,流程智能管理(基於聯邦學習機制設計的基礎理論),不僅實現了 0 排隊,減少了民眾所耗費的時間(辦事流程使用時長平均 90% 以上)和精力,政務工作人員的業務水平也大幅提高。據悉,該項目還獲得了AAAI2018「人工智慧創新應用獎」。

作為本次論壇的唯一一位法律從業者,北京觀韜中茂(上海)律師事務所合伙人王渝偉律師,從法律的層面強調了數據隱私保護方面的重要性,他的演講主題為《網路安全與數據保護的立法和實踐》。

AI 大數據在數據隱私保護下如何普惠共享?CCF TF「聯邦學習」研討會給出了答案

北京觀韜中茂(上海)律師事務所合伙人王渝偉律師

王渝偉律師從今年的 3·15 晚會中重點關注的數據隱私問題引入,結合龐理鵬與「去哪兒」、「東航」隱私權糾紛案,淘寶公司訴美景公司不正當競爭案,上海晟品非法爬取今日頭條伺服器視頻數據案等國內外典型案例講述在日趨嚴密的立法和頻繁的執法下,企業如何建立數據合規體系並提升自身數據安全能力。

以上海晟品非法爬取今日頭條伺服器視頻數據案為例,王渝偉律師指出,本案所涉內容是當今互聯網企業所面臨的一個普遍問題,該案件中的上海晟品網路科技有限公司利用爬蟲技術抓取了位元組跳動伺服器視頻數據,是違法法律規定的犯罪行為,處罰輕則拘役、重則判處有期徒刑。

對於這一案例,他也為相關企業提出了對策,一是要評估想要爬取的數據的開放程度和被爬取方的意願;二是要考察數據的類別,判斷數據是否為個人信息、版權內容或商業秘密。

演講最後,他表示,關於數據隱私問題的解決,一方面是需要政府立法來制約對隱私數據的侵犯;而另一方面,「楊強教授他們提出的聯邦學習或許是一個不錯的思路」。

第四位出場的演講嘉賓是第四範式聯合創始人、首席研究科學家陳雨強博士,他的演講主題是《聯邦學習——AI For Everyone 的必經之路》。

AI 大數據在數據隱私保護下如何普惠共享?CCF TF「聯邦學習」研討會給出了答案

第四範式聯合創始人、首席研究科學家陳雨強博士

他首先介紹了科學上的四個範式:第一範式是實驗科學,強調發現現象、記錄現象和重複現象;第二範式是理論科學,強調設計理論解釋現象;第三範式是計算科學,即通過計算模擬現象;第四範式則是數據科學,即通過數據解釋現象。他強調,第四範式是科學發展的未來。

隨後他回歸主題,為大家呈現了 「AI For Everyone」 的所需要經歷的階段:


  • 起點是專家系統,其以專業程度決定人類智能程度,難以處理所有邊界,應用門檻非常高;

  • 第二個階段是高維學習,需要構建複雜模型尋找規律,能夠解決產品化、標準化問題衱智能程度門檻;

  • 第三個階段,即現在,則是 AutoML,能夠解決智能構建門檻,即每個人都能夠構建自己的模型了,然而此時要需要解決的是數據門檻問題,因而未來的發展方向則是——

  • 第四個階段:聯邦學習。

隨後他從機器學習的工業落地角度,指出工業界的機器學習最大的特點應該是可擴展——包括兩個層面的可擴展:一方面,數據處理的吞吐隨著集群、機器數的增加而增加;另一方面則是智能水平/體驗的壁壘隨著業務/數據的增加而增加。而工業大數據則需要高 VC 維模型,意味著需要高複雜度的模型或函數以及非常強的機器學習能力。

總體而言,工業界所需要的高 VC 維機器學習系統,需要在數據、特徵和模型三個方向尋求提高和優化。而由於數據門檻較高,一般的做法是沿著特徵和模型兩個方向走。


  • 沿著模型方向走,是由學術界(ICML、NIPS、ICLR)在主導,其往往利用非線性的三把寶劍——Kernel、Boosting 和神經網路(目前用得最多的方法),實現了模型大部分可單機載入,並解決了數據分散式問題,降低系統 overhead;而工業界則針對應用定製模型,其重點考慮的是什麼模型更符合場景數據、泛化能力以及非線性組合能力更強,一般會基於專家思考或者觀測得到的假設,加入新的模型、結構以獲得更多參數來構建機器學習系統。

  • 沿著特徵方向走,則是由工業界(KDD、WWW)在主導,其使用的模型相對比較簡單粗暴(是優點也是缺點),在分散式計算和工程特徵方面所面臨的挑戰較大,因此重點考量的是實現高效並行並保證快速收斂。對此,工業界一般會針對應用定製特徵,重點探索特徵產生的原因、方法並理解特徵。

然而目前,工業界應用機器學習依舊存在諸多難題,一方面是對於 AI 應用平台的需求巨大;另一方面則是人工智慧還沒有真的大規模應用到每個企業。以特徵工程為例,要求該領域的研究者對機器學習與業務都有非常深的了解,而目前可以用來優化特徵工程的方法有:隱式特徵組合(NN、FM)、半顯式顯示特徵組合(GBDT)以及顯式特徵組合(特徵叉乘)。

最後,他表示,現在他們在嘗試解決的是 「AI For Everyone」的問題,而下一步則是要解決數據的問題。第四範式也在楊強教授的指導下,開展聯邦學習的研究,主要的研究思路包括隱私保護和知識遷移,並且相關的成果目前已經應用到醫療領域中。

最後一位出場的演講嘉賓是京東智能城市研究院資深研究員、京東城市計算事業部 AI 平台部負責人張鈞波博士,他的演講主題是《城市計算與跨域學習聯合建模》。他主要從城市計算的偏應用的角度,講述聯邦學習對於該領域的意義。

AI 大數據在數據隱私保護下如何普惠共享?CCF TF「聯邦學習」研討會給出了答案

京東智能城市研究院資深研究員、京東城市計算事業部 AI 平台部負責人張鈞波博士

首先,他對「城市計算」(Urban Computing)的概念進行了介紹,即通過城市數據的採集、管理、分析挖掘和服務提供,解決交通、規劃、環境等問題。然而由於數據異構、多源性及時空動態分布,目前城市計算面臨著城市感知的數據缺失這一重大挑戰。其中時空大數據因其空間上的臨近性、層次性和時間上的周期性、趨勢性等特性,更是城市計算亟需解決的問題。

隨後,他以 AI 預測城市區域人流量及流轉、基於大數據和 AI 的空氣預測預測、基於 AI 和城市大數據管網水質量預測等應用場景為例,介紹了京東在城市計算方面所做的一些工作,然而這些工作都尚且無法很好地利用到目前已經存在的一些數據積累,包括:智慧城市建設中,各個政府機構已經建立的各種信息系統或數據平台;大型企業尤其是央企國企累積收集的各類海量數。同時,隨著當前一些社會重要發展項目需要聯合政府和大型企業事業單位數據共同完成,打破各機構間的數據壁壘成為需要。

而這樣的需求所對應的則是一系列挑戰:


一是數據安全問題,無論是歐盟的 GDPR,還是《中華人民共和國網路安全法》都對數據隱私提出了嚴格的規定;

二是跨平台場景複雜,例如數據共享存在數據孤島、不同政府機構和企事業單位平台架構不同、數據加密登記多樣、數據類型及標準多樣化等方面的限制;

三是現有模型演算法還無法完全實現保護原始數據隱私不被泄露、保證模型準確率和效率、網路安全、模型可解釋性和置信程度等目標。

對此,京東通過跨域學習聯合建模,建立「聯邦學習+隨機森林」的聯邦隨機森林、「聯邦學習+邏輯回歸模型」的聯合企業信用評級模型、「聯邦學習+地塊特徵學習」的智能地塊(區域)排序模型等,來打通數據壁壘,解決數據孤島問題。

本次論壇的最後一個環節便是由楊強教授、張鈞波博士、陳雨強博士、於涵博士、王渝偉律師以及特邀嘉賓——微眾銀行人工智慧部副總經理陳天健先生一同參與的圓桌論壇,主題為《探索聯邦學習之機遇與挑戰》。

AI 大數據在數據隱私保護下如何普惠共享?CCF TF「聯邦學習」研討會給出了答案

楊強教授、張鈞波博士、陳雨強博士、於涵博士、王渝偉律師、陳天健先生一同參與圓桌論壇

以下為編輯整理的對話實錄:

1.

楊強教授:聯邦學習作為一項新的技術,肯定還存在許多大家暫時還想不到的問題。比如說聯邦學習將數據合併後,原本是在合併中心進行建模的效果是最好的,但是由於各種原因,同時需要保護隱私,要將這些數據分布到各個數據持有者的終端,這無疑要損失些東西。我想問大家的是,損失的是什麼?以及損失的指標對業務的影響有多大?

陳天健先生:這個問題是有正反兩面性的。一方面聯邦學習給大家帶來了很大的機遇,擁有小數據的公司不再需要通過打破大數據擁有公司的數據壟斷,而可以通過聯邦學習這一技術享受到大數據的好處;另一方面,這也帶來了一些挑戰,比如說過去的數據在融合以後是完全透明的,可以以非常傳統的方法進行加工處理,然而通過聯邦學習融合數據,數據的特徵必須通過聯邦化、加密等協議進行數據加工,這樣的話數據會受到一定的限制。

2.

楊強教授:有兩位騰訊的同學私底下問了我一個問題:假如兩方合作聯合建模時,一方有 Y,一方沒有 Y,那沒有 Y 的那一方就無法進行建模,這樣的問題該如何去解決呢?

陳天健先生:實際上,有 Y 的那一方往往也是有實際應用的一方,由其來主導規定協議,也是非常合理和公平的。

陳雨強博士:補充一下。我認為可能存在一種情況,例如騰訊旗下的業務矩陣是天然擁有很多數據的,如果它另開了一個新產品,而這個產品可能是沒有 Y 的,實際上如果存在這樣的場景,現在是已經有技術能夠將所有的數據共享過來的,而且實現的效果還挺不錯。

3.

楊強教授:現場來了很多大學生、研究生和博士生,他們也正在尋找新的研究課題,各位對於他們有什麼可以提供的建議嗎?

張均波博士:實際上,每個階段的學生傾向做的課題方向可能不太一樣。一般博士可能會傾向於去做一些學術型的課題,而本科、碩士則可以去選擇一些偏應用型的課題。

於涵博士:我從博弈論的角度補充一下。一個方面是我們學校的聯合研究院也有很多面向學生的研究項目,例如聯邦學習的分配課題;另一方面大家也可以思考一下其他方向的課題,比如說當兩方建立聯邦學習聯盟時有第三方來搗亂,是否有什麼方法來將第三方也融入進來呢?立法又會對 AI 的創新造成什麼影響呢?

4.

楊強教授:國內的數據法律往往是由一些具體的案例驅動的,稍微有些滯後性,國內立法為什麼是這樣的現象?以後是否會有改變,我們是否能像歐洲一樣提前提出相關法規,在全世界起到領導性的作用?

王渝偉律師:目前國內的立法確實存在這樣的問題。但是實際上,有些立法很早就出來了,只不過國家體制下的立法周期比較長,最終的明文出台會比較滯後。同時加上大家對於這些立法的直觀感受不是很強,因此會產生一種國內立法滯後的印象。不過,國內的立法的水平可能確實沒有那麼高,因此在實施的過程中,大家也都普遍感覺效果不是很好。我們也希望這種現狀有所改變,但是這個是跟國家立法機構本身的制度相關的,我們律師也會經常去國外跟其他律師交流,也在做這方面的努力和嘗試,大家可以期待一下。

(完)

雷鋒網 AI 科技評論報道 雷鋒網

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

51Talk發布Q4財報:現金收入5.032億元,菲教1對1業務增長63%

TAG:雷鋒網 |