微眾銀行首席人工智慧官楊強：聯邦學習的最新發展及應用

知識 07-28

機器之心報道

演講者：楊強

整理：張倩

前段時間，Facebook 因泄露隱私數據被罰 50 億美元，使得數據隱私和安全再次成為大家關注的焦點。如何在保證隱私安全的前提下利用數據也是人工智慧發展面臨的一大難題。聯邦學習可以說是一個可行的解決方案。在市北·GMIS 2019 全球數據智能峰會上，微眾銀行首席人工智慧官、國際人工智慧學會理事長、香港科技大學教授楊強為我們介紹了聯邦學習的最新發展及應用。

楊教授於 2013 年 7 月當選為國際人工智慧協會（AAAI）院士，是第一位獲此殊榮的華人。他是國際人工智慧界「遷移學習」技術的開創者，同時提出「聯邦學習」的研究新方向。

以下為楊教授在市北·GMIS 2019 全球數據智能峰會上的演講內容，機器之心進行了不改變原意的編輯、整理：

大家好！今天非常榮幸有機會跟大家交流。非常感謝市北和機器之心舉辦的這個活動。我在前年也參加了 GMIS 活動，印象很深刻。今天給大家帶來的演講叫《聯邦學習的最新發展及應用》。

AI 進入現在這個時刻也面臨很大的挑戰，今天我特別要講的是數據挑戰。

AI 時代的數據挑戰

我們說 AI 是離不開大數據的，比如深度學習。一開始的比賽是上千萬的圖像，AlphaGo 也是幾十萬的棋盤做訓練，我們叫大數據。但是我們在行業中看到的數據往往是小數據和細碎的數據，也就是沒有聯通起來的數據。如果我們只面臨小數據，那麼最先進的人工智慧技術就很難用上，所以對我們來說，這是一個很大的挑戰。

同時，我們現在日益關心數據隱私這一話題。比方說醫療數據，我們很難把不同醫院的醫療影像數據匯聚到一起形成大數據來訓練一個醫療模型。社會也需要更多的監管，更多地關注隱私和安全。比如說我們在美國看到的一些例子，就是因為數據泄露給公司帶來的巨大災難。

因此世界各地也引入了各種法規，像我們熟知的歐洲引入了一個著名的法規叫 GDPR，也就是個人通用數據的保護法規。根據該法規，一個公司在一個應用上使用數據的時候，首先要獲得用戶的同意，同時如果把這個數據和另外一個公司或者企業進行交換的時候也要獲得用戶的同意。

那麼在這一點上，我們現在面臨很大的挑戰。因為，比如說在互聯網公司，我們如何能夠找到原來的用戶，獲得他的同意，這個本身就是一個很難的問題。因此，很多的數據使用方和數據擁有方就形成了一個隔裂牆，使得他們很難進行溝通。美國也逐漸引入相關的法規。對數據立法是全世界的現象，我們中國也在逐漸引入嚴格的數據保護法律法規。各領域的管理細則也紛紛出台，包括用戶授權、監管部門的審批流程等等。所以我們看到的這個趨勢是逐漸嚴格化、全面化的。

那麼在這樣的形勢下，我們業界是怎樣的呢？下圖是我們的一個例子。

在保險行業進行個性化定價的時候，我們需要非常多的數據，包括保險行業的數據、業務數據、互聯網行為數據等。我們要把它們融合在一起，以得到非常豐富的用戶畫像、用戶 ID 的高度匹配。但是現實情況如何呢？因為上面所提到的隱私、安全、法規等等之類的原因，我們看到的數據是很有限的，我們能用到的數據集也是非常有限的。這使得我們數據的使用只有很小的維度、很小的範圍，並且能夠重複的用戶佔比非常小。

第二個例子是小微企業貸款的行業，這種企業的風險管理是一個難題。那麼解決這個難題，就要引入不同的數據集、大量的數據集，比如票據數據、資產數據、輿情數據等等。但是因為以上這些原因造成數據的隔裂，我們只能用一些有限的數據，比如央行的徵信報告，但是這些徵信報告的覆蓋範圍是非常有限的。只能覆蓋一部分的人群，少於 10%，大部分的用戶沒有重複的表現，因為你沒有引入其他重要的數據。

所以在這，我們引入一個新的概念，能夠解決以上這些難題，叫做聯邦學習。

聯邦學習

之前我們建立模型是要把數據匯聚到一起，就是所謂的數據移動。聯邦學習就是要求數據不動，但是我們可以讓模型在各個參與方之間移動，在安全加密的情況下，這個模型在成長。

那具體來說，這個事是怎麼做的呢？我們看到下邊這張圖。

我們有多個數據方，在他們之間建立一個聯盟。他們已經互相取得同意，參與到共同建模的共享模型聯盟裡面來了。那麼我們可以在他們之間建一個全局的模型。我們希望達到以下目標：首先是數據隱私的保護，同時我們也要保護模型的參數，就是不同模型擁有方之間，模型的參數也不互相暴露。

那我們對這個模型的要求就是它的效果更好，比單方擁有的模型要好：A 方 B 方各自擁有模型，但是它們共同的模型比各自的更好。這個從數學上來說是很容易解釋的，因為假如我們有上下兩個數據集，如果我們能夠把這個數據集的維度加以聚合，再形成概念的空間，就形成一個更大維度的數據集，這樣就可以建一個下圖所示更加複雜和有效的模型。

但是現在的問題是，如何能夠在建立 A 方和 B 方之間模型的時候，不互相泄露數據。

應該說，這兩年這個領域取得了突飛猛進的發展，大家研究的對象，包括如何壓縮這個模型；如何進行演算法的優化取得更好的效果；如何能夠選擇參與方、數據提供方；如何能夠支持邊緣計算，同時在數據分布不均勻的情況下，還能夠進行這樣的一種聯邦學習，同時可以支持個性化，所有的這些都是在一個前提下，就是數據安全。

那麼這裡我要講一下細分的領域，聯邦學習的分類。

聯邦學習的分類

我們可以把一個數據集看成是一個平面、一個矩陣。那麼這個矩陣橫過來是我們所說的樣本，每一個樣本佔一行，每一個數據的特徵，就是我們所說的屬性，是佔一列。這樣講很清楚，這裡我們簡化成兩方，A 方和 B 方，兩方要進行數據的合作。但是它們不能交換數據，假設我們知道這個數據是有某種重疊的，那麼我們根據它的重疊來進行分類。比如說這種叫橫向聯邦，他們的 ID 維度是不同的。那麼右邊這裡呢，我們看到，樣本的 ID 是相同的，但是它們的特徵卻有區別，這個就是我們所經常說的 ToB 的應用。那麼左邊這個橫向聯邦更多是 ToC 的應用。

那麼在這兩個不同的分類下，我們可以分別研究不同的演算法。研究這個演算法就一定要注意數據的隱私保護、安全保護。

在這裡我們引入幾個概念，每一個參與方可以是非常誠實的，也可以是半誠實的，他對對方的數據有一種好奇，可能不是惡意的。但是我們也不排除某一個參與方完全是惡意的，就是想盜竊對方的數據。那麼我們所說的安全的定義，一定要覆蓋各個方面。同時，我們也在說某一方對對方的數據到底有多少知識。一個可能是零知識，另一個是他知道一些知識，這個根據兩方的合同而定。

還有一個問題，我們可能有雲計算在裡面。所以這時候我們要考慮這個雲計算的伺服器是不是惡意中心，裡面有沒有一個人在偷盜用戶的隱私。並且我們也要考慮某個節點他提供的數據可能是有毒性的數據，也就是說是惡意的數據節點。這個情況拼起來就非常非常多，我們要一個一個地去解決。所以在這個領域，每個方向都有比較大的進展。

聯邦學習關鍵技術：加密/解密

第二個我們需要了解的是，加密技術現在也有突飛猛進的發展。

上邊我列舉了一些加密技術的名詞，有一個叫同態加密，右邊這個圖是把不同的終端數據或者模型進行一個同態加密。那麼同態加密的意思是什麼呢？如果我們有一個公式，要把整個公式模型加密的話，可以把加密的運算元分布到各個成分裡面去，這樣一種分散式的加密，就使得我們能夠進行很有效的機器學習運算。比如說我們可以把同態加密用在深度學習模型上。另外幾個加密演算法包括多方安全計算，包括姚式混淆電路、差分隱私等等。

同態加密的一個好處是，它可以通過近似計算把非線性的方程進行同態加密。就像左上圖所示，假設我們有一個錯誤率的方程，這個方程可以用某種近似給展開。那麼這個展開是多項式的，我們可以通過對這個多項式的加密變成對每一項的加密。我們想像一下，這個方法可以滲透到深度神經網路裡面每一個神經元的啟動函數、激活函數。

縱向聯邦學習

我們再回來利用加密的技術討論一下不同的聯邦學習分類，一個是縱向聯邦學習。我們剛才說它們的樣本是重疊的，但是數據維度是不重疊的。比如有一個銀行要跟互聯網合作，或者一個銀行跟零售企業合作，他們看到的用戶數據的維度是不一樣的，但是他們可能在處理同一批用戶，這樣就形成 A 方和 B 方。我們希望這兩方共同持有一個模型，這時候這個模型是做什麼呢？可能是對銀行的信用分進行建模。這個是剛才所說的新零售或者互聯網方沒有的。所以我們利用一方有 Y 的數據，一方有 X 的數據，這個就是縱向聯邦學習的一個目標。

那麼縱向聯邦學習是怎麼進行的呢？如下圖所示，我們有一個 A 方，有一個 B 方，那麼 A 方和 B 方通過兩者的交互，在交互的過程中交換加密後的參數。這個加密後的參數使得各方所持有的模型逐漸地成長，最後達到穩定的狀態，合起來就是一個完整的模型，分開是各自擁有一半的模型。

在對新的用戶進行操作的時候，他們也一定要合作來進行。就好像我們每個人對一個新來的學生進行面試，但是我們兩個人面試的內容不一樣，對於最後來的一個新學生，兩個老師要同時參與面試。另外一個例子，就是假設兩個共同作者在寫同一本書，每一個作者自己寫一部分的章節，一個作者寫完自己的章節以後把他的內容概述發給另外一個作者，使得他們互相之間不要看各自私有的數據，同時把這本書寫完。所以用這個辦法最後可以建一個共享模型。

我們在企業上關心的是效果，那麼這個模型多有效呢？答案是非常有效。比如說跟保險公司合作的個性化保險定價，就是可以對不同的人定不同的價。個性化保險定價領域，使得我們的覆蓋面增長八倍，同時效果也有所提升。這就使得用戶的體驗大為提升。右邊這個是我們在小微企業貸款方面，也取得了很大的提高，有 12% 的提高。

橫向聯邦學習

剛才講的是縱向，是說兩個企業之間，它們共享一些用戶，但是它們卻不共享特徵。現在我們考慮另外一個方面，即他們共享特徵，但是不共享用戶。這裡以手機行業為例，每一個手機都是在跟雲端溝通，都記錄同樣的用戶信息，但是來自不同的用戶。所以它們的內容都是不一樣的，而且它們之間不能交換，也不希望雲端能夠看到用戶的隱私信息。在這個情況下，我們如何能夠把大家的數據匯聚起來，建立一個共同的模型？

我舉個例子，假設我們每個手機上有很多圖片，每個人在自己的手機上對自己的圖像進行標註，那麼這個標註能不能影響到一個雲端的通用模型，使得它不斷得到更新呢？

現在的這個狀態是需要把這些標註的數據上傳，但是這樣就會暴露我這些照片的隱私，所以是不可取的。但是我們用橫向聯邦學習，在本地建一個小的模型，把這個模型加密以後上傳。上傳的模型的參數是受到加密保護的，伺服器端看不到它的內容但是卻可以把模型匯聚起來，對它通用的模型進行更新，然後再釋放給這些手機，所以我們的手機在下一步就會得到一個新的通用模型，幫助我們進行自動化圖片標註。所以這個對用戶是非常有效的，同時也保護了隱私。

這裡我要特別指出的是 16 年穀歌提出的一個演算法，是在手機的輸入法上。谷歌的輸入法基於此取得了非常大的實驗性成果。

如下圖所示，雲端在搜集各個手機端的模型，但是這個模型是加密後的，然後它在右上角 C 那一步，把加密後更新的模型再釋放給這些手機，形成一個閉環。這個演算法是在深度學習的基礎上進行同態加密，總結起來就是：在手機終端有多個用戶和一個中心，所有數據維度相同，它的特點是進行本地的模型訓練，同時它還有一個特點，就是可以選擇某些用戶參與訓練，某些用戶不參與。

聯邦遷移學習

如果兩邊既沒有共同的特徵，又沒有共同的用戶怎麼辦呢？我們可以用遷移學習。我們把兩方的數據移到一個第三方的空間，在這個空間裡面，數據之間的知識可以互相遷移，這個也是把聯邦學習和遷移學習加以結合，加以聚合，使得當我們在兩方的 ID 和特徵都不一樣的情況下，也可以共同建模。這個稍微複雜一點，它的計算量、需求也會大一點。在進行模型推斷的時候，也是兩方共同參與，進行加密、交換，最後進行結果的推斷。

這裡我要說的是這些加密演算法，它的效率就顯得非常重要。比較好的加密演算法計算費用還是很高的，所以在這方面，還有很多的路要走。但是應該說，在同態加密和混淆電路方面，在私密性方面它有獨到的地方，也是大家比較喜歡用的。

聯邦學習生態和應用案例

下面給大家舉一些應用案例。第一點我要強調的是，聯邦學習一定是多方共同協作，所以我們有必要討論如何建立一個生態、一個聯盟，使得它們之間樂於互相參與，貢獻不同的數據和模型。

如上圖所示，如果用了聯邦學習以後，兩方就可以共同擁有共享的模型，那麼與之前的隱私機器學習等相比，聯邦學習有很大的優勢。其中最大的優勢就是它可以保證數據出庫。

那麼我們建立這個生態就可以在不同的行業之間選取參與方，銀行和監管方、互聯網和保險方、金融和互聯網、零售和互聯網等都可以建立這樣的聯盟，而我們現在正在進行這樣的工作。

保險業的個性化定價

第一個例子就是我剛才說的保險業的個性化定價的難題，如何能夠利用更多的數據來進行個性化的保險定價呢？這裡的例子是一個互聯網企業和一個保險企業的數據合作。這兩個數據是互相不能透露的。但是我們卻看到用戶之間有很多的重疊，這個是屬於我們剛才說的縱向聯邦學習。這個重疊度相當大，所以這樣的一個擴展使得數據的維度大為增加，效果也顯著提升，這個就是我剛開始所說的 8 倍的覆蓋率提升。

小微企業信貸的風險管理

第二個是對小微企業信貸的風險管理。我們用聯邦學習克服對客戶了解的缺乏和數據分布的嚴重缺失。利用縱向聯邦學習，數據的維度可以合作，樣本有重疊，那麼在擴展以後，風險管理水平就大為提升。比方說風控的區分度提高了 12%，貸款的不良率也大為下降，小於千分之五。

聯邦學習落地場景實例

我們根據不同的結構可以設計不同的橫向和縱向混合架構，上圖左上角就是一個很有趣的例子。在保險行業有再保險領域，它是保險公司的保險，也屬於一種保險公司，它需要和很多的保險公司進行合作。這些保險公司和再保險公司同時也要和互聯網公司進行合作，所以我們在這裡看到這樣一個架構：互聯網公司和保險公司之間有一個縱向聯邦，但是保險公司相互之間卻是橫向聯邦，因為它們之間擁有共同的特徵，但是沒有共同的用戶。

右上角舉的是計算機視覺的例子。在這裡有很多用戶方、很多企業。比如說，有很多攝像頭在進行某種行為監測，但是因為隱私緣故，它們之間不能直接溝通數據，所以它們可以跟某個視覺公司合作。視覺公司之間可以形成一個大聯邦，這些攝像頭之間可以形成小聯邦。

左下角是一個監管科技的例子，就是說銀行之間的反洗錢需要互聯網公司來參與，這樣才能把模型壯大，使得特徵變得豐富。但是銀行和銀行之間也要合作，我們要知道用戶的金融行為，一定要引入更多的銀行參與。所以銀行和銀行之間是橫向聯邦，但是銀行和互聯網公司是縱向聯邦。那麼右下角是一個零售商和零售商之間的一種合作，同樣他們之間是橫向聯邦，但是他們和互聯網公司是縱向聯邦。

我剛才特別舉的一個例子是視覺公司，這裡假設的是一個真實的案例，是我們跟深圳一家公司的合作。他們面臨的實際場景是，有很多視覺公司，每家視覺公司都在監控一個地點的安全生產，比如工地和工廠。要用攝像頭去監控工人是不是戴了安全帽，有沒有人抽煙，有沒有明火等等，但是同時我們不希望暴露出現在鏡頭中的工人，這個屬於隱私。所以每個鏡頭和不同的攝像公司、不同的監控公司都形成一個聯邦學習，最後使得他們的模型共同壯大，這個效果也是非常好的。

我們做了另外一個實踐，就是在語音識別領域。語音識別在服務中心，尤其像銀行、大的設備商、手機廠商、電商服務中心都是非常有用的。那麼利用機器人進行自動化語音識別，就需要把語音的數據加以整理，變成訓練數據。但是我們又不希望暴露這些客戶和客服的隱私，這時候就可以引入聯邦學習。聯邦學習使得數據的加工方和數據的提供方之間可以進行雙向交流，用群體智能不斷地提升模型效果，這個也取得了很好的成果。

最後一點是，聯邦學習也需要建立一個生態，這個生態需要引入更多的經濟學概念，同時我們知道在人工智慧方面有一個領域，叫多智能體。這個領域已經非常深入地研究經濟學模型和博弈論，如何鼓勵用戶更多地參與。我們在這裡就會加入到這樣的一個研究行列裡面來。

聯邦學習和遷移學習的生態也在蓬勃發展，這裡特別要說的是聯邦學習已經成為 AI 在學術界和工業界的趨勢。我們在去年的中國人工智慧大會上作了一個演講，和谷歌也有很多的交流。谷歌 6 月份的時候在西雅圖舉辦了一個大會，也有很多學術界的同仁參加。包括下下周在澳門 IJCAI 大會上將會舉辦第一屆國際聯邦學習研討會，也希望大家積极參与。

同時，聯邦學習需要各個參與方都對其軟體和架構有足夠的信任。為了達到這一點，我們採取的途徑是開源。那些源代碼都是可見的，你可以分析所有可能的漏洞，因此使用起來也會非常放心，這個也是我們初衷。在這裡我特別要提的是，國際上已經有不少開源項目，但是我們最全的一個開源項目是微眾銀行提出的 FATE 這個項目，大家可以下載，並且可以參與貢獻其中。同時我們在推動建立一個標準，使得各個參與方之間可以建立共同的語言，來構建這樣的一個標準。這個標準同時在國內也在推進，剛剛一個工信部的團體標準被批准了，我們下一步是向國家標準靠近。

上面這個是我剛剛講的團體標準的案例，希望大家能夠有機會下載。

聯邦學習研究展望

最後要說的是，聯邦學習的提出有很深厚的背景，像我一開始所說的，人工智慧面臨數據挑戰：數據不足、割裂、小數據的問題，要解決這些問題一定要解決安全、合規、隱私保護的問題，並且還要能夠提高模型的效率。作為一個新興的學術和工業應用的領域，它有很多要走的路，前面還有很多事情要做。比如說安全合規、如何防禦惡性攻擊、如何提高演算法的效率、加密演算法的效率、如何擴展它的技術應用，並且能夠從機制上解決聯盟的建立和蓬勃發展、可持續發展的難題。如果有一些人對數據進行渲染，使得這個數據偏袒某些他希望的方面，如果能夠探測到這些數據方面的缺陷和隱含的漏洞，所以這些方面在座如果有學術界的同仁，歡迎大家來參與研究。謝謝大家！

關注聯邦學習最新動態：https://www.fedai.org.cn/cn/

聯邦學習開源框架 FATE：https://github.com/webankfintech/fate

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※世界頂級電影特效公司都在讓AI「接管」特效製作
※IJCAI 2019 | 有趣！這是一篇玩倩女幽魂的多智能體強化學習研究

TAG:機器之心 |