當前位置:
首頁 > 新聞 > 破解數據孤島壁壘,三篇論文詳細解讀聯邦學習

破解數據孤島壁壘,三篇論文詳細解讀聯邦學習

破解數據孤島壁壘,三篇論文詳細解讀聯邦學習

打開今日頭條,查看更多圖片

雷鋒網 AI 科技評論按:香港科技大學講席教授、微眾銀行首席人工智慧官(CAIO)楊強講授是機器學習領域內活動積極的學者,也是大家非常熟悉的機器學習研究人員之一。

楊強教授對於數據運用的問題有較多研究,比如他經常在公眾場合談及的「遷移學習」(Transfer Learning),其作用就是幫助只有小數據的任務運用來自其他相關任務的大數據,從而獲得更好的表現,應用例子比如貸款風控策略在不同用戶類別間的遷移、推薦系統的策略遷移、輿情分析中的遷移學習等。

從遷移學習到聯邦學習

近幾年,領域發現還存在另一種於遷移學習相似,但更有挑戰性、也更有應用價值的問題,但無法直接用遷移學習的方法解決:現代組織機構雖然數據多,但是互相之間數據不共享,比如不同的視頻網站都會收集各自用戶的數據,各自持有分別的資料庫,用於各自的推薦系統模型訓練。即便這些不同機構的數據全部加在一起形成一個大資料庫後訓練的模型有更好的表現,但受制於隱私、安全等問題,他們不可以這樣做;實際上 2018 年 5 月歐盟提出的 GDPR 也對用戶隱私保護作出了明確的要求。而且,由於不同機構的模型設計和針對的目標有所不同,他們也無法直接交換、共享模型。

楊強教授帶領微眾銀行 AI 團隊針對這類問題研究了「聯邦學習」(Federated Learning)的解決方案。在 2018 年 12 月的「新一代人工智慧院士高峰論壇」演講中,楊強教授也簡單介紹過聯邦學習的兩種模式:縱向聯邦學習,不同的資料庫中有部分數據特徵是相同的,A 方和 B 方都持有模型的一部分,通過同態加密技術傳遞重要的參數;第二種模式,橫向聯邦學習,在 A 方、B 方各自更新模型並上傳,雲端伺服器根據一定的策略統一更新他們的模型。

通過近期的三篇論文,微眾 AI 團隊介紹了聯邦學習思路下針對有安全需求的有監督學習、強化學習、決策樹的具體方法:安全的聯邦遷移學習、聯邦強化學習以及 SecureBoost 安全樹模型。

安全的聯邦遷移學習(Secure Federated Transfer Learning),arxiv.org/abs/1812.03337

聯邦遷移學習(FTL)針對的是有標籤學習(監督學習)任務,利用一整個數據聯邦內的數據資源,提高每個成員的模型的表現。通過聯邦遷移學習框架,聯邦內不同的成員之間可以在嚴守數據隱私的前提下共同挖掘數據的價值,而且可以在網路內轉移補充性的數據。這樣,通過利用整個數據聯邦的大量有標籤數據,聯邦內的每個成員都可以構建出更靈活、更強大的模型;只需要對模型做微小的調整就可以看到準確率的明顯提升,甚至可以比擬完全不考慮隱私、直接在全部數據上訓練的表現。

安全性是這篇論文所提方法的重要考慮因素,安全保護涵蓋了訓練、評估、交叉驗證的全過程。安全的遷移交叉驗證機制確保數據能為聯邦內的成員帶來性能提升(相比於傳統的考慮到安全因素的方法會帶來準確率損失)。作者們還提出的可拓展、靈活的方法,為神經網路模型提供額外的同態加密功能,只需要對模型做微小的調整。聯邦遷移學習框架非常靈活,可以高效地應用在許多現實世界的機器學習任務中,提供安全的多方性能提升。

聯邦強化學習(Federated Reinforcement Learning),arxiv.org/abs/1901.08755

破解數據孤島壁壘,三篇論文詳細解讀聯邦學習

聯邦強化學習框架示意圖

在強化學習領域中,當狀態的特徵空間很小、訓練數據有限時,構建高質量的策略是很有挑戰性的。由於數據和模型的隱私限制,直接從一個智能體遷移數據或者知識到另一個智能體是不行的。具體來說,作者們假設智能體不會分享它自己的部分觀察結果,而且也有一些智能體無法獲得反饋;這樣的設定就和多智能體強化學習、以及多智能體環境下的遷移學習都有明顯的區別。

在這篇論文中,作者們提出了一種新的強化學習方案,它考慮到了上述的隱私要求,然後在其它智能體的幫助下為每個智能體構建新的 Q 網路。這就是聯邦強化學習(FRL)。

聯邦強化學習以三個步驟運行。首先,每個智能體都有一個 Q 網路,而且這個 Q 網路的輸出是通過高斯差分方法加密保護的,每個智能體也都會收集其他智能體的 Q 網路輸出;然後,智能體會構建一個神經網路,比如多層感知機模型,根據收集的其它智能體的輸出和自己的 Q 網路輸出計算全局的 Q 網路輸出;最後,它會基於全局 Q 網路的輸出同時更新剛才的多層感知機模型和自己的 Q 網路。值得注意的是,多層感知機模型是在所有智能體之間共享的,而智能體自己的 Q 網路對其他智能體都是不可見的,而且也是無法通過訓練過程中共享的那個 Q 網路的加密輸出進行推斷的。

為了保護數據和模型的隱私,在不同的智能體之間共享信息、更新本地模型時都會對信息使用高斯差分保護。作者們在 Grid-world (多種不同尺寸)和 Text2Action 兩個截然不同的任務中評估了聯邦強化學習方法,不僅比所有同樣使用了部分觀察結果的方法表現更好,甚至和直接把所有信息作為輸入的方法取得了同等的表現。

SecureBoost 安全樹模型,arxiv.org/abs/1901.08755

破解數據孤島壁壘,三篇論文詳細解讀聯邦學習

SecureBoost 框架示意圖

這篇論文中作者們提出了一個基於聯邦學習的,新的無損、保護隱私的提升樹(tree-boosting)系統 SecureBoost 安全樹模型。它可以讓多個機構的學習過程共同進行,用戶樣本只需要有一部分相同,但可以使用完全不同的特徵集,相當於對應了不同的垂直分組的虛擬數據集。SecureBoost 安全樹模型的優點是,它在訓練數據保持多方相互保密的前提下,可以達到和不保護隱私的方法相同的性能;而且這個過程還不需要一個共同信任的第三方參與。

作者們從理論上證明了 SecureBoost 安全樹模型框架和其它的把數據合併成一整數據集的傳統(非聯邦)梯度提升樹方法有相同的準確率,是無損(lossless)的。由於 SecureBoost 安全樹模型框架由保護隱私的實體對齊以及安全的聯邦提升樹系統兩部分構成,作者們也分別研究了兩者的可拓展性。除此之外,作者們還證明了方法的安全性,並且討論了如何讓使用到的協議完全安全。

開源信息

目前 FTL 和 Secureboost 已經開源,開源項目屬於微眾銀行 AI 團隊的聯盟 AI 解決方案項目 FATE(Federated AI Technology Enabler)。這是一個為聯邦 AI 生態及應用提供支持的開源庫,可以部署在單機或者計算機集群上,提供了基於同態加密的安全計算協議、多種聯邦學習架構,以及支持包括邏輯回歸、樹演算法、深度學習、遷移學習等在內的多種機器學習演算法的安全計算。具體介紹以及解決方案示例可以參見 https://www.fedai.org/。

結語

面向實際問題的解決方案需要考慮加密和安全性、以及考慮只有部分信息時如何處理,這三篇帶著對安全和隱私的考慮進行研究的聯邦學習論文正展現了這一點。讓數據帶來更高效用、讓不同機構的數據不再是「數據孤島」,聯邦學習能帶來明顯的幫助,相關技術也值得繼續深入挖掘。

另外,在即將於今年 8 月舉行的人工智慧頂會 IJCAI 2019 上,楊強教授領銜的微眾銀行 AI 團隊將聯合 Google、IBM 等公司舉辦聯邦學習技術相關的國際研討會(FML 2019: The 1st International Workshop on Federated Machine Learning for User Privacy and Data Confidentiality)。屆時,在研討會上主辦方將會展示聯邦學習在隱私保護、安全機器學習以及人工智慧領域的原創性學術成果,如果對聯邦學習想要有進一步深入了解,可以關注 FML 2019 活動,並向會議主辦方投稿。更多細節參見活動頁面 http://fml2019.algorithmic-crowdsourcing.com。

詳細閱讀論文原文參見:

《Secure Federated Transfer Learning》

  • https://arxiv.org/abs/1812.03337

《Federated Reinforcement Learning》

  • https://arxiv.org/abs/1901.08277

《SecureBoost: A Lossless Federated Learning Framework》

  • https://arxiv.org/abs/1901.08755

雷鋒網 AI 科技評論報道。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

5G重新定義汽車工業:它是汽車智能化的關鍵技術嗎?
00 後的年輕人,站在了 QQ 的 C 位

TAG:雷鋒網 |