當前位置:
首頁 > 新聞 > 南大周志華教授組:一個高效安全的深度半監督學習模型

南大周志華教授組:一個高效安全的深度半監督學習模型

新智元報道

來源:ICML

編輯:舒婷、白峰

【新智元導讀】最近,ICML 2020上周志華教授組發表的一篇有關深度半監督學習的論文引發熱議,文章介紹了一種叫做DS3L的半監督模型,在未知分類無標籤數據集中的表現搶眼,有些條件下甚至超過了監督學習的基線模型。

ICML 2020投稿中,周志華教授組發表的一篇有關深度半監督學習的論文引發熱議。

? ?

? ?

這篇論文主要介紹了一種叫做DS3L的深度半監督學習模型,以減輕無標籤數據集中模型性能下降的問題。

為什麼要研究這個新的方法?

在完全監督學習中,深度學習網路的表現是富有競爭力的,甚至有些場景比人類表現的好。這些場景,一般都是在有一個大量的有標籤的數據集的前提下。

但是,許多實際應用中,標記數據集是很困難的,因為要耗費很大的人力和財力,這限制了深度學習網路的更廣闊的發展。深度半監督學習就是為了解決這個問題。

深度半監督學習是面向的一系列的價格低廉的無標籤的數據,幫助深度神經網路減少對標記數據集的需求以改善表現。深度半監督學習在監督學習模型中的表現很好,通過探索無標籤數據集的結構(如熵最小化、一致性正規化、對抗訓練等)來減少數據集的費用。

但是,上述的所有結果都基於一個樂觀的假設:有標籤的數據和無標籤的數據來自相同的分布。這種假設在實際應用中很難實現,同時通常的應用中,無標籤數據集中會有一些有標籤數據集中不包含的類別。例如,根據關鍵詞從網路抓取的無標籤網頁,通常包含很多之前沒有涉及的類別。

這裡有一個關於圖形分類的例子,可以看到無標籤數據集包含的類別更多。

? ?

?

面對這種情況時,深度半監督模型的表現不再優異,甚至會出現性能大幅度下降的情況。甚至,深度半監督模型的表現甚至不如一個簡單監督學習模型。這種現象與深度半監督模型的初衷背道而馳。

? ?

?

DS3L:一個高效安全的深度半監督學習模型

這篇論文介紹了一個簡單有效安全的方法:DS3L(Deep Safe Semi-Supervised Learning)。不像其他深度半監督學習模型,DS3L並不是利用所有的無標籤數據集,而是有選擇的並且跟蹤監督學習模型的影響來避免「性能災難」。

具體有兩個方面:

1)弱化了在無標籤數據集中的未見類別,提高分布匹配,保持較強的泛化能力。

2)加強有標籤數據,避免性能減弱。

綜上所述,我們採用了高效演算法的雙層優化。在評估中,DS3L在理論和實踐中都表現出色。

DS3L的表現總是比有標籤數據集的表現好,泛化在的時候接近最優,甚至比帶有大量參數的監督學習的收斂速度還要快。

實踐方面,在基準測試數據實驗中,在40%的未見類無標籤數據中,現有的深度半監督方法不如監督學習。但是,新方法能在60%以上的未見類無標籤數據中實現性能提升。此外,該方法適用於許多深度SSL演算法,並且可以很容易地擴展以處理類分布不匹配的情況。

? ?

DS3L的框架結構

對於無標籤的數據,DS3L需要進行選擇。主要方法是設計一個加權函數w。DS3L試圖找到以下函數的最優,以最小化相應的加權風險:

? ?

?

另一方面,DS3L持續跟蹤監督的性能,以防性能衰退。具體而言,DS3L要求加權經驗風險過程返回的模型,能夠實現泛化性能最大化。

? ?

?

在實際情況下,分布是未知的,類似於經驗風險最小化。DS3L試圖找到最優參數α:

? ?

?

為了簡化符號,框架的目標可以表述為一下雙層優化問題:

? ?

? ?

性能測試:類分布不匹配時表現依舊亮眼

實驗中所有方法明顯優於具有相同類分布的基線監督學習方法。但是,隨著類分布不匹配的加劇,現有的深度SSL方法的性能迅速下降。

當40%的無標籤實例來自未知的類時,許多深度SSL技術甚至都不如基線監督學習方法,而我們的DS3L在存在超過60%的未知類無標籤實例的情況下仍可以保持明顯的性能改進,即無標籤實例甚至比相關實例更多。這些經驗結果與理論分析一致,並證明了DS3L的有效性。

? ?

?

從上圖我們可以看到CIFAR-10跟MNIST上的測試結果類似,即DS3L在不同的類分布不匹配率下都能獲得令人滿意的性能。與許多不具備基線監督學習方法的深度SSL技術相比,該方法具有40%未知類的無標籤數據。

DS3L可以通過簡單的無監督正則化獲得最佳性能,即使類不匹配率超過60%。所有這些結果表明,我們提出的DS3L非常有效地防止了類分布不匹配引起的性能下降。

? ?

? ?

? ?

?

上面兩個圖的結果進一步驗證了DS3L可以通過各種深度SSL方法達到很好的性能,也就是說,在所有情況下,其性能都優於基準監督學習方法,說明DS3L是非常靈活的。

為了進一步量化DS3L在無標籤未知分類數據中的識別能力,在MNIST和CIFAR-10數據集上將我們的方法與概率估計方法進行了比較,與偽標籤類似,概率估計方法(Hendrycks&Gimpel,2017)使用標記數據獲取每個無標籤數據的類分布,然後通過softmax計算屬於已知類的概率,具有低預測概率的示例可以視為未識別出。

通過將未知分類的無標籤數據視為否定類別,將其他未知分類的數據視為肯定類別,AUC值可用于衡量識別能力。表1顯示了不同類別不匹配率下的實驗結果。可以看出,與基於概率的方法相比,DS3L降低了未知分類無標籤數據的錯誤分類率。

參考鏈接:

https://cs.nju.edu.cn/liyf/paper/icml20-DS3L.pdf

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

全球超算TOP500最新排名:搭載ARM日本超算Fugaku首次奪冠!中國超算總數實力霸榜
蘋果變「芯」,英特爾回應:我的CPU才是最好的芯