優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

新聞 06-04

雷鋒網 AI 科技評論按：在大數據時代，標註足夠多的訓練樣本往往耗費巨大。弱監督學習方法往往能夠減輕對正確標籤的過度依賴，達到與監督學習相近的性能。然而，在設計弱監督學習方法時，我們需要理解無標籤樣本的分布情況（比如 semi-supervised learning），或者帶雜訊標籤樣本的雜訊大小（比如 learning with label noise），這些問題的本質就是混合比例估計。因此，混合比例估計在弱監督學習中佔有至關重要的作用。

在雷鋒網 (公眾號：雷鋒網) 旗下學術頻道 AI 科技評論的資料庫項目「AI 影響因子」中，優必選悉尼 AI 研究院憑藉4 篇 CVPR 錄用論文、8.2億美元的C輪融資，AI首席科學家陶大程當選澳大利亞科學院院士的不俗表現，排在「AI 影響因子」前列。

近期，在 GAIR 大講堂上，優必選悉尼 AI 研究院博士生余席宇分享了他在混合比例估計中新的研究成果，以及其在弱監督學習，遷移學習中的延伸應用。視頻回放地址：http://www.mooc.ai/open/course/493

余席宇，悉尼大學 FEIT 四年級博士生，優必選悉尼 AI 研究院學生。北京航空航天大學控制科學與工程學士，碩士。主要研究方向為矩陣分解，深度網路模型壓縮以及弱監督學習。

分享主題：混合比例估計（Mixture Proportion Estimation）及其應用

分享提綱

混合比例估計的背景，問題描述以及基本假設。

利用最大平均差異的方法快速求解混合比例估計問題，並提供理論保證。

混合比例估計應用：輔助領域（source domain）中的樣本含有標籤雜訊時的遷移學習。

以下為雷鋒網 AI 科技評論整理的分享內容：

優必選成立於 2012 年，是一家全球領先的人工智慧和人形機器人公司，目前已經推出了消費級人形機器人 Alpha 系列，STEM 教育智能編程機器人 Jimu，智能雲平台商用服務機器人 Cruzr 等多款產品，並成功入駐全球 Apple Store 零售店。

此外，優必選還與清華大學成立了智能服務機器人聯合實驗室，與悉尼大學成立了人工智慧研究院，與華中科技大學成立了機器人聯合實驗室，在人形機器人驅動伺服、步態運動控制演算法、機器視覺、語音/語義理解、情感識別、U-SLAM(即時定位與地圖構建) 等領域深度布局。2018 年，優必選完成了 C 輪融資，估值 50 億美元。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

今天的展示中，我想感謝對我的工作提供過很多幫助的合作者們。他們分別是劉同亮老師（悉尼大學助理教授），宮明明博士，張坤老師（悉尼大學助理教授），Kayhan Batmanghelich（悉尼大學助理教授）以及陶大程教授。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

今天的分享內容主要分為以下四個部分來講解：

第一部分為混合比例估計（MPE）的定義和此前的研究工作。
第二部分介紹我們 CVPR2018 年的工作。
第三部分講解混合比例估計在 Target Shift 這類問題中的延伸和應用。
最後一部分講解混合比例估計在一般的遷移學習中的延伸和應用。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

混合比例估計（MPE）的定義和此前研究

開始第一部分。假設我們有一系列用於檢測病人是否患有肺炎的 X 光片，在該系列 X 光片中，一部分病人患有肺炎，另一部分病人健康。我們通常對有多大比例的病人患有肺炎比較感興趣。為了估計該比例，我們需要什麼信息，又如何對這個問題建模呢？

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

一般地，可以假設這一系列的 X 光片從一個混合分布 P0 中採樣得出，而擁有肺炎病人的數據和沒有肺炎病人的數據分別從兩個組成分布 P1 和 P2 中採樣得到。此時，P0 就是這兩個組成分布的一個線性組合，同時要求這個線性組合的係數（也就是通常所說的混合分布的比例）要滿足非負且加和為 1 的條件。我們定於 Si 這個集合對應從分布 Pi 中採樣得到的訓練樣本集合。我們關心的是需要給定什麼樣的數據，有怎樣的假設，才能成功地求取這些比例λi？

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

以前的工作主要研究以下幾個 settings：

第一個 setting，是指假設只從混合分布 P0 中採樣了一部分數據 S0 時，如何估計λi。其實沒有任何組成分布的信息是無法完成這項工作的，所以往往要對這些分布加非常強的假設。在這種情況下，我們一般假設組成分布滿足高斯分布的假設（當然也可以是其他分布假設），這就得到了我們通常所說的混合高斯模型。高斯模型可以通過 EM 演算法來求解各個組成分布的均值和方差矩陣，同時也能求出λi。該模型的問題在於：利用 EM 求解混合高斯模型時，不能保證得到唯一解。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

另外一些傳統的混合比例估計的方法，通常研究下面問題：假設混合分布由 M 個組成分布線性組合而成。如果給定從 P0 這個混合分布中採樣得到的樣本，以及 M-1 個組成分布中採得的一部分樣本（第 M 個組成分布中，沒有任何樣本），如何來估計這個混合分布的比例？

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

首先假設對這些分布沒有任何假設的情況下，其實可以看出這個分布 P0，可以存在任意多的分解，比如把 P1 的一部分組合到 P2 之中，就可以得到一個新的分解。這樣，如果只知道 P0 和 P1 的信息，我們是無法求得 P1 和 P2 的比例，因為這個比例可以是任意多的。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

因此，需要對 P1 和 P2 這些組合分布進行假設，傳統的方法通常有兩類假設：

第一種假設稱之為不可約的假設，如果說一個分布 P2 對於 P1 這個分布是不可約的，那麼認為 P2 是無法表示成 P1 和另外任意一個分布的線性組合。在這種情況下，如果 P0 是由一個 P1，P2 混合而成，此時可以知道，P1 分布的比例就是 P1 在 P0 之中的最大的那個比例，因為 P2 中沒有任何 P1 的信息。這個比例一般可以通過接收者操作特徵曲線，也就是通常所說的 ROC 曲線來進行估計。這個方法一般要估計一個概率密度函數。而且通過 No Free Lunch 的方式證明，該方法雖然能夠保證收斂到最優比例，但這個收斂可以是任意慢的。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

既然不可約的假設不能保證收斂速率，後來的研究者又提出了一種新的假設：Anchor set condition。比如拿兩個分布來說，兩個分布中一個分布的密度函數不為 0，而另外一個分布的密度函數為 0 的自變數的集合，就叫 Anchor set。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

我們可以簡單通過上圖示例的右邊部分來了解，兩條黑線所標註的集合就是通常的 Anchor set，在這種情況下，如果擁有 Anchor set 的集合數據，比如有 P0 的數據和 P1 在 Anchor set 中的數據，其實就能通過 Anchor set 的數據來估計出 P1 的比例。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

在 Anchor set codition 的條件下，前面的方法已經證明了對比例的估計能夠以一定的速率，收斂到最優的那個比例，但是這些方法都具有一定的局限性。首先它們需要很強的對於組成分布的假設，而這些組成分布的假設往往可能被 challenge，後面將舉幾個簡單的例子來看這個問題。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

第二個，比如前面提到的基於 ROC 方法，它們往往要估計概率密度函數，而概率密度函數估計往往需要比較好的模型，而且對高維數據的概率密度的估計往往不是很可靠，而且這種估計也不是很高效。

第三個，前面那些方法大多都集中只有兩個組成分布的條件下，它對於如果組成分布是多個的情況下的延伸不是那麼直接，所以需要尋求另外一種新的方式。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

首先來介紹 CVPR 研究工作的 setting：假設從所有的分布（包括混合分布和各個組成分布）中都採集了一定的樣本的條件下，估計它們的比例。這個問題又被稱為 class proportion estimation（CPE），即類比例估計的問題。

研究這個問題的貢獻主要是以下幾點：

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

第一，尋求一種對於組成分布限制假設和需要標籤數據的一種 Trade-off。雖然我們的 setting 中多用了一個組成分布（第 M 個組成分布）的數據，但是用了更弱的假設來證明了很多有意義的結論。

第二，在一個比較弱的假設下，證明了這些比例分布的唯一性以及可識別性。

第三，我們設計了一個非常快速的演算法，也證明了該估計的一致收斂性。所謂一致收斂性就是指估計的收斂與採得的訓練數據是沒有關係的。

第四個，該方法能夠延伸到多類問題，有非常廣泛的應用，可以應用到具有雜訊標籤的學習以及弱監督學習之中。

CVPR 2018 工作

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

首先介紹對於混合比例估計問題的假設，也就是線性獨立假設。該線性獨立假設是延引線性代數里的線性獨立概念，如果 M 個組成分布是線性獨立的話，那麼不存在一組非 0 的係數使得這些組成分布的線性組合等於 0。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

通過這個定義可以得到一個很直接的推論：如果兩個分布線性獨立，當且僅當這兩個分布不等同。從這個推論可以看出，比如前面的 anchor set 需要有兩個不一樣的非 0 自定義域，但是對於線性獨立假設，僅僅要求兩個分布不一樣就可以了。

可以證明線性獨立的假設弱於不可約假設，它可以推導出不可約假設，但是不可約假設不可推導出線性獨立假設。這裡不進行詳細的證明，給一個例子：假設 P1 是正態分布，P2 也是另外一個正態分布，而 P2 是 P1 和 Q 的線性組合，可以看出假設 p1 和 P2 是不一樣的兩個分布，所以它們倆是線性獨立的（根據前面一頁的推論）。根據不可約的定律，可以知道 P1 和 P2 是可約的，因為 P2 表示成 P1 和另外一個分布 Q 的組合。這個例子中的兩個分布是線性獨立的，但是可約。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

同時也可以證明線性獨立假設弱於 anchor set condition 假設。同樣給一個例子來簡單說明，比如說右圖這兩個分布，我們可以看出這兩個分布的 suppose set 都是 0 到 10，但是這兩個分布顯然是不一樣的，所以它們倆不符合 anchor set 的假設，但它們倆線性獨立。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

在線性獨立的假設條件下，能夠證明出這個混合比例的唯一性，假設 P0 是由 P1 到 PM 的線性組合而成，而且組成分布滿足線性獨立假設。如果給定這個 P0 和所有組合分布的情況下，該比例是唯一的。證明非常簡單：利用反證法（和線性代數裡面證明的方法一致）證明。假設存在另外一組係數使得這個混合同樣成立，通過兩個不同組合的係數相減等於 0，藉此可以進行推導。具體推導講解，大家可以回放視頻至第 19 分鐘查看。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

註：核均值匹配中最核心的方法是核均值嵌入，關於核均值嵌入的具體講解大家可回放視頻至第 21 分鐘查看

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

mp（1）代表均值。如果該核均值嵌入是一個一對一的映射，通常稱該方程是特徵化的。在這種情況下，核均值嵌入就擁有了分布 P 所有的信息。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

註：在這種情況下，有一個非常重要的定理。假設這個核均值嵌入是個一對一的映射，且組成分布滿足線性獨立的假設。在這種情況下，可以推導出核均值嵌入同理也滿足線性獨立的假設，詳細的證明過程大家可以回放視頻至第 23 分鐘查看

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

同理，我們可以證明出λi 的唯一性，與之前證明一模一樣，此處不再詳述。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

我們可以利用最大平均差異的方法來求出λi 的解，利用的定理為：如果兩個分布它的最大平均差異是 0 的話，當且僅當這兩個分布是同一個分布。所以最小化平方後的最大平均差異的值，就可以求出λi。但問題是我們沒有 Pi 的表達式，不知道核均值嵌入到底是多少。

那麼我們通常是怎麼解決？

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

註：利用一個經驗的近似估計，利用所有數據對 feature map 的均值來近似核均值嵌入，當擁有這個近似的核均值嵌入以後，同樣可以代入這個最大均值差異的方程中，最後變成這樣一個問題：詳細講解可回放視頻至 27 分鐘查看

我們還關心另外一個問題，這樣估計出來的混合比例能不能收斂到最優的解，它以多快的速率收斂到最優的解？

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

註：此處詳細講解可將視頻回放至第 30 分鐘查看

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

可以看出，該收斂證明是一致性的，收斂沒有任何與訓練數據相關的項。這個結論是與之前證明 class proportion estimation（CPE）的收斂性的工作是不一樣的，它們往往都有訓練數據的項。這也是本文主要貢獻之一。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

註：此處詳細講解可將視頻回放至第 33 分鐘查看

混合比例估計的應用場景：第一個應用場景是在具有雜訊標籤的學習上，我們把橢圓內的所有樣本都標記成」汽車「，其實我們可以發現只有綠色的圖像才是」汽車「，其他的樣本都是從其他的類別中標記錯誤得來的，也就是帶有雜訊的標籤，通常可以假設帶有雜訊的每個類別的樣本是真實數據的每個類別的線性組合。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

我們基於 UCI 數據做了一系列的實驗，對比了 ROC 以前其他兩個估計雜訊率的方法，其中只有 ROC 的方法用了 M-1 個混合分布的數據，而其他兩個方法都用了所有組成分布中採樣的數據。可以看出，當雜訊越來越大的情況下，我們的方法通常有比較一致的表現，同時當樣本大小逐漸增加的時候，我們的方法也逐漸收斂。而且從這兩個圖像中也可以看出，我們的圖像往往能更好地估算出混合比例。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

第二個應用：半監督學習。所謂半監督學習是指，擁有少量的標記樣本，還有一大部分的樣本是沒有標籤的，希望從這些沒有標籤的樣本中也能學習到一定的信息。通常假設沒有標籤的樣本是所有類別樣本的一個組合。也就是數據 X 的分布是每一個類別中數據的分布一個組合，而混合比例也就是各類別的比例。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

註：一個對 UCI 數據的實驗，該方法也獲得了比較高的正確率。詳細講解大家可以回放視頻至第 36 分鐘查看混合比例估計在 Target Shift 這類問題中的延伸和應用

第三部分我們研究一種比較特殊的遷移學習，一般稱之為 Target Shift 或 Label Shift。我們看看 MPE 在該問題中是否有延伸應用。首先來看一下這個問題是什麼？

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

在傳統的數據訓練中，我們假設訓練數據和測試數據都采自同樣的分布，而在 Target Shift 這個問題中，我們假設各個類別的分布都一樣（如圖中圈內的紫色和黃色分布），但是每個類的比例發生了變化。Target Shift 就是來檢測 P(Y) 的變化。有一個更大的挑戰：我們研究在訓練數據中有一部分數據標記錯了，把第一類標記進了第二類，第二類標記進了第一類，在這種情況下，我們是否還能夠檢測出 P(Y) 的變化呢？

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

對此，可以考慮一個實際的問題，比如說我們有一系列 9 月份的胸腔 X 光片，在上面我們已經收集過了一部分 8 月份的 X 光片，而且這些 X 光片都已經標記了誰有肺炎，誰是沒有肺炎。但是由於這些數據被一些非專家標記，或者機器標記，甚至可能是有些醫學樣本就是很難分辨，所以很多標籤發生了錯誤。另外，由於某些原因 9 月份得肺炎的病人比例增加了。在這個問題中，我們有 8 月份各類別的雜訊樣本，然後又有 9 月份的混合數據，而且 9 月份和 8 月份的數據中，肺炎病人比例還變化，我們如何能檢測出 9 月份肺炎病人的比例？

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

註：詳細講解大家可以回放視頻至第 42 分鐘查看

我們首先來定義這個問題，假設我們有一些帶有雜訊標籤的訓練數據和一系列沒有標籤的測試數據，我們通常假設在每個類別的分布中都是相等的，在這種情況下，我們如何正確估計測試數據中的 P(Y)？

我們首先引入一個假設，也就是前面提到的帶有雜訊標籤的假設，我們假設這個雜訊數據是真實數據的混合，它們的分布也是滿足下圖中混合的假設。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

可以看出測試樣本的數據是由測試數據中每個類別的數據混合而成，之前，在半監督學習中就有這個混合形式出現，而測試數據中每個類別的分布又與訓練數據的每個類別的分布一樣，也就是說測試數據分布可以表示成訓練數據每個類別分布的混合。同時我們又假設帶雜訊數據是所有訓練數據每個類別分布的混合。那能不能把所有測試數據的混合數據的分布表示成訓練數據中帶雜訊雜訊的每個類別的分布的混合？

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

假設有這種混合形式，通過簡單的推導並得到結論。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

註：關於該混合形式，簡單推導以及 Estimate Q 等內容，余席宇做了十分詳細的講解，大家可回放視頻從第 44 分鐘到 55 分鐘進行查看

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

註：實驗內容的詳細講解，大家可查看回放視頻的第 55 分鐘到第 57 分鐘的內容

最後，我們通過一個實驗來驗證。訓練數據和測試數據的分布均由兩個高斯分布混合而成，但比例不一樣。這裡 beta 是測試數據 P^te(Y) 比上訓練數據 P^tr(Y) 的比例，可以看出在不同的 beta 時（圖中最左），我們的方法能夠得到比較一致的結果。在訓練數據中有不同的雜訊大小的時候，我們的方法表現也是比較一致的（圖中）。可以看出當訓練樣本逐漸增大，我們的演算法也逐漸收斂到最優的解。而對比的方法都出現了比較大的誤差，甚至有時候是錯誤的（圖中最左）。通過這個實驗可以驗證出在該問題中我們的方法的有效性，也可以看出 MPE 在這個問題中的延伸應用。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

註：詳細講解可回放視頻至第 57 分鐘查看混合比例估計在一般的遷移學習中的延伸和應用

最後，我們來介紹一般的遷移學習，我們首先來看一下遷移學習的定義，在前面提到的 Target Shift 中，我們假設每個類別的條件分布都是一樣的，但是 Y 的分布是在變化的，而在一般的遷移學習中，我們假設每個類別的分布和 Y 的分布都要發生變化，在圖中的下方的兩個示例中，我們假設有一部分數據標記錯誤，在這種情況下，我們通常定義這個訓練數據為輔助領域，從輔助領域中學習到比較有用的信息，來幫助這個目標領域中數據的學習到一個比較好的分類器。

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結

我們同樣來這個例子，假設 8 月份的數據（已經標記好），由於某些原因標記出現了錯誤，而在 9 月份，得到了一些核磁共振圖像，我們能不能在 8 月份的 X 光片成像中提取一些有用的信息來輔助核磁共振成像的最後分類？這個問題比較有意義，因為在現實醫學生活中我們往往有很多可以輔助你的醫學數據，這些數據往往很難標記，很多數據可能標記錯誤，我們希望用這些輔助數據來學習到一個新的病例中，幫助一個新的病例來提取一些不便的信息，幫助它們的學習，這個問題我們該如何來解決？

同樣首先來看一下該問題的定義：

優必選悉尼 AI 研究院博士生：混合比例估計在弱監督學習和遷移學習中的延伸與應用｜分享總結