通過Crowd Layer,利用眾包標註數據集進行深度學習
選自arXiv
機器之心編譯
參與:劉曉坤、路雪
本文通過在深度神經網路中引入一種新型眾包層(crowd layer),通過反向傳播方式,直接利用雜訊標籤實現端到端的訓練。該方法可獲取不同標註者的可信度和偏差,並在不同數據集上取得最優結果。
論文鏈接:https://arxiv.org/pdf/1709.01779.pdf
摘要:在過去幾年中,深度學習顯著提高了機器學習各個分支的先進技術水平,給機器學習領域帶來了變革。然而,隨著監督式人工神經網路的規模不斷增大,對大型標註數據集的需求量也越來越大。近期,眾包成為以可擴展的方式標註大型數據集的一種高效、廉價的解決方案。但這通常需要整合來自不同專業水平的多個雜訊標籤貢獻者的標籤。在這篇論文中,我們針對的就是深度神經網路的眾包訓練問題。首先,我們將介紹最大期望值演算法(EM),這種演算法同時學習網路中的參數和不同標註者進行分類設置的混淆矩陣。然後,我們提出了一種新型的通用眾包層(crowd layer),這個層可以使深度神經網路用反向傳播的方式,直接利用不同標註者的雜訊標籤進行端到端的訓練。我們的實驗結果表明使用這種方法可以內部獲取不同標註者的可信度和偏差,並在不同設置(如分類、回歸和序列標註)的各種眾包數據集上得到最優結果。
圖 1. 具備 4 個類別和 R 個標註者的分類 CNN 的瓶頸結構
表 1:不同分類數據集的準確率結果:狗 vs. 貓和 LabelMe
圖 2. 標註者的真實敏感度(true sensitivity)和真實特異度(true specificity)與狗 vs. 貓數據集中的權重矩陣 w^r 對角線元素的對比。
圖 3. 權重矩陣 w^r 和對應的混淆矩陣的對比。
表 2. MovieReviews(MTurk)數據集的訓練結果。
圖 4. 學得的 b^r 參數和標註者的真實偏差之間的關係。
表 3. CoNLL-2003 NER(MTurk)數據集的訓練結果。?
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。
?------------------------------------------------


※國慶快樂!中秋快樂!
※這些衣服便宜,同時時髦高級富有個性,真的
※買不買單?史上最貴SMWS協會酒即將發行
※就練 15 分鐘·起床後拿它抻一會,假期放心地吃香喝辣
※美妝界超級美的美妝品
TAG:輕芒 |