通過Crowd Layer，利用眾包標註數據集進行深度學習

最新 10-02

選自arXiv

機器之心編譯

參與：劉曉坤、路雪

本文通過在深度神經網路中引入一種新型眾包層（crowd layer），通過反向傳播方式，直接利用雜訊標籤實現端到端的訓練。該方法可獲取不同標註者的可信度和偏差，並在不同數據集上取得最優結果。

論文鏈接：https://arxiv.org/pdf/1709.01779.pdf

摘要：在過去幾年中，深度學習顯著提高了機器學習各個分支的先進技術水平，給機器學習領域帶來了變革。然而，隨著監督式人工神經網路的規模不斷增大，對大型標註數據集的需求量也越來越大。近期，眾包成為以可擴展的方式標註大型數據集的一種高效、廉價的解決方案。但這通常需要整合來自不同專業水平的多個雜訊標籤貢獻者的標籤。在這篇論文中，我們針對的就是深度神經網路的眾包訓練問題。首先，我們將介紹最大期望值演算法（EM），這種演算法同時學習網路中的參數和不同標註者進行分類設置的混淆矩陣。然後，我們提出了一種新型的通用眾包層（crowd layer），這個層可以使深度神經網路用反向傳播的方式，直接利用不同標註者的雜訊標籤進行端到端的訓練。我們的實驗結果表明使用這種方法可以內部獲取不同標註者的可信度和偏差，並在不同設置（如分類、回歸和序列標註）的各種眾包數據集上得到最優結果。