NASC＠ICT團隊在第六屆全國社會媒體處理大會技術評測中勇奪桂冠

最新 09-22

在剛剛落幕的第六屆全國社會媒體處理大會（SMP 2017）中，由網路數據科學與技術重點實驗室的邢國亮、高浩、曹婍、岳新玉、徐冰冰、岑科廷組成的NASC@ICT團隊，在沈華偉指導老師的帶領下，同時斬獲了CSDN用戶畫像技術評測的團隊第一名以及單項任務第一名兩項榮譽。

此次用戶畫像技術評測隸屬於第六屆全國社會媒體處理大會，由中國中文信息學會社會媒體處理專委會主辦、CSDN協辦並贊助，吸引了來自全球200多家單位的757名選手報名參賽，共組建了329支參賽隊伍。截止比賽結束，一共有52支隊伍完成比賽並提交了完整有效的評測結果。評測聚焦於CSDN技術論壇的用戶畫像問題，共包含三個不同維度的子任務，分別為：用戶內容主題詞生成，用戶興趣標註以及用戶成長值預測。

用戶內容主題詞生成

給定若干用戶文檔（博客或帖子），參賽者需要為每一篇文檔生成3個最合適的主題詞。要求生成的主題詞必須出現在文檔中。該任務的難點在於內容主題詞是一個相對開放的空間域，候選詞集合的範圍非常大，與此同時主題詞的生成不同於常見的機器學習場景，無法直接應用傳統的分類/回歸模型。如何在這樣開放的候選詞中生成文章對應的主題詞並充分利用訓練數據的標註信息，是該任務的一大關鍵點。NASC@ICT團隊通過構建高覆蓋率、低存儲代價的特定候選詞集合，將傳統的無監督的主題詞生成模型轉換成一個在特定候選詞集合上的二分類問題。特定候選詞集合的構建過程如下圖所示，最終共構建了301,076個候選詞，覆蓋達到92%的標註主題詞。

圖1：候選詞構建流程

構建完候選詞集合後，文檔的主題詞生成問題轉換為了在該候選集上的二分類問題（是該文檔的主題詞或者不是）。NASC@ICT團隊構建了包括統計特徵、語義特徵、外部特徵、NLP特徵等多種維度的特徵共466維，利用XGBoost進行了分類模型的訓練。該主題詞生成模型在線上測試集達到了65.6%的準確率，以絕對性的優勢穩居第一（第二名成績為60.5%），獲得該單項任務冠軍。

用戶興趣標註

給定若干用戶的文檔信息（博客或帖子）和行為數據（瀏覽、評論、收藏、轉發、點贊/踩、關注、私信等），參賽者需要為每一個用戶標註3個最合適的興趣方向。標籤空間由CSDN給定，共42維。該任務的主要難點在於訓練樣本數量非常少，模型很容易過擬合。NASC@ICT團隊通過提出了一個兩階段的框架來解決上述挑戰（如下圖所示）。

圖2：用戶興趣標註兩階段模型

在第一階段，獨立的42個二分類模型並行訓練生成，然後將這42個二分類模型的結果作為第二階段的輸入，訓練softmax分類器。該兩階段模型在線上測試集達到了44.9%的準確率，有效地解決了訓練樣本過少，模型容易過擬合的問題。

用戶成長值預測

給定若干用戶在一段時間內（至少1年）的文檔信息（博客或帖子）和行為數據（瀏覽、評論、收藏、轉發、點贊/踩、關注、私信等），參賽者需要預測每一個用戶在未來一段時間內（半年至1年）的成長值。如何在CSDN這樣一個開放系統下，預測用戶未來的行為以及相應的成長值一個非常難的問題。加之帶標籤數據也較少，用戶行為本身就有一定的不可預測性，更使得該任務非常具有挑戰性。NASC@ICT團隊提出通過回歸的半監督模型+Stacking框架來增加帶標籤數據，解決標註數據過少的問題，增強模型的泛化能力。同時，提取了包括用戶行為、用戶發布的文檔、用戶表達等多種維度包含多種信息的特徵，來捕獲開放系統下的眾多影響因素。模型的整體框架如下圖所示。最終模型在線上驗證集的成績為0.76，在為期30天的比賽賽程中一直佔據排行榜首位。

圖3：成長值預測框架

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

TAG: |