當前位置:
首頁 > 最新 > 學科跨界的無限可能:從文本挖掘到公共管理知識發現

學科跨界的無限可能:從文本挖掘到公共管理知識發現

LDA(Latent Dirichlet Allocation)是一種非監督機器學習技術,可以用來識別大規模文檔集或語料庫中潛藏的主題信息。把基於LDA的文本挖掘方法應用到公共管學科研究中,跨學科的思維碰撞將產生哪些可能,又存在哪些困難?3月23日中午,清華大學國情研究院特邀清華大學公共管理學院副教授張楠就此問題進行探討。在當天的學術沙龍活動中,張楠副教授作了題為「從文本挖掘到公共管理知識發現:方法論思考與案例分析」的發言。清華大學國情研究院王亞華教授、周紹傑副教授、鄢一龍副教授、劉生龍副教授、唐嘯助理教授等出席活動並就主題展開交流。

清華大學公共管理學院副教授張楠作主題發言

「大數據的多樣性特徵」

大數據除了具有超規模、大容量的特徵外,還有多樣性特徵。張楠認為,在管理學科領域,恰恰最難處理的就是體量大的問題。比如存儲對我們來說都有可能成為一個問題,還有運算能力的限制。因而,在管理學領域,包括公共管理,研究者在做大數據研究時,著眼點或突破性更多地在於處理這種數據「多樣性」。即把一些我們原來不當數據或者說結構化數據以外的數據進行處理,涉及到文本、圖像、視頻等數據,特別是文本的處理。


「演算法與知識的中間層」

從數據挖掘的視角,或者說數據驅動研究的視角來看,主要展現某種方法可以帶給我們什麼,是方法可用性的展現。而從管理和決策的視角來看,光有可能性是不夠的,還在於是否能切中管理者的關注。張楠指出,這兩者之間是有差異的,其間存有一個龐大的真空地帶。基於文本挖掘演算法的結果與有價值的管理知識之間存在著「中間層」。

張楠進一步分析指出,我們用統計數據做回歸方法論文的時候已經有相應的套路,我們並不會去介紹回歸的原理。實際上,基於管理學的應用應該有一套比較完善的方法論,比如說是不是所有的文本集都適合用這樣的方法去分析?到底有沒有邊界?我們在做回歸時是有標準的,什麼樣的數據可以做的,什麼樣的數據不可以做,什麼樣數據用二項回歸,什麼樣的數據用對數回歸,有很多判別的標準,這是未來需要發展的所謂方法論的"中間層"。

「LDA文本挖掘的方法」

LDA文本挖掘從分類上來說是一種主題建模的方法,本質上是把一個看上去不可描述的,可能承載了很多情感和個人特徵的文本數學化。這個數字化過程可以理解為首先建立多個緯度的向量,再把它合理的範圍進行降維,變成一個相對來說可以理解的數學模型,再在豐富度和可理解性、可表示性中求得一個平衡。LDA文本挖掘是一種公認的比較好用的方法。


「文本挖掘能做什麼」

張楠指出,文本挖掘能做兩方面的事情,第一是描述現象,第二是刻畫規律。

第一,描述現象。通過語義判斷能夠看到一些主題相應的變化,而這個主題到底跟我們從公共管理定義的主題是否具有相關性,實際上大部分用LDA方法的人在這一點上比較依靠人為判斷。看似客觀數據分析的過程也存在主觀臆斷部分,這裡面有很多值得探索的地方。目前的解決辦法有:一種是基於Ontology的通用關係詞表——構建語義關係的通用性規則,可以理解為把所有的語義關係進行字典化的過程,建在相對複雜的整體關係的基礎上,類似於圖書館書目分類的標準;另外一種方法是把人為干涉的判斷機制加進來,將代表性的文章或話題進行標籤篩選。人工輔助機器學習幫其確定主題的機制,比靠研究者單獨判斷要準確。

第二,刻畫行為、尋找規律。以網路行為為例,一個人發表文章的頻率或內容實際上就是他的行為,通過種行為刻畫可以知道什麼樣的因素可能會影響他。比如,我們想知道一個人參與一個話題的廣泛程度,結合概率矩陣做一個相應的函數,在不同的概率里看他的標準差,標準差越小說明分布的越均勻,說明他是一個涉獵很廣泛的人,反之則說明他有一個相應突出的關注的領域。這種應用也面臨著挑戰,比如能否提煉行為建模的通識知識,以輔助建模過程。


「一個案例:政府網站大數據研究」

張楠隨後分享了一個基於LDA文本挖掘的應用案例。在全國幾十個節點部署近百台伺服器,每日監測採集分析3.5萬家政府網站,對數據做集約化的處理,這是相當大的資料庫,基於這個資料庫做一些相應的研究。比如,各地政府網站是不是只是簡單的轉載,會不會與地方特色的東西相融合?各地每周微信微博討論熱點和政府網站話題有什麼相關性?政府網站是否滯後,滯後到什麼樣的一個量級?到底政府網站是自說自話,還是跟公眾關切有回應關係的?我們根據之前一年的數據繪製了一個網站某一主題的「均值線」,以超越正常範圍波動的時間點計算擴散速度,從面積和密度的角度來觀察擴散的質量。以「精準扶貧」這一主題為例,我們發現,在國務院出台一個相應政策以後,地方相應的政府網站呈現不同的波動情況,有的有一次波峰,有的有兩次波峰。如果說這個主題分散在很多的點上我們認為其與地方政策融合得更好。

「對數據處理方法的探索」

LDA數據挖掘方法是無監督的,這裡面可能存在一些問題。張楠的處理思路是「半監督學習」。比如,考慮網站不同頁面之間的差異性問題,網站首頁的內容與第三級第四級頁面,公眾獲得的可能性是不同的,因而應當考慮不同頁面的權重問題,這有利於更準確的把握。還有所謂的有效擴散測量,如果我們認為簡單轉載是無效擴散的話,可能需要剔除這種高相似度文本的計算量問題。

張楠指出,在「中間層」做一些方法論的探索是很重要的。雖然說分析方法突破了原來的數據界限,但真正將其應用於管理科學還有很長的路要走。從事公共管理研究的同仁們其實可以發揮多種多樣的作用,也是值得我們去探索和實踐的。

現場討論

清華大學國情研究院部分師生參加了當天沙龍活動,並結合自身的研究實踐對主題進行深入探討。

周紹傑副教授從公共管理研究角度發表了一些看法。傳統以來,我們在做定量研究時,用經濟學的方法比較多,做公共分析時也更多的是以問題為導向,我們應該勇敢嘗試新的方法。文本挖掘方法一方面可以印證我們的一些判斷,另一方面可能挖掘展示出我們尚未注意到的深層次的邏輯,這個價值更大。此外,大數據應用應當與既有理論相結合,需要某一領域的專業知識做支撐,二者相結合才可能發揮更大的作用。

鄢一龍副教授主持沙龍活動指出,張楠老師在學術最新的前沿探索和實踐著,國情研究院一直以「用數據說話」為榮。在信息時代,把工具方法論與管理、思想方法論結合起來,是個很有意義的探索,這種跨界可以說拯救了我們的「雙重貧困」。

劉生龍副教授從文本挖掘的實際應用上提出了一些觀點。數據已經量化了,下一步怎麼辦?在數據的基礎上是否可以做一些經濟學方面的因果識別,或者政治上的因果識別?比如將個體的思維行為和勞動力表現與一些普查數據再結合,與公共政策再結合進行更深入的分析。

學術沙龍現場

文字|國情研究院 阮萍晶


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 清華大學國情研究院 的精彩文章:

TAG:清華大學國情研究院 |