大數據時代的失業問題研究——基於數據驅動理論的視角

最新 03-21

失業

問題

菜譜No.24

數據分析方法的改進和資料庫的建立維護為數據驅動的研究提供了基礎，在失業率研究領域，大數據和計算機建模的引入和僱員-僱主資料庫的利用可以從微觀結構上研究失業問題，為政策制定提供更為有力的支持。本文利用這一資料庫結合網路理論建立了一個從微觀角度研究失業問題的模型，並用計算機模擬方法對模型進行驗證。

過去對於失業率研究通常集中於從宏觀上對總量進行研究，較為著名的理論方法有GSM（Global Search Model）。GSM是很多更為精確的模型的簡化版本，其本質是假設職工與公司之間的配對過程是隨機的。也就是說，找工作的人能夠在所有的企業中進行選擇，且選擇是隨機，而被選中的企業也是隨機地決定是否接受。因為每一個配對過程都是同質的，因而可以直接加總進行研究，GSM模型的結果與貝弗里奇曲線一致，其在總體上能夠準確地描述失業率，但是GSM缺乏對職工與公司之間配對這一微觀過程的研究。

對於政策制定而言，因為各項政策是最終作用於微觀個體和公司的，從微觀層面對失業率進行研究對於政策制定意義重大。隨著大數據時代的來臨，大數據方法開始被應用於勞動力市場研究，得益於僱主-僱員數據集的建立和維護以及計算機方法的成熟，可以從更微觀的層面研究失業現象以及失業率的構成。作者利用僱主-僱員資料庫，結合網路理論和計算機模擬的方法，建立了LFN（Labor Flow Network）模型，從公司層面的微觀角度對失業率進行研究。更清楚地展現了失業的微觀結構，為政策制定提供指引。

僱主-僱員資料庫

1886年，Rosen和Willis首次提出了對建立更高顆粒度的個人與企業間互動關係的資料庫的需求，1998年，僱主-僱員數據國際研討會召開，這一資料庫正式成立，奠定了大數據在勞動力和失業率研究領域應用的數據基礎。之後隨著數字化技術的發展和政府工作能力的進步，僱主-僱員資料庫得以快速發展並服務更多的研究機構。目前，這一資料庫從社會調查、人口普查和政府管理數據中收集相關數據，除了包括個人ID、個人工作的公司ID，在職時間、離職時間在內的僱傭數據之外，還包括許多其他維度的信息如稅收和社保方面的信息。這一數據集能夠幫助我們捕捉到精確到個人的職業軌跡，以及公司之間的職員流動情況，因而可以幫助我們從數據出發，從微觀的角度研究失業問題。

(上圖是資料庫中與個人及其就職情況相關數據的示例，WorkerID表示個人的ID，FirmID為其任職的公司，StartDate和EndDate準確記錄了任職的時間區間，NA代表未離職。)

LFN模型的假設和建立

作者從數據出發，利用上文所述的資料庫，首先建立了一個以公司為節點，以公司之間的人員流動為邊的網路，例如，A公司曾經有人跳槽去了B，就認為A與B存在聯繫。為了簡化模型，這是一個單項無權重網路。他們發現，個人在失業再就業過程中更傾向於去其之前就有相互間人員流動的歷史。因此，他們在LFN模型中假設，個人在尋找工作時只能從與其原來公司有聯繫的公司中尋找。進一步地他們發現公司的僱傭政策也不一定一致。這些假設推翻了GSM的假設，配對過程不是隨機的，而是服從一定的規則。

模型結果和意義（影響）

LFN能夠產生在總量上與GSM相似的結論，即符合貝弗里奇曲線的設定，不同之處在於LFN最終確定的失業率受到LFN網路結構以及各個公司的招聘政策的分布的影響。如果在LFN模型中，各個公司有著相同的招聘政策，那麼模型所計算出的總體失業率與GSM完全一致，這驗證了LFN模型在微觀和宏觀上的合理性。

最後，文章討論了一些可能會導致LFN模型產生偏誤甚至錯誤的問題，以及模型在不同情形下的應用，主要包括四個方面：

（1）公司僱傭政策的不同對失業率的影響；

（2）公司之間人員流動網路的拓撲結構對失業率的影響；

（3）外部衝擊發生時，模型的預測結果；

（4）結果顯示，用GSM和LFN測算的外部衝擊後的失業率調整情況在計量上和方向上都有所不同。

更詳細的研究方法請參見原文哦！

參考文獻：Guerrero, O. A. and Lopez, E., 2017. 「Understanding Unemployment in the Era of Big Data: Policy Informed by Data‐Driven Theory.」,Policy & Internet, Vol. 9(1), 28-54.

數據採集｜數據挖掘｜數據可視化

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 數據料理 的精彩文章:

TAG:數據料理 |