當前位置:
首頁 > 知識 > 專訪清華社會學系教授羅家德

專訪清華社會學系教授羅家德

清華大學社會學系教授、數據科學研究院RONG教授羅家德

記者:能不能請您簡要介紹一下您所做的研究項目?

羅家德:分享一下有關於針對社會、商業、營銷大數據而有的社會計算(social computing)的三個階段,我簡稱其為大數據1.0 、2.0和 3.0的階段(更準確地說,這是社會計算區分出來的,可簡稱其為社會計算1.0 、2.0和 3.0的階段)。其他大數據應用,如健康、規劃、醫學等等是不是如此分,我非專業,不敢說,所以這隻對與社會科學及管理學理論有關的社會計算而言。

1.0階段是數據驅動(data driven)

2.0階段是理論驅動(theory driven)

3.0階段是data-driving-theory 數據驅動理論(的改變)。

我們核心要做的東西就是理論驅動型的,往往需要將大數據與結構化數據如既有資料庫和survey數據相結合,把定性研究融入大數據分析之中,這就需要企業的後台數據,而這個一般企業不太願意給你。第二個,這是純學術研究型項目,而現在一般企業要的是數據驅動的實際應用。所以我們這個研究項目,基本上就是不斷在跟某些對未來知識有一點點好奇的、有數據的公司合作。說句實在話,這個過程非常辛苦。比如我們跟某些公司合作,但雙方為了保護隱私,我們拿不到他們的大數據,他們也不能拿我們的survey數據,工作速度就會相對慢很多。因為我們要想盡辦法猜想數據挖掘的方法送給對方,對方運行後如果出來的結果不對,我們再重新設計模型,再送過去,兩個禮拜往返一次。我們稱這種是社會科學理論指導,有抽樣的,建構因果關聯,能作推論的,不再是簡單的數據驅動。

像《大數據時代》《刪除》這些維科多的書,它等於是建構了大數據1.0時代的思維,但它只能做數據挖掘、數據驅動和相關分析,它做出來的預測模型沒有理論基礎、沒有推論能力,預測邊界也是未知的狀態,是純粹實用導向的。比如,要在超市擺尿片的地方也擺上啤酒。隔了半個月之後,我再採集一次,數據還有效,那就繼續擺。而我們可能會馬上問:那除了擺啤酒之外,還可以再擺什麼?這就要推論。因為我們會發覺,理論上證明了買尿片的男性大概是處於35-45歲之間的中產階級。簡單來講,就是推論型統計和描述型統計是不一樣的。推論型統計一定是理論驅動,不會是數據驅動。就是怎麼用理論去整合數據,讓個人畫像越來越清楚。

大數據的未來是會改變社會科學研究典範的。未來的畫像,將不止是個人畫像,還有集體畫像,動態的畫像,沒有大數據這是很難畫出來的。這是現在的理論前沿,未來會因為大數據的發展而大幅推進,會改造整個學術界的理論發展。所以我稱它為3.0時代,因為大數據而改變了社會科學理論建構的方式,所以是數據驅動理論的改變。

記者:您覺得與1.0和2.0時代相比,未來的大數據3.0時代最大的特點是什麼?

羅家德:簡單說的話,1.0時代,就是數據挖掘加實務應用。2.0時代,就社會科學而言就是social computing(社會計算或computational social science計算社會科學),社科理論驅動,由社科理論找到紮根真相,在紮根真相的座標下作數據挖掘和理論驅動的預測模型。再到未來,一定是數據反過來又可以把理論前沿不斷往前推,我覺得這也是未來數據院努力的方向。

未來對很多東西的預測會發生重大變化。比如說股票什麼時候崩盤,世界什麼時候會爆發重大運動,經濟什麼時候會轉型,乃至於預測一個重大系統的制度變革能不能成功。那就是3.0時代。將來可以用大數據去做更多更精準的預測。當然有多精準,我們也不知道,它永遠是一個改良的過程。但是現在還遠遠沒有成熟,連理論都還比較粗糙。但是你已經可以看到一些文章在努力往這方面走。所以簡單來講,動態系統的圖像——不再是靜態系統和個人圖像,而是一個動態系統的圖像——將會在未來的3.0時代成為一個最重要的發展。

我們團隊出了一本書《Social Network Analysis—Interdisciplinary Approaches and Case Studies》,現在出的這本提出一些方法的想法,但多數文章遠遠不是2.0的,我們準備要出第二部,要做各式各樣的社會科學理論,如人脈、社經地位、社會資本等的大數據資料分析,會更加細緻地把我剛才所講的東西全部用案例來展現。這就是我們在努力的方向。我們說2.0時代已經開始了,因為已經有一個非常成功的案例:競選團隊利用大數據進行人格分析,推斷你對哪一個政治議題是什麼樣的興趣,從而進行精準的政治營銷。

你可以想像得到,隨著個人圖像越畫越全,包括生活風格、社會經濟背景、社會地位、人脈、社會資本、人格,等等,精準營銷也將越來越精準。當然,這一定要保護隱私,是在客戶自願接受精準營銷之下才能去作。

記者:咱們現在有一個中德大數據研究學生交換項目,能不能請您簡要地介紹一下?

羅家德:這個項目主要是提供給那些對大數據有興趣的優秀學生實際參與大數據研究的機會。我們一年會選派5名學生帶著我們這邊的研究議題去德國哥廷根大學計算機系進行半年到一年的交流。

基本上我們這邊的學生都是學社會科學出身,而到那邊是去計算機系。當然這些文科學生大都有些理科背景,或者具有很強的數理能力。我們想要建立一個文理兼備型的研究團隊,希望他們能在混合學科訓練的背景下,學習和提高大數據的分析技術與學術能力。

記者:您是我們數據學院的RONG教授,能不能請您聊聊教學中的一些感受?

羅家德:我幫數據科學院開過一門課,還不錯。我覺得清華的同學很聰明,而且來的同學非常認真,到課率幾乎百分之百,證明大家太想學了。而且退課率不高,退課的也多數是因為數學真的跟不上。還有些工科的同學,數學沒問題,但是因為我們都在講理論驅動的方法,可能聽不太懂。

選課的同學裡面,社科學院的最多,還有一些是其他學科的,比如學經管的,生物的。31名同學,最後有24個畢業,作業都作的很好,還是很不錯的。

記者:數據院成立四周年,您對我們有什麼期冀?或者對未來合作有什麼展望?

羅家德:首先要恭喜數據院四周年。能夠建成今天這個樣子,非常不容易。我覺得作為學者和業者之間的一個平台,作為很多方面的一個促成者,這是非常重要的功績。對未來,我認為大數據的日子才剛開始,如果大數據未來想要不斷推動社會理論和社會計算的前沿發展,還需要更多的學者來努力。同時,也希望能有更多的業者認識到支持純學術性的工作對他們的未來是有非常好的影響的。有了這兩方面的促進,我覺得我們的大數據不止是能夠照應到今天的需求,也能夠開闢對未來的展望。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 數據派THU 的精彩文章:

TAG:數據派THU |