當前位置:
首頁 > 最新 > 唐世平:定量分析的一些基本原則

唐世平:定量分析的一些基本原則

節選自:《公共行政評論》2015年第4期

作者:唐世平復旦大學國際關係與公共事務學院教授

編輯:晞哲

唐教授近年部分學術著作

許多定量方法論的人士已經討論了一些基本的原則,告誡我們在從事定量研究時不要犯一些根本性的錯誤。以下的討論中,有引用的地方表明我發展了既有的一些討論,或者只是強調。而沒有引用的觀點則基本上是我認為目前的許多定量研究方法討論還沒有注意到或者強調不夠的地方。


(一)首先也是最重要的,無論使用何種方法,一個研究者都必須對他想研究的問題有確實的了解。

比如,對國內戰爭的延續,特別是族群政治的延續的許多研究都是那些對戰爭沒有一些基本的理解的所謂的「衝突專家」做的。而因為度量的便利,這些研究,通常只有「結構」因素,而沒有人的因素。這些人士恐怕基本不知道支撐一場戰爭有多難,也沒有幾個真正讀過克勞塞維茨、孫子兵法以及毛澤東的著作。又比如,最近很時髦(而且幾乎都發表在頂尖雜誌)的「基因社會科學」,其實都是一堆不懂得從基因到人的行為有多麼長的距離而完全「讓數據說話」造就的垃圾,最後都會成為學術界的笑話。


(二)基於對研究問題的深入了解以及對文獻的良好把握,發展出一個好的理論。這個問題我在其他地方已經詳細討論過,此處不再贅敘。

(三)千萬不要想用定量分析來解決一切研究問題。(這是我希望大家都多學一些不同類別的方法的核心原因。)事實上,如果你只想用定量分析來解決研究問題,你很容易犯以下錯誤:

你會忘記,某些問題幾乎不可能用統計技巧解決。

成為數據(集)的囚徒:沒有數據(集)就沒有研究了。有些問題可能沒有現成的數據,也有可能是不會有可靠的數據,或者是至少不會有特別好的能用於回歸的數據。

對文獻過於挑剔。比如,可能對一部分文獻很熟悉(特別是定量的),但是對其他的研究,或者不依賴定量技術的研究不夠熟悉。

太想快速發文章,而對理論化以及數據質量等問題重視不夠,最後欲速而不達。


(四)忠於你的理論以及從理論推導出來的實證假說

(五)千萬不要想用定量分析來解決一切研究問題。(這是我希望大家都多學一些不同類別的方法的核心原因。)事實上,如果你只想用定量分析來解決研究問題,你很容易犯以下錯誤:

(六)弄懂定量方法背後的基本邏輯。

定量方法的最核心的問題可能並不是具體的操作技巧,而是理解一類方法的基本核心邏輯(儘管不是我們每一個人都能完全弄懂背後的數學推導)。

比如,不能用兩個類別變數或者級別變數,或者一個類別與一個級別變數做交互項(Interactive)。這背後的邏輯很簡單:這樣做出來的交互項很多時候都是「混淆不同類別(Categorical Conflation)」。

許多人士認為,穩健性檢驗主要是通過加入更多的控制變數,因為怕遺漏了許多應該控制的變數。但是,這種不假思索的對遺漏變數的恐懼事實上是一個「Phantom Threat」。只有當遺漏變數有可能影響因變數時,才是必須控制的,特別是這些變數是可能的競爭性理論的核心自變數時。如果遺漏變數影響自變數,這個變數可能是一個更深層的變數,它就不能被當成普通的控制變數使用;如果一個變數是「傳導(Mediating)變數」或者是「調節(Moderating)變數」,這也不能被當成普通的控制變數使用。

(七)弄懂特定定量技巧背後的邏輯和特殊要求。

一些特定的技巧有特定的假設,而這些假設是否成立需要驗證。比如生存分析的模型就有許多需要檢驗的假設。因此,不能拿到數據後不假思索地做回歸。


(八)最後才是具體的操作。

我推薦以下幾個基本的步驟:這些步驟讓你自己和讀者都能更加直觀地理解你的回歸結果。

先來一個最簡潔的模型:核心自變數,最好單獨做一個回歸,除非一些控制變數是理論上必須控制的。比如,以人均GDP增長率(無論是PPP,Constant還是Current Price)為應變數的經濟增長回歸模型,必須控制人口增長率、起始GDPpc、資本投資率。

考慮到數據背後的時空問題。沒有時空,就沒有社會事實和自然事實。但是,對於時空這兩個極其重要的變數,目前絕大部分的定量和定性研究都沒有特別好的把握,甚至都沒有意識到這個問題。麥克唐納對「民主和平論」的挑戰是最近少數的例外:他的這項工作不僅充分考慮到了時空的作用,而且有非常好的理論化。

充分考慮到不同自變數之間的相互作用。只是一個自變數獨立的回歸模型越來越受到質疑:因為絕大部分社會結果都是多個因素相互作用的結果。因此,交互項變得越來越流行起來。做交互項時最好這麼做:假定有兩個自變數A和B,它們可能相互作用而導致結果。那麼,你應該給出以下的回歸模型和結果:A;B;A+B;A,B,AB (最後這個才是標準的交互項模型)。這樣的結果將會是非常清晰的:即便你在最終的論文或者書稿中不報告前面的三個模型結果,你也應該這麼做。不過,如果你的理論強調三個以上的變數的相互作用,那麼交互項的技術恐怕也不適合:三個以上的變數的相互作用的回歸結果非常難解。

充分考慮到不同自變數之間的不同的「因果路徑」,並且測試這些不同的「因果路徑」。這方面的具體工具非常多,不再贅敘。

最好甚至必須有Horse-race Model (賽馬模型)。即,把你的解釋變數和其他競爭性解釋理論的核心解釋變數放在一起相互競爭(這裡要特彆強調,基於其他競爭性解釋理論的核心解釋變數不是常規意義上的控制變數)。如果你的變數依舊顯著,而其他競爭性解釋理論的核心解釋變數,那麼你的結果會更加可靠一些。沒有控制競爭性理論的核心變數的回歸結果,至少是差強人意的。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 國政學人 的精彩文章:

TAG:國政學人 |