當前位置:
首頁 > 知識 > logistic回歸樣本量的估算,經驗之談

logistic回歸樣本量的估算,經驗之談

logistic回歸樣本量的估算,經驗之談



限時乾貨下載:

來源:百度文庫


作者:shiliupp


樣本量的估計可能是臨床最頭疼的一件事了,其實很多的臨床研究事前是從來不考慮樣本量的,至少我接觸的臨床研究大都如此。


他們大都是想到就開始做,但是事後他們會尋求研究中樣本量的依據,尤其是在投文章被審稿人提問之後。可能很少有人想到研究之前還要考慮一下樣本夠不夠的問題。其實這也難怪,臨床有臨床的特點,很多情況下是很難符合統計學要求的,尤其一些動物試驗,可能真的做不了很多。這種情況下確實是很為難的。

本篇文章僅是從統計學角度說明logistic回歸所需的樣本量的大致估計,不涉及臨床特殊問題。


其實不僅logistic回歸,所有的研究一般都需要對樣本量事前有一個估計,這樣做的目的是為了儘可能地得出陽性結果。


比如,你事前沒有估計,假設你做了20例,發現是陰性結果。如果事前估計的話,可能會提示你需要30例或25例可能會得出陽性結果,那這時候你會不會後悔沒有事前估計?


當然,你可以補實驗,但是不管從哪方面角度來講,補做的實驗跟一開始做得實驗可能各種條件已經變化,如果你在雜誌中說你的實驗是補做的,那估計發表的可能性就不大了。


一般來說,簡單的研究,比如組間比較,包括兩組和多組比較,都有比較成熟的公式計算一下你到底需要多少例數。這些在多數的統計學教材和流行病學教材中都有提及。

而對於較為複雜的研究,比如多重線性回歸、logistic回歸之類的,涉及多個因素。這種方法理論上也是有計算公式的,但是目前來講,似乎尚無大家公認有效的公式,而且這些公式大都計算繁瑣,因此,現實中很少有人對logistic回歸等這樣的分析方法採用計算的方法來估計樣本量。而更多地是採用經驗法。


其實關於logistic回歸的樣本量在部分著作中也有提及,一般來講,比較有把握的說法是:每個結局至少需要10例樣品。


這裡說得是每個結局。例如,觀察胃癌的危險因素,那就是說,胃癌是結局,不是你的總的例數,而是胃癌的例數就需要這麼多,那總的例數當然更多。比如我有7個研究因素,那我就至少需要70例,如果你是1:1的研究,那總共就需要140例。如果1:2甚至更高的,那就需要的更多了。


而且,樣本量的大小也不能光看這一個,如果你的研究因素中出現多重共線性等問題,那可能需要更多的樣本,如果你的因變數不是二分類,而是多分類,可能也需要更大的樣本來保證你的結果的可靠性。


理論上來講,logistic回歸採用的是最大似然估計,這種估計方法有很多優點,然而,一個主要的缺點就是,必須有足夠的樣本才能保證它的優點,或者說,它的優點都是建立在大樣本的基礎上的。一般來講,logistic回歸需要的樣本量要多於多重線性回歸。

最後仍然需要說一句,目前確實沒有很好的、很權威的關於logistic回歸樣本量的估計方法,更多的都是根據自己的經驗以及分析過程中的細節發現。


如果你沒有太大的把握,就去請教統計老師吧,至少他能給你提出一些建議。


請您繼續閱讀更多來自 金融大數據研究 的精彩文章:

解析Monte-Carlo演算法

TAG:金融大數據研究 |

您可能感興趣

臨床研究的福音:用Excel來計算樣本量!
百億特徵維度、近萬億樣本量,微博基於Spark的大規模機器學習應用