logistic回歸樣本量的估算，經驗之談

知識 07-19

限時乾貨下載：

來源：百度文庫

作者：shiliupp

樣本量的估計可能是臨床最頭疼的一件事了，其實很多的臨床研究事前是從來不考慮樣本量的，至少我接觸的臨床研究大都如此。

他們大都是想到就開始做，但是事後他們會尋求研究中樣本量的依據，尤其是在投文章被審稿人提問之後。可能很少有人想到研究之前還要考慮一下樣本夠不夠的問題。其實這也難怪，臨床有臨床的特點，很多情況下是很難符合統計學要求的，尤其一些動物試驗，可能真的做不了很多。這種情況下確實是很為難的。

本篇文章僅是從統計學角度說明logistic回歸所需的樣本量的大致估計，不涉及臨床特殊問題。

其實不僅logistic回歸，所有的研究一般都需要對樣本量事前有一個估計，這樣做的目的是為了儘可能地得出陽性結果。

比如，你事前沒有估計，假設你做了20例，發現是陰性結果。如果事前估計的話，可能會提示你需要30例或25例可能會得出陽性結果，那這時候你會不會後悔沒有事前估計？

當然，你可以補實驗，但是不管從哪方面角度來講，補做的實驗跟一開始做得實驗可能各種條件已經變化，如果你在雜誌中說你的實驗是補做的，那估計發表的可能性就不大了。

一般來說，簡單的研究，比如組間比較，包括兩組和多組比較，都有比較成熟的公式計算一下你到底需要多少例數。這些在多數的統計學教材和流行病學教材中都有提及。

而對於較為複雜的研究，比如多重線性回歸、logistic回歸之類的，涉及多個因素。這種方法理論上也是有計算公式的，但是目前來講，似乎尚無大家公認有效的公式，而且這些公式大都計算繁瑣，因此，現實中很少有人對logistic回歸等這樣的分析方法採用計算的方法來估計樣本量。而更多地是採用經驗法。

其實關於logistic回歸的樣本量在部分著作中也有提及，一般來講，比較有把握的說法是：每個結局至少需要10例樣品。

這裡說得是每個結局。例如，觀察胃癌的危險因素，那就是說，胃癌是結局，不是你的總的例數，而是胃癌的例數就需要這麼多，那總的例數當然更多。比如我有7個研究因素，那我就至少需要70例，如果你是1：1的研究，那總共就需要140例。如果1：2甚至更高的，那就需要的更多了。

而且，樣本量的大小也不能光看這一個，如果你的研究因素中出現多重共線性等問題，那可能需要更多的樣本，如果你的因變數不是二分類，而是多分類，可能也需要更大的樣本來保證你的結果的可靠性。

理論上來講，logistic回歸採用的是最大似然估計，這種估計方法有很多優點，然而，一個主要的缺點就是，必須有足夠的樣本才能保證它的優點，或者說，它的優點都是建立在大樣本的基礎上的。一般來講，logistic回歸需要的樣本量要多於多重線性回歸。

最後仍然需要說一句，目前確實沒有很好的、很權威的關於logistic回歸樣本量的估計方法，更多的都是根據自己的經驗以及分析過程中的細節發現。

如果你沒有太大的把握，就去請教統計老師吧，至少他能給你提出一些建議。

請您繼續閱讀更多來自 金融大數據研究 的精彩文章:

您可能感興趣