當前位置:
首頁 > 最新 > 樣本量!——我明明公式用對了,為什麼結果卻錯了!

樣本量!——我明明公式用對了,為什麼結果卻錯了!

無論是做什麼樣的臨床研究,在設計階段的樣本量估算都是必不可少的過程。對於前瞻性研究,樣本量估算的結果直接決定了研究的可行性,是幫助我們探討「這個研究能不能做完」、「我們用這個指標評價結局合不合適」的關鍵手段。當然合理的樣本量估算也是倫理的重要要求之一。對於回顧性研究,雖然資料都有了但是有時重新整理資料也需要耗費不少精力,合理的樣本量估算結果能夠幫我們優化工作量,用盡量少的精力得到想要的研究結果。

但問題來了,在我們寫標書、寫文章的時候,我們的樣本量卻經常不被專家們認可。此時您的內心也許是這樣的「不懂統計真要命」

統計學專家一定在莫名其妙的打著噴嚏,因為他們真的是躺槍啊。在各種標書評審和審稿中,小編看到的樣本量計算錯誤,還真不是單純的統計學問題。

換句話說,樣本量估算方法選對了,公式選對了,但是結果真不一定對。

讓我們再來看看樣本量估算所需知道的關鍵信息有哪些類別:

1、研究核心結論分析時所用的統計方法;

2、參與核心結論分析的具體指標(變數)有哪些;

3、對將會收集到的核心指標分布特徵的預期。

不難看出來,所謂的「公式沒問題」其實確保的只是第1個信息的準確性。然而殘酷的現實是,如果三個信息沒有同時搞對,那樣本量估算的合理性也就無從談起了。

如果您還是一頭霧水,可以繼續看看下面的解釋。

1)選擇正確的指標(對應上面信息2)

①所選指標應該是研究的核心指標,與首要研究假說相對性。

舉個例子,醫生小A提出了一個改進術式,認為術式改進後能夠改善患者的1年複發率。因此小A設計了一個RCT,把主要療效評價指標定為「術後1年內累計複發率」。

問題來了:小A既不知道新術式1年內的累計複發率到底能降到多少,也沒有相關的文獻。

聰明的小A想到了解決辦法:雖然我沒看過累計複發率,但是這些患者術後1個月隨訪資料都有啊,也有術後1個月的功能評分。我簡單看看兩組患者術後1個月功能評分是多少,以評分作為指標估算一下樣本量不就行了么?而且也是我們自己的病人,人群代表性也好。

解析:這是在各種標書中經常看到的,主要研究假說的參數找不到,換個次要指標的預計結果(可能來自預實驗,也可能來自文獻)估算樣本量。更有甚者用於估算樣本量的指標都沒納入結局評價指標中。這麼做最大的問題是,我們湊出來的樣本量能夠滿足驗證首要研究假說的需求么?顯然是不行的。畢竟估算樣本量的時候我們都沒有納入首要假說所需的指標。

解決辦法:

a.沒有數據湊數據。用上面的例子來說,還有幾個不同的可選策略。

比較簡單的辦法是,找找過去對同一疾病術式的改進,看看大概能在原來的基礎上提升多少。比如一次改進能降低到原來複發率的60%,我們認為我們的改進也能降低80%。如果改進前複發率30%,那麼改進後可能為30%×60%=18%。

如果沒有針對同一疾病相關的術式研究,可以以找相似疾病(同器官、同系統、同機制)的數據。

也可以通過專家諮詢,對採用過這一新術式的專家進行訪談,定性的提出該方法可能的複發率是多少。

b.選擇臨床意義相近的其他指標結果。就是乾脆吧核心指標換掉,對應的也改變首要研究假說。前提是所選的新指標,其臨床意義也是可接受的。

無法得到1年複發率的參數,但是相同疾病不同術式間1年功能得分比較是有的。臨床上,功能與複發與否是同等重要的指標,且新術式在功能上的收益理論上也和上述文獻相似。這時候,如果功能有提升,當然能證明新方法臨床可用,因此改掉原始假說似乎也是合理的。

②注意區分不同指標間的細微差別,避免不同指標的混淆。

當我們從文獻中找數據的時候,經常會忽略指標的細節,這很可能會導致我們代入公式的參數是來自「神似但不同」的其他指標。

問題來了:還拿小A的例子說吧,他關注的是患者術後的複發率,所以檢索文獻的時候就把疾病、手術和複發率作為了關鍵詞。

聰明的小A找到一篇文獻:「針對某改進術式應用後患者的隨訪,發現該術式患者遠期複發率介於25%-30%之間」,然後華麗的計算出了樣本量。

解析:小A在關注疾病、手術和複發率的時候,潛意識認為只要是「複發率」就跟他是相同的指標。但真的是這樣么?其實不然,在不同的研究中,根據研究者的隨訪能力和人力物力,選擇終點指標時觀察時間並不相同。然而任何事件的累計發生風險都隨著時間的延長而增高,比如術後1年的累計複發率,通常會高於術後3個月。而如果小A找到的指標是術後3年的遠期複發率,並以此估算樣本量。顯然他就會高估新術式的複發水平,而導致樣本量的高估(如果用1年來當成3年複發率用,當然就會低估)。

解決辦法:

a.老老實實找個1年複發率的數據。

b.基於傳統術式1年複發率和3年複發率之間的差異,用已知的新術式3年複發率粗略的倒推出1年複發率可能是多少。

比如,傳統術式1年複發率為40%,3年複發率為60%。也就是1年沒複發的人,繼續隨訪2年仍有20%複發。如果新術式3年複發率為40%,1年複發率不知道,我們其實可以假設1年複發率為X,X+X×20%=40%,從而推斷出1年複發率為33.3%。當然我們如果直接用率差倒推也是可以的(40%-20%=20%)。到底用哪個結果,就要看理論上的合理性,以及研究對把握度的需求了。

2)合理估計指標的預期大小和變異(對應上面信息3)

指標找准了,剩下的就是給出預期的指標大小和變異了。不過最讓大家困惑的肯定是:「老子研究還沒做呢,鬼知道最後會是多大啊!」別急,有這種焦慮可以理解,畢竟研究結果有很大的不確定性,更何況很多探索性研究本身結果就有不確定性。但是,既然研究有不確定性,我們總不能蒙著頭胡做一氣吧。畢竟很可能上來就開干,結果收集了大幾百個病人再一看,發現就算做到1萬人也得不到預想的結果,這時候才發現根本就不應該開始就太遲了。所以樣本量估算的一大作用還在於,幫助我們評估一下,我們到底有沒有實力回答自己提出來的研究假說。因此,絞盡腦汁算個樣本量還是很重要的。根據優先程度,我們覺得可以分成下面幾個數據來源:文獻數據>沒數湊數>拍腦袋。讓我們逐一看一看。

①來自可靠文獻的數據

如我們上面說的,盡量找到相似的文獻,如果參數剛好對應的上,那麼我們只需要把文獻報道的結果引用過來就好了。不過引用數據的時候,也會遇到問題。

問題:如果有多個文獻都有數據,但結果又不盡相同怎麼辦。

機智的小A提出了「可靠」的策略:先用meta啊,要不就用RCT的結果,總之先看證據等級高的唄。

解析:如果一個美國開展的RCT,和中國開展的隊列研究,我們採信誰的結果?如果是一個1995年完成的RCT,和2010年的隊列,我們採信誰的結果?如果是一個針對高危患者的RCT,和一個針對與小A一樣的一般人群的隊列,我們採信誰的結果?相信您自己心理已經明白了,證據等級並不是最優先考慮特徵。

解決辦法:

a.盡量選擇設計要素相近的結果。

首先考察文獻的PICO,也就是對象、干預/暴露因素、對照、結局評價指標(包含時點),優先選擇和我們相似研究的結果。尤其是P、I和O的相似度至關重要。

b.優先使用以國內患者為對象的研究結果。

畢竟國內外在疾病診斷、干預方法和技術水平、患者隨訪、遺傳特徵上都存在較大差異。因此同樣是SCI文章,來自國內的數據即便證據等級較弱時,可能效應也更接近我們將來的實際情況。

c.優先使用近年發表的研究結果。

畢竟無論是診斷還是疾病治療的常規,都隨著年份在不斷變化。尤其是隨著各種新技術、其他相關疾病治療措施的改善,患者在對我們關注的治療措施的反應以及預後上都可能與過去存在較大差異。因此越接近當下的文獻結果,自然效應也會和我們更相似。

②沒數湊數——通過文獻間接推測參數範圍

在無法獲得直接數據的時候,通過多篇文獻包含的信息,綜合推斷我們研究中指標可能出現的結果。上面我們已經舉過例子了( 1)-①-a)。

就拿上面( 1)-①-a)的例子來說,我們想知道新術式、傳統術式術後1年複發率:

文獻1、傳統術式研究很多,可以直接得到1年複發率;

文獻2、但新術式只有1篇不設對照的研究,報告了3年複發率;

文獻3、此時我們通過另1片研究,知道傳統術式1年複發率和3年複發率之間的差異。

此時估計樣本量時,我們對照組(傳統術式)來自一篇文獻,干預組(新術式組)的數據通過2篇文獻間接推斷出來。總共樣本量的估算可能會用到3篇文獻,才能把數據湊出來。

③湊不出來拍腦袋

有的時候,如果創新性太強,我們湊也湊不出來怎麼辦?此時,為了盡量降低研究的風險,在什麼信息都沒有的時候,我們也不得不儘力去做樣本量估算。

a.理(拍)論(腦)推斷(袋)

根據現有的信息,或是理論上的可能性,通過理論推斷得出邏輯上合理的估計值。

b.定性研究

如果覺得自己拍腦袋風(責)險(任)太大。我們也可以通過廣泛諮詢專家、開展設計討論會等形式,通過引入更多的決策者來提高拍腦袋定參數的可靠程度。當然,如果精力允許,或是課題很重要,我們值得為此開展一個規範的定性研究,甚至使用Delphi法來推測可能的效應大小。

c.開展預實驗或採用更為靈活的設計類型

如果拍也拍不出來,那還有幾個備選方案,留在這裡供大家自己百度吧:

老老實實開展預實驗;

進行序貫設計、成組序貫設計,也就是多設計幾個期中分析,根據期中分析的結果明確後續是否繼續進行以及進展到什麼時候停止;

採用適應性設計的方案。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |