那些年你設計的RCT都踩過哪些坑？

最新 01-11

作者：麥子

轉載請註明：解螺旋·臨床醫生科研成長平台

RCT可說是醫生做科研做得最舒適的一項了，既接近自己的臨床工作，又有充足的患者資源；而且它也是醫學研究中要求最嚴格、套路最穩定的一種了，按照CONSORT聲明去做，就能避開很多自己考慮不周的地方。

但還是有些研究者會犯些不該犯的錯誤，或設計得不夠完善。這不僅科研新人會遇到，甚至一些高分雜誌也接到過不少有問題的稿件。光是PubMed中就能搜到好幾篇文章討論臨床試驗設計中常見的錯誤，看來這問題挺嚴重的。我權且一邊搬運一邊梳理。

沒有做充分的文獻回顧

這點最容易被忽略，看起來也不像是和設計有直接關係，實際上非常重要，會影響到研究者的總體方向以及各種策略，比如你想研究的問題是否已有人研究過，該問題目前都有哪些解決方法，自己的方法是否有把握更出色等等。

不敢說這是人們常犯的錯誤，但真的聽說過特別誇張的事。曾經有本09年的標書沒中，14年老闆積累了一些社會資源，基本沒什麼改動就報市級課題中標了。我滴媽，在醫學科研領域，五年可以說是「祖傳標書」了！

如果有好好檢索五年內的文獻，說不定能發現這個問題別人已經研究過了。就算實在想不出新的問題，至少換一下觀察的人群、檢測的指標、干預手段等等。忽悠小基金容易，但想發個好點的SCI就看命了。

讀同領域的文獻時要仔細看一看討論部分，那裡會指出該研究的局限性，以及未來的研究方向，這都是後來人的好參考。如果能再關注得寬泛一點，或許還可以借鑒其他領域的設計思路。

如果有較豐富的知識儲備、有批判性思維會更好，能看出哪些前人的研究是不合理的，便可提出新的方法去改進，也避免建立在錯誤的前人基礎之上去做新的錯誤研究。

對受試者沒有做好清晰的納入排除標準

也就是定義好你研究對象的邊界。我們知道無論選取多少樣本量，都沒法代表總體，而最後的結果只是這個樣本集合的結果。從樣本的情況去推測總體會出現偏差，而我們應該有足夠的信息來提示這種偏差，比如納入了不同種族的兩份相似研究的結果不一樣，我們就可以推斷該疾病或該干預方法可能具有種族差異。

另有種常見的困惑是納入和排除的關係。它們不應該是平行的，不是納入≥70歲、排除

排除應該是在納入的集合當中排除，比如納入阿爾茨海默病患者（同時給出診斷標準），排除伴有其他神經退行性病變如XXX、YYY、ZZZ等。

設置排除標準的原因，可能是為了控制干擾因素，也有可能是為了避開一些對實驗的干預方法有明確已知風險的人，或排除數據不完善的樣本，但更應該充分想清楚自己的研究是為了改善哪些人的醫療條件，避免過度排除而使得研究結果不具有普適性。

沒有足夠的樣本量和統計功效

很多研究都知道I型錯誤率要控制在0.05，但注意到II型錯誤率的不多。寬鬆的評審條件下倒也不算硬傷，只是在投稿時可能會遇到審稿人問，你這份研究的power是多少？越來越多的雜誌除了邀請相關醫學領域的審稿人外，還有一個「統計學審稿人」來把關。

此處power指的就是統計功效，就是1 – II型錯誤率（?），通常?選取0.2，於是power就是0.8。為了達到足夠的統計功效，就要納入足夠多的樣本，這是在設計時就要計算好的。

計算樣本量前要好好檢索文獻，或根據前期工作，評估觀察指標之間可能的效應量、變異（標準差）等等，有很多方便省心的工具，比如咱們以前推薦過的這個：

www.powerandsamplesize.com/Calculators/

相應的，不僅在設計之初要估算樣本量，到做完分析，也要再計算本研究的實際功效並報告。畢竟樣本量是估算的，可能跟最後做完的實際情況有出入，所以計算並報告統計功效是必要的。

沒有有效的偏倚控制方法

偏倚控制是臨床試驗中最重要的一項，我想大多數老師都強調過，區分一個研究的好壞、證據的強弱很大程度上依賴於此，也是出鏡率最高的問題。偏倚控制主要包括隨機化和盲法。

隨機化的技術有很多，從最原始的拋硬幣到比較現代的計算機生成隨機數等。但要小心一些看起來隨機其實並不恰當的方法，比如按住院號、門診號、入組日期或生日的奇偶等規則。

在策略上，有簡單隨機化、區組隨機化、分層隨機化、協變數適應隨機化等。越嚴格細緻的方法能越好地控制潛在的混雜因素，但也會有普適性受限的問題，研究者應根據需求選用。

做隨機化分組也有好用的工具，比如GraphPad的在線工具：

https://www.graphpad.com/quickcalcs/randMenu/

盲法最好是雙盲。如果要做得更好一些，還應該制定盲態確認方案，即在研究過程中階段性地確認受試者是否知曉自己的分組，如果盲底不小心曝露，這個病例是要剔除的。

沒有事先確定統計策略

統計確實不是臨床醫生都很擅長的事，但它在研究中又特別重要，所以最好能找個統計專業的人諮詢，為研究全程保駕護航。

在設計階段最容易犯的錯誤是未能準確地規劃該收集什麼樣的數據。比如高血壓資料，是要收集原始的血壓數據呢，還是僅根據某某診斷標準記錄1級2級3級呢？不同的數據類型應選用不同的統計方法，也會有不同的說服力，要是數據收集到一半才發現這些問題豈不是很慘。

另一個應該在設計時就明確的統計要點是假設檢驗的方向，是單側還是雙側？不僅由於在統計上它們拒絕原假設的標準不同，也是反映了你對自己所研究的問題的專業理解。如果有依據推斷干預組應該比對照組的效應大或小，就要選擇單側檢驗；如果大小不明確，或業內存在互相對立的學說，就選雙側。

參考資料：

1． Fifteen common mistakes encountered in clinical research

2． Cochrane collaboration – Tools for assessing risk of bias

3． An overview of randomization techniques: An unbiased assessment of outcome in clinical research

4． Common statistical and research design problems in manuscripts submitted to high-impact medical journals

5． Justification of exclusion criteria was underreported in a review of cardiovascular trials

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 解螺旋 的精彩文章: