風險因素的識別和結局的預測大不同（二）

最新 02-09

上次文章中提到風險因素識別和結局發生的預測最為常見的不同之處是，通常風險因素識別著重於發現「新」的風險因素，因此在研究設計階段，往往採用匹配與研究組相似的對照組來進行比較，從而發現別的研究者沒有發現的風險因素。而進行結局發生預測則主要是採用隊列研究設計，在一個同質性較好的人群中構建模型來探討結局發生的幾率。同時以logistic回歸的結果說明了如果要進行結局事件發生的預測除了關心各影響因素本身在模型中的權重外，模型中的常量也非常重要。今天讓我們繼續來聊聊風險因素識別和結局發生的預測的其它不同。

風險因素識別和結局發生的預測另一大類不同是下結論時主要考察的指標是不同的。

對於風險因素的識別，從統計的角度來說，判斷某個我們關心的因素是否風險因素通常會基於假設檢驗的結論。也就是，通過單因素或多因素分析中出現了結局的人和沒有出現結局的人這些因素分布差異有統計學意義來識別風險因素；或者通過比較暴露於這些因素的人和不暴露於這些因素的人結局事件發生頻率的差異是否有統計學意義來進行判斷。這時，統計學意義往往通過p值的大小來體現，一般會認為p≤0.05某個因素是結局發生的獨立影響因素。總結下來就是，在進行風險因素識別的時候，下結論主要基於該因素假設檢驗中p值的大小。但是細心的小夥伴一定會說了，我們學流行病的時候老師給我們講過病因推斷的方法，除了統計學上有差異以外，應該還有其它條件。說得沒錯，在探索風險因素的時候，我們目前更傾向利用假設檢驗的結果，但是在確認某些因素是否風險因素時，則需要考慮因果推斷中的其它條件了，比如去除或控制這個因素是否會影響事件的發生。顯然為了驗證這一點需要開展一個干預性研究。對因果推斷感興趣的小夥伴可以查找我們之前的文章，裡面有相關的內容介紹哦。

再來說說結局發生的預測，顯然在這個研究中我們更為關心的指標是預測準確性。也就是對一個結局未知的個體，如果我們收集到他/她的人口學、遺傳、臨床信息是否能對他/她的結局做出準確的判斷？我想不用我說大家也知道了，與風險因素識別不同，在結局預測的統計模型構建中，我們希望盡量全的把對結局發生有貢獻的因素都納入，盡量提高預測的準確率。何為「準確」？其實就是上面說的那樣，對於結局未知的個體，我們通過模型對其結局的判斷與其實際情況越相符則準確度越高。說到這兒大家是不是覺得和診斷試驗有莫名的相似呢？是的，對每個個體來說，我們既不希望誤判也不希望漏判，所以對於Logistic預測模型的好壞，我們常常會像做診斷試驗一樣繪製ROC曲線來判斷預測的準確性。不同的是，這時我們用於繪製ROC曲線所用的指標不再是臨床上的某個檢測結果了，而是用Logistic回歸模型的預測概率。根據預測概率的大小判斷事件是否發生，我們會得到一連串的靈敏度和特異度用於繪製ROC曲線，這樣幫助我們來了解構建的預測模型是不是能準確預測事件的發生。

說到這兒不得不補充一下，這個準確性不僅僅指的是在構建預測模型的數據中的準確性，更強調外部準確性。「窩裡橫」不是真英雄，是騾子是馬總要拉出來溜溜。如果構建這個模型數據以外的個體，通過模型的預測也能得到較一致的結果，那麼我們才能說預測模型的外部準確性好。也就是，模型的準確性需要進行外部驗證。大家肯定會說外部驗證的數據太難獲得了，如果能獲得更多的患者信息，我們肯定也會用於構建更穩定的預測模型啊，怎麼會浪費作為外部數據呢？說得很有道理，不過在數據量有限的情況下，我們也可以做所謂的「外部驗證」。請大家跟我一起默念：交叉驗證大法好！沒錯，就是交叉驗證，在我們獲得的數據中抽取一部分作為驗證樣本，其它作為訓練樣本，訓練樣本用於構建模型，驗證樣本用於驗證模型預測準確性。這個過程可以在我們的數據中反覆運行多次，從而尋找到準確性最高的預測模型。關於交叉驗證，我們公眾號里也有相關的介紹，感興趣的小夥伴可以通過檢索複習一下哦。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

TAG: |