怎麼樣的臨床試驗才能登頂 Lancet？

最新 07-20

近日瀏覽 Lancet 網頁，其主頁放了一篇關於兒童克羅恩病（Crohn s Disease，CD）的隊列研究，筆者並非消化內科相關，而是呼吸內科一年級研究生，抱著建模方式或許可以借鑒到老師的臨床研究項目中的心態入了坑。

圖一，3 月 15 日 Lancet 的主頁截圖

本文針對兒童克羅恩病併發症預測的多中心的隊列研究，來自於 RISK Study。現在大多數 SCI 雜誌對於臨床研究接稿都要求試驗開展前已進行臨床試驗註冊，收完病人再去補是無濟於事的。

克羅恩病併發症分型：

狹窄型（structuring，B2）和穿透型（penetrating，B3），細胞外基質（extracellular matrix proteins，ECM）形成和降解間的平衡與兩類併發症的聯繫。其異質性由宿主因素主導的，受環境和腸道微生物菌群的影響。

主要檢測了四個方面的特異性的指標：基因型、微生物血清學、迴腸基因表達、腸道微生物。

結果：建立了競爭風險模型預測併發症發生；有穿透型併發症風險的病人更應早期進行抗 TNFα 治療；腸道菌群方面，Ruminococcus 與狹窄型密切相關，而 Veillonella 與穿透型相關；在狹窄型病人中，迴腸 ECM 生成的基因表達上調，加入模型預測特異性大大增加。

接下來以 Result 解讀為線索，解讀大數據處理，分為 3 個部分。

第一部分解讀

疾病併發症競爭風險模型和早期抗 TNFα 治療的療效比較分析

圖三，隨訪時發展為狹窄或穿透併發症的生存曲線，圖（A）為整個隊列，圖（B）為傾向匹配隊列。

隨訪時間為 3 年，縱坐標為無併發症的百分比，橫坐標是隨訪天數。早期抗 TNFα 的治療減少發展為 B3 的 3 倍風險，而對發展為 B2 無明顯影響，B3 風險高的病人更應該進行早期抗 TNFα 治療。

納入早期抗 TNFα 的治療隊列選用符合方案集（Per-protocol，PP）規則，只分析實際完成整個治療的。配對運用傾向評分匹配法（propensity-matched analysis，PSM），依託傾向評分法（propensity score analysis，PSA），消除觀察性研究的混雜因素，最終得到 1 個綜合變數：傾向性得分。再使用貪心匹配演算法（greedy-matching algorithm），鉗值（caliper）為 0.1 SDs。

表 1，疾病併發症的競爭風險模型和早期抗 TNFα 治療的療效比較分析

作者意圖建立風險分層模型來預測併發症發生的風險，以及加入早期抗 TNFα 的治療變數後對模型的影響。主要以 P 值決定是否將變數納入模型。風險比（hazard ratio，HR）可從圖中讀出。

相比於標準 Cox 比例風險回歸模型（standard Cox proportional hazard regression）關注的是臨床的某一結局（單終點），競爭風險模型（competing-risk model）可分析多潛在結局的生存數據。評價早期抗 TNFα 的治療，使用療效比較研究（comparative effectiveness research，CER）。

第二部分解讀

基因表達與併發症及其預測

基因表達通過第二代測序 RNASeq，運用到基因本體（Gene Ontology，GO）資料庫，ToppFun 工具找到有表達差異的通路，DAVID 生物信息資料庫來做功能注釋富集分析（functional annotation enrichment analyses）。

圖四（A），展示的是進展為併發症的病人迴腸表達上調的基因的比例，橫坐標是 B2（藍條） -B3（紅條）；縱坐標為富集明顯的表達上調的 19 個基因本體通路，括弧里是每條通路包含的基因數。

圖四（B）是發展為併發症的病人的迴腸基因表達組合的散點密度圖，橫坐標是 B2 vs B1，縱坐標是 B2 vs B3。基因差異表達倍數值（fold changes，FC），取log2是要縮小兩者差距。可以看出 ECM 基因在 B2 中表達增高。

圖四（C）展示的是火山圖，X 軸代表基因差異表達倍數（FC，log2），Y 軸代表統計檢驗的顯著性（p 值，-log10）。比較 B2 low probability（併發症預測低風險，實際卻狹窄）和 B1 protected（併發症預測高風險，實際卻沒發展為併發症）。B1 protected 中，線粒體呼吸鏈（mitochondrial respiratory）基因（暗紅色點）幾乎全部表達上調；B2 low probability 中，ECM 重塑基因（亮藍色點）表達上調。

以上是迴腸基因表達的分析，那麼如何將這個變數加入到競爭風險模型呢？

表 2，包含 ECM 基因標誌的競爭風險模型

文章將圖四（A）中 B2 最低端的 ECM 結構成分（位於 pathway 富集分析的分子功能部分）的 70 個基因中的 PC1（first principal component）作為基因標誌，納入到模型中，運用了主成分分析（Principal component analysis，PCA）。用 AUROC、靈敏度、特異度、陽性預測值、陰性預測值評估 ECM 基因標誌納入對模型的判別能力的影響，發現其在預測 B2 時起到了關鍵的作用。

表 3，appendix 中的 Table S4 上調的迴腸基因的通路富集分析，B2（這張圖可以複習之前講過的很多知識點）

第三部分解讀

風險預測模型的有效性驗證（Risk Prediction Validation）

建模相當於發揮分類器的作用，交叉驗證（Cross Validation，CV）是常用的模型驗證方法，可以從有限的數據中獲得儘可能多的有效信息，流程：選取模型參數導入訓練數據（training set）建模用驗證數據（validation set）測試模型效果。估計隊列的樣本量時，使用了模擬數據做從而確定樣本量。當樣本量支持將數據分為兩份，用有效性驗證（split sample）；樣本量小，選用留一法（leave-one-out，LOOCV）驗證。

文章中使用的 STROBE（Strengthening the Reporting of Observational Studies in Epidemiology），是由國際醫學期刊編輯委員會 2004 年制定的寫作規範，投稿時應注意按規範書寫。

至此，通過三部分的解讀，探討怎麼樣的臨床試驗才能登頂 Lancet，如果這是一個作者寫的，我一定會說不會計算機的生物學家不是好醫生。

醫生作為主體參與臨床試驗是必不可少的，作者一欄中大多是多中心的 MD，所以筆者特意查了下裡面的 PhD，基本是生物信息、流病、基因組學分析的專業人士，可見一篇 Lancet 文章的發表是多學科的協作創新。

總之，走過基因組時代，我們又迫不及待地踏入了大數據時代，深度學習、神經網路、AI 這些原本活在計算機的語言同樣衝擊著生物醫學界，如何結合傳統生物學、基礎醫學對疾病機制進行深刻的認識，發掘診斷、治療的新靶點、新方法，生物信息學或許是新的路數。

本文接近於零基礎探討，希望給同樣的小白選手以思路，共同學習，純屬拋磚引玉，也望各路大神多多指點，分享經驗。鑒於公眾號閱讀的簡潔性，詳細版發在丁香園論壇上，歡迎有興趣的同道前來指導。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 生物學霸 的精彩文章:

※獻給初學者：如何從小白成為扎細胞小能手
※Nature：小視頻居然可以導入細菌 DNA
※老司機帶你一網打盡啟動子和轉錄因子結合位點
※如何書寫 SCI 論文的標題
※如何做出穩定可重複、背景乾淨的 western 條帶？掌握這些，屢試不爽

TAG:生物學霸 |

您可能感興趣

※Facebook小規模試驗評論頂踩功能
※Limbitless Solutions的兒童3D列印假肢進入臨床試驗階段
※又一肺癌新葯Poziotinib取得超預期臨床試驗結果！
※Ann Rheum Dis：硬皮病臨床試驗協會損傷指數的建立和驗證
※iPhoneX到底是開拓者還是試驗品？
※adidas Crazy BYW 系列試驗版本曝光，還有用 Boost 做鞋面的？
※喜訊！首個治療白血病的單克隆抗體Cirmtuzumab已通過I期臨床試驗
※NEJM：III期臨床試驗證實藥物rimegepant能有效治療急性偏頭痛
※CytoDyn將與FDA會面，最終確定旗艦藥物leronlimab的關鍵試驗方案
※EbioMedicine：突破！科學家在人類臨床試驗成功清除機體的衰老細胞！
※Jim Tucker的前世試驗
※Uber Elevate準備今夏開始試驗用無人機來送食物
※Leronlimab單葯治療HIV遞增試驗結果超預期！
※試驗發現Amazon Rekognition面部識別錯誤匹配率高還存在種族歧視
※Stratolaunch巨型雙機身飛機完成中速滑行試驗
※iPhone遇到氦氣真會黑屏死機？有人做了試驗
※Nature：這種腦刺激試驗有助消除抑鬱症
※被調侃「刨絲器」的Mac Pro真能刨絲？蛋疼老外做了個試驗
※Facebook和推特等社交媒體如何成為臨床試驗的下一股破壞力量？
※土豪試驗：一顆手槍子彈能射穿幾台iPhone X