人類癌症中關於突變正負選擇的貝葉斯推導
通過癌症基因組學可以識別驅動癌症發生髮展相關的基因和調控元素,從微觀角度來講,這些都是正選擇。腫瘤生長需要的具有野生型編碼的基因是研究的關鍵,這些基因經過負選擇並通過不斷突變以適應壓力並保持完好。以往的研究將顯著突變基因的檢測和基因組異質性癌症突變混為一談,在此研究者提出一個分層框架可以針對編碼區點突變進行模型構建。將該模型應用到17種癌症的測序數據,可以識別出已知的癌症驅動基因並且可以識別出新的具有高度可信的生物學功能的突變基因。負選擇的信號非常微弱,但是在某幾種癌症以及pan-cancer數據集中可以檢測到,檢測到的基因在CRISPR篩選出的細胞必需基因以及相關報道的癌症基因中具有富集性。
文章題目:Bayesian inference of negative and positive selection inhuman cancers
研究人員:Donate Weghorn & ShamilSunyaev
發表時間:2017.11.06
期刊名稱:NatureGenetics
影響因子:27.959
研究背景
從進化角度來講,癌症是一個在選擇壓力下進行演變的複雜系統。致癌基因和腫瘤抑制因子在強烈的正選擇下進行突變進化,並成為癌症研究的主要目標。相反,儘管充分的認識癌症的脆弱性非常重要,但是負選擇是一個難以捉摸的現象。通過比較給定位點在單一作用下突變對預期結果的影響,可以推導正負選擇,然而這種推導受到了癌症基因組突變率變化的困擾並且忽略了恆定背景下突變率的概念。不均衡的測序深度和比對率以及樣本的純度等技術因素更加劇了這種問題的出現。解決這種問題的初步方法是依據突變密度的局部變數運用中性突變的觀測數據估算局部突變率。在估算局部突變率的新方法中考慮了生物學協變數比如複製時間、表達水平、染色體狀態或者序列的環境,推動了該領域的發展,然而估算所得的局部突變率是無法進行驗證的。即使從平均水平來說局部突變率的錯誤估算是有限的,但是在極端情況下可以將基因錯誤識別為癌症驅動基因。與點估算相比,突變密度整體分布的統計特性可以運用數據進行全面的驗證。
研究方法
1. 數據集
2. 同義突變數的分布期望
假定同義突變是中性突變,研究者將觀察到的每個基因s同義突變的個數運用泊松隨機變數的期望值λs進行建模,λs依賴於該基因位點的突變率、基因長度和腫瘤細胞分化中的壽命。根據λs推導概率分布P(λsθ),也就是λs在整個基因集合中的分布,P(λsθ)捕獲的是基因組水平上突變率的異質性,並不依賴於先驗知識。在給定癌症類型中的每個基因位點的同義突變進行匯總後可以用方程(1)求解基因s的分布期望,然後根據P(λsθ)估算參數θ。
3.參數形式的P(λsθ)
函數形式的P(λsθ)是未知的,本研究中測試了六種γ和逆γ分布的線性組合,根據17中癌症類型選定了其中一種。
4. 中性進化中非同義突變個數的分布期望
表示在中性進化中非同義突變的分布,可根據同義突變的泊松參數λs運用非同義突變和同義突變的比率導錯義突變(m)和無義突變(k)突變數的分布;
5. 單基因選擇的推導
為了量化單個基因選擇的水平,運用可以得到給定基因s的非同義突變觀察數概率分布的貝葉斯方程式:
該公式可以計算每個基因對應的P值,非同義突變的負選擇和正選可分別用和表示。
6.源代碼:
研究成果
運用以上概念,研究者提出了一個概率框架以解決突變率變化的問題,構建的模型在擬合觀察數據時具有較高的準確性。具體來說,假設同義突變是中性進化,研究者通過擬合整個基因組中同義突變的個數來估算每個基因突變的概率分布。
這裡 P(λsθ) 是特定基因s的同義突變分布的期望λs(包括局部突變密度和同義靶標的尺寸)。這個概率是通過泊松分布進行建模,分布期望λs假定是基於 P(λsθ) 分布的隨機變數(參數向量θ),充分描述了異質性突變率和基因組中檢測到的突變異質性。在特定假設下期望λs中的s數目符合二項分布。
方程(1)中包含的已知和未知的突變率變數使之獨立於先驗知識和推導。將這個方程應用於不同類型的癌症時,可以得到相應的突變密度分布的參數模型,這為同義突變的個數的擬合提供了一個非常好的基準線分析方法。運用這個基準線,研究者可以推導出在進化中錯義和無義突變個數的期望分布,該突變分布的推導不需要額外的參數。該方法校準了給定基因下影響基因突變的條件,只假定了每一個影響因素對同義突變和非同義突變都有相似的影響。
圖1
圖1展示了頭頸部鱗狀細胞癌(HNSC)三種突變分類(同義s、錯義m和無義突變k)中觀察到每個基因的突變數的和期望突變數的中性分布。同義突變個數可以被很好的擬合(圖1a),HNSC中分布最理想的模型是包含指數和逆伽馬分布的混合模型(圖1b)。非同義突變個數的分布符合中性進化期望,但是顯示出來的偏移表明有選擇壓力的存在(圖1c,d)。當我們將分析擴展至pan-cancer類型分析時,可以推導在整個癌症病因範圍內的選擇性壓力,研究者發現了大量正選擇的特徵標籤。
圖2
P(λsθ)分布結合觀察到的每個基因的同義突變個數,可以估算每個基因在中性進化假說下錯義和無義突變的概率,由此能夠估算觀察到的錯義和無義突變過少和過多的統計函數和,從而在基因水平上量化負選擇和正選擇的強度。簡單來說,
Φ是運用P值(錯義突變和無義突變)的薈萃統計(meta-statistic),這些突變P值會隨著選擇性增加而增加。觀察到的和以及在中性條件下的期望值模擬如圖2a,b所示。研究者從和分布中可以推導每一種癌症類型的每一個基因的和,q值是錯誤發現率的對照。研究者將這種方法稱之為癌症貝葉斯選擇估算(CBaSE)。
信號的正選擇是確定癌症驅動因素的主要手段,但腫瘤中負選擇的檢測也一樣重要。負選擇是保存遺傳物質時跨生物系統中主要的進化模式。儘管最近的發現指明了這點,但是這些負選擇在癌症中卻鮮有發現。負選擇難以捕捉的特性可以用突變的稀疏性來解釋。但是如果負選擇是癌症進化的重要因素,可能會決定腫瘤進化的動態進展進而識別腫瘤中基因的脆弱性。
實際上在本研究中負選擇的全基因組信號非常微弱。之前的報道顯示驅動基因的負選擇要比正選擇少的多,然而研究者在幾中癌症類型中檢測到了顯著的負選擇信號,比如膀胱癌亞型(BLCA),p=8x10-3;結腸癌(CRC),p=1x10-2;POLE-aberrantCRC(CRC_PLOE),p=3x10-2;黑素瘤(MEL),p=3x10-6;子宮內膜癌(UCEC),p=5x10-8;非亞型UCEC(UCEC_nosub), p=2x10-2;POLE- aberrant(UCEC_POLE),UECE p=1x10-13;-test。值得注意的是這些癌症類型具有很高的突變密度,提高了分析的能力。在25種癌症類型中的18種癌症類型有顯著的負選擇富集(圖2c(HNSC)),其中ROC面積(AUC)可能會受不同基因的統計變數影響。
負選擇有可能激活非編碼或者表觀驅動事件從而作用於新抗原和癌基因的活動,分析MEL癌症中綜合信號最強的負選擇信號顯示,在最保守的五個基因中,有四個被報道有致癌作用(MKL1, NPY5R, RMDN2和DIAPH1)。即使在有些癌症中沒有手段可以檢測到負選擇的信號,研究者依然在跨癌症類型中發現了十個候選基因,例如從大淋巴細胞(DLBCL)慢性淋巴細胞白血病(CLL)和食管癌(ESO)中分別識別到這些負選擇的信號BCL2(=0.03),BCL2(=0.03),BCL11B(=0.13)和PREX2(=0.14)。為了研究負選擇中有重要功能的基因,研究者從基因集中選擇了
接下來研究者運用CBaSE檢測癌症驅動基因,圖2d(HNSC)表明該方法在識別已知癌症特定性基因中具有高靈敏度特性,在HNSC以及其他癌症中(25中癌症類型中的21種)CBaSE的AUC面積大於MutSigCV1演算法。CBaSE依賴於可用的同義突變,剩餘4種癌症類型中CBaSE之所以遜色於MutSigCV1演算法是因為這四種癌症中包含的同義突變太少(前列腺癌PRAD,CLL,急性白血病LAML和多發性骨髓瘤MM)。
在本研究涉及的癌症類型中
研究者從圖2a,b中Φ的分布可以推導正選擇和負選擇在基因水平上的基因比例的下限,在單個癌症類型中負選擇基因的最小比例在0到1.3%,正選擇的比例在0.05到4.7%(圖3)。在pan-cancer數據集中,至少5.4%的基因是正選擇,0.4%的基因是負選擇,這與最近的研究結果是一致的。
圖3
討論
與大多數生物系統不同,檢測癌症的負選擇是一項艱巨的任務,因為負選擇信號不僅強度非常小,而且往往會被更強烈的驅動突變削弱。另外研究者分析的突變大多是雜合的並且許多細胞的必需基因似乎是半無效的。反過來講,致癌基因中同義突變的正選擇將有助於信號的選擇。最後,檢測效果受突變數據可用性的限制,需要從噪音中進行信號的分離。在推導正負選擇過程中存在各種干擾因素,比如在癌症測序數據中可能存在未經過濾的種系突變、突變模型統計學上的不穩定性、基因組學上突變的異質性等。隨著癌症測序數據集的數量和規模的增長,採用分層模型具有可以結合許多生物學和技術變數的不穩定性的優勢,這些方法可以提高檢測癌症驅動突變的能力,並且可以識別負選擇以幫助尋找癌症發展過程中不可或缺的基因。
參考文獻:
[1]Donate Weghorn&Shamil Sunyaev.Bayesian inference of negative and positive selection inhuman cancers[J].Nature Genetics, 2017,49: 1785–1788.


※PNAS:研究人員開發出遙控癌症免疫治療系統
※我不怕癌症,只擔心孩子因為沒有媽媽而難過
TAG:癌症 |