科研人員開發新的定量蛋白質組數據差異分析計算模型
8月13日,國際學術期刊Cell Discovery在線發表了中國科學院上海營養與健康研究所中科院計算生物學重點實驗室(馬普計算生物學研究所)邵振課題組研究論文「MAP: model-based analysis of proteomic data to detect proteins with significant abundance changes」,報道了一種新計算模型MAP,用於統計分析基於同位素標記產生的定量蛋白質組數據並鑒定其中差異表達的蛋白質。
基於同位素標記和質譜技術的定量蛋白質組實驗(如iTRAQ、TMT和SILAC等)能同時檢測數千甚至上萬個蛋白質在不同樣本之間的相對丰度或表達差異。這類數據已有的差異表達分析方法大多依賴於對並行或已有的技術重複數據進行前期比較來構建實驗的技術誤差模型,並以它為基礎檢驗每個蛋白質在被比較樣本之間表達差異的統計顯著性。該方法佔用了有限的實驗通道,也難以保證誤差模型的精確適用性。
針對這一局限,在MAP模型中研究人員發展了一種新穎的分步回歸(step-by-step regression)分析流程,實現直接對被比較的兩個iTRAQ樣本構建技術誤差模型。在此類研究中,一個常用的經驗假設是技術誤差對樣本間每個蛋白質iTRAQ信號log2比率(log2-ratio)的貢獻服從以0為中心的正態分布N(0, σ2)。其中,方差σ2依賴於該蛋白質的信號強度,並且常被用一個指數衰減函數來刻畫其依賴關係,即所要構建的全局誤差函數。MAP模型首先使用滑動窗口掃描兩個樣本的M-A圖,同時對窗口中0附近的log2比率進行線性建模,以其斜率的平方作為誤差函數的局域估計。然後,對所得局域估計進行第二輪指數擬合,獲得被比較樣本的全局誤差函數,並以它為參照計算每個蛋白質信號差異的顯著性P值(圖1)。
同位素標記定量蛋白質組數據長期存在比率壓縮的難題。研究人員使用MAP模型分別比較分析了三個批次產生的小鼠胚胎幹細胞分化前後蛋白質組數據,發現蛋白質iTRAQ信號log2比率在不同批次間關聯很低(圖2a),可能是因為技術誤差對其貢獻所服從的正態分布N(0, σ2)在批次間各不相同。根據MAP模型,研究人員提出使用每個批次的全局誤差函數對其中每個蛋白質iTRAQ信號的log2比率進行重標度(rescaling),使得在不同批次中技術誤差對其貢獻均服從標準正態分布N(0, 1),從而發展了一個新的Z統計量。比較不同批次蛋白質Z統計量之間的關聯,可以發現它具有明顯更好的可重複性(圖2b)。
為方便蛋白質組領域研究者使用MAP模型進行數據分析,研究人員搭建了一個網路服務平台(http://bioinfo.sibs.ac.cn/shaolab/MAP)。該平台額外搭載了一個整合分析模塊,能夠通過整合多個批次生物重複比較結果的次優P值或者平均Z統計量來最終鑒定差異表達蛋白質,並新發展了一種分析方法用於估測基於這些統計量所定義差異表達蛋白質的錯誤發現率(FDR)。此外,在用於雙樣本比較的MAP模型基礎上,研究人員還通過分別用樣本方差和卡方分布分位數取代原分步回歸建模流程中所使用的log2比率和標準正態分布分位數,進一步發展了適用於多樣本比較的拓展eMAP模型。
上述研究由營養與健康所研究助理李木山和博士研究生塗世奇等在研究員邵振的指導下,與中科院植物生理生態研究所、復旦大學上海醫學院和美國西南醫學中心等多家單位的研究人員合作完成,得到國家自然科學基金委、科技部和中科院等的資助。
圖1:MAP模型的分步回歸分析流程:(a)局域線性擬合;(b)全局指數擬合構建技術誤差模型;(c)計算每個蛋白質信號差異的顯著性P值。
圖2:不同批次蛋白質iTRAQ信號的log2比率(a)和Z統計量(b)的皮爾森關聯繫數。
來源:中國科學院上海營養與健康研究所


※高模量碳纖維表面處理技術研究獲新進展
※你為什麼越來越不相信「幻想」?
TAG:中科院之聲 |