當前位置:
首頁 > 最新 > RNA-seq結果中,我們應該如何對待超低丰度基因?

RNA-seq結果中,我們應該如何對待超低丰度基因?

太懶只看重點版:

1.RNA-seq技術重複很好,意味著測到即真實

A:低丰度基因是測不準的,相應的,如果建庫濃度過低,所有基因都測不準。

2.轉錄組差異表達分析中應該如何對待超低丰度基因?

A:過濾掉。

3.超低丰度基因過濾標準是如何定的?

A:似乎是拍腦門定的,你也可以用你自己的標準。

真粉必看長文版:

我們複雜細胞混合體,包括動植物,有一個很有趣的特點:雖然每個類型的細胞中DNA序列都幾乎完全一樣(體細胞中DNA突變率好像比我們想像的高),但表達的mRNA卻各有特色。其中的奧秘仍然等待著我們去探索。

正是mRNA的這種彈性,給了我們很多依賴RNA-seq造文章的機會,同時也帶來了一個邊緣性問題:有一些基因總是似有若無地表達,或者表達區域十分特異,在取樣中被混合的其餘細胞mRNA沖得很淡,比如只在生長點幾個細胞內表達的幹細胞基因,我們只能測到些痕迹。我們姑且統稱這些基因為「超低丰度基因」。

RNA-seq結果中,FPKM從到幾萬都存在,哪個部分算超低丰度基因?這個問題我不知道答案,因為任何答案都會顯得很武斷,很主觀。

我們不如先迂迴到另一個相關的問題:

1.RNA-seq技術重複很好,意味著測到即真實

RNA-seq技術從誕生之初便是以技術重複性好著稱的,技術重複性好的潛台詞相當於「我測得每一個數據都是接近真實的」。早期曾經一度有公司拿著這個特點作招牌慫恿拮据的研究者不做生物學重複,催生了好幾篇高水平期刊論文專門說明這個每個研究者其實心知肚明的小問題(技術重複再好也不能代替生物學重複,因為它們針對的是不同類型的誤差)。

根據我自己的經驗,我堅定地承認RNA-seq的技術重複性的確非常值得認可,但「我測得每一個數據都是接近真實的」是不是真實的呢?

我們可以用兩個實驗來驗證這個猜想,(1)對相同的mRNA樣本連續測兩次,比較一下兩次結果的相關性;(2)把mRNA稀釋不同濃度,比較本技術對樣本起始濃度的魯棒性。

來看結果:

兩次技術重複間相關性很高,基本上是一條線。但當read count越來越小時,這種相關性變得越來越差,數據越來越分散。紅色的線是我畫上去的,我個人覺得在read conut >10的時候,情況還是比較好的。

當起始mRNA減少後會如何呢?比如稀釋到低於我們通常建庫濃度時:

情況好像變得更嚴重了!這一部分被稀釋的基因表達丰度變低了,丰度變低,離散度便同進增加。

再稀釋一些如何?

這就有點故意刁難RNA-seq了,這個濃度下,相當時大部分基因都是低丰度基因,情況已經不能接受了。

看來,RNA-seq的技術重複性好也是有條件的,低丰度基因測不準!

2.轉錄組差異表達分析中應該如何對待超低丰度基因?

低丰度基因測不準對於差異表達基因篩選可是個大事,因為1與0.001之間FC是1000啊,這麼誘人的數值,非常可能是假的?哪還了得!

那我們該怎麼辦呢?

實際上有部分軟體要求過我們提供「過濾過的數據」,只是我們通常都不會在意,所以其它軟體乾脆默認進行過濾。

比如在運行sleuth時,它會告訴你:

其中有一行:「49356 targets passed thefilter」,也就是告訴你,我只對這些基因進行差異表達計算。

我去!你什麼鬼參數幹掉我2萬多個基因?

大家看我的代碼中有一個「min_prop=0.25」參數,這個參數在軟體推薦參數中是沒有提到的,扒出它的原代碼,可以看到它的默認值是0.47。

這個參數的功能是「在所有樣本中,只有47%的樣本中本基因map到的read counts >5,這條基因才被計算」,比如你有兩組樣本,每組3個重複,至少有3個樣本中本基因read counts>5,它才能通過。

為什麼是47%?作者只是想保證那些只在一組樣品里表達的基因仍然可以被篩選到,48%也可以,49%當然也可以。我把它改成了25%,因為我有3組樣品。

為什麼要定read counts >5?我估計作者也不知道,我個人覺得這個標準相當低。不過回到我們最初的起點:任何答案都會顯得很武斷,很主觀。

測不準就過濾掉,夠簡單夠粗暴,測到它們只能算運氣好。

要想不錯過重要基因,取樣組織越純粹越好。別嫉妒人家弄個單細胞RNA-seq可以上Nature,這很重要呢。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 生信百科 的精彩文章:

空間轉錄組?這貨是什麼?
基因組學-基因組的拼接實例

TAG:生信百科 |

您可能感興趣

如果WeGame的崛起就一定讓Steam退出國內,那對待WG是應該支持還是抵制?
無論是因為CPU風險,還是USB故障,你都應該關注Windows 10更新
三星 AR Emoji vs.蘋果 Animoji,7個你應該了解的不同之處
JR是不是應該回CBA了,NBA已經容不下他了么?
cURL與wget:你應該選用哪一個?
除了 Supreme 聯名和紫標,你也應該要好好認識 TNF UE 了!
C與Python,初學者應該如何選擇
關於HPV,我們應該了解的
YG老楊又認證女團Blackpink即將回歸!網友:這一次應該是真的?
現在的iPhone 6s plus還值得買嗎?這些選擇機會你應該知道!
想成為一名Web開發者?你應該學習Node.js而不是PHP
關於潮牌,你不應該只知道Supreme!
如果你和他出現這50件事,那麼你應該和他say good-bye!
蘋果春季發布會高能預警:新iPad應該穩了,iPhone SE2還會遠嗎?
蘋果春季發布會高能預警:新iPad應該穩了,iPhone SE2還會遠嗎?
現在在Steam上出現了Desync 你應該買一個Switch嗎?評論者的評論
iPhone X:果粉等等,應該還會再降點
飽受爭議的HIIT,到底應該怎麼練?
Android手機內存不足,你應該這樣做,被震到
NIKE Air Force 1火焰Swoosh「串標」設計出現!這樣應該沒有差評吧?