當前位置:
首頁 > 科技 > RNA好累:可……

RNA好累:可……

近些年來,某些之前被認為不能編碼蛋白質的RNA被證實具備編碼能力,其編碼產生的微肽的功能也不容小覷。究竟是哪些原因導致這些編碼RNA被錯誤歸類?哪些技術發現了「冒牌」非編碼RNA?重回人們視野的它們行使著何種生物學功能?本文綜合了最近幾項研究,講述研究者們如何在非編碼RNA的研究領地里淘金一般搜尋隱匿的編碼RNA。


編譯


李娟

RNA好累:可……



細胞核內的DNA轉錄生成各類RNA,其中mRNA(messenger RNA, 信使RNA)翻譯生成蛋白質,ncRNA(noncoding RNA,非編碼RNA)不具備編碼能力,不能被翻譯成蛋白質。(圖片來源:網路)


2002年,德國科隆的研究人員發現了某一非編碼RNA 實際上是能編碼的信使 RNA(mRNA)。這條 RNA有679個核苷酸,因其長度超過200個核苷酸,之前被列為長非編碼RNA(lncRNA)。轉錄該 RNA 的基因是early nodulin 40(ENOD40),它的兩個開放閱讀框(ORFs,Open Reading Frames)能夠分別編碼12和24個氨基酸的微肽。豆類植物樣本的研究證實了這些微肽在植物中確實存在,並且與蔗糖合成酶有互作關係。

RNA好累:可……



mRNA(messenger RNA, 信使 RNA)翻譯成蛋白質的過程簡圖。如今已發現某些被列為非編碼 RNA 的序列內也含有開放閱讀框,也具備編碼翻譯成蛋白質的功能。(圖片來源:Cell)


五年後,日本的研究人員在果蠅中發現了另一個含 ORF、「冒充」 lncRNA 的 mRNA。在這項研究中,研究人員通過抑制每個 lncRNAs 的轉錄本表達來分析其在果蠅胚胎中的功能。其中只有一個表現出明顯的表型,缺失這種 lncRNA 的果蠅胚胎缺少特定的角質層特徵,這使得它們產生了如稻穀粒樣的光滑外觀,因而該 RNA 被命名為「polished rice」(pri)。pri基因能編碼四種微肽,其中三種含11個氨基酸,一種含32個氨基酸,它們對激活發育相關的某一關鍵轉錄因子至關重要。


此後,又有一些lncRNAs 加入到 mRNA 的隊伍中,它們的長度短於300個核苷酸,且含有編碼微肽的較短開放閱讀框(short ORFs, sORFs)。資料庫里已有記錄的 lncRNAs 數目眾多,其中大部分的功能都未知,有很高的機率發現其他具備微肽編碼功能的 RNA。搜尋這些微小寶藏的工作已經開始,但卻極富有挑戰性,畢竟它們之前被忽略了這麼久也是有原因的。

被忽略的開放閱讀框


90年代末到21世紀,隨著不同物種基因組測序的陸續完成及相關資料庫的完善,新基因及相關 mRNA 的搜尋工作也隨之展開。研究人員用計算機輔助的快捷方法對數百萬甚至上億的核苷酸進行分析,以便明確基因和 mRNA 的序列特徵,例如啟動子區、外顯子/內含子的剪接位點、開放閱讀框等。

RNA好累:可……



位於起始密碼子和終止密碼子之間能最終編碼蛋白質的基因序列即開放閱讀框。(圖片來源:BRYAN SATALINO)

ORF 可存在於幾乎任何 RNA 序列中,但許多並不編碼實際的蛋白質。由於 ORF 編碼蛋白質的機率隨其長度增加而增加,因此之前大部分搜尋 ORF 的演算法限於300個核苷酸以上,即至少翻譯100個氨基酸。這使研究人員能夠過濾掉那些隨機存在毫無意義的 ORF。然而,由於這些演算法排除了長度小於300個核苷酸的開放閱讀框,不可避免地遺漏了微肽編碼序列,它們作為「演算法產生的垃圾」被篩除在外而慘遭遺忘。


除了演算法規則和人為疏忽,還有其他技術原因導致這種情況。比如,利用電泳分離不同大小的肽段往往意味著會丟失微肽。因為跑蛋白質凝膠電泳時,微肽很容易從凝膠底部跑出去。蛋白質質譜技術對微肽的確定也存在問題,因為質譜實驗步驟中有一步是洗脫,只有較大的蛋白質被保留了下來用做後續分析。


比起序列更長的 ORF,小鼠、果蠅和魚等模式動物器官中較短的 ORF在隨機突變的篩選中很難被發現,意味著對它們功能的揭示也更困難。另外,許多重要蛋白質是基於不同物種間的保守性來確定的,ORF 越短就越難被發現,與其他物種基因組進行比對、分析其是否保守也會越困難。


不過,隨著對基因組中更多 lncRNAs 功能分析的進行,編碼微肽的 IncRNA 不斷地被發現。例如,2014年2月,哈佛大學的研究人員在斑馬魚中發現了一個 lncRNA,其編碼的微肽有58個氨基酸,它是斑馬魚胚胎早期發育相關的細胞移動所必需的一類信號蛋白。另一項研究在小鼠胚胎心臟和骨骼肌里發現了多個候選目標,其中有一個序列高度保守的 IncRNAs,在其序列保守區既有起始密碼子又有終止密碼子,能編碼46個氨基酸。研究者稱之為 myoregulin,它是參與調控肌肉緊張度的一個重要的鈣泵調節器。

諸如此類多年來躲在雷達下的微肽就像金礦一樣存在著,等待我們積極地去挖掘。


尋找隱藏的小肽


研究者們開展了大量的 RNA 測序去識別 sORFs,並用質譜尋找可能的肽段。但是這項技術每次只能分析少量的 sORFs。直到2009年,一種叫做核糖體圖譜分析(ribosome profiling)的新方法被開發出來,結合核糖體相關 RNA 的深度測序技術,能夠快速地在全基因組水平對不同大小的開放閱讀框進行大規模分析。


這項技術是由核糖體足跡分析(ribosome footprints)方法發展而來,該方法是明確與蛋白質翻譯機器相關的 RNA 的最直接的方法。在核糖體足跡分析中,研究人員首先將核糖體相關 RNA 分離出來,用核酸酶消化掉不被核糖體保護的 RNA,分離回收被核糖體保護的 RNA,然後對這部分 RNA 短片段測序並進行後續分析。由於非編碼 RNA 有時也會與核糖體有關聯,該方法仍需要質譜技術驗證所得 RNA 產生的蛋白質在細胞中是否存在。

RNA好累:可……



用於搜尋與蛋白質翻譯有關的編碼 RNA 的核糖體足跡分析方法。(圖片來源:BRYAN SATALINO)


之前的核糖體足跡分析方法只能分析單個特定的轉錄翻譯信息,無法用於檢測細胞內發生的所有事件。當新一代測序技術出現之後,才得以一次性讀取成百上千的「足跡」,由核糖體足跡分析技術改進成的核糖體圖譜分析技術,能最大程度地獲得整個轉錄組的翻譯信息。

RNA好累:可……



Ingolia 等人設計的核糖體圖譜分析技術的主要步驟。圖片來源:WIREs RNA


2011年,Ingolia 等人報道了小鼠胚胎幹細胞基因組中,非編碼區轉錄出的大多數 lncRNAs 實際上與核糖體有關聯。這篇論文是一個里程碑,它證明了編碼區以外也存在很多蛋白質翻譯事件。


編碼微肽的 sORFs 相關轉錄組的確存在。除此之外,他們還發現細胞核內某些有明確功能的 lncRNAs 也與核糖體有關聯。例如,端粒酶 RNA 作為經典 lncRNA,其實是端粒 DNA 複製的模板;參與 RNA 剪接的小核 RNA,在核糖體圖譜分析中顯示出了高度的翻譯特性。需要注意的是,佔用核糖體(ribosome occupancy)的 RNA 並不表示就一定真正的翻譯成蛋白質。

RNA好累:可……



單從核糖體佔用來看,並不足以區分轉錄本為編碼 RNA 還是非編碼 RNA。(圖片來源:Cell)


與核糖體關聯的某些 RNA 可能僅僅參與翻譯調控,與核糖體也可能只是隨機互作,這種互作關係甚至會產生微小的非功能肽,或因其不穩定而被迅速降解。為了辨別核糖體圖譜分析得到的真正翻譯事件,核糖體釋放分數(ribosome release score)作為度量標準被提出來,該標準基於核糖體結合的 RNA 片段在全長 mRNA 分子上的分布狀態。當核糖體沿著 ORF 翻譯至終止密碼子時,核糖體與轉錄本的關係也隨之終止,它們會從 mRNA 上釋放下來。翻譯成蛋白質的 RNA 編碼區相比下游非翻譯區,應顯示出更大比例的核糖體足跡片段,意味著終止密碼子之後的 RNA 片段與核糖體的關聯在核糖體圖譜中會有顯著下降,而對於經典的非編碼 RNA 則不是這樣。

RNA好累:可……



核糖體釋放分數簡圖。(圖片來源:Guttman lab)

RNA好累:可……



核糖體釋放分數評估了與核糖體結合的RNA片段沿整個 RNA 分子的分布情況。真正編碼的 RNA 的 ORF 應該比終止密碼子後的序列有更大比例的核糖體關聯區域。(圖片來源:BRYAN SATALINO)


使用了該標準的一項研究發現,絕大多數基因間的 lncRNAs 確實是不編碼的,但有5%左右的 lncRNAs 的核糖體釋放分數與編碼蛋白的轉錄本類似。對於數以萬計的 lncRNAs 來說,5%是一個龐大的數字,暗示著可能會有數量龐大的微肽存在。


為了證實 sORF 的翻譯事件並明確其產生的微肽,基於核糖體足跡圖譜、序列保守性、同義突變頻率及其他特徵的研究,研究者們研發出了新的度量標準和演算法(比如:Fragment Length Organization Similarity Score (FLOSS),Phylogenetic Conservation Score of a sORF (PhyloCSF))。2015年11月研究者們建立了名為 sORFs.org 的 sORF 資料庫,用於積累和搜集有關 sORFs 及其翻譯能力的數據。


現在,資料庫里有小鼠、果蠅和人類核糖體圖譜分析研究所確定的全部 sORFs,目前存有高達266342個 sORFs,但各類篩選指標能將這個龐大的列表進一步縮小。經過嚴格篩選,來自人類的數據列表已降至約400個強候選 sORFs。同時,研究者們系統地開展了蛋白質質譜實驗,用以明確演算法得到的微肽是否真的在細胞中存在。


一旦確定了某個新的微肽,就要用分子生物學實驗探索其功能。這個過程進展較慢。不過研究者們已經明確了幾個新的微肽的功能。2016年1月,研究者報道了一個 lncRNA 編碼的被稱作 dwarf open reading frame(DWORF)的微肽,它是含有34個氨基酸的肌肉特異性微肽,在小鼠心臟中大量表達,能夠調節肌肉收縮,但在缺血人體心臟組織中的表達被抑制,提示可能與心臟衰竭有關。另一項新發現是一類感染人類巨細胞的病毒 lncRNA編碼的微肽,它能在以前感染過的患者中引起T細胞免疫應答,提示這類微肽很可能具有免疫原性,也說明了微肽在某些疾病發生過程中的重要性。


隨著研究人員對基因組小片段進行更仔細地梳理,更多微肽的生物學功能將會被發現。如你所見,它們可能因短小的序列而被忽視,其 sORFs 也可能被埋在統計學雜訊里,而翻譯微肽的 RNA 也可能被錯誤歸類,但這都並不妨礙它們扮演重要角色,行使著舉足輕重的基本生物學功能。


參考文獻


1.Ruth Williams, Noncoding RNAs Not So Noncoding.http://www.the-scientist.com/?articles.view/articleNo/46150/title/Noncoding-RNAs-Not-So-Noncoding/


2. Ruth Williams, Finding Mislabeled Noncoding RNAs.http://www.the-scientist.com/?articles.view/articleNo/46203/title/Finding-Mislabeled-Noncoding-RNAs/


3. M. Guttman et al., Ribosome profiling provides evidence that large noncoding RNAs do not encode proteins. Cell, 154:240-51, 2013.


4. Audrey M. Michel and Pavel V. Baranov. Ribosome pro?ling: a Hi-Def monitor for protein synthesis at the genome-wide scale. WIREs RNA, 4:473–490, 2013.


5. E. N. Olson et al., A peptide encoded by a transcript annotated as long noncoding RNA enhances SERCA activity in muscle. Science, 351 (6270): 271, 2016.


請您繼續閱讀更多來自 賽先生 的精彩文章:

身板兒不好使?換個零件吧——看看人造器官構建技術走到了哪一步
為何我們只遺傳母親的線粒體?清華薛定和港中文姜秉昊教授Nature子刊揭秘
用中學生能看懂的語言介紹2016年物理學諾貝爾獎
《學術不端:一把鋒利的鑰匙》系列之一
為了前瞻的回顧——《20世紀物理學》

TAG:賽先生 |

您可能感興趣

好累……好煩……好難……
好累……好煩……好難
真的好累……真的好煩……
這圖究竟黃不黃?你們人類套路太深,Facebook表示真的不明白……心好累……
爆笑GIF:白天的你和晚上的你,心好累!
周董老二叫「Romeo」!養小孩好累!
好累,好睏,好萌~~~
SJM亨利疑將和SM解約 IG求救粉絲:我好累
【夜聽】好累好累,有時候真想喝醉一回...
鄭亨敦停機8個月 Defconn哀嚎:好累!
DNF 90SS輕甲終於湊齊一身了 心好累啊
喜歡一個人真的好累!
川普禁止7國移民入境的禁令就這麼被……禁……了……移民:你們別鬧了……我們心好累!
等好累,愛好苦,恨好難!
搞笑GIF:每天上班都要爬了樓梯,好累啊
韓國D2簽證網上延簽?一到開學季就預約的心好累...看過這個就再也不用愁了!
baby劈叉劈得好累,熱巴一字馬成這樣?
犯賤的愛你,好累!
哄女票就像哄小孩,還總哄不好,好累啊……