當前位置:
首頁 > 最新 > Science:六倍體小麥轉錄組總覽

Science:六倍體小麥轉錄組總覽

上一周網站部分應用不能訪問,包括Jbrowse,PrimerServer。周二早上已經完全恢復。發生的原因是網路管理員調整網關策略。自4月25號上線以來,短短130天,網站使用人次馬上就要突破1萬,後面使用人數會越來越多。這就比較考驗我們網站的管理和運營能力。最近IWGSC發布了一系列的文章,我們也在陸續更新相關數據。關於網站的問題,可以在我們交流群里反應。另外,JBrowse如果還是不能正常顯示請試著清理瀏覽器緩存。有些很低版本的瀏覽器並不支持jbrowse,建議升級瀏覽器,這裡建議使用Chrome瀏覽器。

網站上提供了很多內容,我們也花了很多精力去介紹。實驗間隙的時候可以試著操作下,多熟悉,用的時候就會信手拈來。不然,很多小夥伴看過還是忘了,碰到相同的問題還是不會解決。很多時候,我自己都著急,只好將以前的內容翻出來發給他。

眾所周知,最近小麥參考基因組的文章已經在science雜誌上發表。同期發表的還有一篇題為「The transcriptional landscape of polyploid wheat"的文章。今天我們就來聊一聊這篇文章。建議做轉錄組分析的小夥伴認真學習下裡邊的分析方法,希望可以給大家在多倍體轉錄組分析方面有些啟發。另外,也可以學習這方面的寫法,同樣是基因功能的富集分析,這裡呈現出來的結果給我的感覺還挺靠譜的。現在我們都在提大數據,利用這些數據分析出來的結果也是方方面面的,如何從眾多結果里找到一些有意思的點去著重分析還是挺考驗功力的。

材料

共850個RNA-seq樣本

In this study, we leveraged available RNA sequencing (RNA-seq) data (529 samples from 28 studies) and added 321 samples to explore global gene expression in hexaploid wheat across a diverse range of tissues, developmental stages, cultivars, and environmental conditions.

進一步這些樣本可分為以下幾個部分:

209個小麥單一發育時間點的樣本

123個中國春正常條件下的樣本

537個正常條件下的包括4種主要組織類型的樣本

苗期50個非生物脅迫和163個生物脅迫樣本

(i) a single developmental time course experiment (n = 209 samples)

(ii) the reference accession Chinese Spring (CS) under nonstress conditions (n = 123 samples)

(iii) four main tissue types under nonstress conditions (n = 537 samples),

(iv) seedling samples from abiotic (n = 50) and biotic (n = 163) stress experiments including controls

結果

首先利用來自小麥品種Azhurnaya的22個處於不同發育階段的組織類型共209個RNA-seq樣品分析基因的表達pattern。組織來源見下圖:

image-20180825172040817

使用kallisto軟體計算統計基因的表達量,該軟體在多倍體中可以精確的統計來自某一同源基因上的reads。以TPM大於0.5為基因表達標準,我們發現75.6%的HC基因至少在22個組織中的一個里表達。作者接著計算了這22個組織的表達複雜性,結果如下表.

說句實在話,這個表我也沒看懂

同時也計算了不同組織中的差異表達基因,結果如下表。

根據基因的表達譜可以區分不同的組織類型。在相似的組織類型中,起源的亞基因組也影響表達模式。

本文最大的福利來了。這些基因的表達都可以在如下兩個網站獲得,

www.wheat-expression.com

http://bar.utoronto.ca/efp_wheat/cgi-bin/efpWeb.cgi

第一個網站想必大家很熟悉了,第二網站Wheat eFP Browser可以將基因的表達畫在小麥22個組織上,如下圖所示。

頁面最下端還可以以柱形圖和表格的形式查看基因的表達,當然也可以下載數據。

為了進一步分析部分同源基因之間的表達譜,作者使用了來自中國春正常條件下獲得的123個RNA-seq樣品。使用參考基因組的RNA-seq數據,可以排除材料之間的序列差異所引起的結果誤差。

本例使用了53259個在A/B/D上均有一個同源拷貝存在的基因,這裡我們姑且叫做三元組。其中94.3%的三元組中的至少2個位於共線性區間里,只有5.7%(1007組)的三元組中的3個基因都不在共線性區間里。

平均來看,D基因組上拷貝要高於A和B上的拷貝。

We found that the D subgenome had a subtly yet significantly higher relative abundance (33.65%) than the B (33.29%) and A (33.06%) subgenomes

實話說,這個表我其實沒怎麼搞懂

在具有共線性的三元組中,72.5%的三元組內的A/B/D之間表達水平相當(balanced),其中在柱頭比例最低62.6%,而在根里最高達到78.9%。 而在1007個非共線性的三元組中,58.9%的三元組其3個同源基因間表達水平相似,14.5%的為單同源基因優勢表達,26.6%的表現為單同源基因抑製表達。

> Most syntenic triads (72.5%) were assigned to the balanced category within each tissue, with balanced triads ranging from 62.6% in the stigma and ovary to 78.9% in roots。

在分析的15個組織中,5.7%的D同源基因表現為抑製表達,這要低於A(7.5%)和B上的同源基因(7.2%)的數量。與此一致的是,表觀抑制標記H3K27me3在基因區的分布,D組要少於A組和B組。

表現為平衡表達的共線性三元組在表達丰度上要高於那些單同源基因優勢表達或抑製表達的三元組,而且其也更傾向於在更多的小麥組織里表達。所謂單同源基因的優勢表達,往往可能是因為其他兩個相對較低的表達量。

多倍體化會不會影響基因的表達呢?必須得有影響,文中發現67.5%的非平衡表達的三元組其在合成小麥里發生了變化。而合成小麥中47.1%的非平衡表達的三元組在其二倍體中也發生了變化。

那麼同源基因間表達差異的現象該如何解釋呢?這裡作者提了一個假設,表達差異可能與表觀遺傳方面的機制有關。為了驗證這個假設,作者檢測了中國春葉片中的基因表達與TE,DNA甲基化,組蛋白修飾等的相關性。在單同源基因優勢表達和抑製表達分組裡並未檢測到TE與基因的表達顯著相關,(這裡說不相關,是在一定條件下分析得出的結果)。但基因區的DNA甲基化水平和組蛋白修飾水平在那些非平衡表達的同源基因之間是顯著不同的。

那些在多個組織表達的三元組裡的基因的甲基化水平要比那些組織特異表達的三元組和同源基因優勢表達和抑製表達的高。簡言之,總體來說,基因區的甲基化水平越高其表達水平也越高。同時,在非平衡表達的三元組中,高表達的同源基因上其活躍的組蛋白修飾(H3K36me3和H3K9ac)也比較高且非活躍的組蛋白修飾較低(H3k27me3)。對那些優勢表達和抑製表達的三元組組來說,H3k27me3不僅在基因編碼區有這種趨勢,在基因的上下游也有這種趨勢。

在小麥中,染色體位置強烈影響重組率,著絲粒和近端區域(R2a,C和R2b基因組區域)的重組率相對較低,但染色體遠端的比率明顯較高(R1和R3)。平衡表達的共線性三元組在低重組率區富集,具有較高水平的活躍組蛋白修飾(H3K36me3和H3K9ac),這也與平衡表達的三元組的表達量高一致。但在品種間並不是保守的,還是大概28%的基因表達出現變化。也就是說,我們在做雜交是,不僅能夠產生新的重組類型,也能產生差異表達的等位基因。

啟動子區的TE插入會影響基因在某個組織里的表達。

作者構建了4個正常條件下組織特異的共表達網路。(為什麼要構建4個而不是1個?)

We constructed four separate tissue-specific coexpression networks from nonstress RNA-seq samples from grain (n = 119 samples), leaf (n = 245), root (n = 45), and spike (n = 128), using all genes expressed at more than 0.5 TPM in the given tissue (13).

只有37.4%的共線性三元組的同源基因能被放到同一個共表達模塊中,而62.6%的三元組至少有一個同源基因不與其他2個在同一個共表達模塊。

為了能夠探索這些共表達模塊內基因的生物學功能,這裡作者重點關注那些組織特異表達的模塊。在四個網路中,73.2%的共表達模塊是重疊的。在根中,有3個共表達模塊是根特有的,其中最大的一個模塊含有82個基因,這些基因的功能富集結果表明都與根的發育有關。

In the root, there were three modules that were not found in any other tissue, with the largest of these (root module 61; 82 genes) enriched for root-related plant ontology (PO) terms (e.g., root procambium, P = 3.3 × 10^–5^, and central root cap of primary root, P = 4.5 × 10^–5^; table S25).

接下來作者分析了這82個基因中的轉錄因子,一共有10個轉錄因子,其中4個轉錄因子在水稻和擬南芥里被報道與根的發育有關,其中3個轉錄因子屬於用一個三元組,即是同源基因,都對應於擬南芥的基因AGL21。使用genie3這個R軟體預測這個轉錄因子的靶基因,然後對其靶基因進行功能富集分析。

image-20180829231510930

值得注意的是位於第六部分同源群的AGL21旁系同源基因並沒有位於根特異的共表達模塊中,而是分別出現在不同的共表達模塊中。這說明基因的功能出現了分化,從而獲得新功能。這個基因在水稻里的直系同源基因OsMADS57被報道與水稻分櫱有關。

接下來,作者又分別構建了生物脅迫和非生物脅迫的共表達網路。84個共表達模塊在兩者之間是重疊的。重疊最顯著的是生物脅迫模塊12和非生物脅迫模塊2,共有355個基因。這兩個模塊都在信號轉導和響應刺激方面有富集。在355個基因中有16個轉錄因子,其中6個轉錄因子在水稻或擬南芥中的直系同源基因被認為在非生物和生物脅迫中起著重要作用,並且其中三個在這幾個物種中當脅迫處理時也是差異表達的。

同樣使用genie3這個R軟體預測這16轉錄因子的靶基因,然後對這些靶基因進行功能富集分析。發現其中11個轉錄因子的靶基因功能在脅迫相應生物學過程中富集,7個轉錄因子的靶基因功能同時在非生物和生物脅迫相應過程中富集。更進一步的分析發現,兩個heat shock factor (HSF) 轉錄因子(TraesCS5A01G237900 和TraesCS5B01G236400 )處在網路的核心位置。經過預測,這兩個轉錄因子共有387個靶基因,並且這些靶基因有相當一部分位於在生物脅迫的共表達模塊12和非生物脅迫的模塊2中.其在擬南芥中的直系同源基因的功能也參與脅迫過程中,在水稻中也具有類似的功能。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 小麥研究聯盟 的精彩文章:

抗性育種研究方法探討-赤霉病

TAG:小麥研究聯盟 |