浙大高分論文解讀:異源多倍體芥菜基因組de novo組裝

更新時間:2022-04-02 17:05:28 所屬欄目:基因組 作者:金盈玫

摘要:導讀:這篇文章是浙江大學聯合好幾個單位一起做的關于異源四倍體芥菜基因組的denovo組裝研究,9月6日發表在NatureGenetics上,使用的是二代測序和三代測序相結合的方法,得到了一個高質量的芥菜基因組,方法值得參考,對于做植物育種的研究也很有意義。概述蕓薹屬植物包括3個二

導讀:這篇文章是浙江大學聯合好幾個單位一起做的關于異源四倍體芥菜基因組的de novo組裝研究,9月6日發表在Nature Genetics上,使用的是二代測序和三代測序相結合的方法,得到了一個高質量的芥菜基因組,方法值得參考,對于做植物育種的研究也很有意義。

概述

蕓薹屬植物包括3個二倍體種和三個異源多倍體種,目前關于多倍體在進化上的重要農業特征還缺乏清楚的理解。本研究利用二代和三代測序結合對一種異源多倍體芥菜基因組進行了組裝,得到了基因組圖譜和遺傳圖譜。研究發現芥菜和蕓薹屬植物的A基因組分別有獨立的起源,表明芥菜的A基因組是單源起源,然后在進化過程中分化出菜用和油用兩種亞種。在異源多倍體芥菜中顯示出等位基因的優勢表達,優勢表達的基因比中立基因有更多的選擇壓力。芥菜的等位基因優勢表達促進了亞種對于芥子油苷代謝基因和脂類代謝基因的選擇。十字花科基因組之間的這種等位基因的優勢表達造成了多倍體作物基因組進化的定向選擇。

關鍵詞:植物育種,植物遺傳學

研究背景

蕓薹屬植物屬于十字花科,包含了多種重要的油料和蔬菜作物。有重要農業價值的蕓薹屬植物包括三個二倍體物種:蕪菁(Brassica rapa,AA),黑芥(Brassica nigra,BB)和甘藍(Brassica

oleracea,CC);三個異源多倍體物種:甘藍型油菜(B. napus,AACC),芥菜型油菜(B. juncea,AABB),衣索比亞芥(Brassica

carinata,BBCC)。蕓薹屬的三個二倍體祖先雜交后又經過染色體加倍形成異源多倍體,隨后進化出豐富的油料和蔬菜作物。

蕪菁(AA)、甘藍(CC)以及它們的后代甘藍型油菜(AACC)的基因組已經發表,經常用于解釋被子植物的進化。蕓薹屬植物經過了種系的全基因組三倍化和二倍化,造成了大量的染色體重組和基因丟失。植物基因組通常都有雜合和加倍形成多倍體,造成基因組裝很復雜。短讀長的NGS測序阻礙復雜區域的組裝,片段的草圖和參照基因組又出現GC偏移和間隔區序列。此外,在異源多倍體中經常檢測到同源基因的表達顯性。

本研究報告了一種異源多倍體芥菜型油菜(B. juncea var. tumida)的de novo組裝基因組草圖,使用的是Shot gun,單分子long

reads((PacBio測序),光學基因組圖譜(BioNano測序),遺傳圖譜,用于理解復雜的異源多倍體基因組。多功能的異源多倍體芥菜提供了一個典型的模型用于研究植物育種的基因組基礎,等位基因差異表達對于作物優勢的改進可以延伸到其他多倍體作物遺傳育種研究中。

主要研究方法

01.植物材料和測序

基因組測序和組裝用的是一種廣泛用作育種親本的近交品種芥菜型油菜B. juncea var. tumida (T84?66)(NCBI 生物樣本 SAMN03741772),以及黑芥雙單倍體(YZ12151) (NCBI生物樣本 SAMN03742614)。T84?66的序列共有13 個paired-end和 mate-paired Illumina 文庫(175.8×), 一個單分子文庫

(12.03×) ,以及222×的BioNano數據;YZ12151的序列共有10個 paired-end和mate-paired Illumina 文庫

(95.99×)?;蚪M大小用流式細胞分析和k-mer分析來估算。此外,產生17個芥菜品種的10×覆蓋度的基因組序列用于基因組分析,包括10個蔬菜品種和7個油料品種。對27個代表性蕪菁品種進行低深度(<1×)基因組測序用于蕓薹屬A基因組的對比分析。

02.Denovo組裝

用ALLPATHS-LG進行基因組組裝,PBjelly_V15.2.20校正后的Pacbio RS II序列用于填補gaps。IrysView的RefAlignerutility用于對齊Irys分子和草圖組裝,修復scaffold嵌合體錯誤。最后把修正過得scaffold固定到BioNano數據的光學基因圖譜上,得到v1.0版本的組裝。

03.基因組質量評價

用CEGMA v.2.3 blast458個真核保守基因(CGE database)來評價芥菜的基因組組裝,通過比對從NCBI下載的23,002 個EST數據(長度≥500 bp)來評估基因組組裝。為評估芥菜基因組的準確性,從PacBio數據里隨機挑選10個大于40kb的sub-reads,用SOAP檢查配對關系。

04.遺傳圖譜和pseudo-chromosome構建

把重測序的reads比對到參考基因組上,用GATK v3.4標記潛在的SNP。估算每個scaffold上這些標志物的成對重組,臨近SNP的成對復合率小于0.001的集中成一個基因bin,排除有顯著偏離的bin(卡方檢驗,P < 0.01)。最后用Highmap把這些bin歸類為18個連鎖群。

用ALLMAPS來構建芥菜最初的pseudo-chromosome,用的是先前研究的基因圖譜(T84/DTC)結合一個已經發表的基因圖譜(SY/PM),最后對芥菜的A基因組和B基因組進行了分類。

05.基因注釋

芥菜基因組的重復序列通過結合de novo和同源策略來確定。4個de novo程序用于生成最初的重復序列庫,包括RepeatScout,LTR-FINDER,MITE,和 PILER。用PASTEClassifier對最初的資料庫進行分類,然后合併蕓薹屬的轉座子序列庫和重復序列庫來構建新的重復資料庫,通過RepeatMasker來區分基因組組裝重復序列。

基因注釋主要用了三種方法,homology-based, de novo和 EST/unigenes-based,三種方法的結果用GLEAN整合?;赗NA-seq將轉錄組數據mapping到參照基因組,以及用Cufflinks組裝轉錄組來獲得基因結構和獲得新基因。

用tRNAscan來預測非編碼RNA。

蕓薹屬植物的A基因組比較、芥菜型油菜(B.juncea)的形成時間估計、同源基因表達優勢分析等用到方法很多,此處略過,需要者請參見論文原文。

主要結果

01.基因組組裝、scaffold固定和注釋

為了區分蕓薹屬的基因組,本研究對蕓薹屬基因組重新做了區分,B. rapa (蕪菁)的基因組標記為 BraA,B. nigra(黑芥) 的基因組標記為BniB,B. oleracea(甘藍)的基因組標記為BolC;B. juncea(芥菜型油菜)的 A 基因組標記為 BjuA,B 基因組標記為 BjuB;B. napus (甘藍型油菜)的A基因組標記為BnaA ,C 基因組標記為

BnaC。

T84?66品種的基因組預估有922 Mb,測序組裝獲得了784 Mb,覆蓋率85%,contig N50值是61kb,scaffold N50值是855kb。

收集到996648個大于150kb的BioNanoDNA片段(相當于222倍),平均大小超過2mb。de novo組裝由922個基因組map組成,平均長度超過1.19 Mb,N50達到1.84Mb,用這些裝配集來校正上面的基因組組裝。最后的BioNano總裝跨度955Mb,scaffold N50 1.5 Mb。構建了一個高解析度的遺傳圖譜,包含5333個bin

marker和18條染色體(10條A基因組染色體和8條B基因組染色體)。最終,91.5%的A基因組和72.3%的B基因組能比對到相應的染色體上,基于這個組裝結果,將B. juncea的染色體分為402.1 Mb的 BjuA和 547.5 Mb 的BjuB。

同時還測了雙單倍體B. nigra (YZ12151)的基因組用于比較基因組學研究,基因組大小396.9 Mb,測序深度96×,scaffoldN50 557.3 kb,覆蓋率68%。參考BjuB基因圖將66%的scaffold比對到B.nigra的染色體上。

PacBio subreads評估:99.4%的覆蓋率和92.3% 的識別率。

BACs評估:98.5% 覆蓋率和99.8%的一致性。

CEGMA評估:利用458個真核核心基因資料庫,分別確認出B. juncea 和 B. nigra 染色體上的453個 (98.8%) 和458個 (100%) CEG蛋白。

ESTs匹配:分別確認出B.juncea 和 B. nigra 染色體上98.9% 和98.2% 的ESTs。

基因注釋:對B. juncea 和B.nigra 基因組分別注釋了80,050 和 49,826 個編碼蛋白的基因,二者分別有97.8%和94.7%的基因可以被注釋。

同源性比較:在B. juncea基因組供識別出316.1 Mb重復序列,其中BjuA 131.2 Mb ,and BjuB 216.5 Mb。在蕓薹屬植物中長末端重復序列(LTRs)是主要的轉座子(TE),Copia- 和Gypsy-type LTRs是最豐富的兩個轉座亞科。研究發現BjuA、BjuB以及他們各自的祖先染色體的同源區域具有相似的TE含量。

基因丟失鑑定:BjuA和 BjuB相對于祖先分別有562和545個基因丟失。

Figure 1 芥菜型油菜T84-66的基因組

B. juncea基因組包含的18條染色體分別分屬于BjuA ((J01?J10)和BjuB(J11?J18),BjuA和和BjuB的同源關系通過彩色的連接線顯示。

02.蕓薹屬植物的A基因組比較

對三個蕓薹屬植物的A基因組同線性比較顯示了極強的共線性,雖然BjuA和BraA從它們的祖先B.rapa分化出來后經歷了染色體的重排。通過對18個B.juncea品種、5個B. napus品種和27個B. rapa品種的SNP進行檢驗,構建了蕓薹屬A基因組的進化樹,發現BjuA 和BnaA有不同的進化起源。BjuA可能起源于B. rapassp.

Tricolaris,分布于亞洲,BnaA可能起源于B.rapa ssp. Rapa,分布在歐洲,這表明B. juncea (芥菜型油菜)和B. napus(甘藍型油菜)有各自獨立的起源,分別來自亞洲和歐洲地區。

Figure 2 蕓薹屬植物三個物種A基因組的同線性和系統進化分析

03.異源多倍體芥菜中等位基因的優勢表達

要探索異源多倍體基因組的表達行為,本研究對BjuA

和BjuB不同組織進行了全基因組轉錄水平的比較。轉錄表達的分析發現等位基因的優勢表達在最初的基因合併和異源多倍化之后就發生了。在不同發育階段,共有3339對等位基因表現出優勢表達,其中56%是BjuB基因組。在不同組織中,共有2251對等位基因表現出優勢表達,其中55%是BjuB基因組。從進化上看,B.juncea(芥菜型油菜)的優勢等位基因主要來自BjuB基因組。

Figure3 芥菜(B. juncea)的等位基因優勢表達和基因選擇壓力分析

(N值代表優勢(顯性)基因數量)

04.異源多倍體芥菜的分化選擇

通過對菜用和油用芥菜進行種群分化統計(FST)和平均配對差異(π)估算,鑑定出菜用和油用芥菜的選擇性清楚區域(ST < 0.05 ,π 值< 0.05)??偣茶a定出794個受選擇的基因,其中288個(36.3%)表現出表達優勢。這樣高比例的等位基因優勢表達表明它們在農業性狀改善中的重要作用。

Figure 4 菜用和油用芥菜的選擇性清除信號和表達模式分析

詳細的分析討論此處略過,感興趣的人可以點擊閱讀原文查看全文,或者后臺留言留下郵箱,小編會給您發送全文。

小結

本研究使用二代測序和三代測序,結合光學圖譜,得到了一個高質量的異源多倍體芥菜基因組,值得參考。通過多種手段研究了芥菜A基因組起源的問題,證實是單源起源。從不同發育時期,不同組織,不同處理條件,不同進化時期多個角度系統分析異源多倍體優勢表達現象,識別出了芥菜菜用和油用分化選擇區域,找到了相關代謝表達的優勢基因。本研究提供了一個典型的模型用于研究植物育種的基因組基礎,等位基因差異表達對于作物優勢的改進可以延伸到其他多倍體作物遺傳育種的研究中。

參考文獻:The genome sequence of allopolyploidBrassica juncea and analysis of differential homoeolog gene expressioninfluencing selection

註:本文轉自微信公眾號「組學維基」。

相關內容

歡迎留言:

免费人成网站在线观看TV