百邁客Hi-C研究大事件

DNA在染色體上是高度折疊的,DNA與DNA片段之間不可避免的形成了高強度的交互作用。最先提出的3C(Chromosome Conformation Capture)技術,用于測定染色體特定位點之間的交互作用。之后發展出了4C、5C?技術,?分別用于測定染色體上一點到多點和多點與多點之間的交互作用。在2009年Job Dekker?又開發出了Hi-C?技術實現了全基因組范圍內的染色體片段間的相互作用的捕獲。Hi-C主要將空間結構臨近的DNA片段進行交聯,并將交聯的DNA片段富集,然后進行高通量測序,對測序數據進行分析即可揭示染色體片段間的交互信息。

目前Hi-C?技術主要的應用方向是輔助基因組組裝和染色質互作。輔助基因組組裝:在已有二代或三代組裝的Draft genome序列和已知染色體數目的前提下,利用Hi-C測序數據將Draft genome序列進行染色體群組的劃分,并確定各序列在染色體上的順序和方向,使基因組組裝組裝水平提升到染色體水平。染色質互作:利用Hi-C技術揭示基因組的一般結構特征,包括從隔室(A/B Compartments)到拓撲相關結構域(TAD),最后再到環(loop)的染色質層級結構;還可以與ATAC-seq、ChIP-seq、DNase-seq和RNA-seq等數據進行多組學分析揭示基因組三維結構與表觀遺傳修飾、基因密度和轉錄活性之間的關系。

說到Hi-C輔助基因組組裝,百邁客還真是碩果累累呢!2018年就有三篇Nature Genetics和一篇Giga Science見刊,2019年才過去短短兩個多月,就已經有2篇Molecular Plant見刊了,這成果真是可喜可賀啊!

下面就聽小編娓娓道來吧~~

 

百邁客成功案例一:二倍體亞洲棉Hi-C輔助基因組組裝

英文題目:Sequencing of 243 diploid cotton accessions based on an updated A genome identifies the genetic basis of key agronomic traits.

中文題目:以更新的亞洲棉A基因組為基礎的243份二倍體棉花的重要農藝性狀的研究

發表期刊:Nature Genetics

發表時間:2018年5月

合作單位:中國農業科學院棉花研究所

研究方法:基因組、遺傳進化和全基因組關聯分析等

研究背景

棉花是世界上最重要的商業作物之一,同時也是研究植物多倍化的有價值的資源。亞洲棉最可能在馬達加斯加或印度河流域文明(巴基斯坦摩亨佐達羅)開始馴化,隨后分散到非洲和亞洲一些地區。亞洲棉最初在1000多年前作為觀賞植物引入中國。當在地方的農業生態環境適應和人類選擇影響的過程中,中國的Gossypium arboreum形成了獨特的地理種群,稱之為“sinense cotton”。雖然棉花種植者已經基于RFLP和SSR markers構建了各種遺傳圖譜,但是G. arboreumG. herbaceum優良農藝和經濟性狀的基因尚未被鑒定。本研究中,利用了三代PacBio和Hi-C技術,重新組裝了高質量的亞洲棉基因組,分析了243份二倍體棉花種質的群體結構和基因組分化趨勢,同時確定了一些有助于棉花皮棉產量遺傳改良的候選基因位點。

材料選擇

基因組測序材料:二倍體G. arboreum栽培品種cultivar Shixiya1(SXY1);

自然群體材料選擇:243份棉花,包含230份亞洲棉G. arboretum和13份草棉G. herbaceum?[243份棉花選自國家種質基因庫(中國安陽),種植在中國農業科學院棉花研究所(ICR,CAAS)的溫室中],插入片段長度500 bp;測序深度6X;

遺傳群體材料選擇:親本(GA0146和GA0149),測序深度20X;2個混池(F2群體,有絨型和無絨型各20個子代),測序深度30X;

測序策略:PacBio RSII和Illumina HiSeq 2500分析軟件:基因組組裝(Canu和Falcon;Quiver;Pbjelly);TEs轉座元件注釋(RepeatScout,LTR-FINDER,MITE和PILER;Repbase;REPET;RepeatMasker);基因預測注釋(geMoMa;Augustus;PASA;EVidenceModeler;InterProScan)群體研究:比對注釋(BWA,Picard,GATK,ANNOVAR);群體結構分析(FastTree,PHYLIP,STRUCTURE);連鎖不平衡分析(Haploview);遺傳多樣性分析(π,Fst);全基因組關聯分析(EMMAX);

主要研究結果

1、亞洲棉基因組組裝更新

利用三代測序儀PacBio平臺共獲得142.54Gb的原始數據,組裝1.71Gb亞洲棉基因組,Contig N50=1.1 Mb,最長的Contig為12.37 Mb。利用Hi-C技術獲得超過20×的reads,將組裝的1573Mb的數據定位到13條染色體上,與已經發表的基因組相比,當Hi-C數據比對到更新的基因組后,對角線外的不一致性明顯減少(見圖1a和b)。

圖1,Hi-C數據在兩版亞洲棉基因組上的比對
注:a. Hi-C數據與亞洲棉原基因組比對;b. Hi-C數據與亞洲棉更新基因組比對

2、二倍體棉花群體遺傳進化分析

共計選擇了243份二倍體棉花材料:230份亞洲棉G. arboreum?(A2)?和13份草棉G. herbaceum?(A1),來自于中國南部(SC),長江(YZR)和黃河(YER)。以雷蒙德氏棉(G. raimondii)為外群,構建系統發育樹顯示,G. herbaceum(草棉)和G. arboretum(亞洲棉)聚類成2個獨立的群(見圖2a和b)。G. arboretum(亞洲棉)進一步又分為SC,YZR和YER三個群,顯示了地理分布模式的差異,進而利用PCA分析支持這一結果(見圖2c)。

圖2 二倍體棉花的群體分層分析
注:a,243份二倍體棉花系統發育樹;b,243份二倍體棉花的群體結構分析c,PCA主成分分析(中國亞洲棉的PCA分析;亞洲棉和草棉的PCA分析)

3、選擇性清除分析與GWAS分析

人工選擇在農作物的馴化和遷徙的過程中具有重要的作用。群體結構分析顯示當K=4時,YER與SC和YZR明顯不同(圖2b,K=4)。通過兩兩群體間的選擇性清除分析(FST)鑒定出了分別覆蓋到59,53和51個顯著遺傳分化的區域。SC和YZR之間的21個分化的區域(約43.5 Mb?含有915個基因)在群體SC和YER之間是保守的(圖3a)。對來自不同環境下的11個重要性狀進行全基因組關聯分析,在98個顯著關聯的信號中,其中25信號個來自基因區(外顯子或內含子區),包含與形態性狀相關的8個信號區,與產量性狀相關的6個信號區,與油籽性狀相關的3個信號區;剩余73個信號來自非編碼區。大部分農藝性狀的GWAS關聯信號中顯示地理差異,如分支數,開花期,鈴重和抗病性這些性狀定位在保守的基因區(圖4b)。

參考文獻:Du X, Huang G, He S, et al. Resequencing of 243 diploid cotton accessions based on an updated A genome identifies the genetic basis of key agronomic traits[J]. Nature genetics, 2018, 50(6): 796.

 

百邁客成功案例二:異源四倍體陸地棉和海島棉Hi-C輔助基因組組裝

英文題目:Reference genome sequences of two cultivated allotetraploid cottons?Gossypium hirsutum?and?Gossypium barbadense.

中文題目:兩個異源四倍體陸地棉和海島棉基因組破譯

發表期刊:Nature Genetics

發表時間:2018年12月

合作單位:華中農業大學作物遺傳改良國家重點實驗室

研究方法:基因組、比較基因組分析、遺傳圖譜構建及QTL定位等

研究背景

棉花是世界上最大的天然紡織纖維來源,每年纖維產量的90%以上來自異源四倍體棉花(G. hirsutumG. barbadense),它起源于大約1-2百萬年前的異源多樣化事件,隨后是數千年的不對稱亞基因組選擇。陸地棉(G. hirsutum)由于其高產而在全世界種植。G. barbadense以其卓越的纖維質量而受贊譽。為了培育產生纖維更長,更細和更強韌的陸地棉(G. hirsutum)品種,一種合理有效的方法是將海島棉(G. barbadense)的優良纖維性狀引入陸地棉。基因組學啟動的育種策略需要對基因組組織進行詳細而有力的理解。

材料選擇

高度純合陸地棉(TM-1)和海島棉(3-79),用于基因組測序;由陸地棉Emian22作為受體親本,海島棉3-79作為供體親本構建包含168個個體的CSSLs群體,做重測序,平均深度?> 6×;13份二倍體D型基因組的棉花做重測序,平均深度?> 15×;Xuzhou 142與其自然突變體Xuzhou 142f1雜交,構建F2群體,做混池測序。

測序策略:PacBio RS II、BioNano和Illumina HiSeq

分析軟件:

基因組組裝:Canu (version 1.3)?,BLASR (version 1.3.1)?,BWA (version 0.7.10-r789)?,Pilon(version 1.22)?;光學圖譜糾錯:核酸內切酶Nt.BssSI23,AutoDetect,IrysSolve;Hi-C染色體掛載:核酸內切酶HindIII,BWA(version 0.7.10-r789),LACHESIS,HiC-Pro;基因組完整性評估:BUSCO評估;TE注釋:PASTEClassifier (version 1.0);RepeatMasker (version 4.0.6);基因預測和注釋:Genscan,Augustus (version 2.4),GlimmerHMM (version 3.0.4),GeneID (version 1.4)和SNAP (version 2006-07-28);GeMoMa (version 1.3.1);假基因組預測:GenBlastA (version 1.0.4),GeneWise (version 2.4.1);

著絲粒區域鑒定:blastn,SPSS software (version 17.0)?;基因組共線性分析:MUMmer (version 3.23),GATK(version 3.1.1),Samtools(version 0.1.19)?,MCScanX package;結構變異檢測:MUMmer3 (version 3.23);二倍體棉重測序SNPs鑒定:Trimmomatic (version 0.32),BWA;包含168個個體的CSSLs群體SNPs鑒定:BWA,GATK和Samtools;CSSLs群體QTLs定位與表達分析:QTL IciMapping (version 4.0)?;TopHat2 (version 2.0.13)?;Cufflinks (version 2.2.1);STRUCTURE (version 2.3)?;TASSEL software (version 5.0)?;

主要研究結果

1、陸地棉Gossypium hirsutum和海島棉Gossypium barbadense基因組組裝及注釋

???本研究利用PacBio RSII、BioNano和Hi-C技術組裝出了高質量的異源四倍體陸地棉G. hirsutum?acc. TM-1和海島棉G. barbadense?acc. 3-79基因組,最終組裝出26條染色體。在陸地棉和海島棉中分別預測到70,199和71,297個基因,PacBio數據分析顯示,在全基因組范圍內陸地棉6mA甲基化占所有腺嘌呤的0.21%,海島棉占0.22%。且6mA甲基化修飾在每條染色體上是均勻分布的,而5mC修飾在染色體臂中分布較少(見圖1)。

圖1 陸地棉和海島棉染色體特征(含表觀遺傳標記)

?2、陸地棉和海島棉染色體結構變異分析

高質量的參考基因組使研究人員直接通過比較基因組就能鑒定大的結構變異成為可能。發現有170.2 Mb的基因組序列被鑒定為G. hirsutumG. barbadense之間的倒位,包括120.4 Mb的At亞基因組和49.8 Mb的Dt在A06染色體中發現了4個大的倒位變異,包括3個染色體臂內倒位(in1, in3 and in4)和1個染色體臂間倒位(in2),通過Hi-C數據在斷點周圍離散的染色質相互作用(圖2a),突出了Hi-C技術識別大規模染色體重排的優勢。光學圖(BioNano optical maps)譜數據進一步支持了這些反轉斷裂位點(圖2b)。

 

圖2,陸地棉和海島棉A06染色體倒位鑒定
注:a,Hi-C互作熱圖;b,光學圖譜鑒定

3、漸滲系的構建及QTLs定位

由陸地棉Emian22作為受體親本,海島棉3-79作為供體親本構建包含168個個體的CSSLs群體,旨在引入有利的變異,如纖維質量。QTL定位分析,共鑒定到5個性狀的13個QTLs位點,其中控制纖維長度位點2個,控制纖維強度位點4個,馬克隆值位點2個,纖維伸長率位點2個,纖維均勻度位點3個(圖3)。在這些QTLs位點中,9個位點之前未被鑒定出,通過檢驗13個QTLs中的基因表達水平,研究人員檢測到了235個在纖維發育過程中高度表達的基因,同時還整合了基因組變異數據來預測候選基因,而這些基因值得進一步進行精細定位以確認對這些性狀具有重要影響的基因。

圖4,QTL定位結果展示
注:a,陸地棉纖維質量相關QTLs分布(紅框);b,纖維長度相關QTL定位;c,纖維伸長率相關QTL定位

參考文獻:Wang M, Tu L, Yuan D, et al. Reference genome sequences of two cultivated allotetraploid cottons, Gossypium hirsutum and Gossypium barbadense[J]. Nature genetics, 2019, 51(2): 224.

 

英文題目:Allele-defined genome of the autopolyploid?sugarcane Saccharum spontaneum L.

中文題目:同源多倍體(Saccharum spontaneum L.)基因組等位基因鑒定

發表期刊:Nature Genetics

發表時間:2018年10月

合作單位:福建農林大學基因組與生物技術研究中心

研究方法:基因組、比較基因組、群體遺傳進化等

研究背景

栽培甘蔗(Saccharum?spp., Poaceae)相比其它主要作物與眾不同,因為它是多倍體種間雜種,具有極其復雜的基因組。目前甘蔗是世界上收獲量最大的第一作物和第五價值作物(FAO, 2012),甘蔗種植在90多個國家的約2600萬公頃土地上,每年收獲18.3億公噸,總產值接近570億美元,提供80%的糖和40%的乙醇,作為主要的糖和生物燃料原料作物。雖然現代甘蔗栽培種的高含糖量來源于栽培種“S. officinarum”,但是它們的耐寒性,抗病性和再生能力更多的來自于與含糖量低的親本“S. spontaneum”的回交中。Saccharum officinarum品種(2n= 8x=80),在莖中積累蔗糖達到干重的50%,但是易受生物和非生物脅迫的影響。自然狀態記錄下染色體數目最少的S. spontaneum種質(2n = 5x =?40)已經不存在了,然而,由另一種八倍體SES208單倍化形成的S.spontaneum“AP85-441”(1n = 4x = 32)為甘蔗染色體的原型的組裝提供了基礎。本研究闡釋了最重要,復雜基因組的基因組作物S. spontaneum遺傳藍圖和進化歷史。

材料選擇

S. spontaneum?AP85-441用于基因組測序;64份世界種質資源庫材料進行重測序;

測序策略:IlluminaHiSeq 2500和PacbioRSII

分析軟件:

基因組組裝:BAC文庫測序數據初步組裝(組裝軟件:ALLPATH-LG,SPAdes和SOAPdenovo2,保留組裝最好結果);PacBio測序數據糾錯組裝(CANUv1.5);Hi-C染色體分群(ALLHIC)。

基因注釋:重復序列預測(RepeatModeler),TE轉座子序列鑒定(RepeatMaskerversion 4.05;TEclassversion 2.1.3),串聯重復序列分析(TRFpackageversion 4.07);基因注釋(MAKER,JBrowse,Trinity,PASA,SNAP,GENEMARK,AUGUSTUS等);注釋完整性評估(BUSCOversion 3);

等位基因變異及優勢表達分析:單倍體基因組構建(nucmer,MUMmerpackage,Assemblytics);等位基因鑒定(MCScanX,GMAP);等位基因變異分析(nucmer,Assemblytics);等位基因的優勢表達(Trimmomatic,HiSAT2)。

重測序群體結構分析:序列比對與變異檢測(Bowtie2,SAMtools,BWA,GATK,SnpEffv3.6c);基因組遺傳多樣性評估(π,Tajima’sD);PCA分析(VCFtools,PLINK);系統發育分析(ML trees,PHYLIP package);群體結構分析(Admixture,STRUCTURE);基因組重排區遺傳多樣性與不同多倍體種質的基因組遺傳多樣性分析(π,SNP density,Tajima’sD)。

主要研究結果

1、基因組測序組裝

本研究中利用Illumina、PacBio和Hi-C技術,加之本研究團隊研發的最新算法ALLHIC成功的將甘蔗基因組組裝到染色體水平,最終組裝出32條染色體,錨定了2.9 Gb基因組,涵蓋了97%的基因含量。進一步利用998,370 SNPs的高密度遺傳圖譜來驗證Hi-C組裝的結果,在兩種方法中,89%的contigs的順序是一致的。32條染色體中包含了8個同源組群和4組單倍型A,B,C和D(見圖1)。

圖1?S. spontaneum?AP85-441染色體與高粱染色體的比對

2、基礎染色體數目的減少

AP85-441基因組的組裝顯示了S. spontaneum的染色體數目從10降到8,而這與頻繁復制的古復制染色體對相關,通過與高粱的聚類比對,發現高粱祖先5號染色體和8號染色體同源物經歷了染色體裂變(見圖2)。SbChr05(A12)的祖先染色體斷裂分為兩個主要部分,即C5S(A12S)和C5L(A12L),分別轉移到SbChr06(A2)和SbChr07(A5)的祖先染色體;SbChr8(A11)的祖先染色體斷裂為兩個主要的部分,即C8S(A11S)和C8L(A11L),分別轉移到SbChr09(A6)和SbChr02(A7 + A9)的祖先染色體中。SbChr8和SsChr5之間及SbChr5和SsChr7之間近乎同源的短片段是在高粱與甘蔗分化前,高粱SSA形成于13.4 MYA同源基因的殘留物,同時發現,S5中較小的SSA區域和S8中SSA的較大區域在重排的AP85-441基因組中也是保守的。

圖2 禾本科染色體數進化(高粱n = 10到甘蔗n = 8)

 

3、S. spontaneum的起源與遺傳多樣性分析

研究中對世界種質資源庫的64份S. spontaneum材料進行重測序,發現其核苷酸多態性(π)[0.00021±0.000002 ]遠遠低于其它克隆繁殖的作物,如馬鈴薯,木薯,葡萄和柑。通過PCA主成分分析及群體結構分析發現64份材料分為3個群,這些群體也受到自然和地理起源推斷的64份種質的系統發育關系的支持(見圖3),group1來源于菲律賓,印度尼西亞和巴布亞新幾內亞;group2和group3來源于印度,巴基斯坦和伊朗。基因組倍性在三組中差異很大(從6x-16x)。通過系統進化分析發現,表明不同的倍性可能是從祖先獨立進化而來的。

圖3 64份甘蔗的群體結構與進化關系分析

參考文獻:Zhang J, Zhang X, Tang H, et al. Allele-defined genome of the autopolyploid sugarcane Saccharum spontaneum L[J]. Nature genetics, 2018, 50(11): 1565.

 

百邁客成功案例四:異源四倍體野生花生Hi-C輔助基因組組裝

英文題目:Genome of an allotetraploid wild peanut?Arachis monticola: a de novo assemble.

中文題目:異源四倍體野生花生(Arachis monticola)基因組組裝

發表期刊:Giga Science

發表時間:2018年6月

合作單位:河南農業大學

研究方法:基因組

研究背景

花生作為我國重要的經濟作物,廣泛種植于熱帶和亞熱帶地區,是提供重要的蛋白和油料的基礎。作為豆科的重要分支之一,花生屬一共包括30個二倍體品種,1個異源四倍體野生花生(A.monticola)和1個異源四倍體栽培花生(A.hypogaea)(2n = 4x = 40)。作為栽培花生農藝性狀改良的重要野生資源供體,野生四倍體花生的基因組也一直是國內外學者的研究熱點。成功破譯四倍體野生花生的基因組有助于科學家和育種專家對A.hypogaea起源及馴化過程的理解。

材料選擇

野生四倍體花生A.monticola

測序策略:Illumina X-ten、PacbioRSII和Bionano

分析軟件:

基因組組裝:Canu v1.5,WTDBG,Pilon(v1.22),LoRDEC v0.5,Falcon v0.7,quickmerge v0.2,Allpath-LG v1.4,IrysView v2.5.1等;Hi-C染色體掛載:HiC-Pro,LACHESIS,Pbjerlly2,GapCloser,Pilon;基因組質量評估:BUSCO pipeline v3.0.2?等。

主要研究結果

在這項研究中,研究人員以野生四倍體花生A.monticola為研究材料,進行測序得到36X SMRT subreads + 76X HiC data + 210X Bionano Irys data + 50XIllumina reads的測序數據,整合多種組裝工具的優勢,最終獲得了參考基因組水平的高質量組裝結果。又利用BioNano和Hi-C等方法對基因組進行區分最終A.monticola得到的subgenome與祖先A基因組A.duranensis、祖先B基因組A.ipaensis之間的比較。并利用Hi-C數據對獲得的基因組進行準確性評估(見圖1)。

圖1 四倍體野生花生及兩個二倍體祖先熱圖評估

參考文獻:Yin D, Ji C, Ma X, et al. Genome of an allotetraploid wild peanut Arachis monticola: a de novo assembly[J]. GigaScience, 2018, 7(6): giy066.

 

百邁客成功案例五:雜草稻Hi-C輔助基因組組裝

英文題目:Population Genomic Analysis and De novo Assembly Reveal the Origin of Weedy Rice as an Evolutionary Game.

中文題目:群體基因組分析結合從頭組裝揭示雜草稻作為進化演繹的起源

發表期刊:Molecular Plant

發表時間:2019年1月

合作單位:沈陽農業大學

研究方法:基因組、比較基因組、群體遺傳進化

研究背景

作物雜草化一直以來都是作物學領域的一大難題,尤其是雜草稻(Oryza sativa f. spontanea)的起源與演化,至今尚未破解。雜草稻具有很強的生態適應性,但其種群獨特的遺傳特征是如何被逐漸塑造的還不是十分清楚。在氣候快速變化和人口增長的的世界,從雜草植物中分離基因對提高產量和糧食安全至關重要。然而,由于缺乏雜草種的參考基因組,已經極大地限制了優良基因的發現和基因組結構水平上水稻雜草性的遺傳基礎。由于亞洲高緯度雜草稻(WRAH)分布到水稻種植的北部邊界(N50°14′),并且經歷了比栽培稻更強的選擇壓力,因此它強大的生態適應性可以為栽培的遺傳優良的水稻提供有利的基因資源。

材料選擇

研究中一共使用303個水稻樣本用于測序,包括從中國東北和日本北部的亞洲高緯度(WRAH)采樣的248種雜草稻中篩選出的48份核心資源;43份現在或已大面積種植的共存栽培稻商業品種(Japonica-C);26份從粳稻核心種質資源中篩選的溫帶粳稻地方品種(Japonica-L),在本研究中Japonica-M代表Japonica-CJaponica-L的混合組。此外,本研究中還使用了145份秈型水稻樣本,包括136份地方品種和9份優良品種以及其他3個典型的栽培稻亞群樣本(12份tropical?japonica、11份aus和3份aromatic)作者還收集了15份來自中國南方的中緯度雜草稻(WRSC)。

測序策略:Illumina Hiseq和PacBio

分析軟件:

303份水稻樣本的SLAF-seq結果SNP鑒定及系統發育樹構建:SOAP,MEGA 7.0;遺傳多樣性分析:BioPerl;QTL定位:利用親本WR04-6和Qishanzhan構建F8RIL群體,包含168個子代,通過SLAF-seq技術HighMap軟件構建遺傳圖譜和QTL定位;群體進化推演分析:DIYABC v. 2.0.3

基因組組裝:Canu,WTDBG,Pilon(v1.22),bwa;Hi-C染色體掛載:bwa,LACHESIS,Pbjerlly2;重復注釋:LTR-FINDER v1.05,MITE-Hunter,Repeat Scout v1.0.5,PILER-DF v2.4,PASTEClassifier,RepeatMasker v4.0.6;蛋白編碼基因預測及評估:Genscan,Augustus v2.4,GlimmerHMM v3.0.4,GeneID v1.4,SNAPversion 2006-07-28),GeMoMa v1.3.1,PASA v2.0.2,EVM v1.1.1;非編碼RNA預測:tRNAscan-SE v1.3.1;假基因預測:GenBlastA v1.0.4,GeneWise v2.4.1;基因功能和motif注釋:BLAST v2.2.31,BLAST2GO,InterProScan;結構變異檢測:MUMmer4;共線性分析:MCScanX;選擇壓力分析:PAML v4;

主要研究結果

1、系統發育分析

本研究利用來自中國和日本的48份WRAH種系,43份與WRAH共存的溫帶粳稻品種(Japonica-C),26份中國最早的溫帶粳稻品種(Japonica-L),四個典型的栽培稻亞群(12tropical?japonica,145?indica/xian,,11?aus和?3?aromatic),15份來自中國南方中緯度雜草稻(WRSC)以及已經發表了全基因組SNP信息的30份野生祖先種,基于SLAF-seq共檢測到122,777個高質量SNP,叫做122k-SNP,用于系統發育樹的構建(見圖1)。系統發育樹顯示,WRAH在系統發育上不同于Japonica-C,并且與溫帶粳稻Japonica-L群體形成了明確分群;WRSC種質與秈稻種質劃分到一個亞群。

圖1 系統發育樹分析

2、基因組測序、組裝及注釋

本研究基于單分子實時測序(SMRT)、高通量NGS和染色質構象捕獲(Hi-C)技術組裝了高質量的亞洲高緯度雜草稻WR04-6基因組。最終組裝出染色體水平的高質量基因組,包含12條染色體,大小為373.93Gb,contigN50位6.09Mb。最后,去除重復序列后通過從頭預測、同源預測和RNA-seq分析共獲得41,385個基因,有96.32%的基因在NR,KOG,,GO,KEGG,TrEMBL數據庫中得到了注釋(見圖3)。

圖3 Hi-C輔助基因組組裝熱圖
圖4 雜草稻基因組分布圖

3、比較基因組分析

利用OrthoMCL軟件檢測WR04-6、R498、Nipponbare和W1943(O. rufipogon)間核心的、非必須的和共有的基因家族。在WR04-6中鑒定到了909個擴張的基因家族,并且通過通路分析顯示,這些基因在光合作用和呼吸作用中顯著富集(p<0.01),例如氧化磷酸化、光合作用和核糖體的KEGG途徑,考慮其可以作為遺傳改良的信號。以O. barthii作為外群構建的進化樹顯示WR04-6與粳稻祖先的分化時間估計在3,706ya(1,235ya-6,326ya),見圖4。

圖4 以O. barthii作為外群構建的最大似然樹

參考文獻:Sun J, Ma D, Tang L, et al. Population Genomic Analysis and De novo Assembly Reveal the Origin of Weedy Rice as an Evolutionary Game[J]. Molecular plant, 2019.

 

英文題目:A Chromosome-Scale Genome Assembly of Paper Mulberry (Broussonetia papyrifera) Reveals the Genetic Basis of Its Forage and Papermaking Usage.

中文題目:染色體水平的基因組揭示構樹飼用和造紙的遺傳基礎

發表期刊:Molecular Plant

發表時間:2019年2月

合作單位:中國科學院植物研究所北方資源植物重點實驗室

研究方法:基因組、比較基因組等

研究背景

構樹(Broussonetia papyrifera,2n=2x=26)屬于桑科(Moraceae)構屬(Broussonetia)多年生喬木,是我國鄉土樹種和先鋒植物,有悠久的歷史和文化,因為蔡倫用它造紙而世界聞名。構樹的樹皮和樹干是造紙的優質原料,樹葉還可以作為蛋白飼料,其根、莖、葉、果實及種子均可入藥,富含黃酮類化合物;還是尾礦處理、生態綠化的理想樹種。然而,有關構樹的研究主要集中于造紙、藥理藥化、養殖以及生態綠化等應用方面,基礎生物學的研究很少。因此,構樹栽培改良的第一步是獲得其遺傳背景,以便能更好地掌握其特有特征的生物學機制。

材料選擇

生長5年的雌性構樹用于基因組測序;基因組測序的雌性構樹與未知雄性構樹雜交,獲得包含120個F1個體的CP群體用于構建遺傳圖譜輔助基因組組裝。

測序策略:Illumina Hiseq和PacBio

分析軟件:

基因組組裝注釋:基因組組裝:?ALLPATHS-LG,SSPACE,GapCloser,BioNano Genomics?,RefAligner,LoRDEC,Pbjelly,MAPS,ALLMAPS;Hi-C輔助基因組組裝:Hi-C-Pro,LACHESIS;基因組注釋:RepeatMasker (version open-4.0.5),PILER (version 1.0),RepeatScout (version 1.0.5),LTR-finder,MITE,PASTEClassifer,PASA,AUGUSTUS(vertion 3.0.3),SNAP,GlimmerHMM,GeneID,Genescan (version 1.1.0),),Genewise (version 2.2.0),TopHat2 (version 2.0.7),Cufflinks (version 2.2.1),GeneMarkS-T (version 5.1),?Genewise;基因功能注釋,InterProScan (version 5),Hmmscan (HMMER, version 3.0),BLAST2GO (version 2.5),BLASTP,Trembl,tRNAscan-SE (version 1.3.1),Infernal cmscan (version 1.1.1)。

比較基因組分析:直系同源基因鑒定:?OrthoMCL (version 2.0);系統發育樹構建與分化時間估算:?MUSCLE、Gblocks (version 0.91b)和RaxML(version 8),MCMCTREE評估分化時間;基因家族擴張和收縮分析:CAFE(vertion 3.1);染色體共線性分析、4DTV檢測及Ks值計算:MCscan。

主要研究結果

1、基因組組裝與注釋

本研究使用Illumina HiSeq和PacBio Sequel測序平臺,用Hi-C、光學(BioNano Irys)和遺傳圖譜輔助,進行雌性構樹的基因組組裝。獲得染色體水平的高質量構樹基因組,其大小為386.93Mb,scaffold N50是29.48Mb,有99.25%(357.56Mb)的基因組被錨定在13條染色體上,Hi-C熱圖評估(見圖1)。一共預測了30,512個基因,98.09%與已知基因同源并且得到了功能上的注釋。

圖1 熱圖驗證Hi-C輔助染色體組裝

??圖2 構樹染色體分布圖

2、構樹的基因組進化

利用14個物種(無油樟、亞麻、毛楊、棉花、擬南芥、黃瓜、苜蓿、桑樹、構樹、桃樹、葡萄、番茄、毛竹和玉米)的單拷貝直系同源基因構建系統發育樹,發現構樹與桑樹在同一分支,在大約3100萬年前與桑樹分開,與桃子的分化時間在大約7800萬年前(見圖3),該結果被4DTv的分析結果所證實,通過Ks分析進一步得到證實。

圖3 14個物種的系統發育樹

根據已報道的雙子葉植物祖先和譜系特異性WGD,本研究推測,古六倍化始祖的21條染色體至少經歷了11次大的染色體融和(cfus)和2次染色體裂變后產生了桑科中間狀態的12條始祖染色體(見圖4)。桑科的始祖染色體的數目與葫蘆科和楊柳科是相似的,但是與薔薇科(n = 9)、豆科(n = 6)、錦葵科(n = 16)和茄科(n = 16)是不同的。進化推演分析表明,構樹的染色體是從桑科的12條始祖染色體經27次融合和28次裂變重構的,說明構樹基因組在進化過程中至少經歷了68次的染色體融合和裂變。

圖4 構樹和其他6種植物基因組重構的進化推演

3、比較基因組分析

在構樹基因組中共發現15,254個基因家族,與桑樹分化之后,有431個基因家族擴張,230個基因家族收縮,表明在適應進化過程中,構樹中更多的基因家族經歷了擴張而不是收縮。另外,與苜蓿、毛楊和甜橙相比,轉錄因子發生明顯收縮(58個家族共1,342個轉錄因子,占蛋白編碼基因的4.4%)。肌動蛋白在植物的生長和發育的很多層面扮演著重要的角色,在酵母和很多動物中,肌動蛋白僅被一個單基因編碼。在構樹中僅發現4個肌動蛋白,少于藻類、小立碗蘚和無油樟。

參考文獻:Peng X, Liu H, Chen P, et al. A Chromosome-Scale Genome Assembly of Paper Mulberry (Broussonetia papyrifera) Provides New Insights into Its Forage and Papermaking Usage[J].?Molecular plant, 2019.

百邁客HI-C研究優勢百邁客自2016年初以來,利用Hi-C技術進行染色體水平的基因組組裝及染色體三維構象的研究,成功開發出六堿基、四堿基酶切方案,組裝、互作輕松拿下。在植物Hi-C領域,更是邁進了一大步,在同行還只能處理植物活體樣本的時候,我們已經可以輕松“駕馭”離體枝條。迄今為止,保持著近100%的建庫成功率,完成近300個物種,近千個文庫構建;文庫含酶切位點的有效數據比例最高達93%以上,平均比例高達68%。另外百邁客在Hi-C技術方面獲得一個專利和兩個軟著。Nature Genetics、Nature Communications、Molecular Plant等一大波Hi-C的高分文章在審稿或已接收的路上,后續會陸續與大家見面,敬請期待~~

如果您的科研項目有問題,歡迎點擊下方按鈕咨詢我們,我們將免費為您設計文章方案。

 

推薦文章
网络棋牌看牌器 云南时时彩开奖走势图百度 六台宝典app下载 推牌久压钱的技巧 查下福建快三开奖结果 上海时时号 极速时时彩必中规律 怎么买nba系列赛输赢 白小姐现场开奖记录 快乐十分任4中奖多钱 重庆时时彩走势图怎么看 河南快3走势图彩经网 四川快乐12手机版下 极速时时输钱的原因 财神捕鱼辅助 吉林时时怎么玩法 上海时时乐下载