【技術貼】系統進化樹介紹及繪制詳解

系統發育分析中,最重要和最常見的內容為構建系統發育樹。系統發育樹也稱為系統發生樹(phylogenetic tree)、聚類樹或者進化樹(evolutionary tree)。以樹狀結構表示各個節點的進化關系,枝點可以是物種、同一物種的樣本、基因等單元。

進化樹中各個元素的介紹如圖1所示

圖1 進化樹的結構示意圖

根據是否指定了根節點,系統發育樹可以分為有根樹和無根樹。
有根樹指定了根節點,樹中可以看出各個節點的距離和祖先節點以后各個分枝分化的先后關系,因此可以用于分化時間的推斷;
無根樹沒有指定祖先節點,只能看出各個節點的拓撲結構和相對距離。
無根樹和有根樹圖示如圖2。圖2左邊的進化樹只看到了材料的聚類關系和相對距離的遠近,無法判斷哪個分枝屬于較為古老的分枝,哪個分枝為比較年輕的分枝;而圖2右邊的進化樹加了外群,并且把外群指定為根,所以從圖中除了可以看到材料的相對距離以外,還可以可以看到各個分枝材料的分化順序。有根樹根的選擇應有所講究,一般選擇所研究的材料(根以下的全部材料)的最近的共同近緣種作為外群。

圖2 無根樹和有根樹[1,2]

隨著測序成本的下降,簡化測序和全基因組重測序在遺傳進化中的應用變得越來越廣泛,對研究群體進行簡化測序或者全基因組重測序獲得的用于分析的標記通常為SNP標記,有許多研究人員獲得SNP標記后,往往不知道如何利用SNP標記進行進化樹的構建,腦子往往一直停留在序列比對–修改–構建進化樹的階段,其實基于SNP進行進化樹的構建的過程相當簡單,每個樣本的每個位點連起來就是一條序列,因為每個樣本的SNP數目相同,所以比對這一步就可以直接省去了。

下面小編就從VCF開始,告訴大家如何用比較流行的MEGA軟件進行進化樹的構建,我們只需要準備兩個軟件:TASSEL(https://bitbucket.org/tasseladmin/tassel-5-standalone/downloads/?tab=tags)和MEGA7(http://www.megasoftware.net/)即可完成進化樹構建的全部操作。

VCF轉MEGA格式。用TASSEL打開VCF文件,另存為Phylip格式(Save As — ?Phylip(Interleaved)),如圖3,然后用MEGA7把Phylip文件轉換成MEGA格式(File — Convert File Format to MEGA — 選擇剛才轉出的Phylip文件按提示操作存成.meg文件),轉出的格式如圖4,前兩行為文件頭信息,無實際意義,但是必有。“#33-16”表示樣本編號,與fasta文件的格式不同,mega格式樣本的起始不是“>”而是“#”,接下來便是該樣本的SNP連接成的序列信息。

圖3 使用TASSEL把VCF轉為Phylip(Interleaved)格式

圖4 MEGA文件格式

進化樹構建步驟:

1、mega文件導入:
File — Open A File/Session — 選擇要導入的文件,選擇數據類型(如果是SNP即為Nuceotide Sequences),提示Protein-coding nucleotide sequence data時,選擇No,即不把DNA序列翻譯成蛋白序列構建進化樹,如圖5。

圖5 meg文件導入

2、進化樹的構建
選Phylogeny選項卡,在可選的方法中選擇一種方法進行進化樹的構建,種內材料一般選擇NJ法即可,屬內種間或屬以上材料可以用ML(maximum likelihood tree)法(ML法計算之前,可進行最優模型的選擇:Models — Find Best DNA/Protein Models,使用選出的最優模型進行ML樹的構建),下面以NJ法為例進行說明。
參數設置,主要填寫Bootstrap值,一般選擇500或1000次;Model一般用Kimura 2-parameter Model(K2),如果K2模型運行不了,可以換成p-distance模型;Gaps/Missing Data Treatment選擇Partial deletion或者pairwise deletion,選擇complete deletion時帶有缺失值的標記都會被刪除,所以必須謹慎;Site Coverage Cutoff與我們常說的完整度相同,一般填寫成我們過濾標記時使用的完整度,上述參數設置完成后,點擊compute即可。(見圖6)

圖6 參數設置

進化樹的著色

用MEGA完成進化樹的構建后,可以將結果保存為nwk格式(File — Export Current Tree(Newick)),保存original樹(推薦)時,既輸出枝長,又輸出bootstrap值,而bootstrap consensus tree則只能輸出bootstrap值。
獲得nwk格式的進化樹后,需要對其進行展示,以便從直觀上判斷材料間的聚類關系,界面版的MEGA自帶簡單的展示功能,可以對進化樹進行展示,但其功能較為簡單,無法滿足著色、添加額外信息等較為個性化的要求。從功能的豐富度來說,iTOL(https://itol.embl.de/)、EvolView(http://www.evolgenius.info/evolview/)、ggtree(https://github.com/GuangchuangYu/ggtree)應當是功能較為齊全的軟件,其中,ggtree是R軟件包,可以在本地操作,但需要編寫代碼,使用起來并不十分方便。三款軟件中,從操作的簡易度,效果的美觀程度來看,iTOL都是最佳的選擇,下面將以iTOL為例子,說明對進化樹結果的展示方法。

1、打開iTOL主頁以后,選擇上端的Upload選項,出現輸入界面后,可以在Tree text框中粘貼nwk中的內容,也可以通過【選擇文件】選項選擇需要展示的進化樹,之后點擊Upload即可。

圖7 iTOL上傳文件

2、進化樹著色,按照iTOL的要求,填寫一個顏色配置文件,填寫方法如該鏈接的說明https://itol.embl.de/help/colors_styles_template.txt,給末端分枝著色的配置文件填寫如下圖,[2,branch,#984EA3,normal,1]中2為樣本ID,branch表示給樹枝上色,#984EA3為16進制顏色代碼,normal表示線條的樣式為正常的實線,1表示枝條的大小為1,該文件必須以.txt結尾,填寫完成后,將其拖入進化樹的界面即可。

圖8 分枝著色配置文件

3、進化樹的調整,導入進化樹后,右上角會出現一個control面板,該面板包含【Basic】、【Advanced】、【Datasets】、【Export】三個標簽項。常進行進化樹展示的朋友對【Basic】、【Advanced】和【Export】三個標簽項的內容和操作應當熟練掌握。

4、分枝顏色的統一。上面的著色例子只對末端分枝進行了著色,有時候,我們需要對某個分枝的樣本進行顏色的統一,可以選中該分枝并點擊鼠標,在彈出的下拉框中選擇color — set clade color — 選擇想用的顏色或填入對應的顏色代碼即可。

圖9 分枝統一著色

5、樹根的指定。選擇需要指定為根的枝點,在彈出的下拉框中選擇Tree structure — Reroot the tree here即可。

圖10 指定樹根

6、編輯確定后,點擊右上邊的Save all changes即保存了當前的編輯,編輯完成并保存后,選擇export選項卡,選擇輸出文件的格式,一般選擇svg/pdf等矢量圖格式,Export area務必選擇Full image。

圖11 保存編輯與輸出

當需要輸出帶枝長的進化樹時,應當將樹圖拖動到與標尺靠近的位置,避免輸出的圖像中樹圖與標尺距離過大。

圖12 拖動進化樹使其靠近Tree Scale

至此,基于SNP構建并編輯進化樹的工作就算基本完成了,如果還想要各種比較炫的效果,可以參照iTOL的幫助文檔進行操作,包你能夠獲得一棵華麗麗的進化樹。

參考文獻:
1.Cheng F, Sun R, Hou X, et al. Subgenome parallel selection is associated with morphotype diversification and convergent crop domestication in Brassica rapa and Brassica oleracea[J]. Nature genetics, 2016, 48(10): 1218.
2.Zhou Z, Jiang Y, Wang Z, et al. Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean[J]. Nature biotechnology, 2015, 33(4): 408.

大項目事業部 謝 坤 | 文案
周 剛 | 審核
圖片來自網絡,侵刪

最近文章
网络棋牌看牌器 新强时时彩最新开奖结果 排三走势图带连线的专业版 一分赛走势怎么看 cpcp彩票安卓版下载 老时时开奖历史结果 江西时时视频直播 福彩三分彩走势图 六肖中特最准网站 江西三调app 免费生产计划软件 北京足球指数 模拟大乐透摇奖机 大佬彩票是黑平台吗 合数单双中特 极速时时软件 pc蛋蛋是哪个地方彩票