【文獻精讀】Nat Rev Genet綜述|基因組三維空間結構:染色質互作數據的分析統計和計算方法

目前,對基因表達調控的研究主要是以基因及其調控元件的線性關系為基礎,然而,基因不僅僅以簡單的線性形式存在,越來越多的證據表明染色質之間的相互作用在基因表達調節方面也起重要作用,即基因的表達調控存在三維空間網絡,基因表達可被遠程調控元件所調控。

基于3C的技術方法產生了大量的全基因組相互作用數據。本文(發表于2013年Nat Rev Genet)簡述了主要的實驗方法,更多篇幅用于描述最近開發的染色質互作數據集的分析、計算和建模方法。在此討論3種方法:第1種方法,其目的僅僅在于識別比預期更頻繁互作的一對或一組基因座,比如染色質環loop或特定的共定位事件,分析基因座間互作頻率以鑒定更高階的染色體結構域;另外2種方法分別為距離約束建模(restraint-based modeling)和聚合體(polymer)建模,使用包括基線互作和非特異性互作在內的所有互作數據來構建染色體空間模型的集合。之后,3D模型可以用來鑒定染色體空間組織的更高階結構特征和DNA元件,以估計折疊過程中細胞內的染色質動力學以及細胞間的可變性。在此,作者討論了這些方法的應用,包括如何確定染色體空間組織的原理,揭示新的染色質結構,并將這些結構與基因表達和調控聯系起來。

一、實驗技術——染色質構象捕獲及其衍生技術

染色質構象捕獲(chromosome conformation capture, 3C)技術原理是:(1)利用甲醛固定細胞核內的相互作用的染色質位點;(2)利用限制性內切酶將DNA切成片段狀;(3)再用DNA連接酶對片段末端進行連接,從而捕獲含有相互接觸DNA片段;(4)利用PCR 或者測序的方法檢測DNA片段的連接位點,獲得染色質不同位點相互接觸的頻率;(5)數據分析,推斷出染色質的空間位置信息,從而得到染色質相互作用位點的圖譜。

不同的3C衍生技術的區別在于捕獲的連接片段檢測和定量方式:

3C:經典的3C實驗中,通過基因座特異性引物PCR檢測單個連接產物,大多數3C通常僅能分析幾十到幾百Kb染色質之間的相互作用,通量低,費時費力——one vs one;

4C(“circular 3C”或“3C-on-Chip”):使用反向PCR產生單基因座的全基因組相互作用圖,研究已知DNA片段(bait)與全基因組未知DNA片段之間的互作——one vs all;

5C(Chromosome conformation capture carbon copy):基于3C的基本原理,結合連接介導的擴增 (ligation-mediated amplification,LMA)來增加3C檢測的通量,識別兩組大量位點之間并行的數百萬個相互作用,例如一組啟動子和一組遠端調控元件之間的互作——many vs many。

Hi-C(High-throughput chromosome conformation capture):用于對整個基因組所有位點間進行無偏差的作用分析的3C衍生技術,該技術有一個獨特的步驟,即限制性酶切消化后用生物素標記的核苷酸補平缺口,有助于選擇性純化用于測序的連接產物。Hi-C提供了一個真正全基因組范圍的相互作用圖譜(該圖譜的分辨率取決于測序的深度,常規測序數據量,即幾億reads時,小鼠或人類基因組中的染色質互作的檢測分辨率為100Kb)——all vs all。

此外,還有將3C與染色質免疫沉淀結合,以研究與特定蛋白結合的基因座之間互作的技術:

ChIP-loop(chromatin immunoprecipitation-loop assay):常見的是ChIP-3C,以過量的限制性內切酶將染色質-蛋白質交連物酶切消化后,用所研究蛋白質的特異抗體進行免疫沉淀,然后再連接酶切產物,后續步驟和3C相同——one vs one;

ChIA-PET(chromatin interaction analysis by paired-end tag sequencing):對感興趣的蛋白質結合位點之間的遠程互作進行全基因組分析——all vs all。

二、研究染色質的空間組織形式

源于成像技術的見解

利用各種改進的成像技術進行的詳細研究揭示了染色體在整個細胞核內的幾個組織原則:

1)在許多生物體的間期細胞中,染色體不易混合,而是占據它們自己的獨立區域;

2)染色體區域接觸的地方,可以形成交織的區域,為位于不同染色體基因座之間的潛在功能性互作提供機會;

3)轉錄事件在整個細胞核中并非廣泛地發生,而是發生在富含RNA聚合酶Ⅱ和轉錄以及RNA加工的其它組分的區域。這意味著積極轉錄的基因傾向于共同定位;

4)基因組的轉錄失活片段也傾向于彼此相關聯,并且常常位于核周邊、核仁周圍或果蠅中的亞核結構上,如多梳體。

這些發現表明細胞核在空間和功能上可以劃分不同區域,基因座的亞核定位與基因表達相關。

染色質構象捕獲及其衍生技術(3C-based technologies)

成像技術的缺點:不易全面分析完整基因組的三維折疊,且分辨率達不到Kb水平。

基于3C及衍生技術,克服了成像技術的缺點,能夠以足夠的分辨率在全基因組范圍內研究染色體折疊,以及涉及的基因和調控元件。詳細介紹見上述實驗技術——染色質構象捕獲及其衍生技術。

3C、4C、5C和Hi-C數據集互作圖示例:

三、解析染色質互作數據

這些3C及其衍生技術報告了細胞群體中兩個基因座空間上緊密接近的頻率,但未區分功能性與非功能性的位點間關聯,也未揭示導致其共定位的機制。空間上緊密接近包括以下幾種情況:1)Direct interaction:兩個基因座之間直接、特異性接觸的結果(由結合它們的蛋白質復合物介導);2)Interaction with the same sub-nuclear structures:成對基因座與相同亞核結構間接共定位的結果(例如核纖層,核仁、或轉錄工廠等)。3)Bystander interaction:在某些細胞中,由于鄰近的某些遠程互作或其他約束因素決定的染色質纖維的堆積和折疊的造成的非特異性接觸,或者由于擁擠核中的隨機(非特異性)碰撞導致的非特異性接觸。4)Baseline(polymer) interaction:染色質纖維非常長,而且柔韌,染色體具有聚合體性質,因此,即使在沒有任何特定高階結構的情況下,這個特征在很大程度上也決定了基因座間相互作用的頻率。

染色質纖維的精確三維結構在其它同類細胞之間甚至是高度可變的,并且在細胞內局部區域(大約Mb大小)是動態的。這解釋了為什么全面的染色質互作數據集通常顯示一個基因座幾乎與基因組中的任何其它基因座具有互作的概率。檢測到的每個染色質互作或連接產物實例,表示群體中單個細胞中的一對基因座的互作。因此,3C互作頻率數據代表細胞固定時,存在空間上緊密接近的基因座所在的那部分細胞,并且只有在基因組折疊顯示出巨大的細胞間異質性時才能解釋該數據。這些突出了全面染色質互作數據集的復雜性質:互作數據表示大量細胞群體間相互作用的總和,并且在每個細胞中染色體構象由作用于染色質纖維的許多不同約束決定。

目前,分析染色體構象的挑戰正在從開發用于生成日益全面和定量數據集的實驗方法轉變為構建分析工具以解釋相互作用數據。 作者闡述的第一種方法是用來識別點對點的成環互作,例如, 啟動子和基因調控元件之間的互作。

四、定位調控元件的靶基因

鑒定成環互作

后生動物基因組中,每個基因被大量元件包圍。一個主要問題是:決定特定時間哪些元件調控特定基因的原理是什么。基于最近十年的單個基因的詳細分析,以及最近更全面的全基因組范圍的研究報道發現,調控元件與其靶基因進行通信的主要機制是通過染色質成環(chromatin looping),這使得線性距離很遠的基因座可以在空間上密切接近。

單基因座研究中,經典的3C技術被用于檢測感興趣的元件之間的相互作用頻率,例如,啟動子和延伸至數百Kb的側翼染色質間。分析這樣的“錨定”(anchored)互作圖,可以找到比預期更頻繁地與錨定位點互作的遠側基因座,也就是成環互作(loop interaction)。通常,相互作用頻率隨著基因組距離的增加呈指數衰減。許多研究中,loop互作指在整體衰減基線之上觀察到局部峰(peak)。3C分析本質上是定性,并且基于互作圖的簡單視覺檢測來識別交互頻率中的peak。比較不同細胞或不同條件下獲得的互作特征,可以提供更多信息,包括統計定量以及當遠程互作是條件性或細胞類型特異性時的loop互作信息。

特定基因組成環互作示例

經典示例之一:基因座位控制區(locus control region,LCR)和相距40-80Kb的一組遠端β-珠蛋白基因之間的長程互作。小鼠和人類的3C研究檢測到珠蛋白表達細胞中這些元件之間的顯著互作,且這些互作在不表達這些基因的細胞中顯著較不頻繁(如大腦)。這些互作由特定的轉錄因子介導,包括結合LCR和基因啟動子的EKLF1和GATA1。此外,成環互作通過促進RNA聚合酶Ⅱ的募集和磷酸化直接促進轉錄。染色質成環構成基因調控元件在基因組遠距離調控基因的常見機制。

五、綜合分析Loop

5C數據loop分析
5C技術通過并行繪制多個基因座之間的互作圖譜,允許更全面地分析大量基因的染色質成環互作。例如,最近一項研究中,繪制了3種人類細胞系超過600個基因啟動子的互作圖譜,分辨率:單個限制性片段(?4Kb)。假設大多數交互不是特異的loop交互,從整個數據集中估計互作頻率的基線值,由此估計出各基因組距離的互作頻率基線。然后通過檢測顯著高于該基線的信號,以選定的p值和錯誤發現率鑒定loop互作。與經典的3C單基因座對研究相比,這種方法統計學分析上更嚴格,可以鑒定該基線上的顯著peak。示例見下圖。

5C的缺陷:1)受限于用于定義預期互作頻率的模型和假設;2)被檢測的細胞群體中的實際互作頻率(發生loop互作的細胞比例)仍然是未知的,并且可能非常低,這使得很難評估這些相互作用在任何給定細胞中的功能作用。

關于loop景觀的見解

盡管5C技術存在上述缺陷,但仍舊揭示了染色質不同區域間遠程互作參與基因表達調控的普遍規律。Sanyal等人發現了基因啟動子和遠端基因座之間有數千個重要的遠距離loop互作,強調了許多基因啟動子通過染色質環與遠端元件互作的觀點。普遍規律如下:1)許多染色質成環事件是活性基因啟動子和類似于活性增強子的遠端元件之間的細胞類型特異性互作,這與這些染色體結構在基因活化中的作用一致;2)其中一類豐富的遠程互作即是啟動子區與絕緣蛋白CTCF結合位點之間成環;3)通常認為調控元件可以調節最鄰近的基因,但是成環互作經常跳過一個或多個基因,這表明基因和元件的線性排列是它們之間功能和結構互作的較差預測因子;4)基因和調控元件之間的關系并不唯一:一個基因可以與多個遠端元件互作,同時一個元件也可以與多個基因互作。

此外,研究發現啟動子周圍的成環互作模式不對稱:啟動子可與位于轉錄起始位點上游或下游的遠端元件互作,但成環互作最常見于上游?120Kb。不對稱原因尚不清楚,但是可能暗示某種方向性。從這些研究可以看出,染色體是由遠距離互作驅動的高度復雜的三維網絡。同時提出了新的問題:介導它們的蛋白質以及這些成環互作如何促進基因調控。

六、拓撲相關結構域(topologically associating domains, TAD)

5C和Hi-C等技術,以不偏倚的方式對感興趣的基因組區域或整個基因組中的所有相互作用進行分析,從而鑒定染色體的結構特征。后生動物基因組的一個突出特征是形成各種類型的染色體結構域。果蠅、小鼠和人類染色體的研究發現,染色體由離散的拓撲相關結構域(TAD)組成,其大小為數百Kb(見下圖中每個綠色橫線對應的三角形,TAD染色質局部相互作用較為強烈的一個作用單元)。

包含小鼠X染色體失活中心的4.5Mb區域的高分辨率5C互作圖揭示了一系列大的結構域。位于這些TADs內的基因座往往頻繁地相互作用,但它們與位于其領域之外的基因座的相互作用要少得多,即TAD內部的相互作用強,不同TAD間的相互作用弱。這種特征使研究人員能夠通過分析分辨率較低的全基因組Hi-C互作圖與隱馬爾可夫模型方法結合,來識別整個人類和小鼠基因組中的TAD。TADs是染色體的通用結構模塊,人類和小鼠的基因組都由2000多個TAD組成,覆蓋了90%以上的基因組。

TAD是由遺傳編碼的邊界元件定義的。刪除X染色體失活中心中兩個TAD之間的邊界,導致兩個側翼TAD的部分融合(并非完全融合),這表明激活了一個新的邊界。全基因組研究發現TAD邊界富含CTCF結合位點,盡管CTCT也經常結合TAD內部基因座。TAD的邊界除了富集 CTCF的結構域,還有大量的持家基因、tRNAs、SINE 反轉錄轉座子等 DNA 元件。建立TAD邊界的機制仍不明確。

(CTCF, CCCTC binding factor,絕緣子結合蛋白,CTCF基因編碼的轉錄因子,與絕緣子的活性相關,CTCF與靶順式元件的結合可阻斷增強子和啟動子的相互作用,從而將增強子的活性限制在一定的功能區域。)

TADs的存在也提示了基因和遠端調控元件之間可能發生的loop互作會存在限制,loop互作局限于位于相同TAD內的元件。事實上,小鼠基因組中的初步分析表明增強子-啟動子相互作用在TAD內特別頻繁。也就是,TAD在調控基因表達方面具有主要作用,將基因限制于某些特定的遠端調控元件。對X染色體失活中心的TAD進行分析表明,相同TAD內的基因傾向于在細胞分化期間協調表達,可能是因為它們共享相同的一組基因調控元件。 TADs的存在可以為長期觀察到一種現象提供染色質結構層面的解釋,這種現象即相鄰基因通常在多種細胞類型中表達相關。

七、補充內容:基因組隔間(Genome compartments)

哺乳動物基因組的染色體內和染色體間相互作用圖揭示了一種相互作用模式,可以近似分為兩個隔間(A和B,或稱區室/隔室),它們沿著染色體交替,并且具有約5Mb的特征尺寸。A隔間優先與整個基因組中的其它A隔間相互作用。 同樣,B隔間與其它B隔間相關聯。隔間信號可以通過互作圖的特征向量擴展來量化。 A / B室信號不是簡單的雙相(僅代表兩種狀態),而是連續的,并且與轉錄活性指標,如DNA可及性、基因密度、復制時間、GC含量和幾個組蛋白標記相關。A-隔間主要是常染色質-轉錄活躍區域,B-隔間則主要是聚集在一起的異染色質(轉錄失活區域)。

Compartment的發現:Lieberman-Aiden 等(2009)在研究人染色質互作時發現,在分辨率為1 Mb時,得到的染色質相互作用矩陣圖中,由于染色質不同區間互作強度不同產生了明顯的“格子圖案”模型(plaid pattern),見下圖,從而將染色質大致分成2部分,A 隔間和B隔間。

圖片引自Comprehensive mapping of long-range interactions reveals folding principles of the human genome[J]. science, 2009, 326(5950): 289-293,互作矩陣中顏色表示每對1Mb基因座染色質間互作相關性系數(紅色:1,藍色:-1)。

TAD不同于較大的A和B隔間。:1)對胚胎干細胞、腦組織和成纖維細胞的分析表明,大部分的TAD在不同組織間保持不變,而A隔間和B隔間是活性和非活性染色質的組織特異性結構域,其與細胞類型特異性基因表達模式相關;2)A隔間和B隔間通常為幾Mb,并沿著染色體形成活性區域和非活性區域交替模式,相比之下,TAD較小(中值約為400-500Kb),可以是活性的或無活性的,并且相鄰的TAD不一定具有相反的染色質狀態。 因此,TADs似乎是染色體的硬件特征,并且一組相鄰TADs形成A隔室和B隔室。

未完待續:后面的部分著重闡述構建染色質的3D模型構建方法,即前面引言所述的另外2種方法:距離約束建模(restraint-based modeling)方法和聚合體(polymer)建模方法,由于篇幅所限,暫不列在本次解讀中。有關注的請留言,小編將后續部分后臺發送給您。

參考文獻:Dekker J, Marti-Renom M A, Mirny L A. Exploring the three-dimensional organization of genomes: interpreting chromatin interaction data[J]. Nature Reviews Genetics, 2013, 14(6): 390.

最近文章
网络棋牌看牌器 贵州快三走势图 海南四码彩票怎么研究 天津快乐十分开奖结果 免费彩票助赢软件 云南福彩快乐十分钟开奖结果势图 贵州11选5技巧 网上怎么买快乐12 江西快三最新版本下载 腾讯分分彩1个月赢40w 13334香港马会开獎结果 湖南快乐十分网上投注 福彩欢乐生肖开奖 昨天云南快乐十分开奖 德甲联赛直播 官方特马 广西快乐十分必赢公式