【文獻精讀】GWAS與Hi-C搭配,更有內涵噢

捕獲Hi-C測序鑒定33個乳腺癌風險基因座潛在的110個靶基因

1.研究背景

目前GWAS研究已經鑒定了約100個乳腺癌易感基因座。絕大多數乳腺癌風險SNP位于非編碼區,可能影響基因轉錄調控;甚至有許多風險SNP位于“基因沙漠”中,即距離最近的蛋白編碼基因數百Kb遠。鑒定這些風險位點作用的靶基因有助于深入理解這些GWAS風險位點的作用機制。鑒定乳腺癌風險位點功能的系統性方法,主要包括大基因組區域的精細定位、SNP基因型與鄰近基因表達之間的相關分析(eQTL,基因表達數量性狀定位)和染色質構象捕獲技術(Hi-C、CHIA-PET等)鑒定調控區域的靶基因。

2.研究方法

利用Capture Hi-C(CHi-C)技術在6種細胞系中對68個乳腺癌風險基因座進行高通量測序,即首先構建Hi-C文庫,針對該68個loci(目標區域共計14.7Mb)設計RNA捕獲探針(Agilent),雜交捕獲目標片段,最后上機測序,off-target(目標區域以外的) di-tags(插入片段兩端的Reads)定義為2端都未比對到風險基因座。

3.技術路線

4.研究結果

1、63個風險基因座的互作peak(loop)分布
在2種ER +乳腺癌細胞系(T-47D,ZR-75-1)、2種ER-乳腺癌細胞系(BT-20,MDAMB-231)、1種“正常”乳腺上皮細胞系 (Bre80-Q-TERT/Bre80)和1種非乳腺類淋巴母細胞系(GM06990)中進行了CHi-C測序。風險基因座定義為包含至少1個風險SNP位點在內,且包含與該SNP相關(r2>0.2)的所有SNP的一個連續區域。每個細胞系的互作peak數目在0-1744的范圍內,有12個基因座沒有在以上任何一種細胞系中鑒定到互作peak。剩余的51個loci中46個是與所有乳腺癌或者ER+乳腺癌風險相關的。

作者發現ER+乳腺癌細胞系中互作peak數目顯著高于ER-乳腺癌細胞系,且ER+乳腺癌細胞系中存在很大一部分距離大于2Mb的互作片段。分析樣本間互作peak的Jaccard相似性,發現ER+和ER-各自組內具有更高的相似性。

互作peak示例:下圖為10q26.13基因座的互作peak(loop),在ER+乳腺癌細胞系和正常乳腺上皮細胞系中鑒定到了互作peak,但是ER-乳腺癌細胞系中則未檢測到。互作靶基因的轉錄起始位點(TSS)位于捕獲區域內,并且和相距幾百Kb遠的特異的HindIII酶切片段形成環(互作Peak)。在T-47D細胞系中,這些遠距離片段與DNase I超敏位點、CTCF、FOXA1、GATA3轉錄因子結合位點以及雌激素受體ERα結合位點共定位。

2、定義潛在的靶基因
作者將靶基因定義為至少兩個細胞系中,定位到捕獲區域內或捕獲區域的順式作用區間(≤5 Mb)的基因,且其轉錄起始位點/TSS定位在相互作用片段上。以此為準能夠為51個基因座中的33個(64.7%)鑒定到110個推定的靶基因,其中94個為蛋白編碼基因,16個非編碼RNA。作者比較了GWAS風險SNP位點的臨近基因以及本研究中鑒定到的靶基因,發現其中24個基因座的鄰近基因是唯一的CHi-C靶基因(N = 9)或幾個CHi-C靶基因之一(N = 15)。

注:√表示鄰近基因與CHi-C靶基因一致,且有且僅有一個靶基因;√+表示該基因座鄰近基因為CHi-C靶基因之一;X 表示鄰近基因不是CHi-C靶基因。

3、CHi-C靶基因和eQTL分析
為了評估推定的靶基因在乳腺癌病因中具有因果作用的可能性,作者首先使用風險SNP(或與風險SNP連鎖不平衡的位點,r2> 0.8)和TCGA數據庫中的RNA-Seq數據(N=547)進行eQTL分析( TCGA),并對匹配的DNA甲基化數據和體細胞拷貝數變異進行了校正,根據ER狀態進行分層分析。共計鑒定到了22個顯著SNP-基因組合(t檢驗p<0.05),其中9個經過多重檢驗FDR校正后仍然顯著。其中,3個基因為鄰近基因。

4、CHi-C靶基因和疾病特異性生存期(DSS)分析
作者所納入的風險SNP在此之前只有一個位點(16q12.1-rs3803662)報道了與疾病預后相關。本研究中作者直接分析了代謝型乳腺癌隊列中潛在的靶基因的表達水平與的患者預后之間的關聯(分別對ER +和ER-亞組進行生存分析)。其中32個靶基因(33%)與ER +乳腺癌患者的DSS相關,6個DSS相關的靶基因為eQTL靶基因。

5、CHi-C靶基因和體細胞突變癌基因分析
CHi-C推定的靶基因與560個乳腺癌的全基因組測序分析得到的727個癌基因列表進行比較,CHi-C靶基因高度富集這些癌癥基因(n=14),包括證據充分的癌基因(CCND1、 CDKN2A、CDKN2B、MYC、MAP3K1、 ESR1和FGFR2)以及表征不明的癌基因(TET2、 KLF4、 MLLT10、FADD、TBX3、PAX9 和 ZFP36L1)。
綜合分析體細胞突變數據與eQTL和DSS三種指標,6個基因座至少有2個指標支持,見下表。其中4個基因CDCA7、FADD、ZFP36L1和MRPL34的表達水平同時與SNP基因型以及DSS相關。

怎么樣,Hi-C技術是不是非常強大,做完GWAS沒有鑒定到位于編碼區的候選SNP,或者全是基因沙漠區的候選SNP,如何開展下游機制研究呢?不妨試一試Hi-C測序。

參考文獻:Baxter J S, Leavy O C, Dryden N H, et al. Capture Hi-C identifies putative target genes at 33 breast cancer risk loci[J]. Nature communications, 2018, 9(1): 1028.

最近文章
网络棋牌看牌器 快乐十分能追号吗 三分赛走势 六后釆彩今晚开奖资料 飞鱼走势 分分彩扫微信二维码 上海快三下载安装 任选9场开奖结果奖金 pc蛋蛋开奖可以控制吗 北京时时视频直播 河北时时平台下载 快乐十分任三胆拖中奖 白小姐资料 曾道免费资料30码 内蒙古快三今天推荐号 大了透开奖开奖结果19084 福建时时官方预测