NC|nanopore全基因組重測序鑒定人類基因組非同義新生SNP

Nanopore測序錯誤率相對于二代平臺高,所以我們不推薦其做snp分析,但這不代表高深度ONT全基因組重測序不能用于snp分析。本期小編為大家分享一篇利用高深度ONT全基因組重測序進行snp分析以進行臨床應用的案例。

【研究背景和方法】

Nanopore長讀長測序在人類基因組測序方面主要優勢集中于基因組組裝及結構變異檢測方面。由于其堿基錯誤率較高,其在臨床應用所需的單核苷酸變異(SNV)檢測方面存在困難。

為了評估納米孔測序在臨床人類基因組學的應用潛力,作者利用便攜式MinION三代測序儀測序了2個人類基因組:基因組參考樣本NA12878,增加其測序深度,以評估和校準三代nanopore變異檢測方法;然后對伴有嚴重免疫失調的共濟失調性全血細胞減少綜合征患者進行測序,以解決與分子遺傳學診斷相關的2種新生蛋白編碼變異的染色體定相(phasing)相關問題。

【研究結果】

1.對參考樣品進行MinION全基因組測序

GM12878人B淋巴細胞采用PCR擴增和6kb片段篩選的文庫制備方案,共計獲得45,740,123條reads(圖1a),平均讀取長度為6373bp(圖1b)在流動細胞中是一致的,并且基于測序文庫的物理大小選擇非常接近預期。總數據量為273.4Gb,每個flow cell的平均產量為3.7Gb(圖1c)。總計42,924,782個高質量clean reads的比對率為99.3%,唯一比對率為88.8%。

比對上的reads平均堿基替換SNV發生率為12.7%(與參考堿基不同的頻率),平均缺失率為4.7%(參考序列中堿基缺失的頻率),平均插入率為3.2%(圖1d)。作者還評估了不同堿基識別算法對reads水平準確性的影響,發現Albacore v2.0.2實現了最低的未過濾替換錯誤率和缺失錯誤率,而其他方法具有較低的插入錯誤率。

平均每個堿基覆蓋深度(不包括缺失)為81.7X(圖1e),其中90.4%的基因組區域被至少40個reads覆蓋。9.6%人基因組區域覆蓋深度降低(<40×),反映文庫制備方案的PCR步驟中的擴增偏差(圖1f)。

圖1

2.NA12878中的單核苷酸變異SNV檢測

使用multi-platform Genomes in a Bottle (GIAB)作為黃金標準真實數據集評估ONT檢測SNV的準確性。NA12878樣本22號染色體數據運行FreeBayes方法檢測SNV,選擇獲得最佳F1分數的參數,與GIAB參考變異檢測集相比,實現了99.9%的總體一致性準確度,并且觀察到12.8%的錯誤發現率(FDR)和14.4%假陰性率(FNR),結合創造了86.4%的F1分數(表1)。在全基因組水平使用上述參數,獲得了10.9%的FDR,12.5%的FNR和88%的F1分數。

表1

為了更好地理解變異檢測錯誤的潛在來源,作者注釋了變異檢測位點,其中包含一系列關于參考序列和跨越位點的reads注釋。這些包括接近均聚物重復區域、較低的覆蓋深度、鏈偏好和存在大量短缺失的reads覆蓋區域(圖2左)。表明,假陽性(FP)和假陰性的主要驅動因素是均聚物和低覆蓋率。此外,使用高質量評分閾值(QUAL)來維持可接受的FDR會產生許多假陰性。

圖2

初始變異集中的大部分假陽性基因型是雜合基因型。使用ONT數據的好處是跨越多個雜合位點的長reads提供了糾正此問題的機會。當reads被分成代表親本單倍型的2組時,預期真陽性變異等位基因只固定在一個定相組(親本單倍體)存在,而假陽性變異預期在組之間均勻分布。據此,作者開發了單樣本、基于reads、無參考panel的定相算法。

使用過濾器改進變異檢測,通過phasing和注釋過濾器(Post?phasing classification)顯著改善變異檢測,最佳結果F1評分為92.2%,FDR為7.1%,FNR為8.5%(表1,圖2中)。進一步考慮覆蓋深度>=60X的假定變異位點(基因組的85%)時,觀察到F1得分改善至93.6%,FDR為6.1%,FNR為6.6%(圖2右),這意味著減少或消除覆蓋深度偏差源(如PCR)的操作改進在提高準確性方面可以發揮一定作用。(百邁客目前ONT全基因組重測序和ONT全基因組甲基化測序建庫過程正是PCR-free建庫–direct-DNA建庫,一是可減少覆蓋深度偏好,有利于提高變異檢測準確度;二是可以保留堿基修飾信息,同時檢測甲基化修飾等信息)

在推定的致病LOF變異(功能缺失突變:本文針對終止密碼子獲得和剪接位點突變)中,與全基因組真陽性突變(173/788782,0.02%)相比,FPs(假陽性突變,69/45219,0.15%)富集,但FPs在高度不耐受LOF突變的基因(pLI>0.90,17 FP對20 TP)與LOF突變耐受基因(pLI <= 0.10,46 FP對122 TP)中成比例地富集。

在每條read隨機堿基替換錯誤和無基因組擴增偏差的理想化模型下模擬NA12878數據集,與實測數據比較,表明均聚物缺失錯誤累積導致缺失變異檢測錯誤,納米孔測序中增加的測序覆蓋深度以減小均聚物相關FDR,目前受到基因組范圍的in-read缺失率的限制。

3.NA12878樣本突變定相

基因型是通過母本或父本單倍型遺傳的,但大多數基因分型方法,會產生非定相基因型檢測,即無法區分單倍型。基因型定相很有意義,除了上述促進變異檢測準確性的改進之外,還能夠進行許多遺傳分析,比如臨床用途中解決多個雜合LoF變異的共分離和鑒定新生突變的起源親本。作者開發的新型定相算法相比于其他算法,具有更低的錯誤率,其定相精確度類似于使用非常大的參考panel從SNP基因分型陣列數據定相常見變異所獲得的定相精確度。

4.NA12878樣本大片段結構變異檢測

大的結構變異相對于snp和indel少見,但其對罕見疾病的影響可能甚至比目前估計的更大,因為現有分析檢測這些突變存在技術困難。采用Sniffles檢測22號染色體SV變異,共計檢測到82個,其中22個是在GIAB真實數據集中存在的,之后通過ONT、Illumina和PacBio reads覆蓋數據來判斷剩余的60個SV:其中21個SV被Pacbio檢測到或reads強烈支持,31個SV僅ONT reads明顯證實,但PacBio reads很少或不支持。ONT特異性檢測SV可能代表其他技術遺漏的真實缺失、由PCR擴增產生的假象或在NA12878細胞系的細胞培養期間發生的亞克隆缺失。作者發現目前ONT平臺允許檢測大的缺失,靈敏度在60%-91%(21/35和32/35)。

僅ONT檢測到的缺失突變示例

5.使用MinION對臨床樣品進行全基因組測序

鑒于長reads可成功地檢測雜合變異,作者試圖使用全基因組納米孔測序來解決具有不確定的免疫調節病癥的個體基因組臨床問題。簡而言之,女性患者最初在嬰兒期出現復發性感染、低丙種球蛋白血癥、血小板減少癥和輕度貧血,并且在兒童時期出現慢性炎癥,在成年早期出現進行性神經系統癥狀。

患者及其父母組成的核心家系3個樣本Illumina平臺全基因組重測序(PE 126bp)結果:發現了84個高置信度的新生SNV,一個接近預期范圍上限的數字,這與受孕時的父母年齡(母親是38歲,父親39歲)一致。其中3個變異預測為導致蛋白序列改變,2個位于SAMD9L基因蛋白質編碼區中。該基因中罕見的雜合變異最近涉及常染色體顯性遺傳性共濟失調性全血細胞減少綜合征(OMIM:#159550),并且有證據表明造血組織的出生后逆轉可能與較輕微的疾病表現相關。雖然這2個非同義突變(c.1076 G>A和c.3353 A>G; p.R359Q和p.Y1118C,NM_152703.3)位于同一個外顯子中,但它們相距2277 bp,所以不能直接使用Illumina reads進行定相;其附近缺乏遺傳的雜合變異也阻止將突變定相于親本單倍型。解釋這個問題對于解釋每個等位基因的致病潛力非常重要,解決此類問題的能力與類似情況下的生殖決策直接相關。

全血樣本Nanopore全基因組重測序結果:在34個R9.4 MinION flowcell中共計產生122 Gb數據量(16,692,656 reads,約40X),比對率為99.1%。通過上述在NA12878樣本確定的變異檢測和定相方法進行分析。

ONT數據基因組覆蓋深度統計

不出所料,ONT數據也鑒定到了具有預期雜合基因型的c.1076 G> A和c.3353 A> G變異。使用ONT reads對其他附近變異進行定相,以確認新生變異的遺傳和來源(圖3)。這2個新生突變被定相于一個199kb的block內,33條reads(6.1-18.9kb)跨越2個新生突變位點,11條reads包含新生突變等位基因,8條reads包含2個參考等位基因,表明突變的等位基因是順式的(來自于同一條染色體)。(NA12878數據中沒有reads跨越包含2個位點的突變等位基因。)使用一系列等位基因特異性PCR實驗證實來自ONT reads的新生等位基因的單倍型構象。相位區中的側翼位點表明,父系遺傳的單倍型出現了新生變異(圖3)。

圖3及等位基因特異性PCR結果

注:前3行為未定相母親(MI),父親(FI),先證者(PI)基因型,第4行為先證者單倍型Phased proband genotypes (PN)。藍色=alt ,橙色=ref。PN下面2行為單倍型1(母系遺傳)或單倍型2(父系遺傳)對應的reads,其中對于每條read,堿基是矩形,reads跨度以水平線顯示。間隙代表gap(缺失)。底部顯示物理位置,感興趣的位點為紅色。基于GRCh37 NM_152703.3, 92761932 T>C對應于c.3353 A>G,92764209 C>T對應于c.1076 G>A。

【討論】

該研究首次詳細評估了ONT測序對人類樣本的變異檢測和基因分型、染色體定相(單倍型分析)的準確性。雖然很有希望,在總共107個MinION flowcell中對這2個人類基因組進行測序是一項重大任務,在技術和計算等方面具有挑戰。最近商業化推出的PromethION是一種更高通量的納米孔測序儀,自帶數據處理功能,有望解決人類基因組規模數據中的許多挑戰。(百邁客與Oxford Nanopore公司合作-斥巨資引進Nanopore全測序平臺)最后,雖然變異檢測的總體準確性仍存在局限性,但該工作突出了錯誤上下文,這些錯誤上下文將受益于基本檢測、reads比對和一致性變異檢測方法的改進,并說明了將ONT應用于臨床目的的途徑。

【小編碎語】

隨著nanopore測序技術的發展更新,比如最新ONT內測的R10芯片75X達到一致性質量值Q50,比如新的”flip-flop”堿基識別軟件可將R9一致性準確性提升至Q42等。總之,ONT長讀長測序錯誤率down down down,測序通量up up up,測序價格low low low,三代取代二代指日可待。誰說魚(長讀長)和熊掌(準確度)不可兼得呢。

參考文獻:

Bowden R, Davies R W, Heger A, et al. Sequencing of human genomes with nanopore technology[J]. Nature communications, 2019, 10(1): 1869.

文獻原文下載:

https://international.biocloud.net/zh/article/detail/31015479

 

 

最近文章
网络棋牌看牌器 打击大陆黑庄6码中特 来几局百人牛牛有规律不 百人棋牌aaa 网赌大数据和控杀 组选包胆选号技巧 pk10稳赚qq群 不限ip多账号送彩金 腾讯五分彩时时彩计划软件 特区网南国七星彩论坛 梦幻国际棋牌看牌抢庄 重庆时时开奖结果单双 近30期双色球走势 推牌9顺口溜 赛车pk10官网开奖记录 最新澳门博彩线上娱乐 124不倒翁投注法例子