全長轉錄組揭示B細胞表面受體廣泛的轉錄變異【nanopore測序】

研究背景

單個基因不同轉錄本isoform產生的蛋白質具有不同的生物特性,包括穩定性、細胞內定位、酶活性和翻譯后修飾。Isoform是可選擇性轉錄起始位點(transcription start sites,TSS)、轉錄終點(transcription end sites,TES)和可變剪接事件等的產物。據預測,大部分人類基因存在可變剪接。可變剪接突變與人類遺傳病和腫瘤均密切相關。故而,不僅需要在基因水平鑒定轉錄組多樣性,也需要在轉錄本表達水平分析細胞真正的轉錄多樣性。二代轉錄組測序弊端:目前基于二代平臺的短讀長RNAseq方法在識別復雜轉錄本isoform方面存在固有限制,因為它們不能測序全長轉錄本。相反,轉錄本被片段化以進行測序,其產生的單個短reads無法跨越整個轉錄本。算法工具可用于從這些reads中組裝完整的轉錄本,但不同的組裝算法可能會導致相互矛盾的結果,整體組裝質量良莠不齊。為了克服二代短讀長RNAseq的這種限制,出現了基于三代測序平臺的全長轉錄本測序,比如ONT平臺全長轉錄組測序技術。研究表明,在看似同質的細胞群體中各個細胞在基因表達方面可能不同。細胞間異質性使免疫細胞成為深入分析轉錄多樣性的靶標。研究目的:通過使用ONT技術對全長cDNA分子進行測序,探究小鼠B1a細胞的單細胞轉錄組多樣性。

研究方法

  1. 小鼠B1a細胞分選:野生C57Bl/6小鼠腹腔灌洗收集細胞,流式分選Ter119?CD3?CD4?CD8?Gr1?B220+IgM+CD11b?CD5+?B1a細胞。(注:B細胞根據其發育來源分為B1細胞和B2細胞,根據是否表達CD5分子B1細胞又分為B1a和B1b細胞2種亞型,其中B1a細胞為CD5+?B細胞,而B1b和B2不表達CD5分子。)
  2. Smartseq2單細胞全長mRNA擴增合成cDNA
  3. 7個B1a細胞全長cDNA分別進行二代Illumina轉錄組測序(73,086-351,876 150?bp reads/細胞)和三代ONT全長轉錄組測序(R 7.3 17,749-52,696/R9.4 57,874-128,726 ONT reads/細胞),二者間進行比較。

 

人工合成標準品?Spike-in RNA Variant Control Mixes (SIRVs, Lexogen,根據7個人類基因結構設計而成的,其中每個基因結構有6-18種轉錄本變異,因此總共有69種轉錄本,這些轉錄本全面的解決了可變剪接、可變轉錄起始點和終止位點、重疊基因和反義轉錄問題),分別進行二代Illumina轉錄組測序和三代ONT全長轉錄組測序,二者間進行比較。

研究結果

1、B1a細胞基因表達定量比較

比較相同細胞的Illumina和ONT RNAseq基因表達定量結果,二者間具有高相關性(ONT R7.3芯片的Pearsonr相關系數≥0.84-0.89和升級版R9.4芯片為0.9-0.92),證實ONT RNAseq方法可復現Illumina基因表達定量。比較不同細胞中的Illumina和ONT RNAseq基因表達定量數據顯示,Pearsonr≤0.45的低相關性,表明ONT RNAseq可以鑒定不同細胞間表達差異。

即使產生相對較少的reads數,ONT RNAseq基因表達定量也檢測到了絕大多數Illumina RNAseq檢測到的基因(下圖a)。此外,7個細胞中的5個,基因表達檢測已達到飽和(下圖S2)。ONT或Illumina RNAseq單獨檢測到的基因表達水平較低,表明這些基因的表達水平接近兩種技術的檢測下限(下圖b)。還觀察到ONT RNAseq單獨檢測的基因由較短的轉錄本組成(下圖c)。此外,長度<600bp并且通過ONT和Illumina RNAseq檢測的基因在Illumina RNAseq數據中具有相對較低的表達水平(下圖d)。雖然這與在基于Tn5的Illumina文庫制備中強烈選擇的較短轉錄本一致,但不能排除ONT RNAseq可能偏向于較短的轉錄本。為排除這種可能性,作者進一步選擇合成轉錄本混合物SIRVs,分析轉錄本長度是否對ONT RNAseq表達定量有影響。

2、SIRVs合成轉錄本混合物2種平臺比較

SIRV為已知長度、結構和序列的人工合成的Spike-in RNA對照混合物。當擴增單細胞級痕量RNA時,較低濃度組中的轉錄本drop-out(很多未檢出表達),并且轉錄本定量顯示每個濃度組內的變化(下圖e,橫坐標為4個不同濃度分組)。然而,最重要的是,定量不受轉錄本長度的影響,除了短于500bp的轉錄本(下圖f)。通常,ONT RNAseq定量與Spike-in?轉錄物濃度一致,轉錄本定量的組內變異在重復樣本之間是可重復的(下圖g)。這種組內變異可能是由于初始轉錄水平、系統擴增偏差或數據分析偏差導致。分析這些不同濃度的合成轉錄本使作者排除了ONT RNAseq有利于較短轉錄本定量的可能性,可對長度為500-2,500 bp的SIRV轉錄本進行大規模無偏倚定量。

3、SIRVs isoform鑒定及定量

接下來作者評估了ONT全長轉錄組測序是否適用于鑒定SIRVs不同isoform及isoforms表達定量。利用Mandalorion pipeline對TSS、TES和剪切位點進行分類。作者檢測到20個TSS位點和24個TES位點,它們都與實際的TSS和TES直接重疊,并且在SIRV轉錄本注釋中存在的38個(/57個)實際TSS和41個(/59個)實際TES的60bp內。

此外,在SIRV基因組注釋中檢測到76個(/89個)5’剪接位點和73個(/93個)3’剪接位點。通過分析ONT reads實際剪接模式,作者檢測到11個(/12個)備選3’剪接位點和12個(/14個)備選5’剪接位點,以及12個(/12個)內含子保留事件。

根據其TSS/TES和可變剪接位點的使用將ONT reads分類為isoform組,并生成一致性序列,共計33個一致性序列,與其對應的SIRV轉錄本之間具有97.8-100%相似性,且方向一致。26個一致性序列匹配2個最高豐度組中存在的29個SIRV轉錄本之一(下圖c)。不依賴于基因組注釋的轉錄本isoform?Mandalorion分類定量與reads直接與轉錄組比對得到的定量結果之間的高度相關性(下圖d)。

4、鑒定單個B1a細胞isoform特征

通過對ONT全長轉錄組數據分析,鑒定到4234個TSS和3883個TES,僅有2476個TSS和2448個TES與小鼠基因組的Gencode數據庫(vM10)中存在的TSS或TES重疊。(下圖a)為了確定TSS和TES鑒定的準確性,作者分析了Fantom5數據庫中 CAGE peak和polyA信號富集,Fantom5 CAGE峰來源于轉錄本5’末端的捕獲和測序,因此應在TSS中富集。實際上,與TES(49/3883或1.3%)相比,高比例的注釋(2356/2476或95%)和未注釋(1052/1799或58%)TSS與高得分的Fantom5 CAGE峰重疊(下圖b)。相反,注釋和未注釋的TES都高度富集polyA信號,而TSS則沒有(下圖c)。如預期的那樣,大多數基因恰好包含一個TSS和一個TES。然而,696個基因含有1個以上的TSS或TES,表明存在一種以上的isoform(下圖d)。總之,單個細胞ONT RNA-seq成功鑒定了數千個未注釋的TSS和TES以及數百個具有差異TSS/TES使用的基因。

總共鑒定到24,887個5’剪接位點(SS)和24,756個3’剪接位點。絕大多數這些剪接位點由Illumina junction reads或GENCODE注釋支持。24,298(97.6%)個5’SS和24,220(97.8%)個3’SS分別與GENCODE注釋匹配。在與GENCODE注釋不匹配的589個5’SS和536個3’SS中,分別有250(42.4%)個5’SS和216(40.2%)個3’SS由在Illumina junction reads支持。就算假設所有無GENCODE注釋或Illumina reads支持的剪接位點都是假的(顯然這是不可能的),該方法的錯誤發現率僅為1.3%(659/49,643)。ONT RNAseq在確定精確剪接位點方面相對成功(上圖e為剪接位點堿基上下文context)。作者發現了296個內含子保留事件,134個可選的5’剪接位點和173個可選的3’剪接位點組合。大多數這些事件也在Illumina reads中觀察到,illumina reads支持216個(/296個)內含子保留事件,99個(/134個)可選5’剪接位點,123個(/173個)可選3’剪接位點和72個(/92個)外顯子跳躍事件(上圖f)。

5、鑒定B1a細胞復雜isoform

表達復雜isoform的基因定義為:含有可變TSS/TES和可變剪接位點的基因。共計鑒定了169種表達復雜isoform的基因。其中55個基因在細胞之間存在高度顯著差異isoform使用,包括B細胞特異性表面受體CD19和CD20,抗體重鏈基因座(IGH)(下圖g-i),CD37(下圖CD37),以及CD2和CD79b,以及CD45。各個B1a細胞中,來自CD19的同種型顯示出可變TSS和內含子保留事件的組合。另一方面,來自CD20的同種型顯示出可選擇性TES的組合,以及包括先前未注釋外顯子的外顯子跳躍事件。IGH基因座更復雜,具有包含VDJ重組和IGHM恒定區外顯子的典型isoform。觀察到了含有IGHM恒定區外顯子的isoform,但是源自(1)流產性DJ重組(2)I-外顯子(3)IGHM轉換區miRNA基因座(4)J-區段。最后,細胞1中的一種isoform來自IGHM I-外顯子,但含有IGHD恒定區外顯子。雖然之前已觀察到IGH isoform多樣性并且長期以來已知其參與類別轉換,但ONT RNAseq在單細胞水平上測序全長cDNA的能力確實突出并證實了?IGH基因座特殊的轉錄多樣性。

ONT全長轉錄組測序優于Illumina數據組裝轉錄本isoform的優勢在于從5’端到3’端測序整個cDNA分子的能力。雖然如果基因座僅表達單個isoform,使用Trinity組裝Illumina數據可能會成功,但它似乎很難分析包含多個遠距離替代特征的基因座的多種isoform。例如,ONT RNAseq在所分析的各個細胞中鑒定了CD37基因的幾種不同isoform(上圖CD37)。在大多數情況下,從單個細胞組裝Illumina數據時,Trinity無法形成完整的重疊群或產生ONT RNAseq未檢測到的重疊群。因此,CD37基因及其isoform鑒定突出了ONT RNAseq方法的優勢,以確定復雜isoform多樣性,超出了短reads技術的可能性。

小結

短reads RNAseq解析復雜isoform的能力有限,因為它無法測序RNA分子的全長cDNA拷貝。作者研究了使用長讀取單分子Oxford Nanopore測序儀的RNAseq是否能夠在不犧牲準確的基因表達定量的情況下,鑒定和定量復雜的isoform。在小鼠B1a細胞中鑒定了數千個未注釋的轉錄起始和終止位點,以及數百個可變剪接事件,鑒定了在B1a細胞中表達的數百種基因,這些基因顯示出多種復雜的isoform,包括幾種B細胞特異性表面受體。本研究表明,可以在單細胞水平上識別和定量復雜的isoform。
ONT全長轉錄組測序已經成為Illumina轉錄組測序的有力補充,并且有可能在未來徹底改變轉錄組的分析。文獻原文下載地址:https://www.nature.com/articles/s41467-019-08734-9.pdf

參考文獻

Byrne, A., Beaudin, A. E., Olsen, H. E., Jain, M., Cole, C., Palmer, T., … Vollmers, C. (2017). Nanopore long-read RNAseq reveals widespread transcriptional variation among the surface receptors of individual B cells.?Nature communications,?8, 16027. doi:10.1038/ncomms16027?

如果您的項目有任何,歡迎點擊下方按鈕咨詢我們。

最近文章
网络棋牌看牌器 江西多乐彩又开奖结果查询 赛车走势技巧公式规律 麻将二八杠洗牌手法 北京快3软件下载 体彩6十丨开奖 325旧版天天电玩城 杀号定胆四川快乐12 pc蛋蛋28官方开奖网址 4676开奖现场直播开奖记录 足球比分188 多乐彩出号走势图 时时助手最新版本 篮球计算器竞彩网 最新足球资讯 河北时时玩法介绍 时时彩九码稳赚