Nanopore全長轉錄組測序數據評估

納米孔測序是一種由ONT(Oxford Nanopore Technology)研發的單分子測序技術。在轉錄組測序應用中,相比于傳統二代RNA-Seq測序技術,長讀長的納米孔RNA測序可以在無需打斷的條件下得到全長序列并進行定量,同時直接RNA測序還可以檢測多種堿基修飾,且測序無需擴增,減少了PCR過程引入的堿基偏倚。

ONT測序技術在多個方面具有非常強悍的優勢,然而,一份合格的下機數據才是科研成功研究的基礎,為保證得到準確的轉錄組結構分析和定量結果,需要對測序數據進行嚴格的質控評估。那么我們今天一起學習一下《Summary statistics and QC tutorial》,ONT官方提供的對測序raw?data進行全面數據質控的教程。

介紹

此教程適用于指導對單個nanopore測序芯片產出的數據進行評估,評估的主要內容如下所示:

1、測序產出(測序得到多少reads,多大數據量);

2、測序數據的質量和長度分布;

3、如果加入了barcode序列進行混樣建庫,測序數據在不同樣品的分布。

準備

1、下載教程相關文件

直接到教程的github頁面下載或通過git命令下載:

git clone https://github.com/nanoporetech/ont_tutorial_basicqc.git QCTutorial

后續分析會用到下載目錄QCTutorial下的以下內容:

1) Nanopore_SumStatQC_Tutorial.Rmd:Rmarkdown文件,說明文檔和用于執行分析。

2) RawData/lambda_sequencing_summary.txt.bz2:示例文件,Guppy對測序reads進行堿基識別生成的相關信息文件。

3) RawData/lambda_barcoding_summary.txt.bz2:示例文件,用于區分混樣建庫時多樣品的barcode信息。

4) environment.yaml:指定分析所需軟件包及計算環境的文本文檔。

5) config.yaml:配置文件,用于指定分析所需的輸入。

2、創建Conda環境

為了方便執行分析所需軟件包及其依賴的安裝及管理,需要安裝Conda并創建用于此分析的環境。

1)?Conda安裝(Python3版本的Miniconda):

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

bash Miniconda3-latest-Linux-x86_64.sh

bash

2)?創建Conda環境及環境激活(第1步中下載的environmen.yaml用于環境初始化):

創建環境:conda env create –name BasicQC –file environment.yaml

激活環境:source activate BasicQC

分析

進行分析之前需先準備配置文件,通過修改準備步驟下載的config.yaml中相應的參數來完成,需要修改的內容主要有:

 

修改內容 內容說明 示例
inputFile 堿基識別的統計信息 sequencing_summary.txt.bz2
barcodeFile 混樣建庫的barcode信息 barcoding_summary.txt.bz2
basecaller 堿基識別工具 Guppy 2.1.3
flowcellId 測序芯片ID FAK41706

注:如為單樣品測序無barcode信息,則barcodeFile部分為空。

準備完成后,可以通過命令行啟動分析,命令如下:

R –slave -e ‘rmarkdown::render(“Nanopore_SumStatQC_Tutorial.Rmd”, “html_document”)’

如果習慣圖形界面操作,也可以通過Rstudio載入Rmarkdown文件執行分析:

結果

上述分析完成后會將分析結果存放至HTML文件,可用瀏覽器打開Nanopore_SumStatQC_Tutorial.html進行查看。對單個芯片約1M reads分析的部分結果展示如下(結果來自教程,堿基識別使用Guppy 2.1.3,根據識別序列的平均質量值將其分為pass和fail兩種,質量值閾值默認為7):

1、總結

展示了數據產出的總體情況(如下圖,本分析中堿基識別共產出991,715條序列,14.6G堿基)。

2、質量長度

此部分展示了對識別出的所有序列質量和長度信息的統計結果,包括序列的平均長度,N50和平均質量,序列長度和質量的密度分布等

3、測序表現

此部分內容統計了隨測序時間變化,測序累計序列個數,堿基個數,測序速度和有效工作納米孔數等指標的變化情況。

4、區分混樣

在加入barcode序列混樣測序的情況下,barcode識別區分的結果展示如下,包括barcode識別效率,區分的文庫個數及每個文庫中序列個數占比和長度信息等。

上面展示了分析結果的部分內容,更多細節的內容可參考底部的相關鏈接。

rawdata的質控評估只是整個信息分析的開始,是為了對測序數據有大致的整體認識,以便更好地指導后續分析。然而分析的每個環節都會對最終結果產生影響,因此每一步的處理都要深思熟慮。

小編寄語

2018年8月牛津納米孔公司與百邁客公司達成長期合作,擁有MinION、GridION X5和PromethION三種型號全套納米孔測序儀。至今已積累了豐富的項目經驗,全長轉錄組成功案例先后發表在《Plant Biotechnol J》、《J Hazard Mater》、《Biotechnol Biofuels》、《Sci Rep》、《Fish & Shellfish Immunology》等國際知名期刊,已發表文章研究物種分別有楊樹、吳松草、風箏果、甘薯、野生甘薯、兔子、跳甲、花羔紅點鮭和辣椒,覆蓋領域分別為林木、哺乳動物、昆蟲、水產和作物等。

如您有任何全長轉錄組等相關問題,歡迎點擊下方按鈕,我們將竭盡全力為您答疑、設計方案和提供高分成功案例等。

 

參考鏈接:

[email protected]//github.com/nanoporetech/ont_tutorial_basicqc(@換成:)

[email protected]//community.nanoporetech.com/knowledge/bioinformatics(@換成:)

 

推薦文章
网络棋牌看牌器 白小姐资料一肖中特图 双色球大奖得主 体彩20选5每天开奖时间 安徽时时彩走势图官方网站 广西快3一定牛 爱玩棋牌app下载安装 足球指数网捷报比分网 有一个不赚钱的父亲经常借钱 上海时时乐走势图表 足彩进球彩对阵表 PPT现在还赚钱吗 江西快3十八期走势图 2001年上证指数 陕西11选5推荐号 七星彩2072期超长规律 湖北快三遗漏数据