【文獻精度】蛋白組+三代全長轉錄組致力于腫瘤標志物的研究

今天與大家分享的這篇關于腫瘤標志物研究的文章,內容比較多,分為引言、研究背景、實驗設計、研究結果、討論、研究結論、文章亮點7個部分,每一部分都做了詳細的解讀,各位看官可以視情況跳躍或選擇性閱讀,收藏后可以慢慢看。

1.引言

陽春三月,天地俱生,萬物以榮,大地一片生機,人們在經過一個冬天的蟄伏后開始活動頻繁。隨著氣溫的升高,細菌、病毒也開始生長繁殖,因此,春天是疾病多發的季節。《黃帝內經》說:“是故圣人不治已病治未病”,寓意是要防病于未然,不要等病入膏肓了才四處求醫。

腫瘤標志物是腫瘤細胞本身合成、分泌,或是機體對腫瘤反應而異常產生或表達異常的一類特異性物質,在腫瘤早期發現、診斷、治療及預后判斷中均起到非常重要的作用,這與中醫“未病先防,既病防變”的治療理念十分契合的。

目前,通過整合多組學數據在多個層面上鑒定腫瘤標致物的研究還比較少,下面我們通過荷蘭科學家對結腸癌腫瘤標致物的研究成果,來了解一下將RNA-seq、Iso-seq及LC-MS/MS數據進行整合研究的思路。

2.研究背景

結直腸癌是荷蘭最常見的第二種癌癥,死亡率高,現以每年超過15000例患者的速度增長,大多數患者年齡在60-79歲之間。從腺瘤發展到結腸癌大概分為4個階段,整個過程大約需要20-40年的時間,早期篩查對該病的預防和治療至關重要。

通常人們會通過免疫法檢測糞潛血的方式進行結直腸癌篩查,但是這種方法對病變前體即晚期腺瘤的檢出率只有27%,靈敏度很低,所以目前臨床上需要新的標志物來輔助結直腸癌的篩查。

人類轉錄組比基因組要復雜得多,這是因為約95%的多外顯子轉錄本會進行選擇性剪接。作為選擇性剪接的結果,isoform被翻譯成的蛋白質在結構、位置和功能上都會有所不同。相比于正常情況下產生的RNA剪接事件,異常剪接(aberrant splicing)可以導致疾病的發生,特別是腫瘤特異的異常剪接(tumor-sepecfic aberrant splicing)通常與該腫瘤的進展和轉移有密切聯系。因此,研究剪接變異(splice variant)可能會進一步揭示腫瘤的發生發展機制。

剪接因子在剪接調節和isoform表達中起著直接的作用。剪接因子不僅可以通過體細胞突變和異常表達產生致癌作用,還可以通過異常剪接產生致癌活性。SF3B1和SRSF1是癌癥中最常見的突變剪接因子,乳腺癌和結腸癌中都有它們的參與。MYC是一個著名的致癌轉錄因子,通過激活SRSF1, 它可以影響SRSF1靶基因子集的選擇性剪接,從而助于腫瘤的發展。

蛋白質異形體(protein isoforms)作為生物標志物具有很大的潛力,可以提高診斷的準確性。識別疾病特異的蛋白質異形體(disease-specific protein isoforms),能夠發現更敏感、更特異的生物標記物。通過高深度的串聯質譜測序可以在蛋白層面上研究蛋白質異形體,可以鑒定通過單核苷酸變異或異常剪接產生的新型變異蛋白。但目前受制于現有的蛋白質序列數據庫,50%的質譜信息仍無法進行確定。構建蛋白數據庫時補充RNA-seq的結果可以發現人類參考基因組注釋中沒有表示的新的剪接事件,使蛋白鑒定數目得到了很大提升。另外,通過RNA-seq也可以在轉錄組層面對可變剪接進行研究,但是轉錄組水平上的研究無法確定哪些isoforms翻譯成了蛋白,而這一點對于弄清楚可變剪接可以導致什么結果及鑒定腫瘤蛋白分子標記物是至關重要的。所以將高深度的串聯質譜測序和RNA-seq結合起來,既能得到豐富的蛋白質數據庫提升蛋白鑒定數據,又能在轉錄組和蛋白組兩個水平上對腫瘤特異的isoforms進行研究。

現有的蛋白組數據分析工具通常是為單個或一類樣本分析而設計的,不具備在RNA和蛋白質水平上對患病組和對照組進行差異比較的靈活性。為了識別疾病特異的蛋白質異形體,需要使用一種工具來進行不同層面的分析。

本文提出了一種名為Splicify的腫瘤特異性蛋白質異形體(tumor-specific protein isoforms)的鑒定流程,其中,RNA-seq分析用于對isoform定量及差異分析;LC-MS/MS用于證明有哪些剪接isoform被翻譯成了蛋白質;另外,通過Iso-seq鑒定Splicify得到isoforms,同時增加新的轉錄本信息。

3.實驗設計

為了測試splicify這種蛋白組學數據的分析方法,建立了一種可以對isoform變化進行調控的實驗模型,對SW480結腸癌細胞系中的剪接因子SF3B1和SRSF1進行siRNA干擾以下調其表達,然后通過RNA-seq和質譜進行結果檢測。

RNA-seq及LC-MS/MS:
SW480結腸癌細胞系,siRNA 干擾剪接因子SF3B1和SRSF1及陰性對照siNT-treatedSW480細胞系。
SF3B1被siRNA轉染48h,簡寫為siSF3B1;
SRSF1被siRNA轉染72h,簡寫為siSRSF1。

RT-qPCR:
RT-qPCR用以檢測SF3B1和SRSF1的敲低效率及用于評估ADD3、CTNND1、RAC1、SYK、MKI67和OSBPL3的可變剪接的效率。

全長轉isoform測序Iso-Seq:
siSF3B1及對照組siNT-treatedSW480細胞系。
用RSII檢測,文庫片段0-1kbp, 1kbp-2kbp, 2kbp-3kbp and 3kbp-50kbp。

Splicify中的RNA-seq和LC-MS/MS分析:
(1)參考基因組版本為UCSChg19;差異剪接變異(differential splice variants )軟件為rMATS version 3.2.5;顯著性的篩選標準FDR≤0.05;
(2)isoforms分exclusion-isoforms和inclusion-isoforms兩種類型(如下圖1B所示)。
(3)剪接區域轉化成氨基酸序列。
將得到的差異剪接變異以及剪接區域的氨基酸序列作為潛在的剪接變異的蛋白序列,和Uniprot數據庫中人類蛋白數據一起形成一個更豐富的人類蛋白質數據庫。
(4)通過MaxQuant 1.5.3.8軟件進行蛋白鑒定。
(5)此外,人類標準蛋白質數據庫(Swissprot, canonical,)被用來檢測代表非標準isoform剪接變異。

splicify的原理概述及其檢測模型:

4.研究結果

圖1A中給出了splicify的原理概述,既鑒定不同剪接isoform的蛋白組數據分析流程

轉錄組學和蛋白組學分析的實驗設計概述如下圖2所示:

RT-qPCR檢測顯示經siRNA轉染一定時間后SF3B1和SRSF1表達水平平均降低50%和40%;同時細胞活性檢測表明SF3B1的下調使癌細胞存活率降低了10-30%(下調SRSF1細胞存活率的變化則不是很明顯)。這些數據表明,在所建立的模型系統中,isofrm的產生可以得到調控,適合于測試splicify流程。

通過splicify鑒定差異RNA和蛋白isoform:
用RNA-seq和串聯質譜分析了每個樣品的蛋白質組和轉錄組。在RNA-seq數據分析中,通過對橫跨exon-exon和exon-intron junction的reads,鑒定了isoforms,連同比對到剪接片段上的reads,進一步量化以區分兩個條件之間的差異事件。在蛋白質組學數據分析當中,exon-exon和exon-intron junction覆蓋肽段和比對到剪接片段上的肽段被用來證明RNA水平上檢測出來的isoform被翻譯成了蛋白質(圖1 B)。這些肽的強度被用于定量,以確定差異表達的蛋白質的isoform。

siSF3B1和siSRSF1產生的差異mRNA isoform:
轉錄組分析顯示siSF3B1和siSRSF1的可變剪接事件與對照組相比有顯著差異(圖3A),證明對剪接因子的操作導致了差異剪接的產生。

與SRSF1相比,選擇性剪接受SF3B1的操作影響更大,因為受SF3B1調控的剪接事件更多,特別是對于外顯子跳躍和互斥的外顯子事件(圖3A)。這可能是由于剪接因子在剪接體復合物中扮演的角色不同。

為了保證siSF3B1和siSRSF1對isoform的表達有功能上的影響,引入已研究過的結腸癌細胞中ADD3和CTNND1中的外顯子跳躍作為其選擇性剪接的陽性對照。后續對實驗模型中的ADD3 exon 14和CTNND1 exon 20進行RT-qPCR檢測的結果顯示siSF3B1和siSRSF1確實對isoform的表達有功能上的影響。

為了進一步驗證,作者選擇了4個外顯子跳躍事件進行RT-qPCR驗證,包括SYK exon 7, RAC1 exon 4, OSBPL3 exon 9, MKI67 exon 7(如圖4所示)。根據RNA-seq分析,所有的事件在SRSF1下調后都發生了差異剪接,而OSBPL3和MKI67則受SF3B1下調的影響。

siSF3B1和siSRSF1產生的差異蛋白isoform
在RNA水平上確定的所有重要剪接事件,包括inclusion 和exclusion變異,都被用于質譜鑒定的數據庫構建(圖1A)。為了證明這些剪接事件被翻譯成蛋白質,作者搜索了isoform特異的肽段庫(圖1B)。

在siSF3B1和siSRSF1的差異剪接結果中,分別確定了5079和374個isoform特異肽段(如表1所示)。

肽段數量上的差別直接和兩個實驗剪接isoform數據庫的數目相關。總的來說,大約60%的isoform特異肽段會比對到目標區域,跨越exon-econ junction的split 肽段約占40%,跨越 exon-intron junctions 的spanning肽段則很少被發現(如表2所示)。

基于所有的isoform特異肽段,siSF3B1和siSRSF1在蛋白水平上分別確定了2172和149個剪接事件(如表3所示)。

平均15%的剪接事件的肽段在屬于同一事件的inclusion和exclusion isoform中被觀察到。大多數的isoform都被認為是基于Swissprot規范序列數據庫的標準蛋白質。大約5%和25%的鑒定isoform被歸類為siSF3B1和siSRSF1的非標準亞型。肽段的一個子集比對到兩個或更多的isoform,通常是由于不同的isoform之間的重疊的外顯子導致的。相比于exclusion isoform,由于inclusion isoform的序列較長,因此確認率更高。在被確定的isoforms中,所有類別的選擇性剪接事件都有所涉及,與RNA水平上的結果一致,外顯子跳躍事件占的比例最大。從RNA和蛋白水平上剪接事件數目的比例看,互斥外顯子更常被檢測到(如圖3B所示)。

這是由于互斥外顯子的剪接結果中每一個isoform都含有一個額外的外顯子,從而增加了整個片段的長度,也就增加了剪接區域的識別。雖然陽性對照ADD3和CTNND1并沒有檢測到特異肽段,但SYK、RAC1、OSBPL3和MKI67的外顯子跳躍事件在肽水平上得到了驗證。

通過對剪接特異肽段進行差異表達分析,揭示了這些肽的子集在實驗組和對照組之間有顯著差異,指出了mRNA基因組和蛋白質組結果之間的一致性事件(如表4所示)。

約65%的顯著差異表達的splice-specific-peptides在RNA水平上表現出一致的表達差異。例如,下調SF3B1的實驗組中,OSBPL3 9號外顯子中分別有3個支持外顯子保留和1個支持外顯子去除的peptides被鑒定出來。兩種inclusion specific-peptides表達明顯較低,而exclusion specific -peptides則與對照相比表現出較高的表達量(如圖5所示)。

另一個例子是siSRSF1中,由于RAC1基因中4號外顯子的保留,Rac1b isoform的表達較低,這與當前SRSF1對結腸直腸癌中RAC1選擇性剪接的影響是一致的,通過RNA-seq和RT-qPCR檢測(如圖4所示)。蛋白水平上,只有inclusion specific-peptides可以得到確認。雖然下調siSRSF1和對照之間的肽強度差異不顯著,但log2 fold變化提示與RNA水平相似。

全長轉錄本的驗證:
為了驗證能通過splicify得到的isoform,同時增加新的轉錄本,Iso-seq被用于在SW480細胞中SF3B1的下調和siNT對照(如圖2所示)的檢測中。

通過Iso-Seq得的轉錄本替代人基因組注釋被用作轉錄組變異的來源進行定性分析,同時可以通過對較短但更高密度的reads來進行定量分析。在RNA水平上,在每種剪接事件中,使用Iso-Seq數據確定的顯著差異的isoforms數量超過了使用參考基因組注釋法的結果(如圖6A所示)。

illumina所測reads通過使用人類參考基因組注釋及使用Iso-Seq所得全長轉錄本進行定量的結果有很大的重疊,從而驗證選擇性剪接事件的檢測(如圖6B所示)。

此外,Iso-Seq的測序結果揭示了一些由于參考基因組注釋的缺乏沒有檢測到這些事件。其中最突出的就是內含子保留事件,可變剪接分析軟件rMATS使用的是帶注釋的內含子保留的數據庫,而不是基因組中的所有內含子。在蛋白水平上,大多數isoform特異性肽都可以通過兩種方法鑒定,Iso-seq所測全長轉錄組本對于參考基因組的注釋信息是一個很好的補充,增加了確定的isoform特異肽段的數量(如圖6C所示)。

例如,全長轉錄本進行測序結果支持FXR1內含子保留的三種肽段,因此這種內含子保留事件也存在于注釋文件中。Illumina 測到的短 reads支持這一事件,并提供了定量的證據,表明它在SF3B1的下調過程中比其對照組(圖6D)更高表達。

這些數據表明,為了更全面地揭示差異剪接事件,我們應該提供豐富的注釋文件,其中包括一些新的轉錄本,如轉錄本組裝工具或全長轉錄序列。

5.討論

Splicify的意義在于識別RNA水平和蛋白質水平上的isoform。通過對RNA和蛋白水平的對比分析證明該方法能夠成功地識別特定條件下蛋白質水平上的異常剪接事件。

在研究可變剪接方面,Iso-Seq測到的全長轉錄本對基因組注釋結果是一個極大補充,尤其在內含子保留、3 ‘可變剪接和5 ‘端可變剪接事件中,Iso-Seq測到的全長轉錄本與基因組注釋的重疊較小。這表明,基因組注釋中缺少一些完整的或部分的內含子序列可變剪接的isoform形式。

蛋白質水平上發現的一些非典型的isoform翻譯成的蛋白質可能在與常規類型的蛋白的功能不同。比如,Rac1b,相比于常見的RAC1蛋白能夠增強細胞存活能力。在不同的組織中,OSBPL3的isoform在RNA水平上表現出不同的表達,表明它們可能具有不同的功能。 ?基于RNA-seq數據檢測到的少量的蛋白isoform揭示了目前蛋白質組學的研究難點。mRNA 水平上發現的isoform在蛋白質水平上沒有識別出來可能有很多原因,包括生物和技術層面。首先,并非所有的異常的isoform都被翻譯成蛋白質。另外,轉錄和翻譯的動力學相關,特別是關于siRNA介導的下調制。同時,isoform個數少也可能是剪接區域的翻譯后修飾的結果,例如磷酸化。還有一些技術上的問題限制了splice-specific peptides的鑒定,比如exclusion 變異。

所有這些問題都說明了RNA-seq相比于質譜分析對剪接片段的定量分析優勢。異常的isoform通常比常規蛋白的表達量低,這進一步使isoform在蛋白質水平的分析變得復雜。在多個研究報告中,RNA與蛋白表達的相關性中,RNA和蛋白水平的表達差異有65%的一致性。然而,質譜可以確定哪些isoforms可以被翻譯成蛋白質,使RNA水平上識別出的剪接isoform的功能更確定,并能在分子領域確定候選生物標志物以進行進一步研究。

6. 研究結論

Splicify提供了一種蛋白組數據分析方法,可以用于確定由mRNA選擇性剪接產生的疾病特異性蛋白生物標志物,適合用臨床前模型系統來解決基礎研究問題。其中剪接變異在RNA水平上的驗證是通過RT-qPCR以及Iso-seq得到的全長轉錄本進行的;通過Iso-seq得到的全長轉錄本可以對新的剪接事件在蛋白層面上進行驗證。

7.文章亮點

相比目前蛋白組數據分析,存在的問題:
1、許多生物信息學工具在得到質譜結果后缺乏自動友好的下游分析;
2、分析工具通常是為單個或一類樣本分析而設計的,不具備在RNA和蛋白質水平上對病例和對照組進行差異比較的靈活性。
splicify作為一種基于整合RNA大規模并行測序數據和串聯質譜蛋白質組學數據的分析方法其新穎性在于兩組分子間選擇性剪接的差異分析,可應用范圍很廣泛,如基因敲低與對照樣品或癌癥與健康樣品間的比較。

 

最近文章
网络棋牌看牌器 码报号 内蒙古时时最新 天津时时shijian 广西快乐十分201915235期 公式规律一波中特 2019海南中学高中招生计划 5分赛历史 重庆时时彩预测软件 江西时时开去年的好 体彩专家三天计划 极速赛记录历史 腾讯分分彩后二教学 安徽时时计划软件手机版下载手机版下载手机版下载 怎样用伪随机算时时 3d2017焰舞总汇 江苏时时技巧集锦