代謝組數據預處理

在代謝組學的研究中,進行主成分分析、差異分析等之前往往需要先對數據進行缺失值填補、標準化等處理,目前處理方法也有很多種,下面將介紹常見的缺失值填補和標準化方法。

對缺失值的處理,簡單粗暴的方法是直接去除所有含有缺失的代謝物,對于一些代謝物如果是在樣本中大量缺失(比如超過了50%)確實可以舍棄,而少量缺失如果丟棄則可能會丟失一些有重要生物學意義的代謝物,所以對于少量缺失,較為穩妥的辦法就是用值填補。比較簡單的方法是用0值、均值、中值或最小值的一半進行填補,復雜一點的則是使用機器學習的算法如鄰近算法(KNN)、隨機森林(RF)、奇異值分解(SVD)等方法。由于代謝組目前可分為靶向和非靶向兩大類型,在不同的類型中往往是采取不同的處理辦法。有研究者認為非靶向的推薦使用KNN算法(Do et al.,2018);也有認為GC-MS數據使用隨機森林方法(Gromski et al.,2014);還有的則認為需要按缺失類型,對于完全非隨機缺失的可使用最小值的一半進行填補,完全隨機缺失或隨機缺失的使用隨機森林方法(Wei et al.,2018)。所以目前沒有統一的標準。

標準化主要是為了去除實驗、技術等帶來的誤差,常見的方法有:內標,即代謝物除以內標豐度,可用于GC-MS;總峰面積標準化,即代謝物除以所有代謝物的總峰面積,可用于非靶向LC-MS;對數變換即直接對豐度取對數,LC-MS和GC-MS都有用到;PQN (Probabilistic Quotient Normalization)即每個代謝物除以了一個稀釋因子,這個因子則是依賴于樣本與參考樣本比值的分布,在NMR分析中被認為是一種穩健的方法;此外還有均值標準化、分位數標準化、中值標準化、z-score標準化等(Li et al.,2017),這些方法也可以結合使用(Di et al.,2016)。不同方法可能會引起不同分析目的的差異,比如進行差異分析的時候,使用分位數方法可能比PQN方法好,而在進行代謝標志物篩選時,則表現差不多(Li et al.,2017)。因此,在分析的時候也可多嘗試一些標準化的方法。

總的來說,缺失值和標準化的處理方法目前并無完全統一的標準,需要結合具體的實驗方法、目的進行多次的調試以達到所期望的目標。目前,百邁客云上的代謝組分析平臺已包含上述部分處理方法,操作簡單,分析速度快,后續也會不斷增加更多的處理方式以滿足不同需求。

 

參考文獻:

[1]?Do K T, Wahl S, Raffler J, et al. Characterization of missing values in untargeted MS-based metabolomics data and evaluation of missing data handling strategies[J]. Metabolomics, 2018, 14(10): 128.

[2] Gromski P, Xu Y, Kotze H, et al. Influence of missing values substitutes on multivariate analysis of metabolomics data[J]. Metabolites, 2014, 4(2): 433-452.

[3] Wei R, Wang J, Su M, et al. Missing value imputation approach for mass spectrometry-based metabolomics data[J]. Scientific reports, 2018, 8(1): 663.

[4]?Di Guida R, Engel J, Allwood J W, et al. Non-targeted UHPLC-MS metabolomic data processing methods: a comparative investigation of normalisation, missing value imputation, transformation and scaling[J]. Metabolomics, 2016, 12(5): 93.

[5]?Li B, Tang J, Yang Q, et al. NOREVA: normalization and evaluation of MS-based metabolomics data[J]. Nucleic acids research, 2017, 45(W1): W162-W170.

推薦文章
网络棋牌看牌器 永久出特规律公式 159竞彩足球无法提现 云南十一选五投注技巧 3d前1000期 秒速飞艇开奖计算 重庆时时历史开奖记录 曾道中特开奖 排列5预测精 福彩3d近20期开奖结果走势图 天天电玩城旧版本 2018年8112cc九龙心水新 3期开机号列表大全 世界杯赛程 網易彩票 吉林快3走势图 河北时时结果查询结果