高碧霞,李明喜,劉雪嬌,蔡建芳,樊曉紅,楊嘯林,李雪梅,李學旺
中國醫(yī)學科學院 北京協(xié)和醫(yī)學院 北京協(xié)和醫(yī)院 1腎內科 2轉化醫(yī)學中心,北京 100730 3中國醫(yī)學科學院 北京協(xié)和醫(yī)學院 基礎醫(yī)學研究所生物醫(yī)學工程系,北京 100005
代謝綜合征 (metabolic syndrome,MS)是一組以胰島素抵抗為病理生理基礎的代謝紊亂癥候群[1]。研究顯示MS是慢性腎臟疾病 (chronic kidney disease,CKD)獨立危險因素,但目前尚缺乏MS早期腎損害生物標志物及診斷方法的研究[1]。蛋白質組學技術在篩選疾病生物標志物方面具有廣闊的發(fā)展前景[2]。納米磁珠聯(lián)合基質輔助激光解析電離飛行時間質譜 (matrix-assisted laser desorption ionization time-of-flight mass spectrometry,MALDI-TOF-MS)技術是近年發(fā)展較快的一項臨床蛋白質組學技術,有研究應用該技術探討腎小球疾病尿液多肽譜,發(fā)現(xiàn)不同腎小球疾病呈現(xiàn)各自獨特的尿液多肽表達譜,提示該技術可作為尋找腎臟疾病尿液潛在標志物的有效手段[3]。本研究采用弱陽離子交換磁珠 (magnetic bead-based weak cation exchange chromatography,MB-WCX)聯(lián)合MALDI-TOF-MS建立MS早期腎損害尿液蛋白譜并尋找疾病潛在尿液標志物。
對象 來源于2008至2009年北京平谷地區(qū)“MS腎臟損害”流行病學研究[4],入選者留取8h過夜尿液標本,女性留尿避開月經期,標本收集當日避免劇烈運動和飲酒。采樣前均簽署知情同意書。
方法 入選者進行問卷調查、體格檢查和實驗室檢查,同文獻 [4]。入選和排除標準:入選者分為MS無腎臟損害組和MS早期腎臟損害組。MS按照美國國家膽固醇教育計劃的成人治療專家組Ⅲ診斷標準[1]。MS早期腎損害符合以下兩個條件[5]:(1)20μg/min≤尿白蛋白排泄率 < 200μg/min;(2)由簡化“腎臟病膳食改良試驗”公式[6]計算的腎小球濾過率 (estimated glomerular filtration rate,eGFR)≥60 ml/(min·1.73 m2)。排除標準:(1)高血壓3級:兩次測量血壓平均值收縮壓≥180和 (或)舒張壓≥110 mmHg(1 mmHg=0.133 kPa);(2)血尿及膿尿:尿沉渣鏡檢白細胞≥5個/高倍鏡視野或紅細胞≥3個/高倍鏡視野;(3)其他慢性腎臟疾病、泌尿系結石、慢性肝炎及近期泌尿系統(tǒng)感染病史。
MB-WCX富集尿液蛋白 采用MB-WCX試劑盒(德國Bruker Daltonics公司)進行尿液蛋白的分離和富集,具體步驟參考文獻 [7]。
MALDI-TOF-MS建立質譜圖 應用UltrafleX-tremeTMⅢ MALDI-TOF/TOF質譜儀 (德國Bruker Daltonics公司)建立尿液蛋白譜圖,步驟如下:(1)點靶:參考文獻 [7];(2)質譜數(shù)據(jù)采集:采用正離子線性模式,參數(shù)設置如下:第一離子源20.0 kV,第二離子源18.5 kV,以1000 Hz氮激光照射,激光能量35% ~45%,檢測范圍為質荷比1000~15000。每個標本點3個靶點,同一靶點多點采集共累積500次建立質譜圖。
實驗重復性評估和質量控制 實驗重復性評估方法見參考文獻 [6]。數(shù)據(jù)采集前每6個靶點取1個標準品 (德國Bruker Daltonics公司)進行質譜儀質量校準,分子質量的誤差范圍<0.1%。
生物信息學軟件處理
譜圖處理:ClinProTools(CRT)2.1軟件進行數(shù)據(jù)圖譜處理,包括基線平滑、衰減、過濾掉信噪比<5的峰等,對數(shù)據(jù)進行校正和歸一化處理。
差異蛋白峰的篩選及模型構建:有兩種方法。(1)統(tǒng)計學方法聯(lián)合遺傳算法 (genetic algorithm,GA):以峰面積作為質荷比蛋白峰的量化指標,Wilcoxon檢驗進行組間比較,P<0.05為差異具有統(tǒng)計學意義。通過CRT軟件內置的GA算法對上述差異蛋白峰進行篩選并構建診斷模型。采用10倍交叉驗證對模型進行評估。(2)隨機森林 (random forest,RF)聯(lián)合支持向量機 (support vector machine,SVM):質譜數(shù)據(jù)同譜圖處理,通過RF篩選差異蛋白峰,以蛋白峰“mean decrease in accuracy”作為評估每個蛋白峰在分類中重要性的標準,重要性>0.005的峰作為差異蛋白峰;利用SVM(LibSVM2.88)對差異蛋白峰構建診斷模型,核函數(shù)采用徑向基核函數(shù),通過網(wǎng)格搜索和10倍交叉驗證優(yōu)化模型,確定SVM參數(shù)C=2.65,gamma=2-14.5時模型分類性能最佳。繪制受試者工作特征曲線并計算曲線下面積。
統(tǒng)計學處理 采用SPSS 11.5統(tǒng)計軟件,計量資料組間比較采用t檢驗,計數(shù)資料組間比較采用χ2檢驗。P<0.05為差異具有統(tǒng)計學意義。
平均譜圖的建立 入選者包括MS無腎損害患者54例和 MS早期腎損害患者46例,性別、年齡、eGFR兩組比較差異無統(tǒng)計學意義,尿白蛋白排泄率在MS早期腎損害組顯著高于MS無腎臟損害組 (P<0.05)(表1)。實驗重復性評估通過計算變異系數(shù)為7.7%~23.0%。應用CRT軟件進行譜圖處理,建立兩組樣本尿液平均蛋白譜圖 (圖1)。
圖1 MS無腎臟損害組 (紅色)和MS早期腎臟損害組 (綠色)的平均尿液蛋白圖譜Fig 1 Average urinary protein spectra of MS without renal injury(red)and MS with early renal injury(green)
差異蛋白峰的篩選 應用Wilcoxon檢驗分析兩組平均尿液蛋白譜圖,在相對分子質量1000~15000內,38個蛋白峰表達差異具有統(tǒng)計學意義 (P<0.05),其中20個蛋白峰在MS早期腎損害組高表達;應用 RF算法顯示“mean decrease in accuracy”重要性>0.005的蛋白峰14個,12個蛋白峰在MS早期腎損害組表達上調,這12個蛋白峰中有11個亦是Wilcoxon檢驗發(fā)現(xiàn)的差異蛋白峰 (表2)。
診斷模型的建立和評估 GA算法篩選5個蛋白峰構建診斷模型,其中3個蛋白峰 (質荷比2756.98、9077.04和10054.26)在MS早期腎損害組表達上調。該模型對MS早期腎損害診斷敏感性為82.6%、特異性為84.3%、準確性為83.5%。RF算法篩選14個差異蛋白峰應用于SVM算法構建診斷模型 (表2),此模型對MS早期腎損害診斷敏感性為89.2%、特異性為81.1%、準確性為85.5%。對RF聯(lián)合SVM構建模型繪制受試者工作特征曲線,曲線下面積為0.91(圖2)。兩個模型中共有的蛋白峰包括質荷比2756.98、3019.11、9077.04和10054.26,其中質荷比2756.98、9077.04和10054.26在MS早期腎損害患者尿液中高表達 (表2、3)。
表1 MS無腎損害和MS早期腎損害患者臨床資料Table 1 Clinical data of metabolic syndrome patients without/with renal injury
表2 RF-SVM算法構建診斷模型中的蛋白峰Table 2 Depiction of protein peaks in RF-SVM-based diagnostic model
表3 GA構建診斷模型中的蛋白峰Table 3 Depiction of protein peaks in GA-based model
圖2 SVM分類器構建診斷模型的受試者工作特征曲線Fig 2 Receiver operating characteristic curve of SVM-based diagnostic model
隨著生活方式的改變,MS發(fā)病率逐年升高[1]。研究顯示MS是CKD獨立的危險因素,對MS腎臟損害早期診斷和干預對改善相關腎臟疾病的長期預后具有重要的意義[1]。目前微量白蛋白尿和eGFR下降是MS早期腎臟損害的主要臨床指標,有些糖尿病患者出現(xiàn)微量白蛋白尿并不進展為臨床蛋白尿,而eGFR下降是所有CKD患者病情進展的表現(xiàn)。針對MS早期腎臟損害迄今尚無較好的臨床監(jiān)測指標。
臨床蛋白質組學在疾病生物標志物研究領域應用廣泛。尿液是最容易得到的體液,主要反映腎臟、膀胱及全身其他系統(tǒng)的生理和病理狀態(tài),其收集方法獲取簡單無創(chuàng),蛋白質/多肽含量豐富,是較好的臨床蛋白質組學研究資源,特別適合腎臟疾病生物標志物的研究[8]。尿液蛋白質組學常用的技術包括二維凝膠電泳、液相色譜聯(lián)合串聯(lián)質譜 (liquid chromatography coupled to tandem mass spectrometry,LCMS/MS)以及表面增強激光解吸電離飛行時間質譜(surface-enhanced laser desorption/ionization time of flight mass spectrometry, SELDI-TOF-MS) 技 術[9]。SELDI-TOF-MS技術通過載有不同配基的芯片捕獲小分子蛋白/多肽,靈敏度高達飛摩爾,作為一項高通量的蛋白質組學技術一定程度上彌補了二維凝膠電泳和LC-MS/MS的不足,但該技術重復性欠佳,不能直接鑒定差異蛋白[10]。2004年出現(xiàn)的Clinprot系統(tǒng)應用球形納米磁珠富集蛋白,和蛋白芯片相比,由于結合表面積增大,捕獲的小分子蛋白/多肽的種類更多,敏感性和準確性更高;聯(lián)合高靈敏度的MALDI-TOF質譜儀,實驗重復性得到了提高,在臨床大樣本研究中更具優(yōu)勢[11];可聯(lián)合LC-MS/MS鑒定高豐度的小分子蛋白/多肽[12]。
在尿液蛋白質組學研究中,樣本的收集和處理是影響實驗結果的關鍵。Fiedler等[7]通過研究尿液收集、儲存等方法的不同對磁珠富集尿液中蛋白及多肽的影響,建立了磁珠分離尿液蛋白的標準化流程。本研究在尿液標本的收集和處理過程中借鑒上述標準化流程,規(guī)范從流調樣本采集、運送、處理以及存儲各個環(huán)節(jié),最大程度上避免人為因素對標本中蛋白含量的影響;每個樣本凍融1次;采用標準品進行相對分子質量校正,保證校正的平均相對分子質量偏差<0.01%;在數(shù)據(jù)采集方面,每例制備好的尿液標本在靶上重復3個點,對同一靶點的不同結晶點進行多點采集。得到的變異系數(shù)較好,保證了實驗的穩(wěn)定性和重復性。
本研究采用WCX磁珠聯(lián)合UltrafleXtremeTMⅢMALDI-TOF/TOF質譜儀建立了MS無腎損害和MS早期腎損害患者尿液蛋白譜圖。通過CRT軟件內置的Wilcoxon檢驗篩選出20個蛋白峰在 MS早期腎臟損害患者尿液中高表達;應用RF算法篩選出12個蛋白峰在MS早期腎臟損害組尿液中高表達,其中11個蛋白峰也是Wilcoxon檢驗結果中的差異峰,提示這11個差異蛋白峰可能作為MS早期腎損害尿液診斷標記物的候選蛋白。目前尚無應用尿液蛋白質組學技術探索MS早期腎臟損害診斷標記物的研究,Gianazza等[12]采用C8磁珠聯(lián)合MALDI-TOF MS技術對糖尿病腎病和正常人血清蛋白質組進行了研究,聯(lián)合LC-MS/MS鑒定纖維蛋白肽A在糖尿病腎病患者血清高表達。本研究室下一步通過磁珠富集目標蛋白,應用LC-MS/MS對候選蛋白進行序列鑒定。
機器學習分類方法已廣泛應用于蛋白質組學中質譜數(shù)據(jù)的模型構建,模型通過多個特征峰的聯(lián)合檢測代替單一特征峰,提高了疾病診斷的敏感性和特異性。在多種機器學習分類方法中SVM和RF對質譜數(shù)據(jù)的分類能力最好,且RF在數(shù)據(jù)特征點選擇方面具有獨特的優(yōu)勢[13]。本研究在差異峰的選擇和診斷模型的構建中,除了采用CRT軟件內置的GA算法,還將RF聯(lián)合SVM算法應用Clinprot系統(tǒng)的質譜數(shù)據(jù)分析。采用多種機器分類方法構建的兩個模型共同包含了質荷比2756.98、3019.11、9077.04和10054.26個蛋白峰,結果具有較好的一致性,交叉驗證評估兩個模型對MS早期腎損害診斷的敏感性、特異性和準確性均較好,下一步可增加臨床樣本量對診斷模型加以驗證。
綜上,本研究應用WCX磁珠分離結合MALDITOF-MS分析MS早期腎損害尿液蛋白譜圖,采用多種機器學習分類方法篩選出MS早期腎臟損害的尿液差異蛋白峰,并建立了具有較好識別率的診斷模型。下一步將進一步進行差異蛋白峰的序列鑒定和驗證。
[1]Agrawal V,Shah A,Rice C,et al.Impact of treating the metabolic syndrome on chronic kidney disease [J].Nat Rev Nephrol,2009,5(9):520-528.
[2]Mischak H,Apweiler R,Banks RE,et al.Clinical proteomics:a need to define the field and to begin to set adequate standards [J].Proteomics Clin Appl,2007,1(2):148-156.
[3]吳杰,李燕,陳香美,等.磁珠分離結合生物質譜分析腎小球疾病患者尿液多肽譜 [J].中華腎臟病雜志,2009,25(8):596-600.
[4]樊曉紅,蔡建芳,李學旺,等.中國漢族人以尿白蛋白肌酐比值診斷微量白蛋白尿的界值研究[J].中華腎臟病雜志,2010,26(11):807-811.
[5]Chen B,Yang D,Chen YU,et al.The prevalence of microalbuminuria and its relationships with the components of metabolic syndrome in the general population of China [J].Clinica Chimica Acta,2010,411(9-10):705-709.
[6]Levey AS,Coresh J,Greene T,et al.Using standardized serum creatinine values in the modification of diet in renal disease study equation for estimating glomerular filtration rate[J].Ann Intern Med,2006,145(4):247-254.
[7]Fiedler GM,Baumann S,Leichtle A,et al.Standardized peptidome profiling of human urine by magnetic bead separation and matrix-assisted laser desorption/ionization time-offlight mass spectrometry[J].Clin Chem,2007,53(3):421-428.
[8]Bramham K,Mistry HD,Poston L,et al.The non-invasive biopsy-will urinary proteomics make the renal tissue biopsy redundant[J]?Q J Med,2009,102(8):523-538.
[9]Welberry Smith MP,Banks RE,Wood SL,et al.Application of proteomic analysis to the study of renal diseases[J].Nat Rev Nephrol,2009,5(12):5701-5712.
[10]Poon TC.Opportunities and limitations of SELDI-TOF-MS in biomedical research:practical advices[J].Expert Rev Proteomics,2007,4(1):51-65.
[11]Zhang X,Leung SM,Morris CR,et al.Evaluation of a no-vel,integrated approach using functionalized magnetic beads,bench-top MALDI-TOF-MS with prestructured sample supports,and pattern recognition software for profiling potential biomarkers in human plasma [J].J Biomol Tech,2004,15(3):167-175.
[12]Gianazza E,Mainini V,Castoldi G,et al.Different expression of fibrinopeptide A and related fragments in serum of type 1 diabetic patients with nephropathy[J].J Proteomics,2010,73(3):593-601.
[13]Datta S,Pihur V.Feature selection and machine learning with mass spectrometry data[M]//Matthiesen R.Bioinformatics methods in clinical research,methods in molecular biology.New York:Humana Press,2010:205-229.