汪偉
首都醫(yī)科大學(xué) 醫(yī)學(xué)實(shí)驗(yàn)與測試中心,北京 100069
隨著分子生物學(xué)計(jì)算的發(fā)展,基因表達(dá)譜已經(jīng)廣泛應(yīng)用在疾病診斷和治療中[1-3]。伴隨基因芯片種類的不斷出新,數(shù)字化測序也逐漸得到廣泛應(yīng)用,隨之而來的是分析技術(shù)的改進(jìn)與更新[4-6],在眾多的分析技術(shù)中,最具有權(quán)威的是統(tǒng)計(jì)學(xué)分析。
Visual Foxpro(VFP),同VB、DELPHI一樣都是程序開發(fā)工具,VFP由于自帶免費(fèi)的DBF格式的數(shù)據(jù)庫,在國內(nèi)曾經(jīng)是非常流行的開發(fā)語言,現(xiàn)在許多單位的MIS系統(tǒng)都是用VFP開發(fā)的。VFP主要用在小規(guī)模企業(yè)單位的MIS系統(tǒng)開發(fā),當(dāng)然也有用于工控軟件、多媒體軟件的開發(fā)中。在基因表達(dá)譜數(shù)據(jù)處理中既需要對數(shù)據(jù)計(jì)算又需要對數(shù)據(jù)管理,VFP是非常勝任這項(xiàng)工作的。
方差分析(Analysis of Variance,ANOVA),又稱“變異數(shù)分析”或“F檢驗(yàn)”,是R.A.Fisher發(fā)明的,用于兩個(gè)及兩個(gè)以上樣本均數(shù)差別的顯著性檢驗(yàn)。單因素方差分析,是用來對完全隨機(jī)設(shè)計(jì)的多個(gè)樣本均數(shù)間的比較分析,其統(tǒng)計(jì)意義是推斷各樣本所代表的總體均數(shù)是否相等。重復(fù)測量數(shù)據(jù)是指同一受試對象的同一觀察指標(biāo)在不同時(shí)間點(diǎn)上進(jìn)行多次測量所得的資料,常用來分析觀察指標(biāo)在不同時(shí)間點(diǎn)上的變化特點(diǎn)。重復(fù)測量設(shè)計(jì)可以將由于個(gè)體差異導(dǎo)致的變異予以消減或移除[7]。在重復(fù)測量設(shè)計(jì)中,一個(gè)處理內(nèi)的被試跟另一個(gè)處理內(nèi)的被試是完全相同的,因此,可以消減這個(gè)被試間差異導(dǎo)致的變異。其計(jì)算公式如下。
總變異離均差平方和:
受試對象間變異離均差平方和:
其中,Ti為第i個(gè)受試對象的全部觀察值之和。
受試對象內(nèi)變異離均差平方和:
其中,Si為第i個(gè)受試對象的全部觀察值的平方和。
重復(fù)測量變異離均差平方和:
其中,Tj為第j個(gè)組內(nèi)所有受試對象的觀察值之和。
統(tǒng)計(jì)量F:
v為各離均差平方和對應(yīng)的自由度。
本軟件由以下幾個(gè)模塊組成:數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)計(jì)算、輸出、數(shù)據(jù)字典等。其結(jié)構(gòu)框架,見圖1。
圖1 軟件實(shí)現(xiàn)構(gòu)架圖
數(shù)據(jù)轉(zhuǎn)換模塊負(fù)責(zé)將基因芯片原始數(shù)據(jù)轉(zhuǎn)換成兩類數(shù)據(jù)庫文件:一是探針以及對應(yīng)的基因說明文件,該文件作為數(shù)據(jù)字典保存在數(shù)據(jù)字典數(shù)據(jù)庫中;二是探針對應(yīng)的基因表達(dá)值,本模塊具有將同一研究中的多個(gè)表達(dá)譜芯片數(shù)據(jù)合并成一個(gè)數(shù)據(jù)庫文件,以便后續(xù)的計(jì)算。同時(shí),常用的統(tǒng)計(jì)用表也作為數(shù)據(jù)字典中的數(shù)據(jù)庫文件。
數(shù)據(jù)計(jì)算模塊則完成單因素重復(fù)測量方差分析的計(jì)算,所用計(jì)算公式在上節(jié)中已有詳述,本軟件構(gòu)架還方便添加其他統(tǒng)計(jì)模塊。
數(shù)據(jù)結(jié)果匯總模塊主要功能是將統(tǒng)計(jì)結(jié)果數(shù)據(jù)庫文件轉(zhuǎn)換成EXCEL文件格式,可以依據(jù)使用者要求輸出全部結(jié)果或具有統(tǒng)計(jì)意義的部分。
軟件開發(fā)完成后,使用首都醫(yī)科大學(xué)附屬醫(yī)院的一組腫瘤治療效果的micoRNA芯片表達(dá)譜數(shù)據(jù)進(jìn)行檢驗(yàn),芯片探針為850個(gè)。該組數(shù)據(jù)共分0、2、4、8等4個(gè)時(shí)間點(diǎn),共15個(gè)病人,在這4個(gè)時(shí)間點(diǎn)重復(fù)采樣。對于該組數(shù)據(jù),F(xiàn)值>2.83的miRNA具有統(tǒng)計(jì)學(xué)差異,軟件計(jì)算結(jié)果得到37個(gè)miRNA,占總體比例4.35%。其F值分布比例,見圖2。
圖2 F值分布比例圖
對于重復(fù)測量數(shù)據(jù),由于不同時(shí)間點(diǎn)的測量值之間是相關(guān)的、非獨(dú)立的,所以進(jìn)行方差分析時(shí),還特別要求需滿足球?qū)ΨQ條件[7]。鑒于球?qū)ΨQ條件的檢驗(yàn)和F值校正計(jì)算比較困難,并且大規(guī)模矩陣運(yùn)算不適合用數(shù)據(jù)庫語言實(shí)現(xiàn),因此本軟件沒有設(shè)計(jì)此項(xiàng)檢驗(yàn)。由于一般情況下,只有接近F的臨界值時(shí),才需要進(jìn)行球?qū)ΨQ條件檢驗(yàn)并進(jìn)行誤差校正。我們將F臨界值前后分別乘以1.05和0.95,并以此區(qū)間內(nèi)的miRNA作為需要進(jìn)行球?qū)ΨQ檢驗(yàn)。結(jié)果統(tǒng)計(jì)表明,需要進(jìn)行此項(xiàng)檢驗(yàn)的miRNA數(shù)量僅占整體數(shù)量的5%,這部分基因如果有必要進(jìn)一步篩選,則可以使用SPSS統(tǒng)計(jì)軟件,人工進(jìn)行甄別。
數(shù)據(jù)庫語言比較其他編程語言,具有編程簡單、且非常適合基因表達(dá)數(shù)據(jù)分析處理,因?yàn)榛虮磉_(dá)譜數(shù)據(jù)既要計(jì)算同時(shí)還需要一定的數(shù)據(jù)管理。本研究開發(fā)的軟件適合時(shí)間序列的表達(dá)譜數(shù)據(jù)篩選,作為表達(dá)譜大規(guī)模數(shù)據(jù)挖掘使用工具,具有高效、節(jié)省人工的優(yōu)點(diǎn)。
[1]魏晶,張晨晨,張國良,等.高通量測序技術(shù)分析肺結(jié)核患者PBMC基因表達(dá)譜差異[J].中國免疫學(xué)雜志,2013,(6):639-643.
[2]謝瑩瑩,徐旸.多發(fā)性骨髓瘤細(xì)胞中SWI/SNF核心亞單位SNF5調(diào)控的基因表達(dá)譜分析[J].南方醫(yī)科大學(xué)學(xué)報(bào),2013,(5):667-671.
[3]孟爽爽,張艷亮,段勇.基因表達(dá)譜在腫瘤防治研究及臨床應(yīng)用中的進(jìn)展[J].國際檢驗(yàn)醫(yī)學(xué)雜志,2013,(7):829-831.
[4]任叢林.基于壓縮感知算法的基因表達(dá)數(shù)據(jù)分類的研究[D].北京:北京交通大學(xué),2012.
[5]徐洪來,肖敏,楊超.肝、腎移植受者外周血基因表達(dá)差異分析[J].南方醫(yī)科大學(xué)學(xué)報(bào),2013,(2):166-171.
[6]李凌波,張靜,陳丹.基于SVM和平均影響值的人腫瘤信息基因提取[J].生物信息學(xué),2013,(1):72-78.
[7]王立芹,楊俊英,唐龍妹,等.單因素重復(fù)測量設(shè)計(jì)的方差分析及SAS與SPSS的實(shí)現(xiàn)[J].華北煤炭醫(yī)學(xué)院學(xué)報(bào),2005,(1):17-19.
[8]陸慧娟.基于基因表達(dá)數(shù)據(jù)的腫瘤分類算法研究[D].北京:中國礦業(yè)大學(xué),2012.