劉亞舉,張俊濤
幾款遺傳學(xué)分析軟件在法醫(yī)生物統(tǒng)計(jì)中的應(yīng)用
ApplicationofSeveralGeneticAnalysisSoftwarestoForensicBiologicalStatistics
劉亞舉1,張俊濤2
目的探討遺傳學(xué)分析軟件在STR基因座遺傳多態(tài)性統(tǒng)計(jì)中的應(yīng)用。方法借助STR分型軟件,利用軟件所介紹的統(tǒng)計(jì)計(jì)算功能,計(jì)算雜合度H、匹配概率Pm、個(gè)體識(shí)別力DP、多態(tài)性信息含量遺傳多態(tài)性參數(shù)PIC和非父排除率PE等。結(jié)果PowerStats v12、PowerMarker v3.25、Cervus 3.0和Hema法醫(yī)DNA等幾款分析軟件應(yīng)用在STR基因座遺傳多態(tài)性參數(shù)計(jì)算方面各有優(yōu)缺點(diǎn),Arlequin v3.11軟件主要應(yīng)用在X-STR基因座中Fisher,s精確檢驗(yàn)和Hardy-Weinbergs平衡檢驗(yàn)。結(jié)論聯(lián)合使用文中介紹的幾款軟件,可以解決法醫(yī)工作者繁瑣的統(tǒng)計(jì)計(jì)算工作。
遺傳學(xué)多態(tài)性;分析軟件;生物統(tǒng)計(jì);STR分型;個(gè)體識(shí)別
在法醫(yī)DNA應(yīng)用領(lǐng)域中,進(jìn)行個(gè)人識(shí)別、親權(quán)鑒定和DNA數(shù)據(jù)庫(kù)建設(shè)時(shí)需要選擇相應(yīng)的基因座,那么就要分析統(tǒng)計(jì)所選擇基因座在相應(yīng)民族群體中的遺傳多態(tài)性,即計(jì)算雜合度(H)、匹配概率(Pm)、個(gè)體識(shí)別力(DP)、多態(tài)性信息含量(PIC)和非父排除率(PE)。本文介紹幾款界面簡(jiǎn)單和易操作的軟件,也是作者的使用體會(huì),以供大家參考。
生物檢材經(jīng)DNA提取、PCR擴(kuò)增、STR電泳檢測(cè)后,不管是測(cè)序儀3130電泳數(shù)據(jù)(.FSA)或是3500電泳數(shù)據(jù)(.HID),均用GeneMapperID-X軟件(美國(guó)AB公司)進(jìn)行等位基因分型,在分型之前需要對(duì)ID-X軟件進(jìn)行設(shè)定。
1.1 等位基因顯示設(shè)定打開(kāi)軟件,F(xiàn)iles列表中點(diǎn)擊Project Options,選擇Options窗口中Analysis界面,在最下方Duplicate homozygous alleles畫(huà)鉤,即完成設(shè)定。
1.2 結(jié)果Excel文檔輸出設(shè)定選擇需要輸出的樣本,點(diǎn)擊Tools中的Report Manager,在Report Manager窗口中點(diǎn)擊File列表中的Export,即可完成輸出。注意要將文件保存為.csv格式,即Excel格式,要選擇每個(gè)基因座的等位基因分別于不同的單元格。得到的Excel基因型分型表,第1行是基因座名稱(chēng),第2行以下是等位基因分型,每個(gè)基因座占兩列(即每一個(gè)體基因型的兩個(gè)等位基因),每個(gè)樣本占1行,可以在表格最前端增加列,輸入諸如群體特征等信息。如用ID-X軟件對(duì)包含有D18S1364、D13S325、D2S1772基因座的某群體進(jìn)行等位基因分型,經(jīng)過(guò)上述過(guò)程,得到的Excel表格(保存格式為.csv和.xls),以供下述軟件使用。
2.1 PowerStatsv12和Modified-powerstat軟件這是一款被大多數(shù)作者所使用的軟件,操作簡(jiǎn)單易于掌握,文獻(xiàn)[1]進(jìn)行了詳細(xì)闡述,區(qū)別在于前者不能進(jìn)行Hardy-Weinbergs平衡檢驗(yàn),且樣本容量限制在600例之內(nèi),而后者彌補(bǔ)了這方面的不足,兩者同時(shí)具有不同群體之間的數(shù)據(jù)比對(duì)功能,目前后者被廣泛采用,本文不再列舉。
2.2 PowerMarkerv3.25軟件[2]安裝該軟件時(shí),需要先安裝有Microsoft.NET Framework(版本號(hào)v1.1)。
2.2.1 Excel表中的基因型數(shù)據(jù)導(dǎo)入 先選中Excel表輸入有內(nèi)容的單元格,按Ctrl+C鍵;然后打開(kāi)PowerMarker軟件,在File列表中點(diǎn)擊Import,選擇Dataset,在出現(xiàn)的對(duì)話(huà)框中,點(diǎn)擊From clipboard,按下Next,出現(xiàn)對(duì)話(huà)框后;點(diǎn)擊第1列中非基因座名的信息(如群體),點(diǎn)擊下方的Categorical,在右側(cè)的Level-2 column(e.g population)下選擇相關(guān)信息(如群體),按Next,再按Next,最后按Finish即可。
2.2.2 基因型數(shù)據(jù)的統(tǒng)計(jì)分析 在已打開(kāi)的PowerMarker軟件中,在Analysis列表中點(diǎn)擊Summary,選擇Allele Frequency,在出現(xiàn)的對(duì)話(huà)框中,點(diǎn)擊dataset,再按Submit,計(jì)算等位基因頻率。同樣方法可以計(jì)算Genotype Frequency(基因型頻率)、Hardy-Weinberg Equilibrium(H-W平衡)等群體遺傳學(xué)參數(shù)。計(jì)算后的數(shù)據(jù),用鼠標(biāo)指向數(shù)據(jù)任何位置,雙擊鼠標(biāo)左鍵,就可以保存為.xls數(shù)據(jù)。該款軟件也被大眾采用,因?yàn)樗膬?yōu)點(diǎn)是能夠附加計(jì)算χ2和P值,以及常染色體基因座是否存在連鎖遺傳關(guān)系,樣本容量不受限制,唯一不足的是不能計(jì)算非父排除率PE。
2.3 Cervus3.0軟件安裝后先點(diǎn)擊File中new,再點(diǎn)擊Analysis中Allele Frequencies,出現(xiàn)Allele Frequency Analysis對(duì)話(huà)框。點(diǎn)擊Select,導(dǎo)入基因型文件(必須為ID-X軟件導(dǎo)出的Excel表,格式為.csv而非.xls),在Number of loci里選擇總的基因座數(shù),最后點(diǎn)擊Save as,選擇保存路徑和命名。點(diǎn)擊OK即可完成統(tǒng)計(jì)計(jì)算。該款軟件操作簡(jiǎn)單,而且能夠計(jì)算P值和進(jìn)行Hardy-Weinbergs平衡檢驗(yàn),樣本容量又不受限制,所以被大眾接受,缺點(diǎn)是不能計(jì)算非父排除率PE。
2.4 Arlequinv3.11軟件[3]由于該軟件識(shí)別.arp的文件格式,即基因型數(shù)據(jù)以分開(kāi)的兩行輸入,1個(gè)基因座上的2個(gè)等位基因分別各占1行,因此對(duì)Excel文檔中基因座等位基因數(shù)據(jù)處理是主要的。
2.4.1 基因座等位基因由橫向變?yōu)榭v向排列 將圖1Excel表中的A列內(nèi)容清除,在A2、A3鍵入1、3,然后拖拉復(fù)制至最后一個(gè)樣本;在最后一個(gè)樣本下方鍵入2、4,拖拉復(fù)制至樣本數(shù)的2倍。選中A列,在“排序”選項(xiàng)中點(diǎn)擊“擴(kuò)展選定區(qū)域”,然后刪除A列;選中第1個(gè)樣本的每個(gè)基因座第2個(gè)等位基因,點(diǎn)擊右鍵,在“插入”選項(xiàng)中點(diǎn)擊“活動(dòng)單元格下移”;在整體數(shù)據(jù)后面新命名3列,分別鍵入基因座名(D18S1364、D13S325、D2S1772),在D18S1364下的第1行鍵入公式“=A2&B2”,拖拉復(fù)制至最后一個(gè)樣本;依次類(lèi)推,得到D13S325、D2S1772基因座排列形式。選中最后命名的3列,復(fù)制,打開(kāi)一個(gè)新的Excel表,在CDE列點(diǎn)擊右鍵,點(diǎn)擊“選擇性粘貼”選擇“數(shù)值”;在A列第2.4行分別鍵入M1、M2,B列對(duì)應(yīng)位置鍵入1、1;選中AB列的第2至第5行,拖拉復(fù)制至最后一個(gè)樣本。完成后,即可得到基因座等位基因庫(kù)。
2.4.2 Arp文件格式的編寫(xiě) 在軟件包文件夾Arlequin ver3.11Example filesMicrosat中,選擇記事本方式打開(kāi)MicDipl.arp。首先修改[Profile]項(xiàng)中的NbSamples(群體數(shù)目);其次修改[Data][[Samples]] 項(xiàng)中的基因數(shù)目、名稱(chēng)和樣本數(shù)量;最后復(fù)制上述2.4.1基因座等位基因庫(kù)的內(nèi)容,將SampleData={}中的內(nèi)容替換,但要注意{}的位置保持不動(dòng),而且{}內(nèi)沒(méi)有基因座名稱(chēng),只有數(shù)據(jù)。
2.4.3 Arlequin軟件的使用 打開(kāi)軟件,在File列表中點(diǎn)擊New project;然后在菜單欄點(diǎn)擊“Arlequin Configuration”,在Append results前畫(huà)勾,將Browse設(shè)置為C:Program FilesInternet Exploreriexplore.exe;點(diǎn)擊“Project wizard”,Browse項(xiàng)中選擇arp文件的保存路徑,Data type項(xiàng)中選擇MICROSAT及前兩項(xiàng)前畫(huà)勾,Controls項(xiàng)中修改樣本數(shù)量,Optional sections項(xiàng)的前兩項(xiàng)前畫(huà)勾;點(diǎn)擊“Import data”,Browse項(xiàng)中選擇arp文件的保存路徑,Target項(xiàng)中選擇畫(huà)勾,最后點(diǎn)擊TRANSLATE,出現(xiàn)Arlequin calculation settings對(duì)話(huà)框。舉例介紹Hardy-Weinberg平衡計(jì)算,點(diǎn)擊“Setting”,選擇Linkage disequilibrium,再選擇Hardy-Weinberg Equilibrium test,選中Perform exact test of Hardy-Weinberg Equilibrium,最后點(diǎn)擊“Start”。該款軟件具有不同群體之間的數(shù)據(jù)比對(duì)功能,主要應(yīng)用在X-STR基因座的P值計(jì)算和基因座之間是否存在連鎖遺傳關(guān)系方面,也是X-STR基因座統(tǒng)計(jì)計(jì)算不可缺少的軟件之一。
2.5 Hema法醫(yī)DNA分析軟件由珠海黑馬醫(yī)學(xué)儀器有限公司開(kāi)發(fā),融合了實(shí)驗(yàn)室管理與統(tǒng)計(jì)計(jì)算和分析,本節(jié)主要介紹統(tǒng)計(jì)分析。登錄軟件,點(diǎn)擊菜單欄“基因統(tǒng)計(jì)”,出現(xiàn)基因統(tǒng)計(jì)數(shù)據(jù)庫(kù)對(duì)話(huà)框。點(diǎn)擊“添加”,在出現(xiàn)的對(duì)話(huà)框中,輸入“人種地區(qū)、基因座名稱(chēng)、抽樣總?cè)藬?shù)”和“添加等位基因名稱(chēng)”后,按“下一步”,再輸入“基因頻率”,按“下一步、完成”即可。該款軟件優(yōu)點(diǎn)是能夠分別計(jì)算三聯(lián)體非父排除率和二聯(lián)體非父排除率,但不能計(jì)算基因頻率和基因型頻率,由于是一款全中文軟件,所以也有龐大的使用群體。
本文介紹的幾款遺傳學(xué)分析軟件,程序開(kāi)發(fā)編寫(xiě)者將固有的公式寫(xiě)入到軟件中,均具有強(qiáng)大的功能,可以代替大量繁瑣的人工計(jì)算,作為非專(zhuān)業(yè)者很難全面了解使用,作者拋磚引玉,系統(tǒng)地介紹了其在法醫(yī)生物統(tǒng)計(jì)中的應(yīng)用,希望能夠?yàn)槌鯇W(xué)者帶來(lái)幫助。另外尚未介紹的統(tǒng)計(jì)計(jì)算,如Y-STR中的GD值,可以利用Excel表的功能根據(jù)GD公式統(tǒng)計(jì);X-STR的法醫(yī)學(xué)參數(shù)值[4-5]登陸http://www.chrx-str.org網(wǎng)站[6]根據(jù)在線計(jì)算功能得到。同時(shí),大部分軟件屬于免費(fèi)軟件,獲取方便,應(yīng)用用途廣泛??傊?,這幾款軟件也有相對(duì)的缺點(diǎn),但聯(lián)合使用,可以彌補(bǔ)之間的一些不足,使用者可根據(jù)自己工作需要慢慢掌握。
[1]趙方,伍新堯,蔡貴慶,等.Modified-Powerstates軟件在法醫(yī)生物統(tǒng)計(jì)中應(yīng)用[J].中國(guó)法醫(yī)學(xué)雜志,2003,18(5):297-298.
[2]Liu K,Muse SV.PowerMarker:an integrated analysis environment for genetic analysis[J].Bioinformatics,2005,21(9):2128-2129.
[3]Excoffier L,Lischer H E L.Arlequin suite ver 3.5:a new series of programs to perform population genetics analyses under linux and windows[J].Mol ecol Resour,2010,10(3):564-567.
[4]Botstein D,White RL,Skolnick M,et a1.Construction of a genetic linkage map in man using restriction fragment length polymorphisms[J].Am J Hum Genet,1980,32(3):314-331.
[5]Desmarais D,Zhong Y,Chakraborty R,et al.Development of a highly polymorphic STR marker for identity testing purposes at the human androgen receptor gene(HUMARA)[J].J Forensic Sci,1998,43(5):1046-1049.
[6]Szibor R,Hering S,Edelmann J.A new web site compiling forensic chromosome X research is now online[J].Int J Legal Med,2006,120(4):252-254.
2014-01-13
1.許昌市公安局刑事科學(xué)技術(shù)研究所,河南許昌 461000 2.襄城縣公安局刑偵大隊(duì),河南襄城 461700
劉亞舉(1978-),男,河南襄城人,副主任法醫(yī)師,從事DNA檢驗(yàn)及法醫(yī)遺傳學(xué)統(tǒng)計(jì)工作。
DF795.4
B
1672-688X(2014)01-0062-03