姜龍訓 張玲
[摘要] 對于目前用于單核苷酸多態(tài)性(SNPs)數(shù)據(jù)進行聚類分析的統(tǒng)計方法進行了比較說明,并在其中遴選出了5種具有代表性的統(tǒng)計方法,分別對每種方法具體進行分析。在每種聚類方法的論述過程中,均分為該方法的原理、計算方法和公式、優(yōu)點與缺陷幾個部分。并且在討論部分對各種方法進行了總結歸納,提出了今后針對SNPs數(shù)據(jù)聚類計算方法的發(fā)展方向預測。
[關鍵詞] 單核苷酸多態(tài)性;聚類分析;基因;數(shù)據(jù)挖掘
[中圖分類號] R181.2+3 [文獻標識碼] A [文章編號] 1673-7210(2015)09(a)-0036-06
[Abstract] Statistical methods currently used for single nucleotide polymorphisms (SNPs) data cluster analysis are explained, and select five kinds of representative statistical methods, make specific analysis to each method separately. In the discussion process for each method, all divided into 5 parts: principle of the method, calculation methods, formulas, advantages and defects. In the discussion section of the article, all the methods are summarized, and propose future development direction of the cluster method for SNPs data.
[Key words] Single nucleotide polymorphisms; Cluster analysis; Gene; Data mining
在人類的基因組中存在各種形式的變異,其中,單核苷酸多態(tài)性(single-nucleotide polymorphisms,SNPs),即單個的核苷酸變異所引發(fā)的DNA鏈序列的多態(tài)性,是這些變異中最普遍的形式。根據(jù)數(shù)據(jù)統(tǒng)計,在人類含有不低于30億個含氮堿基對數(shù)量的基因組中,SNP出現(xiàn)的概率在1/1000左右[1]。如何利用這些信息,建立數(shù)字模型,探索這些基因與位點和疾病的關聯(lián),成為了擺在科學家面前的一個富有挑戰(zhàn)意義的課題[2]。
科學家們在長期的研究中,根據(jù)“物以類聚”的原始思想,衍生出了對復雜數(shù)據(jù)或者試驗對象等進行歸類的一種多元統(tǒng)計學分析方法,即現(xiàn)在歸屬于統(tǒng)計學分支的聚類分析(cluster analysis),又稱其群分析。這種統(tǒng)計方法的核心思想從誕生之日起就未更改,即在沒有任何可用來參考的或者依從的規(guī)范下(即先驗知識準備程度為零),按照被研究對象或者樣品本身的特點或者性狀,進行最大程度合理的分類。通過聚類分析的計算過程,不僅可以保證在最終所分的類別情況下,同一類別中的對象或者樣品,能夠具有最大程度的相似性,而且使不同類別中的對象或者樣品,擁有最大程度的相異性。以大量相似為基礎,對收集數(shù)據(jù)來分類,成為了聚類分析計算本身的最終目標[3]。從統(tǒng)計學的觀點看,聚類分析計算是通過數(shù)據(jù)建模簡化原有數(shù)據(jù)復雜程度的一種方法,而從實際應用的角度看,聚類分析計算亦是數(shù)據(jù)挖掘的主要任務之一。高維度高通量SNPs數(shù)據(jù)聚類分析,是近現(xiàn)代聚類分析中一個非常活躍的領域,同時也是一個非常具有挑戰(zhàn)性的工作。
目前用于高維度SNPs數(shù)據(jù)聚類分析的方法有很多種,常用的幾大類有Logistic回歸、潛在類別分析(latent class analysis,LCA)模型、結構方程模型分析(structural equation modeling,SEM)、以決策樹為基礎的分類回歸樹(classification and regression trees,CART)和隨機森林(random forest,RF)算法的分析[4]、基于貝葉斯網(wǎng)絡(Bayesian networks,BNs)模型的分析、基于神經(jīng)網(wǎng)絡(neural networks,NNs)模型的分析和支持向量機(support vector machine,SVM)的方法等,上述種類的方法各有其適用性,在聚類計算的效能方面也廣泛存在爭議。本文從以上幾類方法中,遴選出應用較廣泛、理論相對成熟的潛在類別分析、分類回歸樹模型、貝葉斯網(wǎng)絡潛變量模型、BP神經(jīng)網(wǎng)絡模型和支持向量機5種具體方法進行比較,闡述其在SNPs數(shù)據(jù)聚類分析中的意義。
1 潛在類別分析
誕生于20世紀50年代的LCA方法,其基本原理是通過引入潛變量概念,建立潛在類別模型(latent class model,LCM),在保證維持各個顯變量的數(shù)據(jù)局部獨立性的基礎上,力圖用少數(shù)的潛變量與各個顯變量建立關系,然后以數(shù)量相對較小的潛變量進行對象關系解釋。而爭取利用最少數(shù)量的且關系上互相排斥的潛變量對各個顯變量的概率分布進行最大程度的解釋,就是潛在類別分析的基本假設,這種假設的思想傾向于各種顯變量對其類別進行解釋的潛變量都有反應的選擇性[5]。潛在類別分析的統(tǒng)計原理建立在概率分析的基礎之上。一個潛在類別模型是由一個(或多個)潛在變量和多個外顯變量組成的Bayes網(wǎng)[6]。
完整的LCM分析過程包括數(shù)據(jù)概率變換參數(shù)化、模型參數(shù)估計與識別、模型評價指標選擇、分類結果解釋等[7-10]。
1.1 概率參數(shù)化
潛在類別概率和條件概率構成了潛在類別模型概率參數(shù)化過程中的兩種參數(shù)。假設某數(shù)據(jù)集含有三個彼此之間不相互獨立的外顯變量,以A、B、C表示,而且每一個顯變量分別具有的水平數(shù)為I、J、K。按照假設,若尋找到合適的潛變量X,則X需滿足一下條件:首先,要求合理解釋A、B、C的關系;第二,在潛變量的各個類別之中所有顯變量維持最大的局部獨立性,則為潛在類別分析,如果潛變量X中含有T個潛在類別的話,用數(shù)學模型表達就為:
在上式中,LCM的組合概率,用πijkABC表示,相應的,潛在類別概率,以πtX表示,其意義可以解釋為:在觀察變量處于局部獨立的條件下,潛變量X在第t個水平的概率,即從樣本中隨機選取的觀察對象屬于潛在類別t的概率。容易證明,各個潛在類別的概率總和永遠為100%即1,用公式表達為:
條件概率,用πitAX表示,其意義可以解釋成:外顯變量A的第i個水平更傾向于劃歸到第t個潛在類別的個體的概率。由于各個潛變量的各個水平處于相互獨立的狀態(tài),所以各外顯變量的條件概率總和為1,即:
1.2 參數(shù)估計與模型擬合
在潛在類別模型的參數(shù)估計過程中,最大似然法(maximum likelihood,ML)是被最廣泛使用且計算軟件中默認的方法。EM(expectation-maximization)、NR(Newton Rapson)算法在計算迭代過程中為最常用的方法,而其中前者更為常用。在潛在類別模型評價方面,AIC評分(akaike informationcriterion)和BIC評分(bayesian information criterion)成為使用最為廣泛的擬合評價指標。兩者共同點為:其計算理論基礎都為似然比χ2檢驗,對于模型對應的參數(shù)限制不一致的情況下,也可以用來橫向比較,且結果簡單直觀,都是數(shù)值越小表示模型擬合越好。Lin與Dayton曾經(jīng)指出,當研究的樣本數(shù)量級達到或者超過千位級時,BIC指標更可靠,否則AIC更佳[11]。
1.3 潛在分類
完成最優(yōu)化模型的確定之后,就可以利用模型進行計算,將每個外顯變量的數(shù)據(jù)值分配到判定的潛在類別之中,通過這個過程,完成數(shù)據(jù)的后驗類別分析,即潛在聚類分析。上述分類的理論依據(jù)是著名的貝葉斯理論,分類的計算公式為:
潛在類別分析雖然理論建立時間較早,但是一直依靠著自身的優(yōu)勢在聚類分析領域有一席之地,其計算思想中融合了結構方程模型與對數(shù)線性模型的構思。該算法的目的明確,即數(shù)量眾多的顯變量之間的關系,可以用最優(yōu)化的組合模式,使用最少的潛變量來解釋。結構方程模型只能夠對連續(xù)型潛變量處理的缺陷,在潛在類別模型問世后得到了相當程度的彌補,特別在設計思想范圍中,使得研究者以概率論為基礎,能夠通過數(shù)據(jù)對分類結果之后所隱藏的因素做更為深刻的了解,這些都要歸功于分類潛變量的引入這一有效提高分類效果的方法[12]。
但是,由于該方法的分析原理比較簡單,只是脫胎于貝葉斯概率理論的概率參數(shù)化,所以使得該方法在聚類分析過程中,如果SNPS數(shù)量較少,則表現(xiàn)出不錯的聚類效果,但如果SNPS數(shù)據(jù)維度過高,則有失水準。具體表現(xiàn)在高維度高通量的SNPS數(shù)據(jù)聚類分析過程異常復雜,時間消耗過長,而最終得到的聚類結果也容易在解釋時發(fā)生阻礙。
2 分類回歸樹模型
CART[13]不僅可以在已經(jīng)獲得的數(shù)據(jù)庫中通過一定的規(guī)則提煉出關聯(lián),而且是對隱藏在各種指標中的分類屬性進行量化計算成為可能,其作為數(shù)據(jù)挖掘技術中的經(jīng)典聚類分析方法,為高通量SNPs數(shù)據(jù)的聚類分析制造了一個科學而準確的平臺。分類回歸樹的基本原理為:如果對于已經(jīng)給定的待分類對象X,已知其可以進行Y個不同屬性的分類,那么該模型將模擬把X逐級遞歸的分解為多個數(shù)據(jù)子集,并且認為Y在子集上的分布狀態(tài),是均勻并且連續(xù)的,而分解的方法為二叉樹分類法。該方法如同自然界中的樹木一樣,數(shù)據(jù)集X由根部向葉部逐步分解移動,每一個劃分點即樹木分叉點的原因,由分支規(guī)則(splitting rules)確定,最終端的葉子表示劃分出的最終區(qū)域,而且每一個預測樣本,只能被分類到唯一的一個葉子,同時Y在該點的分布概率也被確定下來。CART的學習樣本集結構如下:
L={X1,X2,…,Xm,Y}
其中,X1~Xm可以稱之為屬性變量,Y可以稱之為標簽變量。但在樣本集中無論是X或是Y,其變量屬性可以容許多種形式,有序變量和離散型變量都可以存在。若Y處于有序變量的數(shù)值情況時,模型被稱為回歸樹;若情況相反,稱之為分類樹。
2.1 分類回歸樹的構建
將給定的數(shù)據(jù)集L轉化成與其對應的最大二叉樹,這個過程稱之為構建樹Tmax[14]。為了尋找到對應數(shù)據(jù)集的最優(yōu)分支方法,最大雜度削減算法被運用到構建過程之中。在進行分支時,數(shù)據(jù)中每個值都要納入計算范圍,只有這樣才能計算出最佳的分支點進行分叉。CART的構建離不開Gini系數(shù)的使用。若數(shù)據(jù)集L中,含有記錄的類別數(shù)量為N,Gini系數(shù)的表達式就為:
其中,Pj表示T中第N個分類數(shù)據(jù)的劃分頻率。對于任意的劃分點T,如果該點中所包含的樣本量非常集中,那么該點的Gini(T)值越小,從分類圖上顯示為該節(jié)點分叉角度越鈍。欲構建最終的Tmax,就要重復操作,將根節(jié)點分支為子節(jié)點,而這種遞歸分類的計算,最好利用統(tǒng)籌學中的貪心算法。
2.2 樹的修剪
當Tmax建造好之后,下一步需要對其進行所謂的修剪操作,就是去掉那些可能對未知的樣本分類計算精度上,沒有任何幫助的部分,其目標是處理掉對給定數(shù)據(jù)集中的噪音干擾的問題,以便形成最簡單最容易理解的樹。通常對樹進行修剪的方法是以下兩種,先剪枝方法(prepruning)與后剪枝(postpruning)方法,兩者都有助于提高已經(jīng)建成的樹,脫離開訓練數(shù)據(jù)集后,能夠正確地對未知數(shù)據(jù)進行分類的能力,而修剪方法都是通過統(tǒng)計計算,將理論上最不可信的分枝去掉。
2.3 決策樹評估
測試樣本評估法(test sample estimates)與交叉驗證評估法(cross-validation estimates)[15]是通常被用來對CART模型進行評估的方法,而前者的使用率更高。該評估方法的原理與多因子降維法有些類似,而且即時效率比較高,在學習數(shù)據(jù)集囊括的樣本量比較大的情況下,該方法的優(yōu)越性就更加突出,其原理可以解釋為:將原始的數(shù)據(jù)集L隨機分成兩部分,分別為測試集L2與樣本集L1,利用L1生成一系列的Tmax,而且按照序列T1>T2>T3>…>Tn,將測試集L2放到序列中的樹模型之中,TK為L2中的每個樣本逐個分配類別,因為L2中每個樣本的原始分類是事先已經(jīng)知道的,則樹TK在L2上的誤分情況可以利用公式(6)計算:
式中,Nij(2)代表L2中j類樣本劃歸至i類的數(shù)量,c(i|j)為把j類誤分到i類的代價,Rts(TK)表示TK針對L2的誤分代價,則最優(yōu)化樹的條件為:Rts(TK0)=minK(Rts (TK)。
作為一種經(jīng)典的通過數(shù)據(jù)集進行訓練并有監(jiān)督學習的多元分類統(tǒng)計模型,CART以二元分叉樹的形式給出所構建出的分類的形式,這種方式非常容易解釋,也非常容易被研究者理解和運用,并且這種方法與傳統(tǒng)意義上的統(tǒng)計學聚類分析的方法構建完全不一樣[16]。
但是CART方法對主效應的依賴程度很高,無論是每個分支的根節(jié)點還是后續(xù)內(nèi)部的子節(jié)點,其預測因子都是在主效應的驅動下進行,并且每個節(jié)點都依賴于上一級的母節(jié)點分支的情況。而且CART方法對結果預測的穩(wěn)定性上也有缺陷,具體表現(xiàn)在,如果所給數(shù)據(jù)集中的樣本有小范圍的更改,那么所產(chǎn)生的蝴蝶效應就會導致最終所構建的模型與原始模型的差別很大,當然分類結果也就難以一致。
3 貝葉斯網(wǎng)絡潛變量模型
BNs是一種概率網(wǎng)絡,它用圖形的形式來對各種變量間的依賴概率聯(lián)系做描述,經(jīng)典的圖形中,每一個隨機變量利用節(jié)點的方式表達,而變量之間的概率依存關系則利用直線表達,直線的粗細表示依賴的強度。在BNs中,任何數(shù)據(jù),當然也可以是高通量SNPs數(shù)據(jù),都能夠成為被分析的變量。BNs這種分析工具的提出,其原始動力是為了分析不完整性和概率性的事件,它可以從表達不是很精準的數(shù)據(jù)或信息中推理出概率結果。
網(wǎng)絡的拓撲結構和條件概率分布作為構成BNs的兩大核心組件,如果再將潛變量概念引入BNs,則成為了BNs潛變量模型。被包含在BNs中的潛變量數(shù)量,決定著這個模型的復雜程度,因為一般來講,在實際工作中,研究者常常利用潛變量來進行聚類計算,所以BNs潛變量模型也成為了一個經(jīng)典的潛結構模型(latent structure model)或潛類模型(latent class model)。
3.1 模型參數(shù)
在滿足一定的假定條件下,才能對BNs模型進行參數(shù)學習的過程。根據(jù)文獻記載,這些條件分別為:所有的樣本處于獨立狀態(tài);無論全局和局部,均處于獨立狀態(tài);變量不能為連續(xù)變量,只能是分類變量。在上述條件得到滿足的情況下,該模型可以利用數(shù)據(jù),計算出網(wǎng)絡拓撲結構中各個節(jié)點的條件概率θ,且服務于制訂的BNs模型結構η和數(shù)據(jù)集D。計算的方法有最大似然估計法等[17]。
3.2 模型選擇
與LCA方法類似,BNs模型也利用函數(shù)來對模型的擬合優(yōu)劣程度進行評價,衡量標準也是BIC、AIC、BICe等的評分,一般來說,分數(shù)低的模型更加優(yōu)化。
3.3 模型優(yōu)化
在通過評分的方法來確定BNs潛變量模型后(需綜合考量BIC、AIC、BICe三者的得分),該模型下一步就轉化成了如何去搜索符合所給數(shù)據(jù)集的最優(yōu)模型的過程。由于該網(wǎng)絡的拓撲結構,使得該模型結構的數(shù)目的增長速度非常快,與納入模型的變量數(shù)的增長呈指數(shù)級別比例,能夠適應這種數(shù)量級的搜索算法是啟發(fā)式的,其過程是比較不同的模型的評分,其中最常被使用的是爬山算法(hill climbing)[18]。
利用BNs模型進行高通量SNPs數(shù)據(jù)聚類,其優(yōu)點之一就是在該模型中,所有遺傳的模式都可以被忽略,無論是對SNPs的二分類變異賦值,還是三分類變異賦值,只要納入模型中,就轉變成純粹的數(shù)學問題。正是由于這種優(yōu)勢的存在,使得該方法對原始數(shù)據(jù)的類型容許程度很高,由此擴展了此種模型的使用范圍。BNs模型計算的過程雖然復雜,但是結果解讀起來卻是十分的簡單直觀。只要將各個類別的概率直方圖呈現(xiàn)出來,那所有重要的且有意義的高維度SNPs的整體效應,就能直觀的展現(xiàn)出來。BNs模型一旦被建立起來,就可以被用來對新納入的患者進行分類,其過程如下:輸入新加入樣本的SNPs的狀況,并且將這些狀況進行數(shù)學化處理即賦予其數(shù)據(jù)值,并帶入模型開始運行。模型會通過新加入樣本的SNPs的狀況,根據(jù)概率理論,將其歸入相應類別。
但是BNs模型的理論比較抽象,公式比較復雜,如果讓醫(yī)學工作者去理解其中的數(shù)學機制,可能不太現(xiàn)實,若再要求對模型進行深刻解釋,則更困難。該模型在優(yōu)化過程中的搜索算法也有硬傷,爬山算法從出現(xiàn)開始,就一直受到一定程度的詬病,因為其有使模型偏離到局部最優(yōu)的傾向。
4 BP神經(jīng)網(wǎng)絡模型
BP(back propagation)神經(jīng)網(wǎng)絡在所有的神經(jīng)網(wǎng)絡模型系列中,是被使用最多的模型之一,其核心原理為按照誤差逆?zhèn)鞑ニ惴?,對所給數(shù)據(jù)集進行多層的正向的反饋擬合,而這些層則包括輸入層(input layer)、隱層(hide layer) 和輸出層(output layer)。
BP神經(jīng)網(wǎng)絡模型對于已經(jīng)給定的數(shù)據(jù)集的訓練過程可以解釋為:各種數(shù)據(jù)由輸入層負責接收,并且向內(nèi)層進行傳遞,傳遞過程中需經(jīng)過一定的中間層級,信息在隱層部分進行計算處理,處理完畢后向輸出層傳遞,輸出層的神經(jīng)元接收到后,即完成了一次完整的訓練信息的傳播,其結果由輸出層向外面釋放。如果輸出的結果與期望值差距沒有達到要求,則進入信息的反方向運動過程,將誤差信息通過輸出層、隱層、輸入層的順序反向傳遞。在上述正向和反向的兩種信息傳遞過程中,為了使整個BP神經(jīng)網(wǎng)絡模型的誤差的平方和達到最小,就需要對各個層級的權重和反應閾進行相應調(diào)整,在一定次數(shù)的迭代過程中達到符合設定的要求范圍內(nèi)[19]。
BP神經(jīng)網(wǎng)絡模型建立流程:①建立高通量SNPs足夠而可靠的數(shù)據(jù)信息樣本數(shù)據(jù)庫。②把SNPs樣本數(shù)據(jù)進行處理,變成BP神經(jīng)網(wǎng)絡模型可以納入的形式。③建造BP神經(jīng)網(wǎng)絡初級雛形,進行數(shù)據(jù)訓練。首先確定神經(jīng)網(wǎng)絡所需層的數(shù)量,還有隱藏節(jié)點的數(shù)量,接下來完成各連接權值的初始化過程,將樣本數(shù)據(jù)代入。④開始BP神經(jīng)網(wǎng)絡的迭代過程,按照誤差逆?zhèn)鞑ニ惴?,對所給數(shù)據(jù)集進行多層的正向的反饋擬合,最終確定各個層的權重。⑤利用訓練好的BP神經(jīng)網(wǎng)絡測試樣本。將樣本輸入訓練好的BP神經(jīng)網(wǎng)絡,并輸出結果[20]。
非線性問題的解決能力是BP神經(jīng)網(wǎng)絡模型區(qū)別于其他的能夠自我學習、自我訓練的模型的特點之一,該模型以簡單的結構模仿神經(jīng)組織的構成和信號傳導通路,根據(jù)提供的數(shù)據(jù)進行學習和自適應,最后可以對復雜的問題求解[21]。該模型的運行模式也很簡單,一旦模型建立,則直接將數(shù)據(jù)帶入,BP神經(jīng)網(wǎng)絡就可以對諸多影響因素和結果之間的復雜關系進行統(tǒng)計,超越傳統(tǒng)聚類模型,也有能力提供更多的信息量[22]。
但是BP神經(jīng)網(wǎng)絡模型的缺陷也十分明顯,首先該種聚類方法迭代次數(shù)比較多,計算收斂的速度比較慢;標準的BP神經(jīng)網(wǎng)絡算法各個層的權重值的確定是完全隨機性的,容易形成局部最優(yōu)化;在模型建立的初始階段,各個節(jié)點的確定也沒有確鑿的理論支持[23]。
5 支持向量機
1995年Comes等[24]提出了一種新型機器學習方法,該方法的數(shù)學理論基礎雄厚,被稱之為SVM。這種方法問世之后,就以其在小樣本、高維度數(shù)據(jù)方面處理的獨特優(yōu)勢,被迅速推廣到數(shù)據(jù)聚類分析領域的各個方面[25]。SVM的基本原理如下:利用非線性映射的方法φ(x):Rn→H,將待聚類數(shù)據(jù)集首先映射到高維空間H中,試圖在高維空間中尋找最優(yōu)化的一個超平面,此超平面的作用為對數(shù)據(jù)進行分類。達到最優(yōu)超平面的要求為:對于數(shù)據(jù)來說,要求分類的間隔最大而且置信區(qū)間最窄;達到最少的數(shù)據(jù)樣本錯分數(shù)量,以上兩條的原則為分類風險最低。
SVM的計算流程為:
在高維空間中,如果被映射數(shù)據(jù)具有二維線性且可分時,則一定存在一個分類超平面:
其中αi≥0稱為拉格朗日系數(shù),該函數(shù)對?諼和b最小化,對αi最大化。將該問題轉化為其對偶形式,求得最優(yōu)分類函數(shù)為:
其中,K(x,xi) =φ(xi)·φ(xj)被稱之為核函數(shù),其作用是將原始數(shù)據(jù)集映射到高維H空間。而核函數(shù)有很多種形式,多項式形式、徑向基形式等等。但是如果原始數(shù)據(jù)集經(jīng)過轉換后,確實為線性不可分時,方法會不可避免的產(chǎn)生錯分點,此時非負松弛變量ξi≤1,i=1,…,l被引入,而式(8)、(9)合并為:
在上述條件下,求下式目標函數(shù)的最小值:
在式(13)中,用C來作為懲罰因子,對錯分點來進行一定程度的懲罰,當然是人工定義的,其主要作用是在限制數(shù)據(jù)集偏差和該方法的推廣范圍兩者間,維持一個平衡。
SVM模型作為一種經(jīng)典的處理小樣本的自我學習、自我組織的分類方法,雖然其基礎理論依然與神經(jīng)網(wǎng)絡模型類似,均為通過對給定樣本的統(tǒng)計學習,建造模型,而且對非線性數(shù)據(jù)的處理能力很強,但是很大程度上避免了陷入局部最優(yōu)化,維度過高限制,擬合過度等缺陷,擁有更廣闊的發(fā)展空間[26]。雖然該方法出現(xiàn)時間比較晚,但是研究者已經(jīng)在包括預測人口狀況[27]、嬰兒死亡率前瞻[28]、金融產(chǎn)業(yè)[29]和工業(yè)產(chǎn)業(yè)[30]前景推斷等方面進行了有效使用,當然也包括在高通量SNPs數(shù)據(jù)聚類,均取得了不錯的效果。
但是SVM一樣存在短處,由于其分類過程是基于對原始數(shù)據(jù)集的再次規(guī)劃來尋找超平面,而再次規(guī)劃的計算就有n階矩陣(n為樣本個數(shù)),如果n的數(shù)量很大,則電腦的內(nèi)存將難以承受巨大的矩陣信息。而且原始的SVM模型只能對數(shù)據(jù)集進行二分類計算,有一定的局限性,由于在實際工作中,很多情況下分類數(shù)量要大于二,為了解決這個問題,只能去在其他方面想相應的解決方法。
6 討論
不僅上述5種具體方法,而且在前文中所提出的幾大種類中的具體聚類分析方法都各有其優(yōu)缺點,研究者們已經(jīng)針對上述幾類聚類方法的缺陷進行了深入的研究,并提出了許多改進方法,提高了在高通量SNPs數(shù)據(jù)聚類分析時的計算效能。董國君等[31]提出了將仿生學算法中的退火算法引入到神經(jīng)網(wǎng)絡模型中,能夠有效地避免該模型收斂到局部最優(yōu)的狀態(tài)。胡潔等[32]更是經(jīng)過改進,建造了一種能夠快速收斂而且全局最優(yōu)的神經(jīng)網(wǎng)絡模型算法,將BP神經(jīng)網(wǎng)絡的計算效率大為提高。而Leo Breiman在2001年提出的隨機森林(random forest)算法,本質(zhì)上就是對分類回歸樹算法的一種組合改進,其計算原理為:利用多個樹的模型對數(shù)據(jù)進行判別與分類,其在對數(shù)據(jù)進行處理的同時,還可以給出各個變量的重要性得分,評估變量在分類中所起的作用[33]。2012年提出了混合潛變量模型(structural equation mixture modeling,SEMM),本質(zhì)上是一種結構方程模型衍生出的改進版,其設計思想中匯合了潛在類別分析、潛在剖面分析以及因子分析的因素,將潛變量分析與結構方程進行協(xié)調(diào)組合,創(chuàng)造出的一種新型SNPs分析方法。這種新的方法,將結構方程的缺點——只能分析連續(xù)潛變量和潛在類別分析的缺點——只能分析分類潛變量,進行有效的補充,而且把一種全新的探索式的思路引入了高維數(shù)據(jù)分析的領域。在實際進行聚類分析時,也可以將幾種方法結合使用,分別在計算的不同階段利用效能最高的方法,做到優(yōu)勢互補?,F(xiàn)已經(jīng)出現(xiàn)基于神經(jīng)網(wǎng)絡算法和蟻群算法進行結合使用的報道。
盡管用于高通量SNPs數(shù)據(jù)聚類分析的方法有多種,但目前沒有任何一種方法可以適用于所有的情況。因此,研究者們依舊沒有停下尋找更為合適的方法的腳步。不可否認,在基因組相關研究中,SNPs數(shù)據(jù)的分析對于研究復雜性疾病和遺傳因素的聯(lián)系是一項挑戰(zhàn),但也是機遇。如果能正確合理地運用各種復雜的統(tǒng)計學方法,就可以提高聚類分析的效能,提示研究者們未來應在尋找更適用的高通量SNPs數(shù)據(jù)聚類分析方法方面付出更多努力。
[參考文獻]
[1] Jakobsson M,Scholz SW,Scheet P,et al. Genotype,haplotype and copy-number variation in worldwide human population [J]. Nature,2012,451: 998-1003.
[2] 馬靖,張韶凱,張巖波.基于貝葉斯網(wǎng)潛類模型的高維SNPs分析[J].生物信息學,2012,10(2):120-124.
[3] 張家寶.聚類分析在醫(yī)院設備管理中應用研究[J].中國農(nóng)村衛(wèi)生事業(yè)管理,2014,34(5):510-513.
[4] 袁芳,劉盼盼,徐進,等.基因-基因(環(huán)境)交互作用分析方法的比較[J].寧波大學學報:理工版,2012,25(4):115-119.
[5] 張潔婷,焦璨,張敏強.潛在類別分析技術在心理學研究中的應用[J].心理科學進展,2011,18(12):1991-1998.
[6] 曾憲華,肖琳,張巖波.潛在類別分析原理及實例分析[J].中國衛(wèi)生統(tǒng)計,2013,30(6):815-817.
[7] Kaufman L,Rousseeuw PJ. Finding groups in data: an introduction to cluster analysis [M]. New York:Wiley,2015.
[8] Hagenaars JA. McCutcheon AL. Applied latent class analysis [M]. New York:Cambridge University Press,2012.
[9] 邱皓政.潛在類別模型的原理與技術[M].北京:教育科學出版社,2011.
[10] 張巖波.潛變量分析[M].北京:高等教育出版社,2011.
[11] Lin TH,Dayton CM. Model selection information criteria for non-nested latent class models [J]. J Educ Behav Stat,2012,22(3):249-264.
[12] 裴磊磊,郭小玲,張巖波,等.抑郁癥患者單核苷酸多態(tài)性(SNPs)分布特征的潛在類別分析[J].中國衛(wèi)生統(tǒng)計,2010,27(1):7-10.
[13] 邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利水電出版社,2013.
[14] 王立柱,趙大宇.用分類與回歸樹算法進行人才識別[J].沈陽師范大學學報:自然科學版,2014,23(1):44-47.
[15] 溫小霓, 蔡汝駿.分類與回歸樹及其應用研究[J].統(tǒng)計與決策,2010,(23):14-16
[16] 符保龍,陳如云.分類回歸樹在高校計算機聯(lián)考數(shù)據(jù)分析中的應用[J].計算機時代,2011,(1):33-34.
[17] Dempster AP,Laird NM,Rubin DB. Maximum likelihood from incomplete data via the Em algorithm(with discussion)[J]. J Royal Stat,2012,39(1):1-38.
[18] José A,Gámez,Juan L,et al. Learning Bayesian networks by hill climbing: efficient methods based on progressive restriction of the neighborhood [J]. Data Min Knowl Disc,2012,22:106-148.
[19] 張凡,齊平,倪春梅.基于POS的BP神經(jīng)網(wǎng)絡在腮腺炎發(fā)病率預測中的應用[J].現(xiàn)代預防醫(yī)學,2014,41(11):1924-1927.
[20] 張晶.BP神經(jīng)網(wǎng)絡在圖書館信息處理中的應用研究[J].圖書情報,2014,(9):132-133.
[21] 徐學琴,孫寧,徐玉芳.基于BP神經(jīng)網(wǎng)絡的河南省甲乙類法定報告?zhèn)魅静☆A測研究[J].中華疾病控制雜志,2014,18(6) :561-563.
[22] 馬曉梅,隋美麗,段廣才,等.手足口病重癥化危險因素BP神經(jīng)網(wǎng)絡模型預測分析[J].中國公共衛(wèi)生,2014,30(6):758-761.
[23] 任方,馬尚才.基于條件對數(shù)似然的BP神經(jīng)網(wǎng)絡多類分類器[J].計算機系統(tǒng)應用,2014,23(6):183-186.
[24] Comes C,Vapnik V. Support vector networks [J]. Mach Learn,1995,20:273-297.
[25] 張學工.關于統(tǒng)計學習理論與支持向量機[J].自動化學報,2011,26(1):32-42.
[26] 解合川,任欽,曾海燕,等.支持向量機在傳染病發(fā)病率預測中的應用[J].現(xiàn)代預防醫(yī)學,2012,40(22):4105-4112.
[27] 劉崇林.人口時間序列的支持向量機預測模型[J].寧夏大學學報:自然科學版,2013,27(4):308-310.
[28] 張俊輝,潘曉平,潘驚萍,等.基于支持向量回歸的5歲以下兒童死亡率預測模型[J].現(xiàn)代預防醫(yī)學,2014,36(24):4601-4603,4605.
[29] 陳詩一.非參數(shù)支持向量回歸和分類理論及其在金融市場預測中的應用[M].北京:北京大學出版社,2014:104-106.
[30] Li P,Tan ZX,Yan LL,et al. Time series prediction of mining subsidence based on a SVM [J]. Min Science Technol,2014,21(4):557-562.
[31] 董國君,哈力木拉提.基于隨機退火的神經(jīng)網(wǎng)絡算法及其應用[J].計算機工程與應用,2013,46(19):39-42.
[32] 胡潔,曾祥金.一種快速且全局收斂的BP神經(jīng)網(wǎng)絡學習算法[J].系統(tǒng)科學與數(shù)學,2014,30(5):604-610.
[33] 武曉巖,李康.隨機森林方法在基因表達數(shù)據(jù)分析中的應用及研究進展[J].中國衛(wèi)生統(tǒng)計,2014,26(4):437-440.
(收稿日期:2015-04-01 本文編輯:程 銘)