黃 靜, 付如意, 彭志紅, 胡本瓊, 龐朝陽
(1.四川師范大學(xué)數(shù)學(xué)與軟件科學(xué)學(xué)院,四川成都610066;2.解放軍四五二醫(yī)院肛腸科,四川成都610021;3.成都理工大學(xué)管理科學(xué)學(xué)院,四川成都610059;4.四川師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,四川成都610066;5.四川師范大學(xué)可視化計(jì)算與虛擬現(xiàn)實(shí)四川省重點(diǎn)實(shí)驗(yàn)室,四川成都610066)
阿爾茨海默癥,即老年癡呆癥,是一類神經(jīng)退行性疾病,已成為繼心血管疾病、惡性腫瘤、腦卒中之后老年人的第4大“健康殺手”[1].目前,世界上并沒有治療老年癡呆癥的有效辦法.隨著基因芯片技術(shù)[2-5]的迅速發(fā)展,2003年與阿爾茨海默病相關(guān)的基因表達(dá)數(shù)據(jù)能夠在公共生物信息數(shù)據(jù)庫中獲?。?].2009 年 W.Kong 等[7]將獨(dú)立主成分分析(ICA)方法應(yīng)用于阿爾茨海默病的候選基因的識別中.2010年龐朝陽等將聚類分析方法應(yīng)用到阿爾茨海默病的致病基因的識別中[8].為了高效快捷地挖掘基因表達(dá)數(shù)據(jù),簡捷的一維聚類方法在一些情形下能夠被應(yīng)用.但是它需要事先主觀的確定出分類數(shù)目K.因此,本文基于擬合的思想在一維聚類分析方法的基礎(chǔ)上提出了將曲率最大點(diǎn)處的距離作為分類判據(jù),從而實(shí)現(xiàn)無監(jiān)督的一維聚類分析.
1.1 主成分分析方法 主成分分析(PCA)是一種對高維數(shù)據(jù)進(jìn)行分析、簡化的技術(shù).這種方法本質(zhì)上是找出高維數(shù)據(jù)中最“主要”的元素和結(jié)構(gòu),去除噪音和冗余,將原有數(shù)據(jù)降維,把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個綜合指標(biāo),揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡單結(jié)構(gòu)[1].
1.2 光滑曲線的曲率 曲率[1]是平面曲線彎曲程度的直觀描述.現(xiàn)給出光滑曲線的曲率的數(shù)學(xué)語言描述.假設(shè)光滑曲線C為y=f(x),則該曲線上任一點(diǎn)P的曲率κ可表示為一個指向該圓圓心的大小等于密切圓半徑的倒數(shù)的向量,如圖1所示,即
1.3 最小二乘估計(jì) 最小二乘法(又稱最小平方法)是一種數(shù)學(xué)優(yōu)化技術(shù).目標(biāo)是最小化誤差的平方和尋找數(shù)據(jù)的最佳逼近函數(shù).利用最小二乘法可以簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間誤差的平方和為最小.通常,最小二乘法用于曲線擬合[1,9-10].
本文從美國國家生物技術(shù)信息中心(NCBI)網(wǎng)站獲取到了關(guān)于阿爾茨海默病患者的基因綜合表達(dá)數(shù)據(jù)[6].該數(shù)據(jù)是從正常、輕度、中度以及重度4種程度的患者的海馬體組織中利用基因芯片技術(shù)提取出的人體的22 283個基因的表達(dá)水平,其數(shù)據(jù)格式如表1,其中數(shù)值已經(jīng)過對數(shù)化平滑處理.
表1 基因表達(dá)水平數(shù)據(jù)表(以正常組為例)Table 1 Organization of gene expression data(as an example of the control group)
由上述數(shù)據(jù)可以得出兩點(diǎn)信息:一是表1中的每列數(shù)據(jù)對應(yīng)于一個給定的實(shí)驗(yàn)條件(或人體組織);二是由于每一行對應(yīng)于同一個基因的表達(dá)水平,則列數(shù)據(jù)之間必然存在相關(guān)性.于是可以考察阿爾茨海默病同一程度的任意2組患者間的基因表達(dá)水平分布情況.
接下來以表1的數(shù)據(jù)為例進(jìn)行具體說明.
第一步,標(biāo)準(zhǔn)化處理表1的各列數(shù)據(jù)Xi=[xi1,xi2,…,xi22283](i=1,2,…,9).則
其中,
第二步,由此得到任意兩列形成的基因表達(dá)水平的二維分布數(shù)據(jù)列,如圖2 所示.令[Yi,Yj](i,j=1,2,…,9)且 i≠j.
通過觀察形如圖2所示的4種程度的基因表達(dá)水平的二維分布圖,可以發(fā)現(xiàn)所有的點(diǎn)集中在一條直線的周圍.這表明,各基因在不同條件下呈線性相關(guān)性.從而通過主成分分析方法將數(shù)據(jù)進(jìn)行降維處理,得到一維投影點(diǎn)數(shù)據(jù),記為集合
進(jìn)一步地,得到了在一維投影子空間中相鄰一維投影點(diǎn)間的距離,記為集合
Q={di=pi+1-pi|i=1,2,…,22 283},并做出統(tǒng)計(jì)直方圖,其中橫軸表示相鄰?fù)队包c(diǎn)間的距離,縱軸表示距離所對應(yīng)的頻數(shù),如圖3所示.
由圖3得知相鄰一維投影點(diǎn)間的距離主要都分布在0.05以內(nèi),呈現(xiàn)出聚類特征.基于此,考慮對一維投影點(diǎn)進(jìn)行聚類處理.
目前通用的一維聚類方法需要事先確定出類別數(shù)目K的大致范圍.在數(shù)據(jù)分析的實(shí)際處理過程中,這往往存在著很大的主觀因素,甚至分析者根本無法合理地確定分類數(shù)目.通過處理阿爾茨海默病的基因數(shù)據(jù),本文提出一種改進(jìn)的無監(jiān)督一維聚類方法:將相鄰一維投影點(diǎn)間的距離統(tǒng)計(jì)數(shù)目的趨勢線的曲率最大點(diǎn)作為分類判據(jù)δ進(jìn)行無監(jiān)督的一維數(shù)據(jù)聚類處理.接下來本文將具體描述該方法的分類判據(jù)的確定過程.
首先給出分類判據(jù)δ的具體意義.對于任意給定的2個類 C1和 C2,如果 p1∈C1且 p2∈C2,則‖p1-p2‖≥δ.如果 p1,p2∈Ci(i=1,2),則‖p1-p2‖ <δ.
從而進(jìn)一步定義下面2個概念:
定義1 最小類間距離,即2個類簇間的距離
定義2 最大類內(nèi)距離,即同一個類內(nèi),一個點(diǎn)和它的相鄰點(diǎn)的距離
Dmax=sup{‖pi-pj‖ |pi,j∈ Ck,Ck? P}.因此,顯然有 Dmax≤δ≤Gmin,即這樣的“δ”作為聚類投影點(diǎn)的分類判據(jù).其次,通過最小二乘估計(jì)方法得到的光滑曲線必然存在一點(diǎn)A,使得在A點(diǎn)左側(cè)的區(qū)域?qū)儆陬悆?nèi)距離集合,并且在A點(diǎn)右側(cè)的區(qū)域?qū)儆陬愰g距離集合.該曲線的曲率最大點(diǎn)處的距離介于類內(nèi)距離與類間距離之間,即滿足分類判據(jù)的條件.因此曲率最大點(diǎn) 處的距離將作為分類判據(jù)“δ”的取值是合理的.
結(jié)合阿爾茨海默病基因數(shù)據(jù),將具體給出分類判據(jù)δ的計(jì)算過程.對集合Q進(jìn)行統(tǒng)計(jì)計(jì)數(shù)得到如圖3所示的直方圖.很清楚地看到相鄰?fù)队包c(diǎn)間的距離的頻數(shù)隨著距離的增大而逐漸遞減并呈現(xiàn)出指數(shù)曲線的趨勢.于是通過最小二乘估計(jì)方法擬合得到指數(shù)曲線F(x)=1.52e1121x(其擬合優(yōu)度R=0.996),如圖4所示.
根據(jù)光滑曲線的曲率表示形式,曲線的曲率
由極值的必要條件[11]有 G'(δ)=0,解得 δ=0.006 9.此外,進(jìn)一步作出指數(shù)曲線的曲率的圖像以驗(yàn)證結(jié)果是正確的,如圖5所示.
目前,聚類分析統(tǒng)計(jì)方法[12-16]已經(jīng)被應(yīng)用到阿爾茨海默病的致病基因的識別過程中.通過分析阿爾茨海默病的基因表達(dá)數(shù)據(jù),本文提出了將曲率最大點(diǎn)作為分類判據(jù)的一種無監(jiān)督的一維聚類方法.并且應(yīng)用阿爾茨海默病的基因表達(dá)數(shù)據(jù)計(jì)算出了其分類判據(jù)δ.
[1]維基媒體基金會.維基百科[EB/OL].http://zh.wikipedia.org/,2014.
[2]Yang J H.基因表達(dá)水平估計(jì)策略和方法[EB/OL].http://www.plob.org/2012/10/01/3887.html,2014.
[3]Zhao Y B.RPKM 簡介[EB/OL].http://www.plob.org/2011/10/24/294.html,2014.
[4]李瑤.基因芯片技術(shù):解碼生命[M].北京:化學(xué)工業(yè)出版社,2004:77-156.
[5]朱明華.組織微陣列及其在腫瘤病理研究中的應(yīng)用[J].中華病理學(xué)雜志,2002,31(1):72-74.
[6]Blalock E M,Geddes J W,Chen K C,et al.Incipient Alzheimer's disease:Microarray correlation analyses reveal major tran-scriptional and tumor suppressor responses[J].PNAS,2004,101:2173-2178.
[7]Kong W,Mou X Y,Yang B.Study DNA microarray gene expression data of Alzheimer's disease by independent component analysis[C]//Bioinformatics,Systems Biology and Intelligent Computing.Inter Joint Conf IEEE,2009:44-47.
[8]Pang C Y,Hu W,Hu B Q,et al.A special local clustering algorithm for identifying the genes associated with Alzheimer's disease[J].IEEE Trans Nanobioscience,2010,9(1):44-50.
[9]馬昌鳳,林偉川.現(xiàn)代數(shù)值計(jì)算方法[M].北京:科學(xué)出版社,2008:179-193.
[10]茆詩松,王靜龍,濮曉龍.高等數(shù)理統(tǒng)計(jì)[M].2版.北京:高等教育出版社,2006:128-135.
[11]華東師范大學(xué)數(shù)學(xué)系.數(shù)學(xué)分析上冊[M].3版.北京:高等教育出版社,2001:163-165.
[12][美]Han J W,Kamber M,Pei J.數(shù)據(jù)挖掘:概念與技術(shù)[M].3版.范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2012:327-543.
[13]胡本瓊,張先迪,龐朝陽.利用圖論設(shè)計(jì)圖像壓縮中的向量量化聚類算法[J].四川師范大學(xué)學(xué)報(bào):自然科學(xué)版,2005,28(3):376-378.
[14]王開軍,李曉.基于有效性指標(biāo)的聚類算法選擇[J].四川師范大學(xué)學(xué)報(bào):自然科學(xué)版,2011,34(6):915-918.
[15]莊劉,曾艷.基于模糊C-均值聚類的最優(yōu)量化器設(shè)計(jì)[J].四川師范大學(xué)學(xué)報(bào):自然科學(xué)版,2010,33(4):559-562.
[16]宋麗紅.K-均值聚類的Matlab仿真設(shè)計(jì)[J].實(shí)驗(yàn)技術(shù)與管理,2010,27(10):101-103.