李立奇,張 瑗,周 躍*,王開發(fā)
(1第三軍醫(yī)大學(xué)新橋醫(yī)院,重慶 400037;2第三軍醫(yī)大學(xué)計(jì)算機(jī)教研室)
K最近鄰(KNN)法是一種基于統(tǒng)計(jì)的模式識(shí)別非參數(shù)算法。該算法學(xué)習(xí)過程簡(jiǎn)單、分類準(zhǔn)確率高,被廣泛應(yīng)用于回歸[1]、分類[2]和模式識(shí)別[3]等領(lǐng)域中。在生物醫(yī)學(xué)領(lǐng)域中,如蛋白質(zhì)亞細(xì)胞定位[4]、腫瘤預(yù)后預(yù)測(cè)[5]等方面也有相關(guān)應(yīng)用的報(bào)道。2010年 9~10月,我們將 KNN法用于預(yù)測(cè)含F(xiàn)N域蛋白質(zhì)的亞細(xì)胞位置,為成骨細(xì)胞黏附、分化發(fā)生機(jī)制的研究奠定基礎(chǔ)。
1.1 材料 本文從UniProt數(shù)據(jù)庫(kù)中隨機(jī)抽取人類含 FN[6,7]域蛋白質(zhì) 80個(gè),包括細(xì)胞外蛋白質(zhì) 40個(gè)、細(xì)胞內(nèi)蛋白 40個(gè)。為保證預(yù)測(cè)的有效性和可信性,抽取的每個(gè)蛋白質(zhì)的氨基酸數(shù)量不少于 100,且排除了定位無實(shí)驗(yàn)依據(jù)的蛋白質(zhì)。分別計(jì)算每個(gè)蛋白質(zhì)中的20種氨基酸含量,將其作為KNN算法的輸入向量。
1.2 方法
1.2.1 含 FN域蛋白質(zhì)亞細(xì)胞定位方法 采用KNN法。將本文樣本集中 80個(gè)研究對(duì)象依據(jù)選擇的檢驗(yàn)方法分成訓(xùn)練樣本集和測(cè)試樣本集兩部分。計(jì)算每個(gè)蛋白質(zhì)的 20種氨基酸組成,并作為該蛋白質(zhì)的輸入向量。在程序中分別輸入訓(xùn)練集和測(cè)試集中每個(gè)蛋白質(zhì)對(duì)應(yīng)的 20維輸入向量及其所屬亞細(xì)胞類別。用KNN二分類方法對(duì)測(cè)試集中每個(gè)蛋白質(zhì)的所屬亞細(xì)胞類別進(jìn)行判定,輸出判定結(jié)果。
1.2.2 含 FN域蛋白質(zhì)亞細(xì)胞定位驗(yàn)證方法Jackknife檢驗(yàn)法:每次從80個(gè)蛋白質(zhì)中輪流抽取1個(gè)蛋白質(zhì)作為測(cè)試樣本,其余 79個(gè)組成訓(xùn)練樣本集,并對(duì)該測(cè)試樣本進(jìn)行測(cè)試。共做80次 KNN算法定位預(yù)測(cè)。5維交叉驗(yàn)證法:將 80個(gè)蛋白質(zhì)隨機(jī)分成 5組,每組包含細(xì)胞內(nèi)蛋白質(zhì)和細(xì)胞外蛋白質(zhì)各 8個(gè)。每次從 5組中輪流抽取 1組作為測(cè)試樣本,其余 4組作為訓(xùn)練樣本。共做 5次定位預(yù)測(cè)。
KNN法定位細(xì)胞內(nèi)蛋白 36個(gè),細(xì)胞外蛋白 35個(gè)。利用jackknife檢驗(yàn)法檢測(cè)蛋白質(zhì)樣本的定位預(yù)測(cè)準(zhǔn)確率為88.75%,其中 36個(gè)細(xì)胞內(nèi)蛋白質(zhì)和35個(gè)細(xì)胞外蛋白質(zhì)定位準(zhǔn)確;利用 5維交叉驗(yàn)證法獲得的預(yù)測(cè)準(zhǔn)確率為 82.5%,其中 34個(gè)細(xì)胞內(nèi)蛋白質(zhì)和 32個(gè)細(xì)胞外蛋白質(zhì)定位準(zhǔn)確。
蛋白質(zhì)亞細(xì)胞定位對(duì)蛋白質(zhì)的功能研究非常重要,目前可通過實(shí)驗(yàn)方法和預(yù)測(cè)算法來對(duì)蛋白質(zhì)進(jìn)行亞細(xì)胞定位。實(shí)驗(yàn)方法主要有超速離心分離法、電子顯微法和熒光顯微法,但這些方法既費(fèi)時(shí)費(fèi)錢又不易大規(guī)模推廣到,而預(yù)測(cè)算法能夠彌補(bǔ)這些缺陷。
目前,已經(jīng)有多種算法被應(yīng)用于蛋白質(zhì)亞細(xì)胞定位的預(yù)測(cè)研究,如支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)、KNN等。但神經(jīng)網(wǎng)絡(luò)只在樣本趨向于無窮大時(shí),其性能才有理論的保證。SVM是一個(gè)新的預(yù)測(cè)算法,其學(xué)習(xí)收斂速度要快于神經(jīng)網(wǎng)絡(luò)[8],但其在提高運(yùn)算效率的同時(shí),也犧牲了一部分適應(yīng)性和精確度。KNN法的基本思想是根據(jù)距離函數(shù)[2]計(jì)算測(cè)試樣本點(diǎn)和訓(xùn)練樣本集中每個(gè)樣本點(diǎn)的距離,選擇與測(cè)試樣本點(diǎn)距離最小的 K個(gè)訓(xùn)練樣本點(diǎn)作為測(cè)試樣本點(diǎn)的K個(gè)最近鄰點(diǎn),最后根據(jù)這K個(gè)樣本點(diǎn)所屬類別判斷樣本點(diǎn)的所屬類別。故KNN法的優(yōu)點(diǎn)是學(xué)習(xí)過程中只簡(jiǎn)單地存儲(chǔ)已知的訓(xùn)練樣本集,當(dāng)遇到測(cè)試樣本時(shí),只用 K個(gè)最相似的訓(xùn)練樣本的類別就可判斷該測(cè)試樣本的類別。KNN法已被廣泛應(yīng)用于各個(gè)領(lǐng)域,但KNN運(yùn)用于含F(xiàn)N域蛋白質(zhì)亞細(xì)胞定位的研究尚未有相關(guān)報(bào)道。
骨發(fā)生過程中,FN是骨細(xì)胞外基質(zhì)微環(huán)境中含量最高且與成骨細(xì)胞的結(jié)合能力最強(qiáng)的一種蛋白質(zhì)。FN通過與成骨細(xì)胞表面整合素的特異性結(jié)合,不僅提高了細(xì)胞的黏附、伸展性能[9],而且可活化樁蛋白、黏著斑激酶等信號(hào)分子,激活JUK、MAPK等信號(hào)通路,從而調(diào)節(jié)細(xì)胞生長(zhǎng)和分化。因此,FN在骨發(fā)生過程中起到了促進(jìn)成骨細(xì)胞黏附、伸展、生長(zhǎng)、分化等重要作用。FN的這些生物學(xué)性能,使其被廣泛用于各種骨支架材料的表面修飾中[10]。而許多含F(xiàn)N域蛋白質(zhì)對(duì)各自相應(yīng)的細(xì)胞也起到了促進(jìn)遷移、黏附、細(xì)胞變形、生長(zhǎng)、分化等作用中的一種或多種。目前,隨著越來越多新的含 FN域蛋白質(zhì)被發(fā)現(xiàn),它們的亞細(xì)胞位置和功能亟待解決。故尋求一種預(yù)測(cè)算法,預(yù)測(cè)這些蛋白質(zhì)的亞細(xì)胞位置,對(duì)于其功能研究意義重大。
本文基于KNN二分類算法,構(gòu)建了含F(xiàn)N域蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的KNN模型。將40個(gè)細(xì)胞內(nèi)蛋白質(zhì)和 40個(gè)細(xì)胞外蛋白質(zhì)的 20種氨基酸組成作為輸入向量進(jìn)行訓(xùn)練和定位預(yù)測(cè)。結(jié)果發(fā)現(xiàn),利用jackknife檢驗(yàn)法檢測(cè)蛋白質(zhì)樣本的定位預(yù)測(cè)準(zhǔn)確率為88.75%,其中 36個(gè)細(xì)胞內(nèi)蛋白質(zhì)和 35個(gè)細(xì)胞外蛋白質(zhì)定位準(zhǔn)確。利用 5維交叉驗(yàn)證法獲得的預(yù)測(cè)準(zhǔn)確率為82.5%,其中34個(gè)細(xì)胞內(nèi)蛋白質(zhì)和 32個(gè)細(xì)胞外蛋白質(zhì)定位準(zhǔn)確。因此,應(yīng)用KNN法可較準(zhǔn)確地預(yù)測(cè)含F(xiàn)N域蛋白質(zhì)的亞細(xì)胞位置,有助于探討新發(fā)現(xiàn)的含F(xiàn)N域蛋白質(zhì)的亞細(xì)胞位置及其生物學(xué)功能,對(duì)研究細(xì)胞的黏附、分化等機(jī)制和開發(fā)新型生物材料有重要意義。
[1]Xiao Y,Griffin MP,Lake DE,et al.Nearest-neighbor and logistic regression analyses of clinical and heart rate characteristics in the early diagnosisof neonatal sepsis[J].Med DecisMaking,2010,30 (2):258-266.
[2]Xiao X,QiuWR.Using adaptive K-nearest neighbor algorithm and cellular automata images to predicting G-Protein-Coupled Receptor c lasses[J].Interdiscip Sci,2010,2(2):180-184.
[3]Bogdanov P,Singh AK.Molecular function prediction using neighborhood features[J].IEEE/ACM Trans Comput Biol Bioinform, 2010,7(2):208-217.
[4]Du P,Cao S,Li Y.SubChlo:predicting protein subchloroplast locations with pseudo-amino acid composition and the evidence-theoretic K-nearest neighbor(ET-KNN)algorithm[J].J Theor Biol, 2009,261(2):330-335.
[5]Jerez JM,Molina I,Garcia-Laencina PJ,et al.Missing data imputation using statistical and machine learningmethods in a real breast cancer problem[J].Artif Intell Med,2010,50(2):105-115.
[6]楊蕾,楊玲竹.瘦素、纖連蛋白、基質(zhì)金屬蛋白酶-9對(duì)人絨毛細(xì)胞滋養(yǎng)細(xì)胞侵襲性的影響[J].山東醫(yī)藥,2009,49(15):1-2.
[7]曹偉.宮頸長(zhǎng)度聯(lián)合胎兒纖連蛋白檢測(cè)在早產(chǎn)預(yù)測(cè)中的價(jià)值[J].山東醫(yī)藥,2010,50(15):62-63.
[8]Ding CH,Dubchak I.Multi-class protein fold recognition using support vector machines and neural networks[J].Bioinformatics, 2001,17(4):349-358.
[9]ZhangY,Zhou Y,Zhu J,etal.Effectofa novel recombinant protein of fibronectin III7-10/cadherin 11 EC1-2 on osteoblastic adhesion and differentiation[J].Biosci Biotechnol Biochem,2009,73(9): 1999-2006.
[10]Zhang Y,XiangQ,Dong S,et al.Fabrication and characterization of a recombinant fibronectin/cadherin bio-inspired ceramic surface and its influence on adhesion and ossification in vitro[J].Acta Biomater,2010,6(3):776-785.