国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘的基因表達(dá)芯片研究

2022-05-30 15:09:40張燕盧倩楠
客聯(lián) 2022年5期
關(guān)鍵詞:生物學(xué)數(shù)據(jù)挖掘

張燕 盧倩楠

摘 要:取合適基因表達(dá)芯片數(shù)據(jù)庫(kù),預(yù)處理后,去掉殘缺、異質(zhì)數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù),進(jìn)行序列分析、結(jié)構(gòu)預(yù)測(cè)及進(jìn)化分析等??蓱?yīng)用于生物學(xué)和腫瘤學(xué)的研究,觀察疾病所引起的基因表達(dá)變化,找出作用重要的治病基因,揭示生命現(xiàn)象的本質(zhì)。

關(guān)鍵詞:基因表達(dá)芯片;數(shù)據(jù)挖掘;生物學(xué)

一、背景

在TCGA、GEO等基因表達(dá)數(shù)據(jù)庫(kù)中選擇合適的基因表達(dá)芯片數(shù)據(jù)[1],做去殘缺、異質(zhì)數(shù)據(jù)處理后采用數(shù)據(jù)挖掘方法應(yīng)用到基因表達(dá)芯片數(shù)據(jù)中,從不同角度對(duì)數(shù)據(jù)進(jìn)行挖掘,并結(jié)合以建立表示基因之間相互影響的模型,進(jìn)行序列分、結(jié)構(gòu)預(yù)測(cè)和進(jìn)化分析。

立足基因,主要研究從基因表達(dá)芯片數(shù)據(jù)中提取有效的數(shù)據(jù),從而可以更好地解決海量生物信息數(shù)據(jù)的存儲(chǔ)、處理、計(jì)算和分析等問(wèn)題。通過(guò)準(zhǔn)確對(duì)基因表達(dá)芯片數(shù)據(jù)進(jìn)行測(cè)序分析并預(yù)測(cè),及時(shí)應(yīng)用到白血病、乳腺癌等疾病的臨床診斷中,可使得該技術(shù)及早造福社會(huì),帶來(lái)經(jīng)濟(jì)效益。

基因表達(dá)芯片數(shù)據(jù)有形形色色的數(shù)據(jù)庫(kù),其中有些數(shù)據(jù)庫(kù)更新速度慢,本項(xiàng)目旨在研究最新發(fā)現(xiàn)的有代表性的數(shù)據(jù),構(gòu)建網(wǎng)絡(luò)模型,可廣泛應(yīng)用于生物學(xué)和腫瘤學(xué)的研究,觀察疾病所引起的基因表達(dá)變化,并找出作用重要的治病基因,對(duì)揭示生命現(xiàn)象的本質(zhì)有重要意義。

二、基因表達(dá)芯片的特點(diǎn)

1.數(shù)據(jù)的高維性。在生物信息學(xué)領(lǐng)域,基因表達(dá)芯片技術(shù)的進(jìn)步已經(jīng)產(chǎn)生了涉及數(shù)千特征的基因表達(dá)數(shù)據(jù)。具有時(shí)間分量或空間分量的數(shù)據(jù)集也通常具有很高的維度。例如,考慮包含不同地區(qū)的溫度測(cè)量結(jié)果的數(shù)據(jù)集,如果在一個(gè)相當(dāng)長(zhǎng)的時(shí)間周期內(nèi)反復(fù)地測(cè)量,則維數(shù)(特征數(shù))的增長(zhǎng)正比于測(cè)量的次數(shù)。為低維數(shù)據(jù)開(kāi)發(fā)的傳統(tǒng)數(shù)據(jù)分析技術(shù)通常不能很好地處理這類高維數(shù)據(jù),如維災(zāi)難問(wèn)題。此外,對(duì)于某些數(shù)據(jù)分析算法,隨著維數(shù)(特征數(shù))的增加,計(jì)算復(fù)雜度會(huì)迅速增加。

2.采用算法的可伸縮性。由于數(shù)據(jù)產(chǎn)生和采集技術(shù)的進(jìn)步,數(shù)太字節(jié)(TB)、數(shù)拍字節(jié)(PB)甚至數(shù)艾字節(jié)(EB)的數(shù)據(jù)集越來(lái)越普遍。如果數(shù)據(jù)挖掘算法要處理這些海量數(shù)據(jù)集,則算法必須是可伸縮的。許多數(shù)據(jù)挖掘算法采用特殊的搜索策略來(lái)處理指數(shù)級(jí)的搜索問(wèn)題。為實(shí)現(xiàn)可伸縮可能還需要實(shí)現(xiàn)新的數(shù)據(jù)結(jié)構(gòu),才能以有效的方式訪問(wèn)每個(gè)記錄。

3.處理異構(gòu)數(shù)據(jù)和復(fù)雜數(shù)據(jù)的迫切性。通常,傳統(tǒng)的數(shù)據(jù)分析方法只處理包含相同類型屬性的數(shù)據(jù)集,或者是連續(xù)的,或者是分類的。隨著數(shù)據(jù)挖掘在生物信息學(xué)、醫(yī)學(xué)和腫瘤學(xué)領(lǐng)域的作用越來(lái)越大,越來(lái)越需要能夠處理異構(gòu)屬性的技術(shù)。近年來(lái),出現(xiàn)了更復(fù)雜的數(shù)據(jù)對(duì)象,如具有序列和三維結(jié)構(gòu)的DNA數(shù)據(jù),這些數(shù)據(jù)迫切需要處理。

三、常用數(shù)據(jù)挖掘方法

1.決策樹(shù)法。決策樹(shù)是通過(guò)一系列的規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過(guò)程。它提供了一種在給定條件下會(huì)得到給定的值的類似規(guī)則的方法,并著眼于從一組無(wú)次序無(wú)規(guī)則的事例中推理出使用決策樹(shù)表示形式的分類規(guī)則,它通常用來(lái)形成分類器和預(yù)測(cè)模型,并可以對(duì)未知數(shù)據(jù)進(jìn)行分類、預(yù)測(cè)等。它是以自頂向下的遞歸方式,使決策樹(shù)的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較,根據(jù)不同的屬性值從根結(jié)點(diǎn)向下分支,葉結(jié)點(diǎn)表示的是要學(xué)習(xí)劃分的類,從根結(jié)點(diǎn)到葉結(jié)點(diǎn)的一條路徑就可以看成是一條分類規(guī)則,而整個(gè)決策樹(shù)就對(duì)應(yīng)著一組吸取表達(dá)式規(guī)則。決策樹(shù)的分類方法首先要利用訓(xùn)練數(shù)據(jù)集建立起決策樹(shù)的模型,并根據(jù)該模型進(jìn)行輸入數(shù)據(jù)的分類。其中的關(guān)鍵問(wèn)題是決策樹(shù)的構(gòu)建過(guò)程,這包括建樹(shù)(Tree Building)和剪枝(Tree Pruning)。其中建樹(shù)是通過(guò)遞歸過(guò)程,最終得到一棵決策樹(shù);剪枝則是為了降低噪聲數(shù)據(jù)對(duì)分類正確率的影響。本研究應(yīng)用決策樹(shù)的建樹(shù)算法來(lái)確定各結(jié)點(diǎn)的順序。

決策樹(shù)方法廣泛應(yīng)用在分類、預(yù)測(cè)和規(guī)則提取等領(lǐng)域中,尤其Quinlan JR 提出經(jīng)典ID3算法以后,決策樹(shù)進(jìn)一步應(yīng)用在機(jī)器學(xué)習(xí)、知識(shí)發(fā)現(xiàn)領(lǐng)域并得到了巨大的發(fā)展。ID3算法是一種以信息熵為基礎(chǔ)的決策樹(shù)學(xué)習(xí)算法,它是決策樹(shù)方法的代表,目前大部分的決策樹(shù)算法都是在它的基礎(chǔ)上加以改進(jìn)實(shí)現(xiàn)的。ID3算法把Shannon信息論應(yīng)用到了決策樹(shù)算法中,并采用分治策略,使得在決策樹(shù)的各級(jí)結(jié)點(diǎn)上選擇屬性時(shí)檢測(cè)所有的屬性,并選擇信息增益最大的屬性作為決策樹(shù)的結(jié)點(diǎn),由該屬性的不同取值建立幾個(gè)分支,再對(duì)分支的子集遞歸調(diào)用這種方法建立決策樹(shù)結(jié)點(diǎn)的分支,如此反復(fù)一直持續(xù)到所有子集僅包含同一類別的數(shù)據(jù)為止。最后得到一棵決策樹(shù),這棵決策樹(shù)可以對(duì)新的樣本進(jìn)行分類。ID3由于其理論比較清晰、方法簡(jiǎn)單且學(xué)習(xí)能力較強(qiáng),很適合于處理大規(guī)模的學(xué)習(xí)問(wèn)題,是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)較好的范例,同時(shí)也是一種知識(shí)獲取的有力工具。

Quinlan針對(duì)ID3存在的一些缺點(diǎn)提出了C4.5算法,它是ID3算法的繼承,同時(shí)也成為后來(lái)許多決策樹(shù)算法的基礎(chǔ)。在ID3的基礎(chǔ)上,C4.5算法融入了對(duì)連續(xù)型屬性、屬性值空缺的處理,并對(duì)樹(shù)剪枝有了比較良好的方法。C4.5使用基于信息增益率來(lái)選擇測(cè)試屬性,(信息增益率等于信息增益對(duì)分割信息量的比值)。

2.神經(jīng)網(wǎng)絡(luò)法。神經(jīng)網(wǎng)絡(luò)法是模擬生物神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能,是一種通過(guò)訓(xùn)練來(lái)學(xué)習(xí)的非線性預(yù)測(cè)模型,它將每一個(gè)連接看做一個(gè)處理單元,試圖模擬人腦神經(jīng)元的功能,可完成分類、聚類、特征挖掘等多種數(shù)據(jù)挖掘任務(wù)。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法主要表現(xiàn)在權(quán)值的修改上。其優(yōu)點(diǎn)是具有抗干擾、非線性學(xué)習(xí)、聯(lián)想記憶功能,對(duì)復(fù)雜情況能得到精確的預(yù)測(cè)結(jié)果;缺點(diǎn)首先是不適合處理高維變量,不能觀察中間的學(xué)習(xí)過(guò)程,具有“黑箱”性,輸出結(jié)果也難以解釋;其次是需要較長(zhǎng)的學(xué)習(xí)時(shí)間。神經(jīng)網(wǎng)絡(luò)法主要應(yīng)用于數(shù)據(jù)挖掘的聚類技術(shù)中。

3.遺傳算法。遺傳算法模擬了自然選擇和遺傳中發(fā)生的繁殖、交配和基因突變現(xiàn)象,是一種采用遺傳結(jié)合、遺傳交叉變異及自然選擇等操作來(lái)生成實(shí)現(xiàn)規(guī)則的、基于進(jìn)化理論的機(jī)器學(xué)習(xí)方法。它的基本觀點(diǎn)是“適者生存”原理,具有隱含并行性、易于和其他模型結(jié)合等性質(zhì)。主要的優(yōu)點(diǎn)是可以處理許多數(shù)據(jù)類型,同時(shí)可以并行處理各種數(shù)據(jù);缺點(diǎn)是需要的參數(shù)太多,編碼困難,一般計(jì)算量比較大。遺傳算法常用于優(yōu)化神經(jīng)元網(wǎng)絡(luò),能夠解決其他技術(shù)難以解決的問(wèn)題。

4.數(shù)據(jù)離散化方法

數(shù)據(jù)的離散化過(guò)程,是指將一個(gè)連續(xù)的屬性劃分成為若干個(gè)屬性值區(qū)間后并使用一個(gè)離散型數(shù)值代表每一區(qū)間的過(guò)程。根據(jù)貝葉斯網(wǎng)絡(luò)的數(shù)學(xué)原理要求可知,使用連續(xù)變量構(gòu)建起來(lái)的貝葉斯網(wǎng)絡(luò)沒(méi)有使用離散變量構(gòu)建的準(zhǔn)確性高。所以在建模之前一定要將待分析數(shù)據(jù)離散化。數(shù)據(jù)離散化的方法在機(jī)器學(xué)習(xí)中起了非常重要的作用。和連續(xù)型數(shù)據(jù)比較,離散的數(shù)據(jù)準(zhǔn)確性高、更強(qiáng)的抗數(shù)據(jù)噪聲的能力和更小的存儲(chǔ)空間需求;更接近知識(shí)表達(dá)層次,更容易被理解、解釋、應(yīng)用;從離散數(shù)據(jù)中學(xué)得的知識(shí)形式更為簡(jiǎn)潔;相比于連續(xù)型數(shù)據(jù),離散數(shù)據(jù)可在更廣泛的領(lǐng)域中使用,比如關(guān)聯(lián)規(guī)則、粗糙集分析、支持向量機(jī)等的機(jī)器學(xué)習(xí)方法,只能處理離散數(shù)據(jù)。貝葉斯網(wǎng)絡(luò)支持離散型數(shù)據(jù)和連續(xù)型數(shù)據(jù),只是由于連續(xù)型數(shù)據(jù)的實(shí)際意義往往無(wú)法明確,而數(shù)據(jù)離散化可明顯提高網(wǎng)絡(luò)學(xué)習(xí)精度。數(shù)據(jù)離散化方法很多,基因表達(dá)芯片數(shù)據(jù)中經(jīng)常使用的離散化方法有固定值法、Z值法等等。

5.構(gòu)建等價(jià)類法。如果不同的有向無(wú)環(huán)圖表示了相同的聯(lián)合概率分布,可以稱這些有向無(wú)環(huán)圖構(gòu)成了貝葉斯等價(jià)類。如果將有向無(wú)環(huán)圖中的有向弧視為無(wú)向弧,則這些圖有完全相同的網(wǎng)絡(luò)結(jié)構(gòu)。

定義:馬爾科夫等價(jià):不同的網(wǎng)絡(luò)之間存在等價(jià)關(guān)系,等價(jià)的網(wǎng)絡(luò)表示的聯(lián)合概率分布相同,這樣的等價(jià)關(guān)系稱為馬爾科夫等價(jià)。

參考文獻(xiàn):

[1] Lu Yue, Qi Yao, Li Li, et al. Gene Expression of PSORI-CM01 and Yinxieling in the Treatment of Psoriasis Vulgaris[J]. Evidence-Based Complementary and Alternative Medicine, 2021.

猜你喜歡
生物學(xué)數(shù)據(jù)挖掘
谷稗的生物學(xué)特性和栽培技術(shù)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
初中生物學(xué)糾錯(cuò)本的建立與使用
初中生物學(xué)糾錯(cuò)本的建立與使用
Keller-Segel生物學(xué)方程組周期解的爆破
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
PEDF抗腫瘤的生物學(xué)作用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
临颍县| 巴彦淖尔市| 仁布县| 靖江市| 霸州市| 新津县| 方山县| 永顺县| 搜索| 抚顺市| 汝南县| 浪卡子县| 阿坝| 凤山市| 武邑县| 三明市| 内乡县| 玛纳斯县| 博乐市| 堆龙德庆县| 香河县| 彭水| 理塘县| 美姑县| 武平县| 伊通| 普格县| 海盐县| 谢通门县| 隆回县| 西安市| 洮南市| 开封县| 比如县| 巴林右旗| 涟源市| 平遥县| 朝阳县| 巴彦淖尔市| 汾西县| 定边县|