劉翠翠
摘要:在我國當(dāng)前,由于傳統(tǒng)的基因提取計(jì)算方法會導(dǎo)致在選擇過程中提取出大量的剩余基因,從而導(dǎo)致提取樣本的測試數(shù)據(jù)準(zhǔn)確率不高。因此研發(fā)了一種基于鄰域粗糙集的特征基因提取方案。此方案的研發(fā)是為了避免基因提取過程中數(shù)據(jù)偏離理性化所導(dǎo)致的經(jīng)濟(jì)損失,通過此種基因提取方案來有效提高提取基因時(shí)的理性準(zhǔn)確率。該文首先簡要闡述了基于鄰域粗糙集的基本理論概念,以及基于鄰域粗糙集的特征基因提取分析的方法,對實(shí)驗(yàn)結(jié)果進(jìn)行分析探討。
關(guān)鍵詞:基于鄰域;粗糙集;特征基因提取
隨著大批量的基因表達(dá)譜技術(shù)的發(fā)展,基因提取基于當(dāng)前發(fā)病原因以及臨床病情進(jìn)行診讀的有效手段?;蛱崛∈菑谋磉_(dá)的譜數(shù)據(jù)之中選擇基因的子集屬性,并且所獲得基因能夠具有強(qiáng)大的疾病發(fā)現(xiàn)且識別的能力。通過把基因按照排序的方法對基因進(jìn)行劃分,在劃分過程中按照計(jì)分準(zhǔn)則。進(jìn)而劃分的基因分值結(jié)果較大的情況下就將其作為預(yù)選基因,因?yàn)榛虻姆种荡?,它所代表的能力就?qiáng)。目前經(jīng)常被使用的基因提取方案要?jiǎng)t就是信噪比指標(biāo),F(xiàn)ISHER判別以及誤分類闕值等,在其中信噪比指標(biāo)應(yīng)用較為廣泛。而基因排序的方法不依賴于任何算法,并且能夠有效避免出現(xiàn)“過擬合”的分子現(xiàn)象,因此通常選用此種方法用于基因提取數(shù)據(jù)。如果想要完成基因提取數(shù)據(jù),那么就要對基因的選擇采取適當(dāng)?shù)姆椒?,通常我們所采取的基因選擇方法就是過濾以及纏繞法。由于采用過濾的基因選擇方法是由于其具有便捷的特點(diǎn),比如信噪比、信息增益等方法,但是此種方法可能會在選擇過程中出現(xiàn)關(guān)聯(lián)性較高的特征基因。如果出現(xiàn)這種情況,那么就會降低其分辨基因類別的能力,而且也會增加計(jì)算負(fù)擔(dān),降低工作效率;而纏繞選擇基因方法是在選擇過程中通過將基因分類器產(chǎn)生準(zhǔn)確的分類評價(jià)基因子集,用時(shí)較長,分類過程中的復(fù)雜性也很高,并且特征類的基因子集在纏繞法的基因分類器中得到泛化的能力減弱。因此鑒于基因表達(dá)數(shù)據(jù)的自身特點(diǎn),為了保證盡可能地采用少量的基因信息來獲取高樣本的基因分類,降低計(jì)算負(fù)擔(dān),我們將主要對基于信噪比與鄰域粗糙集的特征基因提取辦法進(jìn)行探討。