国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

特征基因篩選系統(tǒng)的開發(fā)應(yīng)用

2014-07-13 15:15:38殷櫻張玉冰高昆劉家誠
電腦知識與技術(shù) 2014年5期
關(guān)鍵詞:系統(tǒng)開發(fā)篩選

殷櫻 張玉冰 高昆 劉家誠

摘要:文中介紹了運用Matlab7.0編程語言開發(fā)的基于粒計算的特征基因篩選系統(tǒng),闡述了鄰域互信息和聚類算法結(jié)合使用的篩選算法的優(yōu)異特點,并對系統(tǒng)程序設(shè)計的思路、功能特點做了詳細的論述。特征基因篩選系統(tǒng)主要包含聚類劃分、特征基因的篩選、圖像屬性分析、相關(guān)度分析這四大功能模塊,對于從海量的基因表達譜數(shù)據(jù)中挖掘出少量的具有分類識別能力且冗余度最小的特征基因具有良好的效果。

關(guān)鍵詞:粒計算;特征基因;篩選;系統(tǒng)開發(fā)

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2014)05-0978-04

Development and Application of Genetic Screening System Features

YIN Ying, ZHANG Yu-bing, GAO Kun, LIU Jia-cheng

(College of Computer and Information Technology, Henan Normal University, Xinxiang 453007,China)

Abstract: This paper describes the use of a programming language developed features matlab7.0 genetic screening system based on granular computing, which describes the use of information and mutual neighborhood clustering algorithm combines the excellent characteristics of screening algorithms, and system programming ideas, features discussed in detail. The main characteristics of genetic screening systems division includes these four functional modules ,clustering, filtering, image attributes characteristic gene analysis, correlation analysis, for digging out from the mass of a small amount of gene expression data with the ability to identify and classify the minimum redundancy characterized genes with good results.

Key words: granular computing; characterized genes; screening; system development

特征基因選擇在腫瘤識別問題中起著關(guān)鍵作用[1]。通過特征基因選擇,不僅能夠剔除與疾病無關(guān)的基因,降低機器學習算法的時間和空間復(fù)雜度,避免“維災(zāi)難”,提高分類的預(yù)測精度;同時選出的對疾病有鑒別能力的特征基因可以作為腫瘤基因診斷和腫瘤藥物治療靶標確定的依據(jù)。而運用劃分聚類[2]和鄰域互信息的方法可以幫助我們從海量的基因表達譜數(shù)據(jù)中挖掘出少量的具有分類識別能力且冗余度最小的特征基因,所以我們自主開發(fā)出基于粒計算的特征基因選擇系統(tǒng)。

本軟件主要模塊包括:聚類劃分、特征基因的選擇、圖像屬性分析、相關(guān)度分析。聚類劃分指的是軟件通過一定的聚類均值條件對海量的基因數(shù)據(jù)進行區(qū)域劃分,將屬性相似的劃分為一個簇,以便于表達[3]。特征基因選擇指的是在海量的基因數(shù)據(jù)中選出幾組有代表性質(zhì)的數(shù)據(jù),方便運算表達使用。圖像屬性分析指的是運用圖像表達的方式將劃分的簇更形象直觀的表達出來。相關(guān)度分析指的是軟件在篩選基因數(shù)據(jù)的同時可以顯示數(shù)據(jù)之間的相關(guān)度,給用戶更多的篩選依據(jù)。

1 運行軟件和運行環(huán)境

1.1運行軟件

本系統(tǒng)使用Matlab7.0或以上版本作為運行庫,它所具有的非常低的硬件要求和多平臺支持,確保特征基因選擇系統(tǒng)各預(yù)定功能的實現(xiàn)。

1.2運行環(huán)境

在PII400/64M以上的各種PC機上運行,可運行于Windows98,Windows2000,Windows XP,Windows 7等操作系統(tǒng),能打印A3紙張和A4紙張的打印機。

2 系統(tǒng)分析設(shè)計

2.1功能需求分析

根據(jù)特征基因選擇的具體情況,軟件需具備以下四大功能:

1)聚類劃分

聚類劃分指的是軟件通過一定的聚類均值條件[4]對海量的基因數(shù)據(jù)進行區(qū)域劃分,將屬性相似的劃分為一個簇,以便于表達[5]。

2)特征基因選擇

特征基因選擇指的是在海量的基因數(shù)據(jù)中選出幾組有代表性質(zhì)的數(shù)據(jù),方便運算表達使用[6]。

3)圖像屬性分析

圖像屬性分析指的是運用圖像表達的方式將劃分的簇更形象直觀的表達出來。

4)相關(guān)度分析

相關(guān)度分析指的是軟件在篩選基因數(shù)據(jù)的同時可以顯示數(shù)據(jù)之間的相關(guān)度,給用戶更多的篩選依據(jù)。

目前基于基因表達譜的數(shù)據(jù)挖掘方法已普遍成熟,可以利用的有Relief[7]、Fisher判別[8]、Wilcoxon和KruskalWallis秩和檢驗方法[9]、信噪比方法、主成分分析方法[10]、因子分析方法、獨立分量分析方法、經(jīng)典粗糙集和鄰域粗糙集、人工神經(jīng)網(wǎng)絡(luò)和集成神經(jīng)網(wǎng)絡(luò)、小波包變換和離散余弦變換、遺傳算法和遺傳規(guī)劃、流形學習、張量分析等方法。通過查閱資料,現(xiàn)有的技術(shù)可以設(shè)計多種基因表達譜分類識別算法,并結(jié)合SVM、NSC、FLDA、DLDA等多種分類器及集成分類器,進行大量的基因表達譜分類識別實驗,以圖和表的形式給出大量實驗結(jié)果,同時對各種方法的性能進行比較。但是以上方法都是側(cè)重于算法思想本身,沒有可視化的界面,普通用戶如果想操控海量基因數(shù)據(jù)進行篩選時,顯得麻煩繁瑣,仍需要學習大量的專業(yè)知識。

本系統(tǒng)將軟件工程的思想,融入對生物基因篩選之中,制作出一款簡便的使用軟件,只需要簡單的命令操作,就可以得到全面系統(tǒng)精確的有效數(shù)據(jù)。

2.2作業(yè)流程分析

現(xiàn)有的作業(yè)流程如圖1所示。

圖1

從導(dǎo)入數(shù)據(jù)到打印結(jié)果共有7個步驟,基本上每一步都要手動干預(yù),最終將數(shù)據(jù)保存到移動設(shè)備中。

2.3系統(tǒng)框架結(jié)構(gòu)設(shè)計

本系統(tǒng)提供良好的用戶界面,實現(xiàn)簡潔的操作流程,快捷有效地為生物基因工作者提供基因數(shù)據(jù)篩選的便利,改善和提高工作效率。系統(tǒng)結(jié)構(gòu)如圖2所示。

圖2

系統(tǒng)界面采用傳統(tǒng)的菜單欄方式,除了實現(xiàn)最為基礎(chǔ)的新建、剪貼、復(fù)制、粘貼、撤銷操作之外,還添加了專為處理海量基因數(shù)據(jù)設(shè)置的數(shù)據(jù)添加、數(shù)據(jù)對比、數(shù)據(jù)查找、定點分析等操作,更為方便快捷。如果需要更復(fù)雜的數(shù)據(jù)操作,系統(tǒng)還可以將數(shù)據(jù)直接導(dǎo)出到EXCEL中,并且可以隨時將EXCEL處理后的數(shù)據(jù)導(dǎo)回到系統(tǒng)中進行進一步的篩選工作。

3 關(guān)鍵技術(shù)的實現(xiàn)

3.1 聚類分析

給定一個包含n個數(shù)據(jù)對象的數(shù)據(jù)庫,以及要生成簇的數(shù)目k,隨機選取k個對象作為初始的k個聚類中心;然后計算剩余各個樣本到每一個聚類中心的距離,把該樣本歸到離它最近的那個聚類中心所在的類,對調(diào)整后的新類使用平均值的方法計算新的聚類中心;如果相鄰兩次的聚類中心沒有任何變化,說明樣本調(diào)整結(jié)束且聚類平均誤差準則函數(shù)已經(jīng)收斂。下面是k均值聚類的核心代碼:

%%%用K均值算法進行聚類

square_distance=sqrt(sum((repmat(data_array(3,:),m,1)-data_array).^2));

X=square_distance';

X=zscore(X);

a=randint(1,10,[0 1000]);

startdata=X(a);

idx=kmeans(X,10,'Start',startdata);

figure('name','聚類');

close figure 聚類

[S,H]=silhouette(X,idx);

for j=1:10

b=find(idx==j);

Close=(repmat(data_array(3,:),m,1)-data_array).^2;

for ii=1:numel(b)

NBH1=find(Close(:,b(ii))<=delta);

forjj=1:numel(b)

NBH2=find(Close(:,b(jj))<=delta);

ifnumel(NBH1)<=numel(NBH2)

jiaoji=sum(ismember(NBH2,NBH1));

else

jiaoji=sum(ismember(NBH1,NBH2));

end

NEX=numel(NBH1)*numel(NBH2)/numel(jiaoji);

NMI=-log2(NEX/m);

NR(jj)=NEX/m*NMI;

end

MNR(ii)=sum(NR);

end

alpha(j)=max(MNR);

end

alphadata=alpha/max(alpha);

3.2 圖像顯示

本系統(tǒng)利用matlab軟件很好地實現(xiàn)了數(shù)據(jù)篩選結(jié)果可觀化,利用不同類型的圖像表示結(jié)果的不同變化特點,以下是圖像形成的核心代碼:

figure;%不同基因同一屬性柱狀圖表示

load gene1.mat

i=input('請輸入所有樣本的第i個屬性(i<9217)i=');

title('不同基因同一屬性值柱狀圖');

xlabel('樣本基因');

ylabel('屬性值');

n=input('第n個屬性');

n=abs(n);

bar3(data1(:,n));

%同一基因不同屬性值餅狀圖表示

alphadata=alpha/max(alpha);

nn=abs(nn);

pie3(alphadata);

title('同一基因不同屬性值餅狀圖');

%所以樣本基因的單個屬性散點圖

load gene1.mat

i=input('請輸入所有樣本第i個屬性值(i<9217)i=');

data1=data1(:,i);

% a=rand(1,3);

scatter(1:size(data1,1),data1);

title('所有樣本基因的單個屬性散點圖');

ylabel('屬性值');

xlabel('整個樣本基因');

load gene1.mat%不同基因同一屬性值折線圖

i=input('請輸入所有樣本的第i個屬性(i<9217)i=');

a=rand(1,3);

figure;

plot(data1(:,i),'Color',[a]);

title('不同基因同一屬性值折線圖');

xlabel('樣本')

ylabel('屬性值');

4 系統(tǒng)設(shè)計的主要創(chuàng)新點

4.1 多圖式轉(zhuǎn)換

系統(tǒng)菜單選項的視圖欄中基本設(shè)置了折線圖、柱狀圖、餅圖、散點圖四種表現(xiàn)形式。折線圖指的是不同基因同一屬性值的不同表示,橫坐標表示不同個基因,縱坐標表示某個屬性值的變化,圖上可用不同顏色的折線表示不同屬性。柱狀圖則與折線圖類似,但是一般只能表示一種屬性,特別研究某種重要的屬性在多個基因中值的變化。餅圖指的是單個基因數(shù)據(jù)對于不同屬性值的大小比較,用于已經(jīng)篩選出的基因,能更容易直觀地看出這個代表基因不同屬性值的比例。散點圖則類似于聚類的表示,對于同一種屬性,必定有無數(shù)個值,可以用一種顏色表示一種屬性,從而直觀看出他們的具體取值分布。

4.2 海量數(shù)據(jù)操控

系統(tǒng)菜單選項的數(shù)據(jù)欄是主要針對數(shù)據(jù)進行的操作,添加數(shù)據(jù)指的是對于源數(shù)據(jù)的導(dǎo)入一般是直接導(dǎo)入,不需要手動輸入的。所以如果遇到有遺漏某個數(shù)據(jù)的時候,可以進行直接添加,再次運行篩選。數(shù)據(jù)分析主要是給出篩選結(jié)果的理由,就是根據(jù)什么來篩選代表基因,這個時候就需要把篩選過程中主要的數(shù)值根據(jù)顯示出來,比如說分類精度、相關(guān)度等。數(shù)據(jù)對比是相對于圖表而言。在圖表中,有時不能突出顯示用戶想要看到的幾個基因數(shù)據(jù),所以這個功能可以幫助用戶找到他想要看到的幾個基因的不同屬性值對比。查找定點是一個查找功能,在大量基因的數(shù)據(jù)表格和圖表中都可以運用。類似于EXCEL中的查找,已知某個基因或者屬性值,在大量范圍數(shù)據(jù)中,查找出來并予以標記。

5 結(jié)束語

針對基因數(shù)據(jù)龐大,處理繁瑣,篩選過程復(fù)雜等特點,系統(tǒng)結(jié)合鄰域互信息和k均值聚類思想,利用簡單直觀的界面,幫助用戶實現(xiàn)海量基因數(shù)據(jù)篩選的操作。利用matlab軟件特有的圖像編輯功能,將篩選的數(shù)據(jù)屬性形象直觀地表達出來。經(jīng)過多次嘗試,系統(tǒng)處理基因數(shù)據(jù)方便快捷,結(jié)果直觀可靠,達到了預(yù)期的效果,今后將根據(jù)用戶的反饋繼續(xù)完善。

參考文獻:

[1] 陳智勤.基于鄰域粗糙集的加權(quán)KNN腫瘤基因表達譜分類算法[J].計算機系統(tǒng)應(yīng)用,2012(12).

[2] 秦奇?zhèn)ィ杭獦I(yè),錢宇華.一種基于鄰域距離的聚類特征選擇方法[J].計算機科學,2012(1).

[3] 謝娟英,郭文娟,謝維信.基于鄰域的K中心點聚類算法[J].陜西師范大學學報:自然科學版,2012,40(4):16-22.

[4] 孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學報,2008,19(1):48-61.

[5] 劉靖明,韓麗川,侯立文.一種新的聚類算法——粒子群聚類算法[J].計算機工程與應(yīng)用,2005(20).

[6] 朱顥東,李紅嬋.基于互信息和粗糙集理論的特征選擇[J].計算機工程,2011(15).

[7] 張麗新,王家廞,趙雁南,楊澤紅,基于Relief的組合式特征選擇[J].復(fù)旦學報:自然科學版,2004(5).

[8] 黃利文,梁飛豹.改進的Fisher判別方法[J].福州大學學報:自然科學版,2006(4).

[9] 鄭洪武.用Wilcoxon符號秩檢驗方法來評價培訓(xùn)的有效性[J].福建建材,2003(4).

[10] 滕達.淺談主成分分析與因子分析方法的聯(lián)系與區(qū)別[J].中國新技術(shù)新產(chǎn)品,2011(22).

猜你喜歡
系統(tǒng)開發(fā)篩選
馬鈴薯晚疫病防治農(nóng)藥篩選試驗報告
水稻中后期病害藥劑篩選試驗初探
初識轉(zhuǎn)基因植物篩選試劑
基于PLC的火電廠輸配煤粉節(jié)能程控系統(tǒng)的開發(fā)
氣象數(shù)據(jù)傳輸監(jiān)控平臺的設(shè)計與實現(xiàn)
基于網(wǎng)絡(luò)數(shù)據(jù)分析的計算機網(wǎng)絡(luò)系統(tǒng)開發(fā)
晉北豇豆新品種鑒定篩選與評價
不同西瓜嫁接砧木的篩選與研究
變電站監(jiān)控信息接入驗收系統(tǒng)的研發(fā)與應(yīng)用
發(fā)射機房運行監(jiān)控系統(tǒng)關(guān)鍵技術(shù)的解決方案
丰原市| 九江县| 昆明市| 渝北区| 会东县| 同仁县| 简阳市| 西林县| 新沂市| 万山特区| 汶川县| 青田县| 密山市| 股票| 芦溪县| 博罗县| 噶尔县| 兴安盟| 建始县| 祁东县| 冷水江市| 陆河县| 常德市| 霍邱县| 额尔古纳市| 清新县| 原阳县| 平潭县| 塔河县| 尼木县| 中牟县| 汉沽区| 年辖:市辖区| 徐州市| 大关县| 大同县| 临沂市| 三穗县| 清镇市| 宁陕县| 佛教|