国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

fGn模型在結腸癌基因表達數(shù)據(jù)集去噪中的應用

2015-12-06 06:12:06艾玲梅
計算機工程 2015年11期
關鍵詞:標準差方差分量

艾玲梅,李 科,馬 苗

(陜西師范大學計算機科學學院,西安710119)

fGn模型在結腸癌基因表達數(shù)據(jù)集去噪中的應用

艾玲梅,李 科,馬 苗

(陜西師范大學計算機科學學院,西安710119)

基因表達數(shù)據(jù)集獲取過程中容易摻雜噪聲成分,噪聲會干擾數(shù)據(jù)的正確表達從而影響其后期的分析與研究?;谥兄涤嬎惴ü烙嬙肼晿藴什畹慕?jīng)驗模態(tài)分解(EMD)去噪存在一定的不足,從而影響去噪效果。分數(shù)階高斯噪聲(fGn)模型可提供EMD下較為準確的噪聲標準差估計方法,在該模型下去噪可減少白色及有色噪聲,進而增強去噪效果。因此在中值計算EMD去噪基礎上,提出一種基于fGn模型的去噪方案,并對結腸癌基因表達數(shù)據(jù)集做去噪分析。實驗結果表明,相比中值計算EMD去噪方法,改進方法的信噪比、噪聲抑制比、t檢驗等值具有一定的優(yōu)勢,可作為基因表達數(shù)據(jù)集去噪的一種參考方案。

基因表達數(shù)據(jù)集;經(jīng)驗模態(tài)分解去噪;噪聲標準差;分數(shù)階高斯噪聲;結腸癌

1 概述

基因表達數(shù)據(jù)集是由生物芯片經(jīng)后期計算機輔助技術的加工處理而獲得,其最大的優(yōu)勢在于能夠同時反映成千上萬個基因在樣本中的存在情況[1-3],但是數(shù)據(jù)集的制備過程容易受電子、熒光等外在干擾的影響形成噪聲,噪聲的存在使基因無法準確反映其在樣本中的表達值,進而影響進一步的分析,因此,數(shù)據(jù)集去噪成為數(shù)據(jù)預處理的一項重要任務[4]。

目前基因表達數(shù)據(jù)集去噪的文獻相對較少,常用方法是小波分析去噪。該方法計算簡便且在信號的時域和頻域都具有較好的局部分析能力,但是小波去噪中母函數(shù)和分解層數(shù)的確定較為困難,通常將以往經(jīng)驗作為選擇依據(jù),加之小波去噪對母函數(shù)及分解層數(shù)的選擇較為敏感,因此,小波分析用于信號去噪時也存在一定缺陷。相比之下,經(jīng)驗模態(tài)分解(Empirical Mode Decomposition,EMD)在信號分解時無需考慮母函數(shù)及分解層數(shù),可以根據(jù)信號特點自適應地迭代分解,除此之外EMD還具有較好的近似正交性、完備性等諸多優(yōu)點,可作為去噪研究的基本工具[5]。文獻[5]中值計算EMD去噪方案使用中值計算法估計噪聲標準差具有一定的局限性,去噪效果不甚理想,針對該問題嘗試做進一步分析與改進。文獻[6]中,在分數(shù)階高斯噪聲(fractional Gaussian noise,fGn)模型下,有一種較為合理的噪聲標準差計算方式,可以較準確地反映噪聲在EMD下的分布。由于該模型是離散高斯白噪聲的一種廣義化模型,涵蓋有白色及有色噪聲,因此在該模型下去噪可以減少白色及有色噪聲成分,進一步增強去噪效果[6-7]。因此本文在中值計算EMD去噪基礎上,結合fGn模型下改進的噪聲標準差計算方式,對結腸癌基因表達數(shù)據(jù)集做去噪處理,以期提升去噪效果。

2 EMD去噪

經(jīng)驗模態(tài)分解(EMD)[8]的實質(zhì)是將信號分解為有限個本征模態(tài)函數(shù)(Intrinsic Mode Function,IMF)分量和一個余項:

EMD去噪[5]需要首先對帶噪信號EMD分解求得各個IM F分量和余項;其次對帶噪IM F分量做閾值去噪處理;最后將去噪后的IMF分量和剩余IMF分量及余項求和重構即完成信號去噪。該過程第2個環(huán)節(jié)可借助歸一化自相關函數(shù)[5]判斷哪些IM F分量需要去噪。

圖1(a)仿真序列歸一化自相關函數(shù)在不同時間差內(nèi)均有數(shù)值相對應,圖1(b)的仿真噪聲序列歸一化自相關函數(shù)除了在零點處有最高值外,整個時間差內(nèi)取值均在零處徘徊。因此求取IMF分量的歸一化自相關函數(shù),根據(jù)各個函數(shù)的分布特點可大致判斷哪些IMF分量中含有噪聲及強度,又因IMF分量中噪聲成分逐級呈遞減趨勢,因此可判斷IM F分量中噪聲和信號的分離點,分離點之前的IMF分量需要去噪,之后的IM F分量中信號的有用成分較多要保留[5]。

圖1 仿真序列和噪聲歸一化自相關函數(shù)

3 噪聲標準差估計

3.1 中值計算法

EMD去噪實質(zhì)是對IM F分量做閾值去噪,閾值的選擇極其重要,閾值計算如下[9]:

其中,mask表示閾值;n表示信號長度;δ表示信號噪聲標準差,對于既定信號而言噪聲標準差是閾值計算的唯一參量,因此,噪聲標準差是決定閾值去噪的關鍵。文獻[5]中值計算EMD去噪使用中值計算法估計噪聲標準差:

其中,x表示任意帶有噪聲的信號序列;C為固定值,一般取0.674 5;Median是中值函數(shù)[9-10]。中值計算法[11]以其較好的魯棒性適用于大部分信號,是計算噪聲標準差較為常用的方式。

3.2 fGn模型下計算方法

文獻[6]中,在分數(shù)階高斯噪聲(fGn)模型下,帶噪信號EMD分解后各個IMF分量間噪聲方差的代數(shù)關系可表示如下:

其中,H指信號Hurst值[6,12-14];ρH通過式(5)求出;V(K′)為第K′階IMF分量的方差;V(K)指第K階IMF分量的方差(K′>K≥2),而IMF分量的噪聲標準差只需對噪聲方差做開方即可。

4 fGn模型下改進的EM D去噪算法

中值計算EMD去噪方案對信號EMD分解得到各階IM F分量并計算其歸一化自相關函數(shù),根據(jù)信號與噪聲歸一化自相關函數(shù)分布的不同找出IM F分量中噪聲和信號的分界點M,位于M階之前的IMF分量閾值去噪處理,位于M階之后的IMF分量中有用成分較多保持不變,最后將去噪后的IMF分量與剩余IMF分量及余項求和完成信號重構即可[5]。整個去噪過程的關鍵在于閾值的確定,而閾值中有個重要變量,即噪聲標準差,可見噪聲標準差估計是個不可忽視的環(huán)節(jié)。

中值計算EMD去噪[5]采用中值法計算噪聲標準差,雖然具有廣泛的適用性,但是缺乏針對性。首先中值計算主要適用于小波域下計算噪聲標準差,而本文的去噪是以EMD為基礎的;其次中值計算法在進一步的研究中發(fā)現(xiàn),噪聲偏小時中值計算噪聲標準差的準確度會下降[11]。因此,本文針對該問題聯(lián)合fGn模型下改進的噪聲標準差計算方法,從而改善中值計算EMD去噪。

fGn模型下噪聲標準差的計算中,通過觀察IMF分量的歸一化自相關函數(shù)的分布找出噪聲與信號的外分界點M,而在前M階IMF分量中繼續(xù)根據(jù)IMF分量噪聲的強弱找出內(nèi)分界點M′,因為前M′階IMF分量里噪聲成分較重,所以可以采用式(3)中值計算,而M′到M階IM F分量噪聲成分相對較少,則應該采用式(4)計算。

從式(4)可以看出信號EMD分解后各階IMF分量間噪聲方差的關系,V(K)可作為初始方差,V(K′)是第K′階IMF分量的方差(K′>K),H代表信號的Hurst值[6-7]。為了更加準確估計IM F分量的噪聲標準差,H將表示各階IMF分量的Hurst值,然而IM F分量的Hurst值相比于整體信號的Hurst值有偏小的趨勢,因而嘗試將初始方差增大。信號EMD分解后IM F分量的階數(shù)越小,其分量中帶有的噪聲成分越大,噪聲標準差也會越大,文獻[6]中初始方差定在第二階IMF分量,因此將式(4)稍加修改如下:

其中,H指第j階(j>M′)IM F分量Hurst值;ρH值可以通過式(5)求出;M′指IMF分量里的內(nèi)分界點;V(j)指第j階IM F分量的噪聲方差;V(2)指第二階IM F分量的噪聲方差。針對本研究基因信號的去噪處理,閾值計算式(2)稍作修改如下:

其中,maskj為第j階IM F分量閾值;H指該分量的Hurst值;ρH值可以通過式(5)計算;M′為IMF分量的內(nèi)分界點;V(2)為第二階IMF分量的噪聲方差;n為IMF分量長度。

閾值確定后只需要將IMF分量做軟閾值處理即可,軟閾值函數(shù)[15]如下:

其中,mask為對應IM F分量的去噪閾值;去噪后的IMF分量與其余的IMF分量及余項求和即完成去噪。

綜上所述,本研究基于fGn模型的EMD去噪算法如下:

(1)基因樣本信號做EMD處理得到各個IMF分量;

(2)根據(jù)各個IMF分量的歸一化自相關函數(shù)的分布特點找出噪聲和信號的外分界點M;

(3)在前M階IMF分量中根據(jù)噪聲強度進一步找出內(nèi)分界點M′;

(4)1到M′階IMF分量的噪聲標準差采用式(3)計算,M′+1到M階IMF分量的噪聲標準差采用式(6)做算術開方即可;

(5)根據(jù)式(7)計算M階之前的各個IMF分量的去噪閾值并且按照式(8)進行去噪處理;

(6)去噪處理后的IM F分量與剩余IMF分量及余項求和重構信號。

5 實驗結果與分析

5.1 仿真實驗

為了驗證本文方法在減少白色及有色噪聲上的有效性,首先進行仿真實驗,該實驗的運行平臺是M atlab(R2008b)。實驗在原始仿真信號x=sin(2× pi×30×t)+cos(2×pi×10×t)中分別加入仿真白噪聲[5]和有色噪聲(Hurst值不等于0.5時的分數(shù)階高斯噪聲),在中值計算EMD去噪和本文方法下做去噪處理,量化指標使用信噪比(Signal Noise Ratio,SNR)sSNR和均方根誤差(Root M ean Squared Error,RMSE)rRMSE定義如下[16]:

其中,N為信號長度;x為初始信號;y為去噪后的信號。根據(jù)如上定義可以看出,去噪后信號中含有的噪聲越小,SNR越大,去噪效果越好,去噪后信號與初始信號越接近,RMSE越小,去噪效果越好。

帶噪信號為仿真信號x=sin(2×pi×30×t)+ cos(2×pi×10×t)[5]加入仿真白噪聲,中值計算EMD去噪與本文方法去噪效果如圖2所示。

圖2 帶有仿真白噪聲的信號去噪效果對比

從圖2(c)和圖2(d)可以看出,由于中值計算EMD去噪方法存在的不足,導致去噪后信號雖然光滑卻丟失原始仿真信號諸多細節(jié)信息,而使用本文去噪方法可以較好恢復原始仿真信號,去噪效果得到了很大提升。針對有色噪聲的去噪實驗,需要在信號中添加有色噪聲,仿真信號x=sin(2×pi× 30×t)+cos(2×pi×10×t)[5]加入Hurst=0.7的fGn即可仿真為帶有有色噪聲的信號[7]。從表1白色及有色噪聲去噪效果量化對比可以看出,本文去噪方法的SNR和RMSE值明顯優(yōu)于中值計算EMD去噪。

表1 白色及有色噪聲去噪效果量化對比

5.2 基因表達譜信號去噪

本文所用數(shù)據(jù)來自于結腸癌基因表達數(shù)據(jù)集[17],其中含正常和病變樣本共62例,每例樣本均包含2 000個基因。該數(shù)據(jù)集模型化后為一個62行2 000列的矩陣X,矩陣中的每一個值Xij(i=1,2,…,62,j=1,2,…,2 000)表示基因j在樣本i中的表達值。該數(shù)據(jù)集在去噪處理之前需要進行標準化處理,以消除數(shù)據(jù)量綱間的差異[18],矩陣中的數(shù)據(jù)Xik=(Xik-μk)/σk,其中,μk表示第k列的均值;σk表示第k列的標準差。

本數(shù)據(jù)集由于缺乏原始不帶噪聲的信號,所以去噪效果的量化指標不再選用SNR和RMSE,而是采用噪聲抑制比(Noise Rejection Ratio,NRR),定義如下:

圖3 樣本30去噪效果對比

本文去噪方法相比于中值計算EMD去噪的改進之處在于噪聲標準差的估計。表2對噪聲標準差的2種算法進行了分析,由于本實驗基因信號的長度為2 000,因此耗時是在該長度序列下測試的大約運行時間??梢钥闯?,基于fGn模型的算法步驟多一個環(huán)節(jié),但本文方法只對需要計算噪聲標準差的IM F分量中的一部分采用該算法,另外從2種方法計算噪聲標準差的耗時上可以看出其用時差異較小,綜合來看本文方法在提升基因表達數(shù)據(jù)集去噪效果的同時并沒有明顯增加算法的計算復雜度。

表2 噪聲標準差算法分析

6 結束語

針對中值計算噪聲標準差在EMD去噪中存在一定局限性的問題,本文提出結合分數(shù)階高斯噪聲(fGn)模型計算噪聲標準差的EMD去噪方案。該方案以fGn模型為基礎,基因信號EMD分解后得到各階IMF分量,以歸一化自相關函數(shù)為判斷依據(jù),不同類的IMF分量采用對應的噪聲標準差計算方式,最后做閾值去噪處理。fGn模型去噪不僅可以提升閾值計算的準確性,而且可以減少有色噪聲。仿真實驗及結腸癌基因表達數(shù)據(jù)集去噪結果表明,信噪比、噪聲抑制比、t檢驗等指標整體優(yōu)于中值計算EMD去噪,進一步提升了去噪效果。相關研究顯示,基因信號中的噪聲較重且來源較復雜,如何根據(jù)噪聲源有針對性地去除噪聲將成為未來的研究方向。

[1] 吳海霞,馮 偉,冉 維.時滯基因調(diào)控網(wǎng)絡的全局漸進穩(wěn)定性分析[J].計算機應用研究,2014,31(1):59-62.

[2] 劉慶山,陳小玉,莊述娟.基因表達譜芯片技術進展及其在中藥網(wǎng)絡藥理學研究中的應用[J].時珍國醫(yī)國藥,2014,25(2):502-504.

[3] 闞海俊,唐 俊,蘇亮亮.一種基于鄰域不定性信息和記分準則相結合的腫瘤特征基因提取方法[J].安徽大學學報:自然科學版,2014,38(1):79-83.

[4] 許忠能.生物信息學[M].北京:清華大學出版社,2008.

[5] 王 婷.EMD算法研究及其在信號去噪中的應用[D].哈爾濱:哈爾濱工程大學,2010.

[6] Flandrin P,Rilling G,Gon?alves P.EMD Equivalent Filter Banks,from Interpretation to Applications[J]. World Scientific,2005,(12):67-87.

[7] Gan Yu,Sui Lifen,Wu Jiangfei,et al.An EMD Threshold De-noising Method for Inertial Sensors[J]. Measurement,2014,49:34-41.

[8] Huang N E,Shen Z,Long S R,et al.The Empirical Mode Decomposition and the Hilbert Spectrum for Nonlinear and Non-stationary Time Series Analysis[J].Proceedings of the Royal Society of London,Series A:Mathematical,Physical and Engineering Science,1998,454(1971):903-995.

[9] Donoho D L,Johnstone J M.Ideal Spatial Adaptation by Wavelet Shrinkage[J].Biometrika,1994,81(3):425-455.

[10] Donoho D L,Johnstone I M.Adapting to Unknown Smoothness via Wavelet Shrinkage[J].Journal of the American Statistical Association,1995,90(432):1200-1224.

[11] 李淑霞,王汝霖,李春梅,等.基于噪聲方差估計的小波閾值圖像去噪新方法[J].計算機應用研究,2007,24(1):220-221.

[12] 徐 凌,劉嘉焜,李 亮.自相似網(wǎng)絡流量Hurst指數(shù)估計算法[J].科學技術與工程,2013,13(20):5848-5854.

[13] 劉付斌,高相銘.基于EEMD與DFA的Hurst指數(shù)估計[J].測控技術,2013,32(10):98-101.

[14] 冶曉隆,蘭巨龍,黃萬偉.基于FRFT自相似參數(shù)估計的異常流量檢測方法[J].計算機應用研究,2013,30(6):1783-1785.

[15] Donoho D L.De-noising by Soft-thresholding[J].IEEE Transactions on Information Theory,1995,41(3):613-627.

[16] 陶 珂,朱建軍.小波去噪質(zhì)量評價方法的對比研究[J].大地測量與地球動力學,2012,32(2):128-133.

[17] Alon U,Barkai N,Notterman D A,et al.Broad Patterns of Gene Expression Revealed by Clustering Analysis of Tumor and Normal Colon Tissues Probed by Oligonucleotide Arrays[J].Proceedings of the National Academy of Sciences,1999,96(12):6745-6750.

[18] 張玉春,郝平波,王明宇,等.結腸癌基因表達譜的分類檢測問題研究[J].計算機工程與應用,2011,47(17):244-248.

[19] 劉云鵬,律方成,李成榕,等.基于數(shù)學形態(tài)濾波器抑制局部放電窄帶周期性干擾的研究[J].中國電機工程學報,2004,24(3):169-173.

編輯顧逸斐

Application of fGn Model in Colon Cancer Gene Expression Dataset Denoising

AI Lingmei,LIKe,MA Miao
(School of Computing Science,Shaanxi Normal University,Xi'an 710119,China)

The acquisition process of gene expression dataset mixed with noise easily,the noise can interfere with data expression correctly which w ill affect their further analysis and research.The Empirical Mode Decomposition(EMD)denoising of using median-calculation to estimate noise standard deviations that exists some drawbacks and affects the denoising effectiveness.Under the EMD,the fractional Gaussian noise(fGn)model can provide more accurate estimation way of noise standard deviations,denoising on this model can reduce white and colored noise,which w ill enhance the denoising effectiveness.So a denoising scheme based on fGn is proposed on the basis of median-calculation EMD denoising and done the denoising analysis on colon cancer gene expression dataset.Experimental results show that,the values of signal-to-noise,noise rejection ratio,t-test,etc.in advanced method have a certain superiority compared with median-calculation EMD denoising,which can be used as an reference means of denoising to the gene expression dataset.

gene expression dataset;Empirical M ode Decomposition(EMD)denoising;noise standard deviations;fractional Gaussian noise(fGn);colon cancer

艾玲梅,李 科,馬 苗.fGn模型在結腸癌基因表達數(shù)據(jù)集去噪中的應用[J].計算機工程,2015,41(11):303-307.

英文引用格式:Ai Lingmei,Li Ke,M a Miao.Application of fGn Model in Colon Cancer Gene Expression Dataset Denoising[J].Computer Engineering,2015,41(11):303-307.

1000-3428(2015)11-0303-05

A

TP391

10.3969/j.issn.1000-3428.2015.11.052

陜西省重點實驗室開放共享基金資助項目(SA IIP201202);陜西師范大學學習科學交叉學科培育計劃基金資助項目。

艾玲梅(1965-),女,通訊作者,副教授、博士,主研方向:生物醫(yī)學信號處理;李 科,碩士研究生;馬 苗,教授、博士。

2014-10-15

2014-12-14 E-m ail:1427147182@qq.com

猜你喜歡
標準差方差分量
方差怎么算
概率與統(tǒng)計(2)——離散型隨機變量的期望與方差
帽子的分量
用Pro-Kin Line平衡反饋訓練儀對早期帕金森病患者進行治療對其動態(tài)平衡功能的影響
一物千斤
智族GQ(2019年9期)2019-10-28 08:16:21
計算方差用哪個公式
論《哈姆雷特》中良心的分量
方差生活秀
分量
對于平均差與標準差的數(shù)學關系和應用價值比較研究
三穗县| 兴宁市| 大兴区| 溧阳市| 石河子市| 天峨县| 股票| 扎兰屯市| 阿坝县| 伊川县| 寻乌县| 大兴区| 同江市| 宣城市| 岳阳县| 凭祥市| 广元市| 临澧县| 驻马店市| 郁南县| 青冈县| 福州市| 五峰| 平遥县| 山丹县| 台北县| 新乐市| 县级市| 铁岭市| 道孚县| 宁蒗| 都江堰市| 新巴尔虎左旗| 新宾| 莱州市| 韶关市| 那曲县| 曲靖市| 普格县| 贵溪市| 四子王旗|