国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

非負矩陣分解在數(shù)據(jù)優(yōu)化中的研究

2019-08-10 06:36甘井中黃恒杰
電腦知識與技術(shù) 2019年17期
關(guān)鍵詞:研究應(yīng)用

甘井中 黃恒杰

摘要:文章在闡述非負矩陣分解內(nèi)涵和原理的基礎(chǔ)上,將其應(yīng)用到生物信息學(xué)領(lǐng)域能夠幫助學(xué)者更好的解釋和研究隱藏的生物資源,旨在進一步揭示隱藏在大量數(shù)據(jù)背后的生物奧秘,促進生物學(xué)領(lǐng)域發(fā)展。

關(guān)鍵詞:非負矩陣分解在;數(shù)據(jù)優(yōu)化;研究應(yīng)用

中圖分類號:TP311? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2019)17-0012-02

開放科學(xué)(資源服務(wù))標識碼(OSID):

在現(xiàn)代科技和信息網(wǎng)絡(luò)的快速發(fā)展下,矩陣作為一種高維數(shù)據(jù)信息處理分析形式,在大數(shù)據(jù)應(yīng)用領(lǐng)域得到了廣泛應(yīng)用,具體表現(xiàn)在文檔管理、診斷數(shù)據(jù)優(yōu)化、多媒體數(shù)據(jù)集成等方面。但是在大量、眾多數(shù)據(jù)信息面前,數(shù)據(jù)信息處理任務(wù)龐大,且對各類數(shù)據(jù)信息的綜合處理效率較低,最終導(dǎo)致高緯度數(shù)據(jù)信息的缺失。為了解決這個問題,矩陣分解被人們提出,在矩陣分解的不斷優(yōu)化下出現(xiàn)了非負矩陣分解。將非負矩陣分解能夠?qū)崿F(xiàn)對各類復(fù)雜數(shù)據(jù)信息的高效化處理,并最終對處理之后的數(shù)據(jù)做出有效的解釋,充分發(fā)揮出數(shù)據(jù)信息在社會生產(chǎn)領(lǐng)域的作用。

1 非負矩陣分解概述

非負矩陣分解是由兩位學(xué)者在《Nature》雜志上提出的一種新的矩陣分析方法,該方法的使用最早可以追溯到前人的研究工作。大數(shù)據(jù)信息時代下,傳統(tǒng)的矩陣分解工具,比如PCA和SVD等分解效果不理想,且負元素在實際問題的應(yīng)用中缺乏科學(xué)的解釋。

NEF可以被應(yīng)用在多變量數(shù)據(jù)的統(tǒng)計分析中,給定一組多元n維數(shù)據(jù)向量,將向量放置在nm矩陣V列中,其中,m是數(shù)據(jù)集中的示例數(shù),之后將矩陣近似分解為nr矩陣W和em矩陣H。在r

從實際操作情況來看,對于龐大規(guī)模的數(shù)據(jù)分析都需要采取矩陣分析的形式來處理,在這個過程中容易出現(xiàn)數(shù)據(jù)信息處理偏差,為了能夠解決這個問題,在科學(xué)技術(shù)的發(fā)展下提出了一種新的數(shù)據(jù)信息處理分析方式,即NMF分解算法。NMF分解算法相較于傳統(tǒng)的一些算法而言,具有實現(xiàn)上的簡便性、分解形式和分解結(jié)果解釋性強、占用存儲空間少等諸多優(yōu)點。

2 非負矩陣分解在基因表達數(shù)據(jù)聚類分析中的應(yīng)用

2.1 基因表達數(shù)據(jù)聚類分析

在DNA芯片的快速發(fā)展下,芯片處理分析領(lǐng)域?qū)?shù)據(jù)信息處理提出了更高的要求,在這樣的發(fā)展要求下DNA技術(shù)在識別癌癥類和子類基因等方面起著十分重要的作用。從實踐操作情況來看,基因分析方法的應(yīng)用反向和基本形式是聚類,通過使用這種方式能夠?qū)崿F(xiàn)對各類事物存在有效信息的有效處理。

基因芯片所產(chǎn)生的基因表達數(shù)據(jù)矩陣具有規(guī)模大、復(fù)雜程度高的特點,在使用的過程中隊數(shù)據(jù)處理和信息的獲取提出了更高的要求。在信息科技的快速發(fā)展下,基因芯片在數(shù)據(jù)處理方面得到了廣泛的應(yīng)用,其中,經(jīng)典統(tǒng)計分析是一種常用的統(tǒng)計分析方法。微列陣的聚類算法是生物信息學(xué)中的一個活躍領(lǐng)域,它的應(yīng)用基于這樣的假設(shè):具有類似表達模式的基因具有類似的生物學(xué)行為。通過對基因或者樣本的聚類能夠發(fā)現(xiàn)在一個生物過程中共表達的基因組群以及與之對應(yīng)的樣本,僅僅對基因或者樣本進行聚類的被稱作是單向聚類,同時對二者進行聚類的被稱作是雙向聚類。

在進行單向聚類分析的時候如果對行向量聚類,那么每一類的相關(guān)性將不會受到列的影響,特別是在不相干列數(shù)比較多的情況下,對列向量進行聚類操作的方法類似。雙向聚類操作目的是尋找數(shù)據(jù)矩陣子矩陣集,使得每個子矩陣的行列都體現(xiàn)出相關(guān)性的特點,每一個樣本會同時進行多個生物過程。雙向聚類允許類和類之間出現(xiàn)重疊,由此對基因芯片數(shù)據(jù)分析來講具有十分重要的意義。

2.2 非負矩陣分解算法的聚類分析

在NMF模型中,任意給定一個 非負基因表達數(shù)據(jù)矩陣A=【aij】=【a1,a2,....,an】,能夠分解為兩個非負矩陣F=【fik】=【f1,....,fk】和P=【pkn】=【p1,P2,....,Pn】,使得A≈FP,其中,A是一個非負矩陣,橫向m代表基因在n個樣本中的應(yīng)用水平,縱向代表樣本基因的總體表達水平。F是一個mk的非負矩陣,包含m個基因k個樣本,P是一個kxn的非負矩陣或者向量,被稱作是基矩陣。

2.3 實驗結(jié)果分析

在對數(shù)據(jù)分類和選擇適合的分析方法之后,為了能夠更好地評估出數(shù)據(jù)信息的聚類分析結(jié)果,對所選擇的癌癥數(shù)據(jù)信息進行聚類處理,兩類癌癥數(shù)據(jù)信息其中一類包含人體中樞神經(jīng)系統(tǒng)的腫瘤數(shù)據(jù),另外一類則是包含個體白血病的數(shù)據(jù)。聚類精準度的測量采用以下公式,如(1)所示。

(n代表樣本的數(shù)目;I(ji)代表樣本的聚類正確度;如果樣本聚類分配是正確的,那么I(ji)=1,否則I(ji)=0)在以往的文獻中有學(xué)者證明了NMF聚類穩(wěn)定度和精準度要優(yōu)于HC和SOM的方法,針對稀疏性的NMF聚類分析不斷提升。應(yīng)用GNMF分析中樞神經(jīng)系統(tǒng)腫瘤數(shù)據(jù)集和白血病數(shù)據(jù)。

2.3.1 中樞神經(jīng)系統(tǒng)腫瘤數(shù)據(jù)集

這類數(shù)據(jù)信息由42個樣本和m=5579個基因組成,包含五種類型的中樞神經(jīng)系統(tǒng)腫瘤,代表了五個不同的類別形態(tài)。中樞神經(jīng)系統(tǒng)腫瘤的五種形態(tài)和樣本髓母細胞瘤、惡性神經(jīng)膠質(zhì)瘤、橫紋肌樣瘤、正常的小腦、原始神經(jīng)外胚層腫瘤分別對應(yīng)的數(shù)字為10、10、10、4、8。k取2-5對應(yīng)GNMF一致性矩陣D的樣本重構(gòu)圖如圖一所示。圖一利用GNMF聚類的k值從2到5變化時,一致性劇本D的樣本重構(gòu)圖,樣本聚在同一類的可能性為0,深藍色代表數(shù)值0的色彩,深紅色代表數(shù)值1的色彩,圖1中的色彩變化對應(yīng)一致性矩陣元素從0到1的變化。在k取2/3/4/5和6的時候,GNMF能夠很好地將細胞樣本和腫瘤樣本區(qū)分。

2.3.2 白血病數(shù)據(jù)集

白血病數(shù)據(jù)集m=5000和38個樣本組成,這38個樣本大體上分為兩類,分別是AML和ALL,其中,ALL代表的是急性淋巴細胞白血病,AML是急性骨髓性白血病,數(shù)據(jù)集對應(yīng)的樣本數(shù)目如下所示:B型急性淋巴細胞白血病數(shù)字為19、T型急性淋巴細胞白血病數(shù)字為8、急性骨髓性白血病對應(yīng)的數(shù)字為11。結(jié)合臨床和組織病理學(xué)證明這個數(shù)據(jù)集的38個樣本分配到三種類型的亞型中,具有很高的可信度,數(shù)據(jù)集應(yīng)用具有很強的可行性。k取2-5對應(yīng)GNMF一致性矩陣D的樣本重構(gòu)圖如圖2所示。在k取2或者3的時候,GNMF聚類效果最為穩(wěn)定。

3 結(jié)束語

綜上所述,非負矩陣分解是一種用來處理大變量數(shù)據(jù)的方法,文章以醫(yī)學(xué)領(lǐng)域的癌癥病變?yōu)榛狙芯繉ο螅贜MF算法的支持下對基因表達數(shù)據(jù)進行了研究,特別是對癌癥基因數(shù)據(jù)進行了聚類分析,同時對NMF進行改進,獲取優(yōu)良基因,取得了良好的成效??梢姡秦摼仃嚪纸馑惴ê推渌卣魈釄D像處理方法相比具有算法效率高的特點,在未來需要相關(guān)學(xué)者對其進行做出更深入的思考。

參考文獻:

[1] 李孟杰,謝強,丁秋林.基于正交非負矩陣分解的K-means聚類算法研究[J].計算機科學(xué),2016,43(5):204-208.

[2] 路成.稀疏約束非負矩陣分解方法及其應(yīng)用研究[D].安徽大學(xué),2017.

[3] 栗茂林,梁霖,陳元明,等.基于聚類優(yōu)化的非負矩陣分解方法及其應(yīng)用[J].中國機械工程,2018(4).

[4] 張鳳斌,葛海洋,楊澤.非負矩陣分解在免疫入侵檢測中的優(yōu)化和應(yīng)用[J].計算機工程,2016, 42(5):173-178.

[5] 趙艷萍,徐勝超.基于云計算與非負矩陣分解的數(shù)據(jù)分級聚類[J].現(xiàn)代電子技術(shù),2018(8).

【通聯(lián)編輯:唐一東】

猜你喜歡
研究應(yīng)用
人工智能的研究運用與發(fā)展趨勢分析
工程項目施工質(zhì)量管理方法的研究與應(yīng)用