李宇
【摘要】 隨著科學(xué)技術(shù)的不斷更新發(fā)展,傳統(tǒng)的大數(shù)據(jù)典型相關(guān)分析方法已經(jīng)不能滿足人們的需求。因此,就需要加強(qiáng)該分析方法的進(jìn)一步研究。一種基于云模型的大數(shù)據(jù)典型分析方法被提了出來。本文主要結(jié)合云模型的內(nèi)容以及大數(shù)據(jù)典型相關(guān)分析的現(xiàn)狀,對(duì)基于云模型的大數(shù)據(jù)典型相關(guān)分析方法進(jìn)行深入的研究,并總結(jié)出影響大數(shù)據(jù)環(huán)境下,典型相關(guān)分析系數(shù)誤差的影響因素,為該類研究奠定了堅(jiān)實(shí)的理論基礎(chǔ),從而推動(dòng)了大數(shù)據(jù)典型相關(guān)分析的研究進(jìn)程。
【關(guān)鍵詞】 云模型 大數(shù)據(jù) 典型相關(guān)分析 方法
大數(shù)據(jù)主要是指需要利用新的處理模式才能具備較強(qiáng)的洞察力、決策力以及流程優(yōu)化能力的多樣化、高增長率和巨量的信息資產(chǎn)。它主要具備數(shù)據(jù)體量大、類型繁多、價(jià)值密度低以及處理速度快等特征。這些特征加大了挖掘大數(shù)據(jù)的難度。隨著大數(shù)據(jù)PB級(jí)規(guī)模的出現(xiàn),傳統(tǒng)的大數(shù)據(jù)典型相關(guān)分析方法已經(jīng)不能滿足其需求。因此,就要加強(qiáng)對(duì)大數(shù)據(jù)典型相關(guān)分析方法的創(chuàng)新研究。在這一背景下,一種根據(jù)云模型的大數(shù)據(jù)典型相關(guān)分析方法被提上了日程。
一、云模型的介紹
云模型主要是定性和定量轉(zhuǎn)換的模型。在模糊數(shù)學(xué)和隨機(jī)數(shù)學(xué)的基礎(chǔ)上采用云模型來統(tǒng)一描畫出語言值中存在的大量隨機(jī)性、模糊性和二者間的關(guān)聯(lián)性。用云模型來表示自然語言中的基元即語言值,用云的數(shù)字特征即期望、熵以及超熵來表示語言值的數(shù)學(xué)性質(zhì)。它既體現(xiàn)了代表定性概念值的樣本中的隨機(jī)性,又體現(xiàn)了隸屬程度的不確定性,從而展示了隨機(jī)性和模糊性之間的關(guān)聯(lián)。目前,云模型被廣泛的應(yīng)用到信任評(píng)估、圖像分割和時(shí)間序列挖掘等領(lǐng)域上。
二、大數(shù)據(jù)典型相關(guān)分析的現(xiàn)狀
人們?cè)诠こ虒?shí)踐項(xiàng)目和科研工作中收集到的大量數(shù)據(jù)大部分都具備大數(shù)據(jù)的特性,但是把大數(shù)據(jù)作為一個(gè)獨(dú)立的科學(xué)來研究是比較新鮮的。其主要相關(guān)的研究領(lǐng)域有:生物信息領(lǐng)域,一部分學(xué)者研究了生理電大數(shù)據(jù)的壓縮和存儲(chǔ)等方面問題,將生物學(xué)研究中的搜集到的數(shù)據(jù)可以看做大數(shù)據(jù);數(shù)據(jù)挖掘領(lǐng)域,一些科學(xué)家研究了大數(shù)據(jù)挖掘中存在的在線特征的選擇問題;大數(shù)據(jù)程序開發(fā)以及存儲(chǔ)方面,一些科學(xué)家研究了大數(shù)據(jù)和云計(jì)算現(xiàn)狀等。在現(xiàn)階段,大數(shù)據(jù)研究過程中,還存在諸多不成熟的地方,需要對(duì)其進(jìn)行進(jìn)一步的完善。雖然一些學(xué)者探討了在云計(jì)算平臺(tái)下的大數(shù)據(jù)存儲(chǔ)方法,但是并沒有對(duì)大數(shù)據(jù)典型相關(guān)分析進(jìn)行研究,也沒有提出云模型下的大數(shù)據(jù)典型相關(guān)分析方法,使得這一類的研究比較缺乏,因此,就需要加強(qiáng)對(duì)大數(shù)據(jù)典型相關(guān)分析的研究,提出切實(shí)可行的方法,從而完善大數(shù)據(jù)典型相關(guān)分析,來滿足大數(shù)據(jù)研究的需求。
三、基于云模型下的大數(shù)據(jù)典型相關(guān)分析方法
1、執(zhí)行大數(shù)據(jù)典型相關(guān)分析的流程。大數(shù)據(jù)典型相關(guān)分析的流程包括:首先,在各個(gè)云端上依據(jù)當(dāng)前云端中的數(shù)據(jù),運(yùn)用逆向云發(fā)生器形成云數(shù)字特征;其次,把各個(gè)端點(diǎn)云傳送到中心云端,采用多維云進(jìn)行合并,最終在中心云端中生成中心云;再者,依據(jù)中心云,采取正向云發(fā)生器生成中心云滴;最后,在中心云滴上實(shí)行典型相關(guān)分析。2、端點(diǎn)云的生成方法。利用逆向云發(fā)生器,在云端中的數(shù)據(jù)中生成云,就是端點(diǎn)云的生成過程。本文主要采用的是多維的逆向正態(tài)云發(fā)生器。為了提高在大數(shù)據(jù)中多維逆向正態(tài)云發(fā)生器生成云的效率,可以在隨機(jī)采樣的方法下,采取啟發(fā)式的策略生成云。3、多維云的合并方法。在進(jìn)行多維云合并時(shí),每次只能進(jìn)行一對(duì)云的加法計(jì)算。當(dāng)采用反復(fù)調(diào)用方式使,每合并一次云,其新生云需要加入合并的操作中,使云的總體數(shù)量只能減少一個(gè),大大降低了合并的效率。在大數(shù)據(jù)的背景下,由于受到數(shù)據(jù)存儲(chǔ)或者收集方法的影響,就會(huì)使不同云端產(chǎn)生的數(shù)據(jù)也不盡相同,因此,在合并各個(gè)云端傳遞到中心云端的云時(shí),要充分地考慮各云端數(shù)據(jù)的差異。
四、影響大數(shù)據(jù)典型相關(guān)分析方法的因素
1、中心云滴群的大小。隨著云滴群的規(guī)模不斷的擴(kuò)大,典型相關(guān)分析的系數(shù)誤差也逐漸下降,當(dāng)達(dá)到一定程度時(shí),其下降的速度趨向平緩的狀態(tài)。這就顯示出適當(dāng)?shù)脑龃笤频稳旱囊?guī)模,可以有效地降低典型相關(guān)系數(shù)誤差,通過少量的云滴可以體現(xiàn)了大數(shù)據(jù)中包含的相關(guān)性。2、云端數(shù)量。不同云端數(shù)量對(duì)典型相關(guān)系數(shù)的誤差有著不同的差異性,當(dāng)云端數(shù)量不斷增多時(shí),其運(yùn)行的速度也相對(duì)提高。3、數(shù)據(jù)容量。隨著數(shù)據(jù)容量的不斷增大,其對(duì)應(yīng)的典型相關(guān)系數(shù)的誤差也隨之上升。在大數(shù)據(jù)環(huán)境下,典型相關(guān)分析系數(shù)的誤差有一定的波動(dòng)性,同時(shí)期上升的幅度比較小。
五、總結(jié)
基于云模型的大數(shù)據(jù)典型相關(guān)分析方法主要是在小容量的中心云滴群中進(jìn)行典型相關(guān)分析操作,從而提高在大數(shù)據(jù)環(huán)境下執(zhí)行典型相關(guān)分析的效率。為了能夠快速生成中心云滴,改進(jìn)了多為逆向正態(tài)發(fā)生器,進(jìn)而提高了大數(shù)據(jù)下云的生成效率。同時(shí)也總結(jié)了多維云合并計(jì)算的方法,提升了云合并的速度和質(zhì)量。為之后類型的研究工作提供了可靠的理論依據(jù),進(jìn)一步完善了云模型的大數(shù)據(jù)典型相關(guān)方法。
參 考 文 獻(xiàn)
[1]楊靜,李文平,張健沛.大數(shù)據(jù)典型相關(guān)分析的云模型方法[J].通信學(xué)報(bào),2013,34(10):122-133.
[2]顧鑫,徐正全,劉進(jìn).基于云理論的可信研究及展望[J].通信學(xué)報(bào),2011,32(7):176-181.
[3]許凱,秦昆,黃伯和等.基于云模型的圖像區(qū)域分割方法[J].中國圖象圖形學(xué)報(bào),2010,15(10):757-763.