農(nóng)曉鋒
摘 要: 提出利用基于多目標(biāo)優(yōu)化軟子空間聚類理論的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘方法對高維數(shù)據(jù)集中局部離散文本數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)特征有效挖掘。首先,利用多目標(biāo)優(yōu)化軟子空間聚類思想結(jié)合非支配排序遺傳理論優(yōu)化加權(quán)類內(nèi)緊致及加權(quán)類間分離函數(shù),獲取優(yōu)化后的目標(biāo)函數(shù)及非占優(yōu)Pareto最優(yōu)解集,運(yùn)用加權(quán)子空間劃分方法對最優(yōu)解集完成特征聚類;其次,基于關(guān)聯(lián)規(guī)則思想運(yùn)用一種特征提取和關(guān)聯(lián)文本的識(shí)別方法,對聚類后的文本特征進(jìn)行文本間及文本內(nèi)部的特征識(shí)別和分類,即實(shí)現(xiàn)了文本信息數(shù)據(jù)的有效挖掘。實(shí)驗(yàn)證明,利用多目標(biāo)優(yōu)化軟子空間聚類數(shù)據(jù)挖掘方法可以有效實(shí)現(xiàn)高維集中局部離散文本數(shù)據(jù)的挖掘。
關(guān)鍵詞: 高維數(shù)據(jù); 數(shù)據(jù)特征聚類; 數(shù)據(jù)挖掘; 關(guān)聯(lián)規(guī)則
中圖分類號(hào): TN911.1?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)19?0138?04
Research on local discrete text data mining method in high?dimensional dataset
NONG Xiaofeng
(Modern Educational and Technological Center, Guilin Tourism University, Guilin 541006, China)
Abstract: An association rules data mining method based on the theory of multi?objective optimization soft subspace clustering is proposed to mine the data feature of local discrete text data in high?dimensional dataset effectively. The thought of multi?objective optimization soft subspace clustering is combined with the theory of non?dominated sorting genetic optimization to optimize the weighted intra?class compactness and weighted inter?class separation function, and obtain the optimized objective function and non?dominated Pareto optimal solution set. The weighting subspace classification method is used to cluster the features of the optimal solution set. A recognition method for feature extraction and text association based on the thought of association rules is used to recognize and classify the features among texts and within texts for the clustered text features, which can realize the effective mining of the text information data. The experimental results show that the data mining method of multi?objective optimization soft subspace clustering can realize the local discrete text data mining in high?dimensional dataset effectively.
Keywords: high?dimensional data; data feature clustering; data mining; association rule
0 引 言
文獻(xiàn)[1]指出,在人工智能和數(shù)據(jù)庫領(lǐng)域中,目前各種數(shù)據(jù)挖掘方法也獲得了不同程度的關(guān)注。20世紀(jì)末開始,人們對各種不同的數(shù)據(jù)挖掘方法進(jìn)行深入研究。數(shù)據(jù)挖掘作為一種決策支持手段,幫助各個(gè)領(lǐng)域的專家和開發(fā)人員分析各種類型的數(shù)據(jù)[2?3],然后從中挖掘出潛在的模式并做出正確決策判斷。文獻(xiàn)[4]中提到數(shù)據(jù)挖掘通常會(huì)利用人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、可視化等技術(shù)來實(shí)現(xiàn)該過程。
當(dāng)前數(shù)據(jù)挖掘研究領(lǐng)域發(fā)展迅速,其面臨的問題與挑戰(zhàn)也越來越多。第一,越來越大的數(shù)據(jù)規(guī)模,也稱之為大規(guī)模數(shù)據(jù)問題;第二,不斷增加的數(shù)據(jù)特征維數(shù)引起的問題也稱為維數(shù)災(zāi)難問題;第三,有生物學(xué)、腦科學(xué)、證券金融等學(xué)科的知識(shí)背景[5?6]。文獻(xiàn)[7]中提出基于上述問題面臨的挑戰(zhàn),部分學(xué)者提出針對大規(guī)模數(shù)據(jù)的流數(shù)據(jù)分析方法、針對高維數(shù)據(jù)的特征加權(quán)和特征選擇方法。目前數(shù)據(jù)挖掘領(lǐng)域的研究重點(diǎn)包括很多學(xué)科的交叉領(lǐng)域。
由于數(shù)據(jù)挖掘方法被越來越廣泛的應(yīng)用,本文提出對高維數(shù)據(jù)集中局部離散文本數(shù)據(jù)進(jìn)行有效數(shù)據(jù)挖掘。首先,運(yùn)用多目標(biāo)優(yōu)化軟子空間聚類思想獲得優(yōu)化后的目標(biāo)函數(shù)和非占優(yōu)Pareto最優(yōu)解集,最優(yōu)解集的獲取即實(shí)現(xiàn)了數(shù)據(jù)特征聚類;其次,以關(guān)聯(lián)規(guī)則思想為基礎(chǔ),通過一種特征提取和關(guān)聯(lián)文本的識(shí)別方法實(shí)現(xiàn)對聚類后的文本特征進(jìn)行文本之間及文本內(nèi)部的特征識(shí)別和分類,最終達(dá)到有效挖掘文本信息數(shù)據(jù)的目的[8?9]。
1 高維數(shù)據(jù)集中局部離散文本數(shù)據(jù)挖掘研究
1.1 基于多目標(biāo)優(yōu)化軟子空間的數(shù)據(jù)特征聚類
多目標(biāo)優(yōu)化屬于最合理的通用優(yōu)化方法,在特定條件的約束下,能夠優(yōu)化兩個(gè)以上的多個(gè)目標(biāo)函數(shù),該過程可描述如下:
多目標(biāo)優(yōu)化:最小化[M]個(gè)目標(biāo)函數(shù)[fx=][f1x,f2x,…,fMx],找出全部可行域[X]范圍內(nèi)的[D]維決策目標(biāo)向量[x?=x?1,x?2,…,x?D],通過目標(biāo)函數(shù)變換決策目標(biāo)向量,則:
[x?=argminx∈Xfx=argminx∈Xf1x,f2x,…,fMx] (1)
式中:[i]表示目標(biāo)函數(shù)數(shù)量;[fi?]表示目標(biāo)函數(shù);[x?]代表決策目標(biāo)向量;[x]表示解向量。
針對多目標(biāo)優(yōu)化的可行解問題,其含有的解是多個(gè)或者無限多,組成Pareto集合。因?yàn)镻areto集合借助目標(biāo)函數(shù)存在相互占優(yōu)的關(guān)系,所以也稱之為非占優(yōu)解集,可將其描述如下。
Pareto解集:最小化[M]個(gè)目標(biāo)函數(shù)[fx=][f1x,f2x,…,fMx,]解向量[x]是全部可行域[X]范圍內(nèi)多目標(biāo)優(yōu)化問題的可行解,Pareto解集必須滿足最優(yōu)準(zhǔn)則,同時(shí)在全部可行域[X]范圍內(nèi),比[x]更加占優(yōu)的解向量[x]是不存在的,則:
[?i∈1,2,…,M, fix=fix] (2)
式中[fix]表示占優(yōu)解向量目標(biāo)函數(shù)。目標(biāo)優(yōu)化問題的可行解通過Pareto最優(yōu)準(zhǔn)則來獲取,稱為Pareto解集。
如果所有數(shù)據(jù)簇的特征加權(quán)系數(shù)都是[D]維特征向量,用[wi=wi1,wi2,…,wiD1≤i≤C]表示,[C×D]表示含有[C]個(gè)數(shù)據(jù)簇的染色體長度。其中,[w1]表示初始數(shù)據(jù)簇的特征因子,由前[D]個(gè)基因團(tuán)來表示,[w2]也就是第二個(gè)數(shù)據(jù)簇的特征因子,以此類推。
定義目標(biāo)函數(shù)以及劃分?jǐn)?shù)據(jù)樣本,聚類評(píng)價(jià)準(zhǔn)則選用模糊軟子空間聚類目標(biāo)函數(shù)[JFWSC]來優(yōu)化目標(biāo)函數(shù),則[JFWSC]可描述為:
[JFWSC=i=1Cj=1Numijk=1Dwτikxjk-vik2] (3)
式中:[N]表示數(shù)據(jù)樣本的個(gè)數(shù);[j]表示常數(shù);模糊聚類指數(shù)為[m]的隸屬度用[umij]表示;模糊加權(quán)指數(shù)為[τ]的加權(quán)系數(shù)用[wτik]表示;維數(shù)為[k]的第[j]個(gè)可行解用[xjk]表示;[vik]表示聚類中心。獲取各個(gè)數(shù)據(jù)簇加權(quán)系數(shù)[W]及聚類中心[V=vi,1≤i≤C],樣本到各個(gè)聚類中心的模糊隸屬度[uij]可描述為:
[uij=dij-1m-1i=1Ddij-1m-1, i=1,2,…,C; j=1,2,…,N] (4)
式中[dij]表示樣本到聚類中心的距離。可描述聚類中心為:
[vik=j=1Numijxjkj=1Numij] (5)
選擇聚類評(píng)價(jià)準(zhǔn)則的合理性決定了最終聚類結(jié)果的產(chǎn)生,多目標(biāo)優(yōu)化問題的適應(yīng)度函數(shù)可選擇FWSC目標(biāo)函數(shù)[JFWSC]。然后構(gòu)建聚類數(shù)據(jù)集的樣本和聚類中心二部圖,數(shù)據(jù)聚類劃分可通過圖劃分方法推導(dǎo)得出。
構(gòu)建二部圖[G=V,E],以二部圖[G]為基礎(chǔ),通過譜聚類取得相應(yīng)聚類中心以及樣本點(diǎn)劃分的結(jié)果,由[VCi]表示每個(gè)聚類中心的劃分結(jié)果,相應(yīng)的特征加權(quán)向量[wi]通過計(jì)算得出,同時(shí)輸出[N]個(gè)數(shù)據(jù)樣本的聚類劃分。
1.2 關(guān)聯(lián)規(guī)則理論下文本數(shù)據(jù)挖掘
對不同詞語數(shù)據(jù)實(shí)現(xiàn)不同加權(quán)就是文本特征提取方法,在數(shù)據(jù)樣本中詞語的重要性由此表示。加權(quán)實(shí)現(xiàn)方法中選用布爾加權(quán)方式,如果一個(gè)文本數(shù)據(jù)出現(xiàn)在數(shù)據(jù)樣本中,則加權(quán)為1,反之為0,加權(quán)參數(shù)可描述為:
[wij=1,fij≥10,fij<1] (6)
式中:[wij]表示文本加權(quán)結(jié)果;[fij]表示文本數(shù)據(jù)在數(shù)據(jù)樣本中出現(xiàn)的頻率。
權(quán)重可以表示文本數(shù)據(jù)出現(xiàn)的概率,同時(shí)可以反映出文本數(shù)據(jù)的重要性,是一種基于信息理論的權(quán)重計(jì)算方法,以熵權(quán)重為基礎(chǔ)的文本挖掘方法,則:
[wij=logfij+1.0*1+log1Nk=1Nfiknilogfikni ] (7)
式中:[ni]表示研究特征次數(shù);[fik]表示目標(biāo)函數(shù)在數(shù)據(jù)樣本中出現(xiàn)的頻率。
通過數(shù)字化的歸一化方法進(jìn)行處理實(shí)現(xiàn)文本數(shù)據(jù)挖掘識(shí)別過程能夠有效地分類度量數(shù)據(jù)樣本中的關(guān)鍵數(shù)據(jù),文本個(gè)數(shù)與最大相關(guān)系數(shù)互相關(guān)聯(lián),則可作如下描述:
[maxLac=log2k] (8)
式中:[Lac]表示相關(guān)系數(shù);[maxLac]表示各個(gè)特征類信息熵的最大值;[k]為常數(shù)。
變化加權(quán)時(shí)采用固定系數(shù)coff1和coffconst對IDF1和IDFconst值進(jìn)行適度調(diào)整,可以達(dá)到較好的分類效果。
關(guān)聯(lián)挖掘?qū)儆谝环N數(shù)據(jù)處理的挖掘方法,基于數(shù)據(jù)關(guān)聯(lián)度挖掘文本特征。文本挖掘首先要將文本挖掘區(qū)域劃定,參數(shù)[xi,yi]表示各文本在區(qū)域[Z]中的坐標(biāo),也就是文本坐標(biāo)。假設(shè)將該區(qū)域視為圖像區(qū)域,設(shè)定像素點(diǎn)為[p,q,]若存在待識(shí)別的數(shù)據(jù)為[K(r),]運(yùn)用關(guān)聯(lián)規(guī)則挖掘該數(shù)據(jù)的概率為:
[Q(Z)=KZpqp×q] (9)
式中:[Q(Z)]表示在文本[Z]區(qū)域內(nèi)數(shù)據(jù)信息的挖掘概率;[KZpq]表示區(qū)域中的某文本數(shù)據(jù)樣本點(diǎn)。
利用關(guān)聯(lián)度挖掘方法對高維數(shù)據(jù)集中局部文本數(shù)據(jù)進(jìn)行數(shù)據(jù)樣本的特征提取,并利用關(guān)聯(lián)規(guī)則求解出數(shù)據(jù)被挖掘的概率,通過以上步驟可以較好地實(shí)現(xiàn)高維數(shù)據(jù)內(nèi)部特征的描述,完成數(shù)據(jù)挖掘過程。
2 仿真實(shí)驗(yàn)與結(jié)果分析
數(shù)據(jù)規(guī)模的不斷增大使數(shù)據(jù)挖掘成為核心的研究課題,本文以高維數(shù)據(jù)集中局部離散文本數(shù)據(jù)為研究對象,運(yùn)用基于多目標(biāo)軟子空間聚類理論的關(guān)聯(lián)規(guī)則法對其進(jìn)行數(shù)據(jù)挖掘。通過以下實(shí)驗(yàn)驗(yàn)證本文方法的可行性,具體如下。
實(shí)驗(yàn)1:在對數(shù)據(jù)特征實(shí)現(xiàn)挖掘前,先對數(shù)據(jù)進(jìn)行特征聚類處理,實(shí)驗(yàn)設(shè)定高維文本數(shù)據(jù)共8組,每組為400個(gè)樣本,要求聚類為5個(gè)數(shù)據(jù)簇,每個(gè)簇為80個(gè)高維文本數(shù)據(jù)。采用本文多目標(biāo)軟子空間聚類方法及數(shù)據(jù)流軟子空間聚類方法對實(shí)驗(yàn)給出的400個(gè)文本數(shù)據(jù)進(jìn)行聚類處理,獲取經(jīng)過聚類處理后的數(shù)據(jù)簇結(jié)果及每個(gè)簇含有的文本數(shù)據(jù)個(gè)數(shù),將結(jié)果與設(shè)定結(jié)果進(jìn)行比較。具體數(shù)據(jù)結(jié)果如表1,表2所示。
根據(jù)實(shí)驗(yàn)條件設(shè)定每組為400個(gè)數(shù)據(jù)樣本,經(jīng)過聚類處理后,400個(gè)文本數(shù)據(jù)聚類為5個(gè)數(shù)據(jù)簇,且每個(gè)數(shù)據(jù)簇內(nèi)包含80個(gè)數(shù)據(jù)樣本。對照實(shí)驗(yàn)事先設(shè)定的條件,表1為利用數(shù)據(jù)流軟子空間聚類法獲取的聚類結(jié)果,觀察聚類后形成數(shù)據(jù)簇的結(jié)果能夠看出,利用該方法獲取的數(shù)據(jù)簇個(gè)數(shù)與實(shí)驗(yàn)預(yù)先設(shè)定結(jié)果不相符,表明利用數(shù)據(jù)流軟子空間聚類法對文本數(shù)據(jù)并未準(zhǔn)確實(shí)現(xiàn)聚類處理;表2為多目標(biāo)軟子空間聚類方法獲取的聚類結(jié)果,從表2能夠觀察出利用該方法經(jīng)過聚類處理后形成的數(shù)據(jù)簇個(gè)數(shù)及每組數(shù)據(jù)簇包含的文本數(shù)據(jù)個(gè)數(shù)與實(shí)驗(yàn)事先設(shè)定的限制條件吻合,依據(jù)結(jié)果顯示,利用本文多目標(biāo)軟子空間聚類方法能夠?qū)Ω呔S文本數(shù)據(jù)進(jìn)行有效聚類處理。
利用數(shù)據(jù)流軟子空間聚類法及本文多目標(biāo)軟子空間聚類方法對文本數(shù)據(jù)進(jìn)行聚類處理后形成曲線,并比較兩條曲線的差異,具體如圖1所示。
觀察圖1能夠看出,運(yùn)用本文多目標(biāo)軟子空間聚類方法對400個(gè)文本數(shù)據(jù)進(jìn)行聚類處理后,獲取的數(shù)據(jù)簇為5個(gè),而運(yùn)用數(shù)據(jù)流軟子空間聚類法進(jìn)行聚類處理后,形成的數(shù)據(jù)簇結(jié)果與實(shí)驗(yàn)預(yù)先設(shè)定結(jié)果不吻合,比較兩種聚類方法,本文方法更為有效。
實(shí)驗(yàn)2:為測試文中關(guān)聯(lián)規(guī)則方法的有效性能,實(shí)驗(yàn)給出900個(gè)高維數(shù)據(jù),將其分為6組。通過運(yùn)用本文方法及回歸分析法對高維數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,比較兩種方法數(shù)據(jù)挖掘的速度,具體數(shù)據(jù)如表3所示。
3 結(jié) 論
數(shù)據(jù)挖掘是對數(shù)據(jù)進(jìn)行特征有效分類及挖掘其內(nèi)部關(guān)聯(lián)性的一種方法,在眾多科學(xué)領(lǐng)域中得到了廣泛應(yīng)用。因此,本文以高維數(shù)據(jù)集中局部離散文本數(shù)據(jù)為研究對象,提出基于多目標(biāo)軟子空間聚類理論的關(guān)聯(lián)規(guī)則法對數(shù)據(jù)實(shí)現(xiàn)挖掘。首先,將多目標(biāo)軟子空間聚類理論與非支配排序遺傳思想結(jié)合,獲取Pareto最優(yōu)解集,對數(shù)據(jù)實(shí)現(xiàn)聚類處理;其次,運(yùn)用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘法在數(shù)據(jù)特征聚類結(jié)果的基礎(chǔ)上,采用本文特征提取法對文本數(shù)據(jù)進(jìn)行特征分類與識(shí)別,最終實(shí)現(xiàn)高維數(shù)據(jù)集中局部離散文本數(shù)據(jù)的挖掘過程。
參考文獻(xiàn)
[1] 張銀柯,張?bào)K,趙達(dá).基于CNKI數(shù)據(jù)庫的文獻(xiàn)探索我國人工智能的研究狀況[J].內(nèi)江科技,2016,37(1):79?80.
[2] 王元卓,賈巖濤,劉大偉,等.基于開放網(wǎng)絡(luò)知識(shí)的信息檢索與數(shù)據(jù)挖掘[J].計(jì)算機(jī)研究與發(fā)展,2015,52(2):456?474.
[3] 王樂,王芳.數(shù)據(jù)庫異常數(shù)據(jù)的檢測仿真研究[J].計(jì)算機(jī)仿真,2016,33(1):430?433.
[4] 米允龍,米春橋,劉文奇.海量數(shù)據(jù)挖掘過程相關(guān)技術(shù)研究進(jìn)展[J].計(jì)算機(jī)科學(xué)與探索,2015,9(6):641?659.
[5] 耿娟,焦紅兵.統(tǒng)計(jì)學(xué)專業(yè)數(shù)據(jù)挖掘課程教學(xué)探索[J].產(chǎn)業(yè)與科技論壇,2016,15(3):202?203.
[6] 何光凝.數(shù)據(jù)挖掘在計(jì)算機(jī)網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用研究[J].技術(shù)與市場,2016,23(8):13.
[7] 許麗娟.基于自適應(yīng)波束形成的高維數(shù)據(jù)挖掘算法[J].電聲技術(shù),2016,40(3):65?68.
[8] 邱云飛,狄龍娟.基于簇間距離自適應(yīng)的軟子空間聚類算法[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(21):88?93.
[9] 張春生.大數(shù)據(jù)環(huán)境下相容數(shù)據(jù)集的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘[J].微電子學(xué)與計(jì)算機(jī),2016,33(8):34?39.
[10] 董本清,彭健鈞.復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)流中的異常數(shù)據(jù)挖掘算法仿真[J].計(jì)算機(jī)仿真,2016,33(1):434?437.
[11] 郭崇,王征,紀(jì)建偉,等.電力用戶數(shù)據(jù)中用電特征數(shù)據(jù)挖掘模型仿真[J].計(jì)算機(jī)仿真,2016,33(5):447?450.