国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

通信垃圾文本識(shí)別的半監(jiān)督學(xué)習(xí)優(yōu)化算法

2020-09-04 03:15:54邱寧佳沈卓睿
關(guān)鍵詞:分類(lèi)器聚類(lèi)垃圾

邱寧佳,沈卓睿,王 輝,王 鵬

長(zhǎng)春理工大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,長(zhǎng)春 130022

1 引言

現(xiàn)如今,隨著民生平臺(tái)的廣泛使用垃圾數(shù)據(jù)急劇增加,避免垃圾數(shù)據(jù)的干擾來(lái)提高系統(tǒng)工作效率和服務(wù)水平成為熱點(diǎn)研究。非平衡樣本分類(lèi)問(wèn)題作為垃圾文本識(shí)別的基礎(chǔ),存在分類(lèi)效果不佳的問(wèn)題。針對(duì)此問(wèn)題,從算法角度考慮主要包括分類(lèi)集成法、代價(jià)敏感法和特征選擇方法。Sundarkumar等提出通過(guò)串聯(lián)使用k反向最近鄰和一類(lèi)支持向量機(jī)(OCSVM)來(lái)糾正數(shù)據(jù)不平衡問(wèn)題[1]。Kaur通過(guò)引入特征縮放,抑制或中和平均絕對(duì)誤差(MAE)的方法,有效提高了信用卡欺詐檢測(cè)模型精度[2]。Gu等為了糾正分類(lèi)面的偏移問(wèn)題,對(duì)不平衡數(shù)據(jù)到分類(lèi)面的距離進(jìn)行參數(shù)調(diào)優(yōu),有效地完成了少數(shù)類(lèi)和多數(shù)類(lèi)的識(shí)別工作[3]。Agnihotri根據(jù)類(lèi)中術(shù)語(yǔ)的分布從每類(lèi)中選擇可變數(shù)量的特征,提出了一種新的變量全局特征選擇方案(VGFSS),此方法在處理不平衡數(shù)據(jù)時(shí)優(yōu)于全局特征選擇方案[4]。Duan 等使用馬氏距離繪制聚類(lèi)二叉樹(shù),將SVM從上到下應(yīng)用于二叉樹(shù)進(jìn)行分類(lèi),此方法在機(jī)械故障診斷多分類(lèi)問(wèn)題中具有很高的分類(lèi)精度[5]。Wu 等使用類(lèi)重疊法和樣本點(diǎn)重要性來(lái)設(shè)計(jì)樣本模糊隸屬函數(shù)和分配隸屬度值,提出模糊多類(lèi)支持向量機(jī)算法,該算法能夠更有效解決多類(lèi)別不平衡數(shù)據(jù)和噪聲問(wèn)題[6]。Chan 等通過(guò)使用先驗(yàn)類(lèi)概率加權(quán)后驗(yàn)類(lèi)概率來(lái)處理神經(jīng)網(wǎng)絡(luò)訓(xùn)練不平衡數(shù)據(jù)時(shí)少數(shù)類(lèi)被錯(cuò)誤分類(lèi)的問(wèn)題,此算法的平均召回率得到了提高[7]。Xu等通過(guò)定義新的基分類(lèi)器初始權(quán)值矩陣更新規(guī)則和集成權(quán)重計(jì)算公式,提出一種污水處理故障診斷建模方法,此方法提高了故障類(lèi)的識(shí)別率和分類(lèi)精度[8]。

對(duì)于不平衡分類(lèi)問(wèn)題從訓(xùn)練集角度入手主要包括上采樣方法和下采樣方法,都是通過(guò)改變訓(xùn)練集樣本的分布,提高不平衡樣本的判別精度。Pozzolo 等通過(guò)使用貝葉斯最小風(fēng)險(xiǎn)理論找到正確的分類(lèi)閾值,對(duì)不平衡數(shù)據(jù)在欠采樣處理后進(jìn)行調(diào)整,降低了欠采樣對(duì)分類(lèi)精度和概率校準(zhǔn)的影響[9]。Huang 等根據(jù)類(lèi)內(nèi)、類(lèi)間距離和不平衡度三者的關(guān)聯(lián),在樣本特征的基礎(chǔ)上提出一種新穎的上采樣方法,顯著提升了負(fù)樣本的分類(lèi)準(zhǔn)確率[10]。Vannucci等提出使用遺傳算法將欠采樣和過(guò)采樣結(jié)合的方法,確定最優(yōu)不平衡率,使稀有模式檢測(cè)率和分類(lèi)性能有了明顯的提高[11]。Zhao 等通過(guò)約束合成數(shù)據(jù)產(chǎn)生的范圍,使數(shù)據(jù)集中化,提出了TSMOTE和MDSMOTE算法,解決了分類(lèi)器和SMOTE 對(duì)于不平衡數(shù)據(jù)集存在邊緣化分布的缺點(diǎn)[12]。Yang 等分別添加和刪除與少數(shù)類(lèi)相關(guān)性強(qiáng)和與多數(shù)類(lèi)相關(guān)性弱的樣本來(lái)實(shí)現(xiàn)樣本的類(lèi)分布平衡,提出關(guān)鍵值抽樣法,提高了關(guān)聯(lián)分類(lèi)方法處理不平衡數(shù)據(jù)的精度[13]。Geng 等采用k-means 采樣方法和分類(lèi)指導(dǎo)詞提出了一種組合策略,提高了不平衡數(shù)據(jù)的分類(lèi)精度[14]。Zhang等分別對(duì)多數(shù)類(lèi)和少數(shù)類(lèi)進(jìn)行不同權(quán)重調(diào)整,基于A(yíng)daBoost算法,提出了一種新穎的欠采樣方法,提高了不平衡數(shù)據(jù)的分類(lèi)效果[15]。

在通過(guò)聚類(lèi)改進(jìn)下采樣時(shí),為了避免傳統(tǒng)聚類(lèi)算法聚類(lèi)數(shù)目不易確定和算法復(fù)雜度高的問(wèn)題,本文提出基于否定選擇密度聚類(lèi)的下采樣算法(Down-Sampling algorithm based on Negative Selection Density Clustering,NSDC-DS),首先結(jié)合否定選擇算法自體異常檢測(cè)機(jī)制的思想,將聚類(lèi)中心點(diǎn)和待聚類(lèi)樣本分別作為檢測(cè)器和自體集來(lái)進(jìn)行異常匹配提出基于否定選擇的密度聚類(lèi)算法;然后使用基于否定選擇的密度聚類(lèi)算法對(duì)樣本進(jìn)行相似度評(píng)估來(lái)改進(jìn)傳統(tǒng)下采樣代表性難以保證的問(wèn)題,并選擇NBSVM分類(lèi)器對(duì)采樣后的通信文本進(jìn)行半監(jiān)督垃圾識(shí)別;最后使用PCA 樣本所具有信息量進(jìn)行評(píng)估,提出改進(jìn)的PCA-SGD(Stochastic Gradient Descent based on Principal Component Analysis)算法對(duì)模型參數(shù)進(jìn)行調(diào)優(yōu),以達(dá)到提高通信垃圾文本識(shí)別精度的目的。

2 相關(guān)工作

2.1 否定選擇算法

否定選擇(Negative Selection,NS)算法是根據(jù)免疫系統(tǒng)自體、非自體細(xì)胞的識(shí)別工作仿真得到的一種選擇方案,檢測(cè)器是隨機(jī)產(chǎn)生的,能夠保留包含非自體的檢測(cè)器,刪除包含自體的檢測(cè)器,最終實(shí)現(xiàn)兩種數(shù)據(jù)的分類(lèi)。其算法思想如下:首先定義需要保護(hù)與檢測(cè)的自體集,然后產(chǎn)生檢測(cè)器集合,檢測(cè)器為不與受保護(hù)數(shù)據(jù)匹配的集合,最后將檢測(cè)器與自體集進(jìn)行比較來(lái)檢測(cè)自體集的改變,如果自體集與檢測(cè)器匹配,表示自體集發(fā)生了異常變化。結(jié)構(gòu)如圖1所示。

圖1 否定選擇算法

2.2 NBSVM分類(lèi)算法

樸素貝葉斯和支持向量機(jī)常被用在文本分類(lèi)的基線(xiàn)模型,但是性能受特征和數(shù)據(jù)集等因素的影響較大。Wang 等使用樸素貝葉斯對(duì)數(shù)計(jì)數(shù)比率作為特征值的SVM 變種,提出了一種將樸素貝葉斯與支持向量機(jī)結(jié)合的算法(NBSVM),此算法在文本分類(lèi)領(lǐng)域取得了不錯(cuò)的效果[16]。此算法是使用NB 算法生成的特征訓(xùn)練SVM來(lái)構(gòu)造一個(gè)線(xiàn)性分類(lèi)器。測(cè)試實(shí)例k的預(yù)測(cè)函數(shù)如公式(1)所示:

其中,w和b通過(guò)最小化目標(biāo)函數(shù)獲得,為樣本所包含類(lèi)別,為第i個(gè)訓(xùn)練樣本的特征向量,反之此處相乘的方法為對(duì)應(yīng)位置元素相乘,為特征在正、負(fù)樣本中出現(xiàn)的概率比值對(duì)數(shù)化后的值,稱(chēng)為對(duì)數(shù)計(jì)數(shù)比率(log-為平滑系數(shù)。

3 改進(jìn)的隨機(jī)采樣算法

3.1 基于否定選擇的密度聚類(lèi)算法

k-means算法存在聚類(lèi)數(shù)目不易確定和只適用于凸樣本空間數(shù)據(jù)集的問(wèn)題,并且對(duì)于非平衡數(shù)據(jù)集,其聚類(lèi)效果不佳。譜聚類(lèi)算法適用于任意形狀樣本空間的數(shù)據(jù)集,但仍存在聚類(lèi)數(shù)目不易確定的缺點(diǎn),當(dāng)樣本維度大時(shí),對(duì)聚類(lèi)效果影響較大。針對(duì)以上問(wèn)題,本文提出一種基于否定選擇的密度聚類(lèi)算法,將聚類(lèi)中心點(diǎn)和待聚類(lèi)樣本分別作為檢測(cè)器和自體集來(lái)進(jìn)行相似度匹配,匹配條件使用改進(jìn)的相似度計(jì)算公式,即在距離測(cè)量相似度的基礎(chǔ)上加入了密度來(lái)刻畫(huà)相似度。其具體思想如下:

(1)首先利用分詞工具對(duì)待聚類(lèi)樣本進(jìn)行分詞、去停,使用TfidfVectorizer工具將文本向量化,轉(zhuǎn)化為特征矩陣,如式(2)所示:

其中,每一行代表一個(gè)樣本,共具有n個(gè)樣本和m個(gè)特征。

(2)檢測(cè)器和自體集。計(jì)算所有待聚類(lèi)樣本點(diǎn)的鄰域密度ρi,去除孤立點(diǎn),選擇待聚類(lèi)樣本Dwait中密度最大的樣本點(diǎn)ρmax作為聚類(lèi)中心點(diǎn),即否定選擇算法中的檢測(cè)器。其他待聚類(lèi)樣本點(diǎn)作為自體集,對(duì)兩者使用步驟(3)中的匹配條件進(jìn)行檢測(cè)匹配。

(3)設(shè)置否定選擇中的“匹配條件”,使用距離和密度結(jié)合的相似度計(jì)算方法,如公式(3)所示。在距離度量相似度的基礎(chǔ)上加入密度是由于:歐式距離在某些情況下不能刻畫(huà)真實(shí)的數(shù)據(jù)分布。例如在圖2中,點(diǎn)a為其他類(lèi),在此希望b、c間相似度比b、a間的相似度更大,但使用歐式距離計(jì)算時(shí),b、a分為一類(lèi),因而本文引入密度權(quán)值來(lái)調(diào)節(jié)相似度值。

圖2 不同流行上的數(shù)據(jù)點(diǎn)

其中,x1t和x2t代表兩個(gè)樣本的第t個(gè)維度為兩樣本的歐氏距離。σ1和σ2代表樣本點(diǎn)所處鄰域內(nèi)的密度。這樣在計(jì)算數(shù)據(jù)點(diǎn)間相似度的過(guò)程中,當(dāng)兩樣本點(diǎn)所在的密度存在差異時(shí),就可以通過(guò)權(quán)值對(duì)相似度進(jìn)行調(diào)整,密度相差越大,相似度越小。

根據(jù)多次實(shí)驗(yàn)得到合適的相似度閾值γ,當(dāng)檢測(cè)器與自體集滿(mǎn)足匹配條件時(shí),即當(dāng)檢測(cè)器與自體集之間相似度大于等于相似度閾值γ時(shí)便找到樣本中心點(diǎn)密度可達(dá)的所有樣本,生成一個(gè)聚類(lèi)簇;每聚成一個(gè)簇后,繼續(xù)尋找待聚類(lèi)樣本中密度最大的點(diǎn)作為下一個(gè)聚類(lèi)中心點(diǎn),更新其為檢測(cè)器,與其他作為自體集的待聚類(lèi)樣本點(diǎn)計(jì)算相似度,找到滿(mǎn)足相似度閾值匹配條件的樣本聚成下一個(gè)簇,直到滿(mǎn)足終止條件。

(4)終止條件。當(dāng)待聚類(lèi)樣本點(diǎn)為空時(shí)聚類(lèi)結(jié)束,得到聚類(lèi)后的k類(lèi)樣本。整體聚類(lèi)流程圖如圖3所示。

圖3 基于否定選擇的密度聚類(lèi)算法

3.2 否定選擇密度聚類(lèi)的不平衡數(shù)據(jù)處理

本文使用通信文本數(shù)據(jù)集,在對(duì)此數(shù)據(jù)集進(jìn)行垃圾文本識(shí)別時(shí),為了使學(xué)習(xí)效果更好,因此需要解決訓(xùn)練集樣本中通信垃圾文本和通信非垃圾文本的不平衡問(wèn)題。隨機(jī)的下采樣方法會(huì)丟失大量的數(shù)據(jù),使模型只學(xué)習(xí)到總體模式的一部分,削弱了樣本的多樣性。為了避免以上問(wèn)題,本文提出一種基于否定選擇密度聚類(lèi)的下采樣算法(NSDC-DS)。

對(duì)于樣本比例不平衡的數(shù)據(jù)采用下采樣方法時(shí),如果先將多數(shù)類(lèi)樣本聚類(lèi)為k個(gè)不相交子類(lèi),再?gòu)拿總€(gè)子類(lèi)中均勻采樣出樣本作為與少數(shù)類(lèi)樣本重構(gòu)為平衡數(shù)據(jù)集再進(jìn)行分類(lèi)器學(xué)習(xí),將會(huì)避免原采樣方法削弱多數(shù)類(lèi)樣本多樣性和只學(xué)習(xí)到其總模式一部分的缺點(diǎn)。其改進(jìn)方法如下:

(1)使用基于否定選擇的聚類(lèi)算法對(duì)多數(shù)類(lèi)別樣本聚類(lèi)為k類(lèi)。

(2)使用距離與密度結(jié)合的改進(jìn)相似度公式計(jì)算出每個(gè)簇中各個(gè)樣本點(diǎn)距離聚類(lèi)中心點(diǎn)的相似度,選擇每個(gè)簇中距離聚類(lèi)中心點(diǎn)最近的若干個(gè)樣本,從每個(gè)簇中采樣出的個(gè)數(shù)為多數(shù)類(lèi)樣本個(gè)數(shù)與聚類(lèi)個(gè)數(shù)的比值。

(3)所有簇中采樣得到的樣本與少數(shù)類(lèi)樣本重構(gòu)為平衡樣本。

基于否定選擇密度聚類(lèi)的下采樣算法(NSDC-DS)歸納如下:

算法1 NSDC-DS算法

通過(guò)此算法得到的樣本比隨機(jī)下采樣得到的樣本具有更完整的特征和更強(qiáng)的多樣性,使用此算法得到的樣本組成的平衡樣本作為訓(xùn)練集用于分類(lèi)器的學(xué)習(xí),有助于提高分類(lèi)器的性能。

4 通信垃圾文本識(shí)別模型優(yōu)化

4.1 垃圾識(shí)別模型優(yōu)化

經(jīng)過(guò)否定選擇密度聚類(lèi)下采樣處理得到平衡樣本后,選擇NBSVM 分類(lèi)器對(duì)平衡訓(xùn)練集進(jìn)行學(xué)習(xí),使用半監(jiān)督學(xué)習(xí)方法對(duì)通信垃圾文本進(jìn)行識(shí)別,為了進(jìn)一步提高模型的分類(lèi)效果,達(dá)到更好的垃圾文本識(shí)別效果,采用PCA-SGD算法對(duì)模型參數(shù)進(jìn)行優(yōu)化。

隨機(jī)梯度下降每次迭代使用一個(gè)樣本對(duì)參數(shù)進(jìn)行更新,具有訓(xùn)練速度快的優(yōu)點(diǎn),但每次更新可能不會(huì)按照正確的方向進(jìn)行,引起較大的優(yōu)化波動(dòng),模型難以收斂。針對(duì)此問(wèn)題,本文提出一種改進(jìn)的隨機(jī)梯度下降算法PCA-SGD,使用PCA 對(duì)特征所含信息量的大小進(jìn)行判斷,并計(jì)算出每一個(gè)樣本具有的全部特征所含信息量大小,選擇出更能代表全體樣本的單一樣本來(lái)進(jìn)行參數(shù)更新,降低樣本不確定性導(dǎo)致其朝著非優(yōu)化的方向前進(jìn)的概率,加快隨機(jī)梯度下降的收斂速度和減少優(yōu)化時(shí)的波動(dòng)。梯度下降參數(shù)更新公式如公式(5)所示:

其中,θ為優(yōu)化參數(shù),η為學(xué)習(xí)率,?θ J(θ)為參數(shù)梯度。

損失函數(shù)使用交叉熵代價(jià)函數(shù),如公式(6)所示:

其中,r為訓(xùn)練集大小,c為類(lèi)別總數(shù),y為預(yù)測(cè)類(lèi)別,為實(shí)際類(lèi)別,λ||θ||2為正則項(xiàng)。具體描述如算法2所示:

算法2 PCA-SGD算法

由于使用PCA 來(lái)估計(jì)樣本所含信息量,使用含有信息量高的樣本對(duì)參數(shù)更新,進(jìn)而降低了樣本不確定性導(dǎo)致其朝著非優(yōu)化方向前進(jìn)的概率,此算法將減少SGD的波動(dòng)和加快其收斂速度。

4.2 模型描述

在進(jìn)行通信垃圾文本識(shí)別時(shí),為了提高識(shí)別的準(zhǔn)確率,首先將訓(xùn)練集中的多數(shù)類(lèi)使用改進(jìn)的否定選擇密度聚類(lèi)算法進(jìn)行無(wú)監(jiān)督學(xué)習(xí),然后從每一類(lèi)中采樣出若干具有代表性的樣本與訓(xùn)練集中的少數(shù)類(lèi)重組為平衡訓(xùn)練集,選擇NBSVM 分類(lèi)器進(jìn)行有監(jiān)督學(xué)習(xí),最后使用改進(jìn)的PCA-SGD 算法對(duì)整體模型進(jìn)行優(yōu)化,完成半監(jiān)督學(xué)習(xí)下的垃圾文本識(shí)別任務(wù)。整體解決方案如圖4。

圖4 通信垃圾文本識(shí)別模型

5 實(shí)驗(yàn)與結(jié)果分析

5.1 實(shí)驗(yàn)描述與實(shí)驗(yàn)數(shù)據(jù)

為了驗(yàn)證本文在三個(gè)改進(jìn)方面的有效性,設(shè)計(jì)了如下三個(gè)實(shí)驗(yàn)。通過(guò)使用具有不同屬性的數(shù)據(jù)集,對(duì)比傳統(tǒng)算法和否定選擇密度聚類(lèi)算法在不同數(shù)據(jù)集下的聚類(lèi)純度和時(shí)間(時(shí)間復(fù)雜度和空間復(fù)雜度),驗(yàn)證后者具有更高的效率和更強(qiáng)的魯棒性;使用隨機(jī)下采樣方法、否定選擇密度聚類(lèi)算法與傳統(tǒng)的聚類(lèi)算法分別對(duì)非平衡通信數(shù)據(jù)中的多數(shù)類(lèi)進(jìn)行采樣,將重組后的平衡樣本作為訓(xùn)練集使用NBSVM分類(lèi)器進(jìn)行學(xué)習(xí)分類(lèi),并使用驗(yàn)證集驗(yàn)證改進(jìn)后的下采樣方法的有效性;使用改進(jìn)后的隨機(jī)梯度下降算法對(duì)模型進(jìn)行優(yōu)化,通過(guò)與傳統(tǒng)算法對(duì)比收斂速度和模型訓(xùn)練速度來(lái)驗(yàn)證PCA-SGD算法的性能。

實(shí)驗(yàn)1中,為了驗(yàn)證改進(jìn)聚類(lèi)算法的魯棒性和有效性,本文分別選擇樣本數(shù)均接近的非凸、高維和不平衡樣本空間數(shù)據(jù)集:Double-circles、Wine、Glass 和對(duì)比數(shù)據(jù)集Iris;實(shí)驗(yàn)2和實(shí)驗(yàn)3使用不平衡通信文本數(shù)據(jù)對(duì)否定選擇密度聚類(lèi)的下采樣和PCA-SGD算法進(jìn)行性能評(píng)估,其中Lingspam 和Spambase 為常用的通信數(shù)據(jù)集,Unicom數(shù)據(jù)為民生平臺(tái)客戶(hù)咨詢(xún)的不平衡通信文本數(shù)據(jù)。詳細(xì)實(shí)驗(yàn)數(shù)據(jù)集及其屬性的如表1所示。

表1 數(shù)據(jù)集及其屬性

5.2 評(píng)價(jià)指標(biāo)

本文使用聚類(lèi)純度、準(zhǔn)確率和時(shí)間三個(gè)指標(biāo)設(shè)計(jì)實(shí)驗(yàn)對(duì)改進(jìn)算法進(jìn)行評(píng)估,其具體說(shuō)明如下:

(2)準(zhǔn)確率:Accuracy=(TP+TN)/(TP+FN+FP+TN),其中TP表示真實(shí)類(lèi)別為正類(lèi),預(yù)測(cè)類(lèi)別為正類(lèi);TN表示真實(shí)類(lèi)別為負(fù)類(lèi),預(yù)測(cè)類(lèi)別為負(fù)類(lèi);FP表示真實(shí)類(lèi)別為負(fù)類(lèi),預(yù)測(cè)類(lèi)別為正類(lèi);FN表示真實(shí)類(lèi)別為正類(lèi),預(yù)測(cè)類(lèi)別為負(fù)類(lèi)。

5.3 算法性能驗(yàn)證

實(shí)驗(yàn)1 否定選擇密度聚類(lèi)算法(NSDC)性能驗(yàn)證

k-means 算法只適用凸樣本空間數(shù)據(jù)集,對(duì)于非平衡數(shù)據(jù)集聚類(lèi)效果不佳,并且對(duì)于高維數(shù)據(jù)集,k-means與譜聚類(lèi)算法存在聚類(lèi)精確度下降和時(shí)間消耗長(zhǎng)的缺點(diǎn)。為了驗(yàn)證否定選擇密度聚類(lèi)算法能夠改進(jìn)以上缺點(diǎn),本實(shí)驗(yàn)分別使用了凸樣本空間數(shù)據(jù)集Double-circles和非凸樣本空間高維數(shù)據(jù)集Wine、不平衡數(shù)據(jù)集Glass和對(duì)比數(shù)據(jù)集Iris。實(shí)驗(yàn)選擇傳統(tǒng)k-means,譜聚類(lèi)作為對(duì)比算法,與否定選擇聚類(lèi)算法進(jìn)行性能比較,使用聚類(lèi)純度和時(shí)間作為評(píng)價(jià)指標(biāo),具體實(shí)驗(yàn)結(jié)果如圖5、6所示。

由結(jié)果可以看出,對(duì)于非凸樣本空間數(shù)據(jù)集Doublecircles,k-means并不適用于此類(lèi)數(shù)據(jù)集,因而具有較低的純度,譜聚類(lèi)雖然適用于此類(lèi)數(shù)據(jù)集,但由于計(jì)算的復(fù)雜度,導(dǎo)致需要的時(shí)間較長(zhǎng)。對(duì)于非平衡數(shù)據(jù)集Glass,其中的少數(shù)類(lèi)樣本在最小化均方誤差過(guò)程中會(huì)被k-means算法忽略而導(dǎo)致聚類(lèi)純度對(duì)比平衡數(shù)據(jù)集Iris降低。對(duì)于高維數(shù)據(jù)集Wine,k-means算法由于需要反復(fù)更新聚類(lèi)中心點(diǎn)、譜聚類(lèi)算法由于需要進(jìn)行高維矩陣運(yùn)算而需要較大的時(shí)間開(kāi)銷(xiāo)。本文提出的否定選擇密度聚類(lèi)(NSDC)算法通過(guò)將距離和密度集合來(lái)計(jì)算相似度,改進(jìn)了k-means 不適用與非凸球形樣本空間的缺點(diǎn),對(duì)于Double-circles 數(shù)據(jù)集,具有較高的純度和需要較少的時(shí)間;由于避免了k-means最小化均方誤差過(guò)程,減少了非平衡數(shù)據(jù)Glass對(duì)其聚類(lèi)純度的影響;此外,否定選擇密度聚類(lèi)算法避免了傳統(tǒng)k-means 算法反復(fù)更新聚類(lèi)中心點(diǎn)和譜聚類(lèi)高維矩陣計(jì)算導(dǎo)致較高的時(shí)間復(fù)雜度,減少了高維數(shù)據(jù)對(duì)聚類(lèi)所需時(shí)間的影響。從實(shí)驗(yàn)結(jié)果可以看出,否定選擇密度聚類(lèi)算法具有更高的聚類(lèi)純度、時(shí)間效果和更強(qiáng)的魯棒性。

圖5 不同數(shù)據(jù)集下各個(gè)算法聚類(lèi)準(zhǔn)確度比較

圖6 不同數(shù)據(jù)集時(shí)間比較/對(duì)比

實(shí)驗(yàn)2 改進(jìn)下采樣方法性能比較

為了對(duì)比隨機(jī)下采樣方法和通過(guò)聚類(lèi)下采樣方法對(duì)不平衡數(shù)據(jù)處理的差異性,本實(shí)驗(yàn)設(shè)計(jì)使用隨機(jī)下采樣、通過(guò)k-means聚類(lèi)算法下采樣和否定選擇密度聚類(lèi)算法下采樣對(duì)不平衡數(shù)據(jù)中多數(shù)類(lèi)樣本進(jìn)行處理,并與少數(shù)類(lèi)樣本重組成平衡樣本,使用NBSVM分類(lèi)算法對(duì)這三組平衡數(shù)據(jù)分別進(jìn)行分類(lèi),分類(lèi)混淆矩陣如圖7所示。

圖7 不同方法處理不平衡樣本,NBSVM分類(lèi)混淆矩陣

通過(guò)圖7可以看出,在使用隨機(jī)下采樣方法對(duì)多數(shù)類(lèi)樣本處理時(shí),由于隨機(jī)采樣得到的樣本可能并不具有代表性,分類(lèi)器在進(jìn)行學(xué)習(xí)時(shí)不能學(xué)到較完整的特征,從而導(dǎo)致分類(lèi)器具有較多的誤分樣本和較低的準(zhǔn)確率。通過(guò)聚類(lèi)算法對(duì)多數(shù)類(lèi)樣本聚類(lèi)再進(jìn)行采樣得到的樣本,由于聚類(lèi)后的每個(gè)簇與簇間具有低的相似度、簇中樣本間具有高的相似度,每個(gè)簇中距離聚類(lèi)中心點(diǎn)越近的樣本越可以更好地代表此簇樣本,所以從每個(gè)簇中均選擇出若干具有代表性的樣本即可更好地代表全部多數(shù)類(lèi)樣本,使用此采樣方法得到的樣本進(jìn)行訓(xùn)練,能使分類(lèi)器學(xué)習(xí)到更完整的全樣本特征。因此,通過(guò)k-means聚類(lèi)算法對(duì)不平衡樣本進(jìn)行下采樣處理比隨機(jī)下采樣方法對(duì)其進(jìn)行處理降低了垃圾文本和非垃圾文本的誤分率,垃圾文本誤分率從0.49 減少到0.23,非垃圾文本誤分率從0.40減少到0.21,準(zhǔn)確率從59.62%升高到79.22%,很大程度上提高了分類(lèi)的準(zhǔn)確率。同時(shí),對(duì)比通過(guò)k-means算法對(duì)不平衡數(shù)據(jù)集進(jìn)行處理,使用本文改進(jìn)的NCBA 聚類(lèi)算法對(duì)其進(jìn)行處理使垃圾文本誤分率從0.23減少到0.15,非垃圾文本誤分率從0.21減少到0.14,準(zhǔn)確率達(dá)到了85.62%,分類(lèi)器具有更精準(zhǔn)的文本垃圾識(shí)別率,進(jìn)一步說(shuō)明了改進(jìn)聚類(lèi)的有效性。以上數(shù)據(jù)可以說(shuō)明,通過(guò)聚類(lèi)改進(jìn)隨機(jī)下采樣提高了分類(lèi)器的準(zhǔn)確率,彌補(bǔ)了隨機(jī)下采樣分類(lèi)器只學(xué)習(xí)到部分特征的缺點(diǎn),實(shí)驗(yàn)結(jié)果證明了改進(jìn)下采樣方法的有效性。

實(shí)驗(yàn)3 改進(jìn)PCA-SGD算法性能驗(yàn)證

為了驗(yàn)證本文改進(jìn)的PCA-SGD算法具有更高的穩(wěn)定性和更快的優(yōu)化速度,本實(shí)驗(yàn)設(shè)計(jì)改進(jìn)算法與BGD、MBGD、SGD三種算法進(jìn)行誤差變化率與分類(lèi)精度的比較,使用表1中Unicom不平衡通信文本數(shù)據(jù)集共17 223條。其中,四個(gè)算法誤差變化率比較結(jié)果如圖8,分類(lèi)精度隨時(shí)間變化比較結(jié)果如圖9所示。

圖8 同迭代次數(shù)對(duì)模型訓(xùn)練穩(wěn)定性的影響

圖9 不同訓(xùn)練時(shí)間下模型分類(lèi)準(zhǔn)確率比較

由圖8和圖9可以看出,由于BGD使用全樣本對(duì)模型進(jìn)行訓(xùn)練,保證了每次迭代都朝著整體最優(yōu)化的方向進(jìn)行,基本保證了損失值是單調(diào)下降的,但使用全樣本進(jìn)行訓(xùn)練同樣帶來(lái)了訓(xùn)練速度過(guò)慢的缺點(diǎn);SGD 與MSGD由于使用部分?jǐn)?shù)據(jù)進(jìn)行模型訓(xùn)練,加快了訓(xùn)練的速度,但隨機(jī)選取的樣本不能保證每次迭代損失值都是下降的,所以導(dǎo)致?lián)p失值的變化存在較大的波動(dòng);而改進(jìn)的PCA-SGD 由于在選取樣本時(shí)進(jìn)行了評(píng)估,選擇出了更具代表性的樣本進(jìn)行參數(shù)的更新,進(jìn)而使損失值的變化得到了比SGD 和MSGD 都小的波動(dòng),并具有更快訓(xùn)練速度的優(yōu)點(diǎn)。通過(guò)實(shí)驗(yàn)結(jié)果驗(yàn)證,PCA-SGD 算法具有較高的穩(wěn)定性和較快的收斂速度,綜上,此算法具有較高的可行性。

實(shí)驗(yàn)4 垃圾文本識(shí)別模型性能對(duì)比

為了驗(yàn)證本文提出的半監(jiān)督通信垃圾文本識(shí)別模型的有效性,選取 Lingspam、Spambase 和 Unicom 三個(gè)通信文本數(shù)據(jù)集,使用本文改進(jìn)的模型與TFGE[17]、IDRF[18]模型進(jìn)行準(zhǔn)確率對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示。

表2 3種方法文本識(shí)別準(zhǔn)確率對(duì)比 %

可以看出,由于Unicom 數(shù)據(jù)集對(duì)比Lingspam 和Spambase 數(shù)據(jù)集具有更多的樣本數(shù)和更高的不平衡比例,導(dǎo)致三個(gè)模型的準(zhǔn)確率均有所下降,但本文提出的半監(jiān)督模型具有最小的準(zhǔn)確率下降幅度。此外,由于本文提出的模型在解決不平衡樣本時(shí),不僅使用改進(jìn)的NSDC-DS 欠采樣方法對(duì)其中的多數(shù)類(lèi)進(jìn)行欠采樣,并且在使用NBSVM分類(lèi)器對(duì)重組后的均衡樣本分類(lèi)后,再使用改進(jìn)的優(yōu)化算法PCA-SGD 對(duì)模型進(jìn)行優(yōu)化,得到了更好的垃圾文本識(shí)別效果。實(shí)驗(yàn)結(jié)果證明,本文提出的半監(jiān)督模型在解決不平衡問(wèn)題時(shí),三個(gè)數(shù)據(jù)集上均優(yōu)于其他兩個(gè)模型,表現(xiàn)出了較優(yōu)的通信垃圾文本識(shí)別性能。

6 結(jié)語(yǔ)

在對(duì)通信垃圾文本進(jìn)行識(shí)別時(shí),本文將無(wú)監(jiān)督與有監(jiān)督學(xué)習(xí)結(jié)合,改進(jìn)算法模型優(yōu)化參數(shù),更好地實(shí)現(xiàn)了垃圾文本識(shí)別的效果,具體如下:(1)無(wú)監(jiān)督學(xué)習(xí)部分。提出否定選擇密度聚類(lèi)算法,改進(jìn)傳統(tǒng)聚類(lèi)算法聚類(lèi)中心點(diǎn)敏感和聚類(lèi)數(shù)目不易確定的缺點(diǎn)。(2)有監(jiān)督學(xué)習(xí)部分。使用否定選擇密度聚類(lèi)算法改進(jìn)了傳統(tǒng)隨機(jī)下采樣方法,采樣后的樣本具有更完整的整體特征,提高了分類(lèi)器的性能,使用半監(jiān)督學(xué)習(xí)的方法完成通信文本的垃圾識(shí)別工作。(3)模型優(yōu)化。最后使用改進(jìn)的PCA-SGD 算法實(shí)現(xiàn)對(duì)文本垃圾識(shí)別模型的優(yōu)化任務(wù),提高了模型的識(shí)別性能。實(shí)驗(yàn)結(jié)果表明,否定選擇密度聚類(lèi)算法具有更高的效率和更低的復(fù)雜度,改進(jìn)的下采樣方法NSDC-DS 使分類(lèi)器具有更高的性能,改進(jìn)的隨機(jī)梯度下降算法PCA-SGD具有更穩(wěn)定收斂趨勢(shì)和更快的收斂速度,本文提出的半監(jiān)督學(xué)習(xí)下的通信垃圾文本識(shí)別模型具有較高的識(shí)別性能。在基于否定選擇的密度聚類(lèi)算法中,相似度閾值的選取是通過(guò)多次實(shí)驗(yàn)得到,需要較大的人工精力,如果根據(jù)不同數(shù)據(jù)集對(duì)閾值進(jìn)行自適應(yīng)調(diào)整是接下來(lái)工作的重點(diǎn)研究方向。

猜你喜歡
分類(lèi)器聚類(lèi)垃圾
垃圾去哪了
那一雙“分揀垃圾”的手
倒垃圾
BP-GA光照分類(lèi)器在車(chē)道線(xiàn)識(shí)別中的應(yīng)用
基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
倒垃圾
加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
大渡口区| 德格县| 永定县| 张家港市| 林甸县| 乃东县| 杨浦区| 静宁县| 大冶市| 南皮县| 罗田县| 普格县| 锡林浩特市| 延长县| 莱阳市| 镇平县| 东平县| 白城市| 北川| 博湖县| 南江县| 临颍县| 延寿县| 同仁县| 丽江市| 福州市| 且末县| 博兴县| 方山县| 驻马店市| 庆安县| 布拖县| 甘南县| 巧家县| 连南| 永吉县| 广昌县| 界首市| 台安县| 体育| 天柱县|