基于特征矩陣優(yōu)化與數(shù)據(jù)降維的文本聚類算法

2021-06-22 03:18:02盧佳偉

數(shù)據(jù)采集與處理 2021年3期

陳瑋，盧佳偉

（上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院，上海200093）

引言

文本文檔作為互聯(lián)網(wǎng)輿情信息的主要載體，一直是數(shù)據(jù)信息時代的研究重點(diǎn)，能否監(jiān)控并處理好這些文本信息是實(shí)現(xiàn)社會和諧發(fā)展的重要前提。伴隨著自然語言處理技術(shù)的不斷發(fā)展，各類文本信息處理的技術(shù)愈發(fā)完善，對輿情信息的處理也越來越高效，其中文本聚類是文本挖掘、機(jī)器學(xué)習(xí)和模式識別領(lǐng)域最具代表性的技術(shù)之一。作為一種無監(jiān)督學(xué)習(xí)的方法，文本聚類在數(shù)據(jù)分析處理上承擔(dān)著重要的角色，通過將大型的文本文檔分解為具有各類特征代表的文檔子集，從而實(shí)現(xiàn)對文檔的管理與監(jiān)控［1］。

在文本數(shù)據(jù)處理的過程中，向量空間模型（Vector space model，VSM）是一種被廣泛采用的模型，模型內(nèi)每一個詞都被認(rèn)定為文檔的一個特征從而映射到向量空間中［2］。文本文檔一般會形成一個高維度的向量空間模型，每一個維度依次對應(yīng)一個權(quán)重值，初始文本文檔通常包含高維信息和噪聲信息特征，后者以其非相關(guān)性、冗雜性和分布散亂性的特點(diǎn)成為聚類工作中一個處理難點(diǎn)［3］。特征選擇的主要目的是確定文本中最具代表性和高辨識度的特征。傳統(tǒng)文本特征的選擇處理有3種方法：基于文檔頻率（Document frequency，DF）的特征選擇、基于詞頻（Term frequency，TF）的特征選擇和基于文檔頻率和逆詞頻（Term frequency inverse document frequency，TF?IDF）的混合特征選擇，這些方法主要依靠詞頻統(tǒng)計(jì)來完成矩陣特征的提取［4］。文獻(xiàn)［5］通過確定詞對文本密集度的貢獻(xiàn)來評定該詞的價值，從而找出不損失文本有效信息的最小特征詞語集，創(chuàng)造出更為合理的權(quán)重計(jì)算方案。文獻(xiàn)［6］提出一種多標(biāo)記的屬性約簡特征選擇方法，將粗糙集應(yīng)用于多標(biāo)記數(shù)據(jù)的特征選擇中，定義了一種領(lǐng)域粗糙集的下近似和依賴度計(jì)算方法。上述方法都通過引入其他屬性對矩陣做出相應(yīng)調(diào)整，從而產(chǎn)生更為明顯的特征子集，但往往忽略了特征矩陣內(nèi)在的影響。本文提出一種自適應(yīng)的特征矩陣，依靠自身的詞頻率分布來產(chǎn)生特征權(quán)重計(jì)算方案，在改進(jìn)傳統(tǒng)的TF?IDF算法的同時，使得生成的特征矩陣具有更好的分布性。

文本矩陣空間的高維性仍然是一個終極挑戰(zhàn)，文本文檔集合一般包含成百上千個文本特性，文本集群因此變得非常復(fù)雜。一般來說，文本聚類性能受到文本文檔維數(shù)的影響，盡管高維的數(shù)據(jù)包含的信息很多，但是往往會降低文本集群的準(zhǔn)確性，通常需要采用一定的降維手段對其進(jìn)行處理，最終實(shí)現(xiàn)聚類性能的優(yōu)化［7］。從技術(shù)上講，有效的降維應(yīng)該做到消除無用的文本特性，即不必要的、不協(xié)調(diào)的和嘈雜的文本特征等等，保存內(nèi)在信息，從而顯著降低文本特征空間的維數(shù)，常用的降維方法為主成分分析法（Principal component analysis，PCA）［8］，但是當(dāng)數(shù)據(jù)維度十分龐大時，此時PCA降維后生成的矩陣非常不準(zhǔn)確。文獻(xiàn)［9］將高維數(shù)據(jù)泛化為新的距離表達(dá)式，并且結(jié)合信息熵構(gòu)造出新的特征評價函數(shù)，評價每一個維度的信息量來消除冗余特征后再聚類，這樣最大限度地保留了數(shù)據(jù)信息，同時完成了降維處理。文獻(xiàn)［10］在此基礎(chǔ)上結(jié)合PCA降維算法，將PCA算法中映射到低維空間的方差最大化標(biāo)準(zhǔn)改進(jìn)為一種基于特征度量的信息熵標(biāo)準(zhǔn)，使得降維后的數(shù)據(jù)具有更好的分布特性。本文在此兩者基礎(chǔ)上提出一種基于聯(lián)合熵特征度量的標(biāo)準(zhǔn)，即對所有特征計(jì)算同時發(fā)生時的信息熵，進(jìn)一步保留重要的矩陣信息，從而使得降維后的數(shù)據(jù)具有更好的完整性。

1 特征矩陣優(yōu)化

隨著文檔的復(fù)雜性與其內(nèi)容的多變性的增加，文本向量化后形成的矩陣變得越來越稀疏，并且特征項(xiàng)愈發(fā)不明顯。因此，本文提出一種新的加權(quán)方案ALFW（Adaptive length frequency weight）來獲得一個加權(quán)特征項(xiàng)得分，并通過這個權(quán)值來有效地區(qū)分信息性和非信息性文本特征，以此來提高文本特征選擇的效果。TF?IDF是目前的一個標(biāo)準(zhǔn)權(quán)重方案，著重體現(xiàn)了詞頻對特征矩陣的影響［11］，具體如式（1～3）所示。

式中：d j表示一個文本，nij代表某詞在文本d j中的出現(xiàn)次數(shù)，文本d j中每種詞條的出現(xiàn)總數(shù)使用表示，|D|代表所有文本的總數(shù)，|{j：ti∈d j}|表示包含詞語ti的文本數(shù)目。

新提出權(quán)重方案ALFW的主要目的是在此基礎(chǔ)上合理地突出特征項(xiàng)以及優(yōu)化非信息特征對矩陣的影響。ALFW的建立主要依靠以下3個因素：首先引入si變量削弱了逆詞頻對整個文檔的影響，其次，考慮到一篇文檔中并沒有考慮其所有特征項(xiàng)頻率對權(quán)重方案的影響，因此si變量的添加也對選擇數(shù)量較少的信息特征起到了幫助；最后maxtf(i)是一個主要的因素，它對分配一個良好的詞頻權(quán)重分?jǐn)?shù)起著至關(guān)重要的作用。ALFW的引入使得文本特征選擇技術(shù)更加容易地找到新的信息特征子集，這也將最終提高文本聚類算法的性能。

式中：maxtf(i)表示文檔i中最大的特征頻率值，si表示文檔i中的特征項(xiàng)被選擇次數(shù)不為0的特征數(shù)之和，df(j)代表包含特征j的文檔數(shù)。

表1為特征頻率分布矩陣，表示10個特征項(xiàng)在8篇文檔中的分布情況，表2和表3分別給出了在TF?IDF算法和ALFW算法下生成的特征矩陣，對比矩陣進(jìn)一步說明了ALFW與經(jīng)典方案（TF?IDF）進(jìn)行比較時的優(yōu)勢，此示例是在8個帶有10個特征權(quán)重的文檔上完成的。從表2，3中可以明顯看出，與經(jīng)典的權(quán)重方案（TF?IDF）相比，本文提出的ALFW權(quán)重方案更有效地區(qū)分了文檔的特征。表2中對于文檔2中的第10個特征，TF?IDF給出的權(quán)重顯然過大（2.709），而經(jīng)過ALFW權(quán)重方案處理后得到了一個合適的權(quán)重（0.043）（見表3）。同時，可以看到表2中的2，3，4特征項(xiàng)在各個文檔中都表示出相同的權(quán)重，這說明文檔級別的特性沒有體現(xiàn)出來，而ALFW在這3個特征項(xiàng)中均給予了不同的權(quán)重值，使得矩陣的特征區(qū)分更加明顯。

表1 特征頻率矩陣Table 1 Fr equency of char acter istic matr ix

表2 TF?IDF矩陣Table 2 TF?IDF matrix

表3 ALFW矩陣Table 3 ALFW matrix

2 基于聯(lián)合熵標(biāo)準(zhǔn)的PCA降維處理

傳統(tǒng)的PCA算法在處理稀疏的高維數(shù)據(jù)時，結(jié)果往往不太理想，文獻(xiàn)［12］提出對傳統(tǒng)PCA算法進(jìn)行改進(jìn)，提出一種利用信息熵對數(shù)據(jù)進(jìn)行特征篩選，再采用PCA進(jìn)行降維處理的算法。本文在此基礎(chǔ)上提出一種基于聯(lián)合熵標(biāo)準(zhǔn)的PCA降維算法（United entropy PCA，UE?PCA）。信息熵的定義如式（5）所示，信息熵是一個隨機(jī)變量H(X)所有可能情況的自信息量的期望。信息熵表征了隨機(jī)變量所有情況下的平均不確定度，有

信息熵推廣到多維領(lǐng)域即為聯(lián)合熵，具體公式如式（6）所示。采用聯(lián)合熵的好處在于在降維時不再單一的關(guān)注自身隨機(jī)變量包含的信息，可以與其他變量聯(lián)合產(chǎn)生新的信息量，從而使得特征信息更加完整地保存，反映出原高維稀疏矩陣數(shù)據(jù)的更為真實(shí)的分布情況，更好地服務(wù)于文本聚類算法，即

同時引入文獻(xiàn)［10］中的屬性空間概念，屬性空間與數(shù)據(jù)空間的區(qū)別在于屬性空間中的點(diǎn)是抽象空間具象化，即屬性成為了空間中的點(diǎn)［10］。給出一個維度為p的高維數(shù)據(jù)集合D={x1j，x2j，…，x ij，…，x nj}(0

將上述屬性空間與聯(lián)合熵進(jìn)行組合，則形成屬性空間聯(lián)合熵（United entropy，UE）。屬性空間聯(lián)合熵的定義如下。

給定一個屬性空間T={t1i，t2i，…，tji}（0

結(jié)合特征值得到UE?VAR（United entropy?variance）標(biāo)準(zhǔn)，有

式中：UE T為選取的屬性特征集合的屬性空間聯(lián)合熵，var為集合中每個特征屬性對應(yīng)的特征值的和，用這個特征值的和代替方差也可反映出數(shù)據(jù)的波動情況。λ1和λ2為經(jīng)驗(yàn)參數(shù)，根據(jù)方差和聯(lián)合熵的比例來調(diào)節(jié)之后選擇0.7作為兩個參數(shù)的值。

基于以上分析，本文提出UE?PCA算法的具體步驟如下。

算法：UE?PCA

輸入：初始數(shù)據(jù)集D

輸出：降維后數(shù)據(jù)集W

begin

輸入數(shù)據(jù)集D=M n*p（矩陣M包含n個p維的數(shù)據(jù)）=(x()1，x()2，…，x(m))

去中心化處理

計(jì)算協(xié)方差矩陣Dcov

求特征值λ與特征向量，并確定降維后的維度r值

3 實(shí)驗(yàn)仿真及分析

實(shí)驗(yàn)仿真的流程如圖1所示。首先對數(shù)據(jù)集進(jìn)行預(yù)處理，包括去停用詞、分詞、此行過濾等步驟，隨后采用VSM向量空間表示并使用ALFW權(quán)重方案來建立特征矩陣，再由基于聯(lián)合熵標(biāo)準(zhǔn)的PCA算法降維處理后運(yùn)用K?means算法進(jìn)行最終的聚類驗(yàn)證。

圖1 算法流程圖Fig.1 Algorithm flowchart

3.1 評價標(biāo)準(zhǔn)

K?means是一種迭代求解的聚類分析算法，通過隨機(jī)選取k個對象作為初始聚類中心，隨后計(jì)算每個對象與其他子類聚類中心的距離，將每個對象分配給距離它最近的聚類中心。此時，聚類中心與中心的其他被分配點(diǎn)就成為一個類簇。對象的每次更新，聚類中心也會隨著當(dāng)前聚類情況而被重新計(jì)算，直到收斂到某個值或達(dá)成某個終止條件［13］。K?means算法以其簡捷性、高效性而被廣泛運(yùn)用于聚類領(lǐng)域，在處理大數(shù)據(jù)集時，該算法可以保證良好的伸縮性和高效性，因此，本文選用其作為聚類數(shù)的判定手段，采用輪廓系數(shù)作為聚類效果的驗(yàn)證方法。

輪廓系數(shù)是一種聚類效果的評價方式，通過結(jié)合內(nèi)聚度和分離度來完成評估［14］。其計(jì)算公式為

式中：a(i)表示樣本i到同簇其他樣本的平均距離，也稱之為內(nèi)聚度，內(nèi)聚度越小代表類聚合的效果越好；b(i)表示樣本i到其他簇的簇的所有樣本的平均距離，即分離度，分離度越大表明類簇之間的劃分越明顯。s(i)的取值范圍為（-1，1），聚類的最終效果由此評判，值越接近1表示聚類效果越好。

3.2 數(shù)據(jù)集

本文數(shù)據(jù)集選自THUCNews文本數(shù)據(jù)集。THUCNews是根據(jù)新浪新聞RSS訂閱頻道2005—2011年間的歷史數(shù)據(jù)篩選過濾生成，包含74萬篇新聞文檔（2.19 GB），均為UTF?8純文本格式，該數(shù)據(jù)集分為體育、財經(jīng)、房產(chǎn)、家居、教育、科技、時尚、時政、游戲和娛樂10個類別。本文從其中隨機(jī)選擇10 000篇，每類1 000篇作為實(shí)驗(yàn)測試數(shù)據(jù)集。在仿真實(shí)驗(yàn)之前，需要對文本文檔作預(yù)處理，即停用詞過濾和分詞操作，相應(yīng)地使用jieba分詞工具和中文停用詞表完成。

除此之外，本文另外爬取2018年10～12月的網(wǎng)絡(luò)新聞數(shù)據(jù)共計(jì)403篇短文進(jìn)行輿情聚類實(shí)驗(yàn)，詳細(xì)的數(shù)據(jù)集信息如表4所示。

表4 數(shù)據(jù)集信息Table 4 Data set

3.3 實(shí)驗(yàn)結(jié)果分析

本文實(shí)驗(yàn)選擇4種算法模型進(jìn)行對比，分別為PCA降維算法+TFIDF算法+K?means聚類算法的傳統(tǒng)組合算法、PCA降維算法+ALFW特征矩陣+K?means聚類算法的組合、文獻(xiàn)［10］提出的算法以及本文算法（K?means+UE?PCA+ALFW）。

圖2 大樣本數(shù)據(jù)集算法輪廓系數(shù)對比圖Fig.2 Comparison of silhouette coeffi?cient of large sample data set algo?rithm

表5 大樣本輪廓系數(shù)對比表Table 5 Silhouette coefficient comparison table of big data set

從圖2可以看出隨著類簇數(shù)的增加，輪廓系數(shù)曲線逐漸上升，當(dāng)達(dá)到區(qū)間［8，10］時，各個算法呈現(xiàn)的輪廓系數(shù)曲線都開始逐步下降，說明此時聚類時的內(nèi)聚度與分離度之間達(dá)到一個平衡的狀態(tài)，也是聚類最佳的狀態(tài)，超過這個區(qū)間之后，輪廓系數(shù)評價值大幅下降。從表5可以看出采用傳統(tǒng)的K?means+PCA+TF?IDF組合算法模型、K?means+PCA+ALFW組合算法模型、文獻(xiàn)［10］算法和本文算法分別在類簇數(shù)為9、10、11、10時達(dá)到最佳聚類狀態(tài)，而實(shí)際上的標(biāo)準(zhǔn)類簇數(shù)為10，從而可知本文算法正確完成了聚類。觀察4種模型算法在類簇數(shù)為10時的輪廓系數(shù)得分，本文算法也取得了最佳的0.673得分。同時對比K?means+PCA+TF?IDF組合算法模型和K?means+PCA+ALFW組合算法模型，可以看出后者取得了更好的效果，這也進(jìn)一步驗(yàn)證了ALFW矩陣對聚類結(jié)果優(yōu)化的有效性。

此外，本文在自主爬取的5類小樣本數(shù)據(jù)也進(jìn)行了仿真實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表6和圖3所示。同樣地，本文算法依舊取得了最佳的輪廓系數(shù)評價（0.724），在小樣本中更加體現(xiàn)出了算法的優(yōu)劣性。

表6 小樣本輪廓系數(shù)對比表Table 6 Silhouette coefficient comparison table of small data set

圖3 小樣本數(shù)據(jù)集算法輪廓系數(shù)對比圖Fig.3 Comparison of silhouette coeffi?cient of small sample data set al?gorithm

4 結(jié)束語

本文針對傳統(tǒng)的TF?IDF特征權(quán)重矩陣做出改進(jìn)，提出一種基于ALFW特征權(quán)重方案的特征矩陣，使得矩陣的特征項(xiàng)具有更好的分布性，對后續(xù)聚類算法的性能進(jìn)行了提升。高維數(shù)據(jù)的稀疏性通常會嚴(yán)重干擾到聚類算法的效果，因此，本文提出一種基于聯(lián)合熵標(biāo)準(zhǔn)的PCA降維算法，使得特征信息在完整保存下來的同時，過濾掉大量上下文無關(guān)特征信息，更好地反映出原高維數(shù)據(jù)特征矩陣的真實(shí)性?；谏鲜鰞身?xiàng)改進(jìn)，本文提出的基于特征矩陣優(yōu)化與數(shù)據(jù)降維算法（K?means+UE?PCA+ALFW）最終在4種算法的評估中取得最佳效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡