任麗娜 姚茂宣
摘?要:
為學(xué)習(xí)更豐富的語義表示以提升聚類效果,文章提出一種多層內(nèi)部語義表示增強(qiáng)的深度文本聚類(Deep?Document?Clustering?via?Multi\|layer?Enhanced?Internal?Semantic?Representation,?DCISR)模型。首先,設(shè)計(jì)了一種語義融合策略,將其不同層次的外部結(jié)構(gòu)語義表示逐層融入內(nèi)部語義表示中。其次,充分利用編碼層和解碼層對語義補(bǔ)充的作用進(jìn)行內(nèi)部語義表示的補(bǔ)充增強(qiáng)。最后,設(shè)計(jì)了一種三重自監(jiān)督機(jī)制,以監(jiān)督模型參數(shù)更新。實(shí)驗(yàn)結(jié)果表明,該模型在4個(gè)真實(shí)文本數(shù)據(jù)集上的聚類性能均高于對比模型,驗(yàn)證了模型的有效性,可為未來開展相關(guān)工作提供參考。
關(guān)鍵詞:文本聚類;深度聚類;自編碼器;語義表示;圖卷積網(wǎng)絡(luò)
中圖分類號:TP391??文獻(xiàn)標(biāo)志碼:A
0?引言(Introduction)
近年來,深度文本聚類任務(wù)受到普遍關(guān)注,成為一個(gè)研究熱點(diǎn)[1]。人們對文本數(shù)據(jù)的認(rèn)識(shí)也從基本的文本特征發(fā)展為深度的文本語義。隨著互聯(lián)網(wǎng)的快速發(fā)展,文本數(shù)據(jù)的語義表達(dá)逐步從文本自身內(nèi)部單一語義表示向立體的內(nèi)部和外部全方面語義表達(dá)發(fā)展。內(nèi)部文本語義表示傳統(tǒng)的文本篇章自身內(nèi)容語義,外部文本語義表示文本除文本篇章自身內(nèi)部內(nèi)容語義之外的外部結(jié)構(gòu)語義。這些內(nèi)部和外部語義表示為文本聚類帶來了新的機(jī)遇和挑戰(zhàn)。因此,充分考慮內(nèi)部和外部語義表示,進(jìn)而準(zhǔn)確、快速地從文本中提取出更多有用的語義特征信息尤為重要。
實(shí)際上,由于實(shí)際文本數(shù)據(jù)是由文字內(nèi)容組成的,而其外部結(jié)構(gòu)中的關(guān)聯(lián)文本存在噪聲問題,因此文本內(nèi)部語義表示包含的重要信息要比具有大量噪聲的外部結(jié)構(gòu)語義表示豐富?,F(xiàn)有深度聚類方法[2\|3]大多沒有考慮到這一點(diǎn),大多利用數(shù)據(jù)內(nèi)部語義表示在編碼層增強(qiáng)外部結(jié)構(gòu)語義表示,導(dǎo)致文本語義學(xué)習(xí)不足,進(jìn)而影響聚類效果。此外,現(xiàn)有方法大多忽略了解碼器在語義補(bǔ)足上的作用,導(dǎo)致對外部結(jié)構(gòu)語義信息的指導(dǎo)不足,影響了文本聚類效果。
針對上述問題,本文提出了一種多層內(nèi)部語義表示增強(qiáng)的深度文本聚類(DCISR)模型,利用多層外部結(jié)構(gòu)語義補(bǔ)充增強(qiáng)內(nèi)部內(nèi)容語義表示,以達(dá)到文本語義表示學(xué)習(xí)與聚類劃分的聯(lián)合優(yōu)化。本文在4個(gè)公開文本數(shù)據(jù)集上進(jìn)行了一系列的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文提出的方法相較于其他模型,聚類效果均有明顯提升,驗(yàn)證了模型的合理性。
1?相關(guān)工作(Related?work)
1.1?基于內(nèi)部語義表示的深度聚類算法
基于內(nèi)部語義表示的深度聚類算法使用學(xué)習(xí)到的數(shù)據(jù)自身內(nèi)部語義表示進(jìn)行類簇的劃分。YANG等[4]于2017年提出了深度聚類網(wǎng)絡(luò)(DCN)模型,該模型采用自編碼器(AE)學(xué)習(xí)數(shù)據(jù)的內(nèi)部語義表示,然后利用傳統(tǒng)的K\|means[5]方法進(jìn)行聚類。XIE等[6]于2016年提出了深度嵌入聚類(DEC)模型,該模型用KL散度(Kullback\|Leibler?Divergence)替代傳統(tǒng)的K\|means聚類方法,將聚類與內(nèi)部語義表示學(xué)習(xí)相結(jié)合。在DEC模型的基礎(chǔ)上,GUO等[7]于2017年提出了深度嵌入聚類(IDEC)模型,該模型通過增加數(shù)據(jù)重構(gòu)損失對表示進(jìn)行微調(diào)。上述深度聚類模型僅利用了數(shù)據(jù)自身的內(nèi)部語義表示,但未考慮數(shù)據(jù)外部的語義信息對學(xué)習(xí)數(shù)據(jù)語義表示的影響。
1.2?基于外部結(jié)構(gòu)語義表示的深度聚類算法
近年來,隨著深度神經(jīng)網(wǎng)絡(luò)的迅猛發(fā)展,圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)在學(xué)習(xí)數(shù)據(jù)深度結(jié)構(gòu)語義表示方面表現(xiàn)優(yōu)異,以GCN為基礎(chǔ)的深度聚類方法[1\|3,8\|10]成功地利用GCN模型學(xué)習(xí)數(shù)據(jù)的結(jié)構(gòu)語義表示,取得了出色的聚類效果。例如,KIPF等[8]于2018年提出了圖自編碼器(GAE)模型和圖變分自編碼器(VGAE)模型,這兩個(gè)模型分別利用自動(dòng)編碼器和變分自動(dòng)編碼器的思想,使用兩層GCN學(xué)習(xí)數(shù)據(jù)外部結(jié)構(gòu)語義表示。為進(jìn)一步增強(qiáng)外部結(jié)構(gòu)語義表示的學(xué)習(xí),BO等[2]于2020年提出了圖深度聚類網(wǎng)絡(luò)(SDCN)模型,該模型利用自動(dòng)編碼器學(xué)習(xí)到的內(nèi)部語義表示補(bǔ)充增強(qiáng)了GCN學(xué)習(xí)到的外部語義表示,以學(xué)習(xí)更優(yōu)的外部結(jié)構(gòu)語義表示。PENG等[3]于2021年提出了注意力驅(qū)動(dòng)的圖聚類網(wǎng)絡(luò)(AGCN)模型,該模型利用一個(gè)自適應(yīng)融合模塊動(dòng)態(tài)融合數(shù)據(jù)內(nèi)部語義表示和外部語義表示,以增強(qiáng)外部結(jié)構(gòu)語義表示的學(xué)習(xí)。馬勝位等[1]于2022年提出了一種多層語義融合的結(jié)構(gòu)化深度文本聚類模型(SDCMS),該模型在SDCN的基礎(chǔ)上通過在模型的所有網(wǎng)絡(luò)層利用自動(dòng)編碼器學(xué)習(xí)到的內(nèi)部語義表示逐層補(bǔ)充增強(qiáng)GCN學(xué)習(xí)到的外部語義表示。
綜上所述,盡管以上方法取得了較好的聚類效果,但它們未考慮實(shí)際文本數(shù)據(jù)中內(nèi)部語義與外部語義所具有的信息重要性不同的問題,也未考慮解碼器在文本語義補(bǔ)足上的作用。
2?DCISR模型(DCISR?model)
本文提出的DCISR模型的總體框架由3個(gè)模塊組成:文本外部語義表示學(xué)習(xí)模塊、文本內(nèi)部語義表示學(xué)習(xí)模塊和文本聚類模塊。DCISR模型結(jié)構(gòu)如圖1所示,文本外部語義表示學(xué)習(xí)模塊用于學(xué)習(xí)文本的外部結(jié)構(gòu)語義表示,文本內(nèi)部語義表示學(xué)習(xí)模塊用于學(xué)習(xí)通過融合了外部語義表示而增強(qiáng)的內(nèi)部語義表示,文本聚類模塊用于學(xué)習(xí)文本的類簇劃分。
2.1?外部語義表示學(xué)習(xí)模塊
圖卷積神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)語義學(xué)習(xí)方面的表現(xiàn)優(yōu)異,為學(xué)習(xí)不同層次的文本外部結(jié)構(gòu)語義信息,DCISR模型在外部語義表示學(xué)習(xí)模塊采用多層圖卷積網(wǎng)絡(luò)學(xué)習(xí)文本的外部結(jié)構(gòu)語義表示,具體可以分為編碼層和解碼層,其中編碼層網(wǎng)絡(luò)公式如下所示:
2.2?內(nèi)部語義表示學(xué)習(xí)模塊
DCISR模型在內(nèi)部語義表示學(xué)習(xí)模塊使用自編碼器學(xué)習(xí)文本不同層次的內(nèi)部語義表示,其中編碼層網(wǎng)絡(luò)公式如下所示:
[WTHX]H[WTBX]l=φe([WTHX]W[WTBX]le[WTHX]H[WTBX]l-1+[WTHX]b[WTBX]le)[JZ)][JY](7)
其中:φe是激活函數(shù),[WTHX]W[WTBX]le和[WTHX]b[WTBX]le分別為權(quán)重矩陣和偏置矩陣。值得注意的是,該模塊編碼層第1層的輸入為文本數(shù)據(jù)[WTHX]X[WTBX],第L層輸出的低維內(nèi)部語義表示[WTHX]Z[WTBX]。解碼層網(wǎng)絡(luò)公式如下所示:
[WTHX]D[WTBX]l=φd([WTHX]W[WTBX]ld[WTHX]D[WTBX]l-1+[WTHX]b[WTBX]ld)[JZ)][JY](8)
其中:φd是激活函數(shù),[WTHX]W[WTBX]ld和[WTHX]b[WTBX]ld分別為權(quán)重矩陣和偏置矩陣。該模塊解碼層第1層的輸入為編碼層的輸出[WTHX]Z[WTBX],解碼層第L層的輸出為重構(gòu)文本數(shù)據(jù)[WTHX][AKX^][WTBX]d。
本模塊設(shè)計(jì)了一種語義融合策略,其將不同層次的外部結(jié)構(gòu)語義表示逐層融入內(nèi)部語義表示中用以充分增強(qiáng)文本內(nèi)部語義表示。其中,編碼層具體的融合策略公式如下所示:
[WTHX]H[WTBX]′[KG-1mm]l-1=λ1[WTHX]H[WTBX]l-1+(1-λ1)[WTHX]S[WTBX]l-1[JZ)][JY](9)
其中,λ1為編碼層內(nèi)部語義表示和外部語義表示的融合控制參數(shù)。以此為基礎(chǔ),原編碼層可以變更如下:
[WTHX]H[WTBX]l=φ([WTHX]W[WTBX]le[WTHX]H[WTBX]′[KG-1mm]l-1+[WTHX]b[WTBX]le)[JZ)][JY](10)
解碼層的融合策略公式如下所示:
[WTHX]D[WTBX]′[KG-1mm]l-1=λ2[WTHX]D[WTBX]l-1+(1-λ2)[WTHX]D[WTBX]sl-1[JZ)][JY](11)
其中,λ2為解碼層內(nèi)部語義表示和外部語義表示的融合控制參數(shù),用以平衡兩種表示的學(xué)習(xí)。以此為基礎(chǔ),原解碼層可以變更如下:
[WTHX]D[WTBX]l=φd([WTHX]W[WTBX]ld[WTHX]D[WTBX]′[KG-1mm]l-1+[WTHX]b[WTBX]ld)[JZ)][JY](12)
因此,最后一層重構(gòu)的文本數(shù)據(jù)可以表示如下:
[WTHX][AKX^6][WTBX]=λ2[WTHX][AKX^6][WTBX]d+(1-λ2)[WTHX][AKX^6][WTBX]s[JZ)][JY](13)
通過內(nèi)部語義學(xué)習(xí)模塊,可以將不同層次的外部結(jié)構(gòu)語義表示逐層融入內(nèi)部語義表示中,充分利用編碼層和解碼層對語義補(bǔ)充的作用進(jìn)行內(nèi)部語義表示的補(bǔ)充增強(qiáng)。
2.3?文本聚類模塊
為了聯(lián)合學(xué)習(xí)文本語義表示和劃分文本類簇,本模塊設(shè)計(jì)了一種三重自監(jiān)督機(jī)制,用于監(jiān)督模型參數(shù)更新。該自監(jiān)督機(jī)制由文本內(nèi)外部語義表示重構(gòu)損失、內(nèi)部和外部語義表示低維語義空間分布一致性損失構(gòu)成。其中,文本內(nèi)部和外部語義表示重構(gòu)損失公式如下所示:
3?實(shí)驗(yàn)與分析(Experiment?and?analysis)
3.1?實(shí)驗(yàn)數(shù)據(jù)
為驗(yàn)證本文提出的DCISR模型的有效性,本文選擇了兩類共計(jì)4個(gè)通用的公開真實(shí)文本數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析。一類為帶有共同作者、共同引用文獻(xiàn)等關(guān)系結(jié)構(gòu)圖的文本數(shù)據(jù)集(Citeseer、Cora),另一類為KNN構(gòu)圖的文本數(shù)據(jù)集(Abstract、BBC)。文本數(shù)據(jù)集如表1所示。
(1)Abstract[11]:由4?306篇論文摘要構(gòu)成。該數(shù)據(jù)集可分為信息通信、數(shù)據(jù)庫和圖形3類。
(2)BBC[1]:由2?225篇BBC(British?Broadcasting?Corporation)新聞網(wǎng)站的文本構(gòu)成,該數(shù)據(jù)集可分為商業(yè)、娛樂、政治、科技、運(yùn)動(dòng)5類。
(3)Citeseer[2]:由3?327篇會(huì)議論文構(gòu)成,論文間存在引用關(guān)系。該數(shù)據(jù)集可分為Agents、AI、DB、IR、ML、HCI六類。
(4)Cora[12]:由2?708篇機(jī)器學(xué)習(xí)論文構(gòu)成,論文間存在引用關(guān)系。該數(shù)據(jù)集可分為基于案例、遺傳算法、神經(jīng)網(wǎng)絡(luò)、概率方法、強(qiáng)化學(xué)習(xí)、規(guī)則學(xué)習(xí)、理論7類。
3.2?對比方法
為驗(yàn)證DCISR模型的性能,本文將其與3類共計(jì)8個(gè)聚類方法進(jìn)行了對比分析,分別包括傳統(tǒng)聚類方法(K\|means)、深度聚類方法(AE、DEC、IDEC)和基于增強(qiáng)語義表示的聚類方法(GAE、SDCN、AGCN、SDCMS)。
3.3?評價(jià)指標(biāo)[HJ1.7mm]
為更好地評估聚類性能,本文選用聚類精度(ACC)、正則互信息量(NMI)與調(diào)整蘭德系數(shù)(ARI)三個(gè)常用的聚類指標(biāo)。ACC、NMI、ARI三個(gè)聚類指標(biāo)的取值范圍均為[0,1],聚類指標(biāo)的數(shù)值越大,其聚類效果越好。
3.4?參數(shù)設(shè)置
為更好地進(jìn)行實(shí)驗(yàn)效果的對比,本文的內(nèi)部和外部語義學(xué)習(xí)模塊維度設(shè)置與DEC模型的設(shè)置相同,具體為d\|500\|500\|2000\|10\|2000\|500\|500\|d,其中d是輸入的文本數(shù)據(jù)的維度。實(shí)驗(yàn)使用Ranger優(yōu)化器進(jìn)行優(yōu)化,學(xué)習(xí)率設(shè)置為1e-4。參數(shù)λ1和λ2分別設(shè)置為0.5、0.5,β、β1和β2分別設(shè)置為1、0.1、0.01,ν設(shè)置為1。模型迭代次數(shù)設(shè)置為3?000次。
3.5?對比實(shí)驗(yàn)結(jié)果分析
為驗(yàn)證本文提出的DCISR模型的有效性,本實(shí)驗(yàn)將DCISR模型與全部對比模型分別在全部4個(gè)文本數(shù)據(jù)集上進(jìn)行對比,對比實(shí)驗(yàn)結(jié)果如表2所示。
通過表2可以得到以下結(jié)論。
(1)本文提出的DCISR模型在全部數(shù)據(jù)集上均取得了最優(yōu)聚類性能。相較于其他對比模型,DCISR模型在3個(gè)聚類指標(biāo)上均有明顯的提升,特別是在Cora數(shù)據(jù)集上,DCISR模型相較于最優(yōu)的對比模型在ACC、NMI、ARI上分別提升了12.76%、21.97%、29.46%,其原因是DCISR模型在考慮實(shí)際文本數(shù)據(jù)中內(nèi)部語義與外部語義所具有的信息重要性不同的同時(shí),充分利用編碼層和解碼層對語義補(bǔ)充的作用,提升了文本聚類效果。
(2)基于外部結(jié)構(gòu)語義表示的深度聚類方法的聚類結(jié)果普遍高于基于內(nèi)部語義表示的深度聚類方法,其原因?yàn)榛谕獠拷Y(jié)構(gòu)語義表示的深度聚類方法通過GCN學(xué)習(xí)到文本外部結(jié)構(gòu)語義表示時(shí),既考慮了文本的外部圖結(jié)構(gòu)信息,又考慮了文本自身特征。實(shí)驗(yàn)結(jié)果證明了增強(qiáng)文本語義表示對最終文本聚類效果提升的作用。
(3)對比學(xué)習(xí)增強(qiáng)的結(jié)構(gòu)語義表示的SDCMS模型和學(xué)習(xí)增強(qiáng)的內(nèi)部語義表示的DCISR模型,其結(jié)果可以證明實(shí)際文本數(shù)據(jù)中內(nèi)部語義與外部語義所具有的信息重要性不同,在實(shí)際文本數(shù)據(jù)中內(nèi)部語義表示具有更豐富的、有價(jià)值的語義信息。對比充分利用了編碼層和解碼層補(bǔ)充語義表示的SDCMS、DCISR模型與僅利用了編碼層補(bǔ)充語義表示的SDCN、AGCN模型,其結(jié)果可以證明解碼層對語義補(bǔ)充的作用。由此可以進(jìn)一步驗(yàn)證DCISR模型的有效性。
3.6?消融實(shí)驗(yàn)結(jié)果分析
DCISR模型主要設(shè)計(jì)了內(nèi)部語義表示學(xué)習(xí)模塊、外部語義表示模塊和文本聚類模塊三大模塊,用以解決現(xiàn)有方法沒有考慮到實(shí)際文本數(shù)據(jù)中內(nèi)部內(nèi)容語義表示比外部結(jié)構(gòu)語義表示具有更多重要信息的問題,以及忽略了解碼器在語義補(bǔ)足上發(fā)揮的作用。為了探究3個(gè)模塊的有效性,本文設(shè)置了以下消融模型。
(1)DCISR\|H:在DCISR模型的基礎(chǔ)上,去除內(nèi)部語義表示學(xué)習(xí)模塊。
(2)DCISR\|S:在DCISR模型的基礎(chǔ)上,去除外部語義表示學(xué)習(xí)模塊,此時(shí)模型等同于IDEC。
(3)DCISR\|C:在DCISR模型的基礎(chǔ)上,去除文本聚類模塊,利用K\|means代替本文的自監(jiān)督損失函數(shù)。
消融實(shí)驗(yàn)結(jié)果如表3所示,模型DCISR\|H與DCISR\|S相比,在4個(gè)數(shù)據(jù)集上的各評價(jià)指標(biāo)均較低,證明實(shí)際文本數(shù)據(jù)中內(nèi)部內(nèi)容語義表示比外部結(jié)構(gòu)語義表示具有更多重要信息,通過模型學(xué)習(xí)到的內(nèi)部語義表示中的有用信息多于外部語義表示;從DCISR與DCISR\|C的對比結(jié)果可看出,本文在文本聚類模塊提出的自監(jiān)督機(jī)制可以有效監(jiān)督模型的參數(shù)更新,從而獲得更優(yōu)的聚類效果;從DCISR與DCISR\|H和DCISR\|S模型的對比結(jié)果可以看出,兩個(gè)模塊的融合可以解決現(xiàn)有方法沒有考慮到實(shí)際文本數(shù)據(jù)中內(nèi)部內(nèi)容語義表示比外部結(jié)構(gòu)語義表示具有更多重要信息的問題,以及忽略了解碼器在語義補(bǔ)足上發(fā)揮的作用。
3.7?編碼層和解碼層對語義補(bǔ)充作用的分析
DCISR模型主要基于多層內(nèi)部語義表示增強(qiáng)方法解決如何補(bǔ)充學(xué)習(xí)更多的文本語義表示的問題。因此,為了探究編碼層和解碼層對語義補(bǔ)充的作用,本文設(shè)置了以下消融模型。
(1)DCISR\|Sen:在DCISR模型的基礎(chǔ)上,去除外部語義表示學(xué)習(xí)模塊中的編碼層部分對內(nèi)部語義表示的補(bǔ)充增強(qiáng),只在解碼層逐層進(jìn)行內(nèi)部語義表示補(bǔ)充增強(qiáng)。
(2)DCISR\|Sde:在DCISR模型的基礎(chǔ)上,去除外部語義表示學(xué)習(xí)模塊中的解碼層部分對內(nèi)部語義表示的補(bǔ)充增強(qiáng),只在編碼層逐層進(jìn)行內(nèi)部語義表示補(bǔ)充增強(qiáng)。
(3)DCISR\|S:在DCISR模型的基礎(chǔ)上,去除外部語義表示學(xué)習(xí)模塊。
本實(shí)驗(yàn)隨機(jī)選取Citeseer數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析,Citeseer數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如圖2所示。從圖2可以發(fā)現(xiàn),模型DCISR\|Sde與DCISR\|Sen相比于DCISR\|S,在Citeseer數(shù)據(jù)集上的各評價(jià)指標(biāo)均有所提升,證明編碼層和解碼層對補(bǔ)充文本語義信息有所幫助;模型DCISR相比模型DCISR\|Sde與DCISR\|Sen,在Citeseer數(shù)據(jù)集上的各評價(jià)指標(biāo)均有明顯提升,證明模型融合利用了編碼層和解碼層對語義補(bǔ)充所起到的作用,學(xué)習(xí)到更加豐富的語義信息,從而獲得更優(yōu)的文本聚類效果。
3.8?聚類可視化結(jié)果分析
基于t\|SNE(t\|Distributed?Stochastic?Neighbor?Embedding)方法,本文在Cora文本數(shù)據(jù)集上對原始數(shù)據(jù)和DCISR模型進(jìn)行2D可視化,以更直觀地展示模型的聚類效果。圖3展示了具體的2D可視化結(jié)果,其中圖3(a)為原始文本分布情況;圖3(b)為DCISR模型的聚類情況。
從圖3可以發(fā)現(xiàn),通過將不同層次的外部結(jié)構(gòu)語義表示逐層融入內(nèi)部語義表示,利用補(bǔ)充增強(qiáng)后的內(nèi)部語義表示進(jìn)行聚類,Cora數(shù)據(jù)集相比于原始數(shù)據(jù)集有了明顯的類簇結(jié)構(gòu),各類簇內(nèi)部樣本更加稠密,簇與簇之間的距離更大,類簇分類更明顯,從而證明了本模型的有效性。
4?結(jié)論(Conclusion)
為學(xué)習(xí)更豐富的語義表示以提升聚類效果,本文提出了一種多層內(nèi)部語義表示增強(qiáng)的深度文本聚類(DCISR)模型。該模型利用多層外部結(jié)構(gòu)語義補(bǔ)充增強(qiáng)內(nèi)部內(nèi)容語義,實(shí)現(xiàn)了文本語義表示學(xué)習(xí)與聚類劃分的聯(lián)合優(yōu)化。實(shí)驗(yàn)結(jié)果表明,DCISR方法在性能上優(yōu)于當(dāng)前已有的多種主流深度文本聚類算法,證明該模型在考慮實(shí)際文本數(shù)據(jù)中內(nèi)部與外部語義所具有的信息重要性不同的同時(shí),充分利用了編碼層和解碼層對語義補(bǔ)充起到的作用,可為未來開展相關(guān)工作提供參考。
[LL]?參考文獻(xiàn)(References)[HJ1.7mm]
[1]?馬勝位,黃瑞章,任麗娜,等.?基于多層語義融合的結(jié)構(gòu)化深度文本聚類模型[J].?計(jì)算機(jī)應(yīng)用,2023,43(8):2364\|2369.
[2]?BO?D?Y,WANG?X,SHI?C,et?al.?Structural?deep?clustering?network[C]∥ACM.?Proceedings?of?The?Web?Conference?2020.?New?York:ACM,2020:1400\|1410.
[3]?PENG?Z?H,LIU?H,JIA?Y?H,et?al.?Attention\|driven?graph?clustering?network[C]∥ACM.?Proceedings?of?the?29th?ACM?International?Conference?on?Multimedia.?New?York:ACM,2021:935\|943.
[4]?YANG?B,F(xiàn)U?X,SIDIROPOULOS?N?D,et?al.?Towards?K\|means\|friendly?spaces:simultaneous?deep?learning?and?clustering[C]∥ACM.?Proceedings?of?the?34th?International?Conference?on?Machine?Learning?\|?Volume?70.?New?York:ACM,2017:3861\|3870.
[5]?HARTIGAN?J?A,WONG?M?A.?Algorithm?AS?136:a?K\|means?clustering?algorithm[J].?Applied?statistics,1979,28(1):100.
[6]?XIE?J?Y,GIRSHICK?R,F(xiàn)ARHADI?A.?Unsupervised?deep?embedding?for?clustering?analysis[C]∥ACM.?Proceedings?of?the?33rd?International?Conference?on?International?Conference?on?Machine?Learning?\|?Volume?48.?New?York:ACM,2016:478\|487.
[7]?GUO?X?F,GAO?L,LIU?X?W,et?al.?Improved?deep?embedded?clustering?with?local?structure?preservation[C]∥ACM.?Proceedings?of?the?26th?International?Joint?Conference?on?Artificial?Intelligence.?New?York:ACM,2017:1753\|1759.
[8]KIPF?T?N,WELLING?M.?Variational?Graph?Auto\|Encoders[J].?Mathematical?sciences,2016,1050:21.
[9]?REN?L?N,QIN?Y?B,CHEN?Y?P,et?al.?Deep?structural?enhanced?network?for?document?clustering[J].?Applied?intelligence,2023,53(10):12163\|12178.
[10]?REN?L,QIN?Y,CHEN?Y,et?al.?Deep?document?clustering?via?adaptive?hybrid?representation?learning[J].?Knowledge\|based?systems,2023,281:111058.
[11]?BAI?R?N,HUANG?R?Z,CHEN?Y?P,et?al.?Deep?multi\|view?document?clustering?with?enhanced?semantic?embedding[J].?Information?sciences,2021,564:273\|287.
[12]?CUI?G?Q,ZHOU?J,YANG?C,et?al.?Adaptive?graph?encoder?for?attributed?graph?embedding[C]∥ACM.?Proceedings?of?the?26th?ACM?SIGKDD?International?Conference?on?Knowledge?Discovery?&?Data?Mining.?New?York:ACM,2020:976\|985.
作者簡介:
任麗娜(1987\|),女,博士生,講師。研究領(lǐng)域:人工智能,文本挖掘,機(jī)器學(xué)習(xí)。
姚茂宣(1986\|),男,碩士,信息系統(tǒng)項(xiàng)目管理師。研究領(lǐng)域:數(shù)據(jù)挖掘,文本挖掘,機(jī)器學(xué)習(xí)和軟件開發(fā)。