国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主動學習的深度半監(jiān)督聚類模型

2024-10-14 00:00付艷艷黃瑞章薛菁菁任麗娜陳艷平林川
計算機應(yīng)用研究 2024年10期

摘 要:深度半監(jiān)督聚類旨在利用少量的監(jiān)督信息達到更好的聚類效果。然而,由于標注成本昂貴,監(jiān)督信息的數(shù)量往往是有限的。因此,在監(jiān)督信息有限的情況下,如何選擇對聚類最有價值的監(jiān)督信息變得至關(guān)重要。針對以上問題,提出了基于主動學習的深度半監(jiān)督聚類模型(DASCM)。該模型設(shè)計了一種主動學習方法,能夠挑選出蘊涵豐富信息的邊緣文本,并進一步生成蘊涵邊緣文本的高價值監(jiān)督信息。該模型利用這些監(jiān)督信息指導聚類,從而提升聚類性能。在5個真實文本數(shù)據(jù)集上的實驗表明,DASCM的聚類性能有顯著提升。這一結(jié)果驗證了利用主動學習方法生成的涵蓋邊緣文本的監(jiān)督信息對于提升聚類效果是有效的。

關(guān)鍵詞:深度半監(jiān)督聚類;主動學習;邊緣文本

中圖分類號:TP181 文獻標志碼:A 文章編號:1001-3695(2024)10-011-2955-07

doi:10.19734/j.issn.1001-3695.2024.01.0025

Deep active semi-supervised clustering model

Fu Yanyan Huang Ruizhang Xue Jingjing Ren Lina Chen Yanping Lin Chuana,b,c

(a.Text Computing & Cognitive Intelligence Engineering Research Center of National Education Ministry, b.State Key Laboratory of Public Big Data, c.College of Computer Science & Technology, Guizhou University, Guiyang 550025, China)

Abstract:Deep semi-supervised clustering aims to achieve better clustering results using a small amount of supervised information. However, the amount of supervised information is often limited due to the expensive labelling cost. Therefore, with limited supervised information, it becomes crucial to select the most valuable supervisory information for clustering. To address the above problem, this paper proposed a deep active semi-supervised clustering model(DASCM) which designed an active learning method that was able to select marginal texts containing rich information and further generated high-value supervised information containing edge texts. The model used this supervised information to guide the clustering, thus improving the clustering performance. The experimental results on five real text datasets show that the clustering performance of DASCM is signi-ficantly improved. This result verifies that supervised information generated using active learning methods that cover marginal text is effective in improving clustering.

Key words:deep semi-supervised clustering; active learning; marginal text

0 引言

聚類是數(shù)據(jù)挖掘領(lǐng)域中一個非常重要且十分具有挑戰(zhàn)性的任務(wù)[1],旨在將數(shù)據(jù)在無監(jiān)督的情況下劃分為不同的類簇[2]。半監(jiān)督聚類方法[3]通過給予少量監(jiān)督信息可以進一步提高聚類的準確性。近年來,隨著深度學習的發(fā)展,結(jié)合神經(jīng)網(wǎng)絡(luò)[4]的半監(jiān)督深度聚類模型逐漸成為該領(lǐng)域研究熱點。

由于標注成本昂貴,現(xiàn)有深度半監(jiān)督聚類方法的監(jiān)督信息數(shù)量往往是有限的[5]。在這種情況下,如何挑選高質(zhì)量的監(jiān)督信息變得至關(guān)重要。為了解決這一問題,主動學習成為一種有效的策略。主動學習旨在利用少量的標記數(shù)據(jù)最大程度提升模型性能[6]。通常,它選擇最有價值的樣本進行標注,以達到預(yù)期效果。關(guān)于主動學習的研究不得不面臨一個關(guān)鍵的問題,即在聚類任務(wù)中,如何挑選最有價值的信息。

對于文本聚類任務(wù),處于類簇邊緣且難以明確判定其所屬類簇的邊緣文本對聚類效果的影響較大。正如圖1所示,被紅色(見電子版)圓圈標記的文本位于類簇邊界,其所屬類簇的劃分也顯得極為模糊,這些文本被稱為邊緣文本。邊緣文本呈現(xiàn)出較高的不確定性,其所屬的類簇難以確定。在信息論[7]中,數(shù)據(jù)的不確定性越高,其蘊涵的信息量就越大。面對聚類任務(wù)時,具有更高不確定性的邊緣文本能夠提供更豐富的信息,因而具有更高的價值?,F(xiàn)有深度半監(jiān)督聚類方法往往忽視了這些邊緣文本的存在,其監(jiān)督信息也未涵蓋擁有豐富信息量的邊緣文本,從而影響最終的聚類效果。

針對該問題,本文設(shè)計了基于主動學習的深度半監(jiān)督聚類模型(deep active semi-supervised clustering model, DASCM)(圖2),利用主動學習方法有效提高深度半監(jiān)督聚類的監(jiān)督信息質(zhì)量,明顯提升了聚類性能。DASCM構(gòu)造了一個基于主動學習的半監(jiān)督信息生成器,該生成器包含了兩個模塊。a)邊緣文本挑選模塊。該模塊基于主動學習的思想,設(shè)計了面向聚類任務(wù)的挑選機制,旨在挑選出具有豐富信息量的邊緣文本,即主動學習中的有效信息,并進一步構(gòu)造“邊緣文本-中心文本”問題。b)基于主動學習的監(jiān)督信息生成模塊。該模塊使用主動學習的思想,旨在生成涵蓋邊緣文本的高質(zhì)量監(jiān)督信息進而指導聚類。根據(jù)輸入的有關(guān)邊緣文本的問題,獲取真實的邊緣文本與類簇中心文本的關(guān)系,從而構(gòu)建“邊緣文本-中心文本”的關(guān)系對。此外,半監(jiān)督重構(gòu)目標更新模塊將“邊緣文本-中心文本”的關(guān)系對作為半監(jiān)督聚類的監(jiān)督信息,從而進一步提升聚類性能。DASCM面向聚類任務(wù),利用主動學習方法生成關(guān)于邊緣文本的高質(zhì)量監(jiān)督信息,提升了聚類效果。

本文的主要工作如下:

a)設(shè)計并實現(xiàn)了一個基于主動學習的深度半監(jiān)督聚類模型,能夠使用少量的監(jiān)督信息最大程度地提升模型聚類性能;

b)提出了一種面向聚類結(jié)構(gòu)的主動學習方法,能夠自動選擇對聚類任務(wù)最具價值的樣本;

c)提出了一種監(jiān)督信息的生成方法,通過利用主動學習方法挑選出的樣本生成高質(zhì)量的聚類監(jiān)督信息,進一步提升了聚類性能。

1 相關(guān)工作

1.1 半監(jiān)督聚類

半監(jiān)督聚類結(jié)合了聚類和半監(jiān)督學習的思想[8],通過數(shù)據(jù)集中少量的標簽數(shù)據(jù)[9]或約束信息[10]來提高聚類性能。

大多數(shù)半監(jiān)督聚類方法主要是在已有的經(jīng)典聚類方法的基礎(chǔ)上,通過添加約束信息來優(yōu)化聚類結(jié)果[11]。當約束信息是獨立的類標簽時,Basu等人[12]基于Seeds集對K-means進行改進,提出了Seeded-Kmeans算法,其基本思想是將標記樣本引入K-means[13]。Wagstaff等人[14]提出的COP-Kmeans算法將成對約束引入到K-means算法中,不同點在于要求數(shù)據(jù)必須滿足ML(must-link)或CL(cannot-link)約束,即任意兩個數(shù)據(jù)樣本要么滿足ML約束(這兩個樣本一定屬于同一類),要么滿足CL約束(這兩個樣本一定不屬于同一類),其聚類思想與K-means一致。

隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,深度聚類已經(jīng)取得了顯著的效果。目前比較有代表性的深度半監(jiān)督聚類是SDEC(semi-supervised deep embedded clustering)[15],在DEC(deep embedded clustering)的基礎(chǔ)上將成對約束引入到特征學習過程中。Ohi等人[16]提出的AutoEmbedder能夠基于成對約束生成可聚類的嵌入點,這些嵌入點不僅維度更低,而且更能體現(xiàn)樣本點之間的聯(lián)系。Wang等人[17]提出的PCSA-DEC基于成對約束構(gòu)造了一個約束損失函數(shù)。該損失函數(shù)可以確保同類樣本的相似性遠高于其他樣本。

半監(jiān)督聚類有效利用了監(jiān)督信息,相較于無監(jiān)督聚類,其聚能性能得到了顯著提升?,F(xiàn)有方法主要通過隨機選取樣本進行標注以獲取監(jiān)督信息,這使得監(jiān)督信息的質(zhì)量難以保證。

1.2 主動學習

主動學習在機器學習領(lǐng)域中被廣泛研究,通過標注盡可能少的樣本,最大程度地提高模型的性能[18]。Lewis[19]提出基于池的主動學習查詢?nèi)绾螛擞涀畈淮_定的樣本。Seung等人[20]提出的QBC(query-by-committee)算法基于一個委員會模型,委員會對候選樣本的標簽投票,被選出來的樣本是那些意見最不一致的數(shù)據(jù)樣本。Settles等人[21]提出用于判別概率模型類別的期望梯度長度(expected gradient length,EGL)方法,主要思想是挑選能夠給當前模型帶來最大變化的樣本。Settles等人[22]又提出信息密度框架,其基本思想是挑選的樣本不僅是不確定的,而且還應(yīng)該代表輸入數(shù)據(jù)的分布情況。

近年來,隨著深度學習的發(fā)展,結(jié)合神經(jīng)網(wǎng)絡(luò)的深度主動學習逐漸成為領(lǐng)域研究熱點。Sinha等人[23]提出的VAAL模型引入生成對抗網(wǎng)絡(luò)用于標記樣本的擴充。VAAL可以在大規(guī)模數(shù)據(jù)集上學習有效的低維潛在表示,并通過聯(lián)合數(shù)據(jù)表示和不確定性進一步提供了一種有效的采樣方法。后續(xù)Kim等人[24]提出TA-VAAL模型,同時利用了全局數(shù)據(jù)分布和模型不確定性共同進行樣本挑選。Cho等人[25]提出一種快速且易實現(xiàn)的框架,稱為主動學習的最大分類器差異(MCDAL)。該框架考慮利用多個分類器預(yù)測的差異性來構(gòu)建主動學習的采樣函數(shù),以挑選最不確定的樣本進行標記。

主動學習能夠使用較少的標記樣本訓練出優(yōu)秀的模型,從而在降低標記成本的同時不犧牲性能。但是,在半監(jiān)督聚類任務(wù)中,主動學習如何挑選有價值的信息,目前的研究尚未提供清晰的解決思路。

2 模型設(shè)計

DASCM主要有文本語義表示學習模塊、基于主動學習的半監(jiān)督信息生成器和聚類模塊三個部分組成,如圖2所示。

2.1 文本語義表示學習模塊

為了方便聚類,本文利用詞袋模型[26]對文本數(shù)據(jù)進行編碼,得到原始的向量表示X={x1,x2,…,xn}。

由于真實文本數(shù)據(jù)轉(zhuǎn)為向量后,維度通常會變得很高。所以,本文利用自動編碼器(auto-encoder,AE)對輸入向量X={x1,x2,…,xn}降維并提取文本語義表示[27]。自動編碼器使用了一組神經(jīng)網(wǎng)絡(luò)對輸入數(shù)據(jù)進行非線性映射fθ:X→Z,其中θ是可學習的參數(shù),Z就是網(wǎng)絡(luò)學習到的文本語義表示。

AE主要分為編碼器和解碼器兩個部分,其工作過程描述為

H(l)=φ(W(l)H(l-1)+b(l))(1)

其中:φ表示ReLU激活函數(shù);W(l)和b(l)分別為第l層的權(quán)重和偏置。

AE通過縮小神經(jīng)網(wǎng)絡(luò)的輸出X^和訓練目標X的差距,根據(jù)式(2)優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù),使其學習到更能代表原始數(shù)據(jù)的文本語義表示Z。

LAE=1n‖X-X^‖2F(2)

2.2 基于主動學習的半監(jiān)督生成器

2.2.1 邊緣文本挑選模塊

在監(jiān)督信息數(shù)量有限的情況下,所選擇的監(jiān)督信息應(yīng)該對優(yōu)化類簇結(jié)構(gòu)具有較高的價值。在半監(jiān)督聚類任務(wù)中,處于類簇邊界的邊緣文本具有極高的不確定性,蘊涵了更豐富的信息。因此,若監(jiān)督信息涵蓋邊緣文本,則能為類簇的劃分提供更多的信息,幫助優(yōu)化類簇結(jié)構(gòu)。本文提出的邊緣文本挑選模塊設(shè)計了基于主動學習方法的挑選機制,旨在發(fā)現(xiàn)類簇中蘊涵豐富信息的邊緣文本,從而構(gòu)建關(guān)系問題,進一步生成涵蓋邊緣文本的高質(zhì)量監(jiān)督信息。根據(jù)觀察結(jié)果,本文所挑選的邊緣文本滿足以下特點:邊緣文本大多處于兩個或兩個以上的類簇邊界處,它們屬于周圍類的概率是相似的。例如,考慮第i個樣本是邊緣文本,該樣本位于空間位置上第j和k個類的類簇邊緣。在這種情況下,第i個樣本同時屬于第j和k個類的概率非常接近。這意味著邊緣文本對于其所屬類簇的歸屬是極其不確定的?;谏鲜鎏匦裕疚臉?gòu)造了式(3)來發(fā)現(xiàn)邊緣文本。

E=argminxi-∑nj=1p(yj|xi)lg(p(yj|xi))(3)

其中:yj表示樣本被分配到第j個類的事件;p(yj|xi)表示xi這個樣本被分配到第j個類這個事件的概率;∑ni=1 ∑nj=1p(yj|xi)反映了當前聚類結(jié)構(gòu)分布情況。本文基于最小化信息熵,挑選一批不確定性最高的邊緣文本。

在半監(jiān)督聚類中,監(jiān)督信息多以約束對的形式出現(xiàn)。因此在挑選出邊緣文本E={e1,e2,…,en}后,還需進一步使用邊緣文本生成合適的約束對。本文的思路是:a)根據(jù)當前類簇劃分確認聚類中心文本,即與聚類質(zhì)心最相似的文本,聚類中心文本可以按照式(4)求得(μj表示第j個簇的聚類質(zhì)心,sim(·)表示相似度的度量,從X={x1,x2,…,xn}中選擇出文本ci,使得式(4)成立,即文本ci與聚類質(zhì)心μj有最大相似度,那么文本ci被認定是第j個簇的中心文本)。b)構(gòu)建關(guān)于邊緣文本和中心文本的約束對。本文將獲取邊緣文本和中心文本的真實關(guān)系,進一步形成邊緣文本-中心文本的關(guān)系對。這些關(guān)系對將作為半監(jiān)督聚類中的監(jiān)督信息,以優(yōu)化類簇結(jié)構(gòu),提升聚類效果。

因此,如何獲取邊緣文本和聚類中心文本的關(guān)系尤為重要。本文首先設(shè)計一批關(guān)于邊緣文本-中心文本的問題,該問題將邊緣文本與中心文本一一對應(yīng),以關(guān)系對〈ei,cj〉的形式呈現(xiàn),并將這些關(guān)系問題作為后續(xù)模塊的輸入,后續(xù)模塊將給出明確的關(guān)于關(guān)系的答案。

argmaxci∑kj=1sim(ci,μj)(4)

2.2.2 基于主動學習的監(jiān)督信息生成模塊

本節(jié)基于主動學習的思想,旨在生成涵蓋邊緣文本的高質(zhì)量監(jiān)督信息,并利用該監(jiān)督信息指導聚類過程。首先,將上一模塊構(gòu)建的關(guān)系問題通過標注過程,查詢邊緣文本與中心文本之間的真實關(guān)系,從而構(gòu)建邊緣文本-中心文本關(guān)系對。具體來說,如果當前的邊緣文本ei與中心文本cj屬于同一個類,那么在本文中,認為它們是存在聯(lián)系的,將它們形成的關(guān)系對〈ei,cj〉加入到關(guān)系對集合R當中。最終,將得到一批涵蓋了邊緣文本的關(guān)系對,這批關(guān)系對能為聚類提供更豐富的信息。

接下來,要考慮如何將關(guān)系對用于指導聚類,幫助優(yōu)化類簇結(jié)構(gòu)。DASCM利用關(guān)系對構(gòu)造半監(jiān)督信息矩陣,用于引導聚類。半監(jiān)督信息矩陣為n×n的對稱矩陣M,Mij記錄了樣本xi與xj之間的關(guān)系。在本文中,設(shè)定有兩種關(guān)系:a)ML約束,表示樣本xi與xj屬于同一類;b)CL約束,表示樣本xi與xj不屬于同一類。對稱矩陣的構(gòu)造如下:

Mij=1 (xi,xj)∈R0(xi,xj)R(5)

根據(jù)已獲取的關(guān)系對,本文將屬于同一類的邊緣文本ei和中心文本cj對應(yīng)的半監(jiān)督信息矩陣的第i行和第j列的值設(shè)置為1,由于半監(jiān)督信息矩陣為對稱矩陣,Mji的值也設(shè)置為1。不屬于同一類的文本所對應(yīng)的值設(shè)置為0。

DASCM利用監(jiān)督信息更新重構(gòu)目標,以此學習到更好的文本語義表示,從而提升聚類效果。本文設(shè)計了式(6),利用半監(jiān)督信息矩陣更新文本表示學習模塊的訓練目標,監(jiān)督自編碼器對文本語義表示的學習。

Y=M·X+X(6)

其中:M表示半監(jiān)督信息矩陣;X表示文本向量表示。本文將重構(gòu)目標更新,從而引導學習到的文本語義表示改變,進一步提升聚類效果。

本文利用主動學習方法發(fā)現(xiàn)類簇中蘊涵豐富信息的邊緣文本,并通過查詢邊緣文本與中心文本的實際關(guān)系,構(gòu)建基于邊緣文本的關(guān)系對。本文利用這些關(guān)系對構(gòu)造半監(jiān)督信息矩陣,并利用這些監(jiān)督信息指導聚類,從而提升聚類性能。

2.3 聚類模塊

本節(jié)將學習到的文本語義表示點進行聚類,并不斷調(diào)整參數(shù)得到更好的聚類結(jié)果。

在得到新的訓練目標Y后,根據(jù)式(2),可進一步得到如下所示的目標函數(shù):

LAE=1n‖X^-(M·X+X)‖2F(7)

其中:X^是AE的輸出;M是利用監(jiān)督信息生成的半監(jiān)督信息矩陣,用于更新原來的重構(gòu)目標。通過最小化損失函數(shù)LAE(式(7))得到所期望的文本語義表示Z。

給定文本語義表示學習模塊學習好的文本語義表示和初始聚類質(zhì)心,本文使用兩個步驟交替的算法來改進聚類。a)計算文本語義表示點和類簇質(zhì)心之間的軟分配,即文本語義表示點屬于每個類的概率;b)更新深度映射fθ,即更新神經(jīng)網(wǎng)絡(luò)的參數(shù),旨在調(diào)整文本語義表示點以更好地對應(yīng)聚類質(zhì)心,并且利用輔助目標分布來優(yōu)化聚類質(zhì)心。交替進行這個過程,直到滿足收斂標準。

t-分布能夠減少異常點的影響,為了更好地適應(yīng)不同分布的數(shù)據(jù),本文采用t-分布來計算zi和μj之間的軟分配。qij表示第i個文本屬于第j個類的概率,公式如下:

qij=(1+‖zi-μj‖2/α)-α+12∑j′(1+‖zi-μj′‖2/α)-α+12(8)

其中:α是t-分布的自由度,在本文中設(shè)置為1。為了優(yōu)化聚類質(zhì)心,使用了如下所示的輔助目標分布。

pij=q2ij/fj∑j′q2ij′/fj′(9)

其中: fi=∑jq2ij是軟類簇分配概率,輔助目標分布pij能夠幫助強化預(yù)測。

DASCM通過匹配軟分配與輔助目標分布來訓練,為此,定義聚類損失函數(shù)為軟分配和目標分布之間的KL散度損失(式(10))。

L=KL(P‖Q)=∑i ∑j(pijlogpijqij)(10)

算法1 DASCM模型的運算過程

輸入:文本數(shù)據(jù)集;關(guān)系對數(shù)量b;最大迭代次數(shù) MaxIter,預(yù)訓練次數(shù)epochs,待學習的DASCM模型。

輸出:文本聚類結(jié)果。

1)文本語義表示的學習

while 訓練次數(shù)< epochs:

do 根據(jù)式(2)訓練文本表示模塊,更新模塊神經(jīng)網(wǎng)絡(luò)參數(shù)W(l),b(l)

end

依據(jù)訓練好的文本表示模塊,根據(jù)式(1)得到初步的文本表示H

return H

2)聚類

使用K-means算法初始化聚類中心μ

while迭代次數(shù)< MaxIter:

do 使用式(8),根據(jù)Z和μ計算Q分布

使用式(9),根據(jù)分布Q計算目標分布P

根據(jù)式(10),更新模型參數(shù)

end

return 聚類結(jié)果

3)邊緣文本挑選

根據(jù)得到的聚類結(jié)果,利用式(3)發(fā)現(xiàn)類簇邊緣文本E

利用式(4)計算得到所有中心文本c,將每個邊緣文本ei與中心文本cj一一對應(yīng),生成關(guān)系問題〈ei,cj〉

4)基于主動學習的監(jiān)督信息生成

將所有關(guān)系問題組通過標注查詢得到邊緣文本與中心文本的實際關(guān)系,屬于同一類的〈ei,cj〉加入關(guān)系對集R,最終得到數(shù)量為b的關(guān)系對

使用關(guān)系對集R通過式(5)構(gòu)造半監(jiān)督信息矩陣M

通過式(6),計算得到新的訓練目標Y

return Y

將新的訓練目標Y用于替換文本語義表示學習中的訓練目標

再次運行1)2)兩個過程

return 聚類結(jié)果

2.4 參數(shù)優(yōu)化

在本文中,主要利用半監(jiān)督信息矩陣M更新訓練目標,利用損失函數(shù)(式(7))使得AE能夠進一步學習到更好的文本語義表示Z。AE的參數(shù)為W,偏置為b,給定神經(jīng)網(wǎng)絡(luò)輸出X^計算如式(11)所示。

X^=WX+b(11)

利用隨機梯度下降(stochastic gradient descent,SGD)優(yōu)化深度神經(jīng)網(wǎng)絡(luò)參數(shù)。損失函數(shù)LAE關(guān)于神經(jīng)網(wǎng)絡(luò)參數(shù)W求導為

LAE W=2n(WX+b-(MX+X))·XT(12)

對神經(jīng)網(wǎng)絡(luò)參數(shù)b求導,如式(13)所示。

LAE W=2n(WX+b-(MX+X))(13)

參數(shù)W的更新如下所示,其中η為學習率。

Wnew→Wold-η· LAE W(14)

參數(shù)b的更新如下所示。

bnew→bold-η· LAE b(15)

由于蘊涵豐富信息的半監(jiān)督矩陣M參與了神經(jīng)網(wǎng)絡(luò)參數(shù)的更新,模型生成的高價值監(jiān)督信息將正向引導神經(jīng)網(wǎng)絡(luò)訓練。這能夠幫助AE學習到更好的文本語義表示Z,使用更新的Z可以促進類簇的劃分,從而達到更好的聚類效果。

2.5 模型時空復雜度分析

為了更好地闡明DASCM的效率,本文對該模型的時間和空間復雜度進行了分析。

本文設(shè)定輸入數(shù)據(jù)的維度為d,數(shù)量為n。對于文本語義表示模塊,設(shè)神經(jīng)網(wǎng)絡(luò)層數(shù)為L,各層輸出維度分別為d1,d2,…,dL。時間復雜度為O(nd21d22…d2L),空間復雜度為O(nd)。對于聚類模塊,設(shè)定類簇數(shù)量為k, 該模塊與DEC的時空復雜度一致。時間復雜度為O(kn+n ln(n)),空間復雜度為O(kn)。

對于基于主動學習的監(jiān)督信息生成模塊,設(shè)定關(guān)系對數(shù)量為b,類簇數(shù)量為k。首先是邊緣文本挑選部分,時間消耗主要在于邊緣文本的挑選過程,時間復雜度為O(kn)。該部分需要存儲邊緣文本和中心文本,因此空間復雜度為O(b/k+k)。然后是基于主動學習的監(jiān)督信息生成部分,因為本文模型將邊緣文本和中心文本一一對應(yīng)構(gòu)造成關(guān)系對,所以時間復雜度為O(b),空間復雜度為O(b)。因為本文模型直接存儲了關(guān)系對所對應(yīng)的索引,所以半監(jiān)督信息矩陣的時間復雜度為O(b),空間復雜度為O(n2+b)。

綜上所述,本文DASCM總的時間復雜度為O(nd1d2…dL+2kn+n ln(n)+2b),總的空間復雜度為O(n2+(d+k)n+b/k+k+2b)。

3 實驗與結(jié)果分析

本章將分析實驗所需數(shù)據(jù)集,并在此基礎(chǔ)上驗證DASCM的效果,分別從數(shù)據(jù)集描述和評估方法、模型參數(shù)設(shè)置、結(jié)果和分析三個部分進行描述。

3.1 數(shù)據(jù)集描述

a)Abstract數(shù)據(jù)集(https://www.aminer.cn)。該數(shù)據(jù)集包含來自Aminer網(wǎng)站的 4 306 篇論文,從信息通信、數(shù)據(jù)庫和圖形三個研究領(lǐng)域中隨機選擇而來。該數(shù)據(jù)集通常應(yīng)用于文本聚類任務(wù),可參考文獻[28]。

b)BBC數(shù)據(jù)集(http://mlg.ucd.ie/datasets/bbc.html)。該數(shù)據(jù)集包含來自BBC新聞網(wǎng)站的2 250條文本數(shù)據(jù),對應(yīng)商業(yè)、娛樂、政治、體育和科技五個主題。BBC數(shù)據(jù)集不同類別的文章數(shù)量相同,且文本主題特征比較明顯,因此常被用于文本聚類任務(wù),可參考文獻[29]。

c)ACM數(shù)據(jù)集(https://paperswithcode.com/dataset/acm)。該數(shù)據(jù)集選擇了在KDD、SIGMOD、SIGCOMM、MobiCOMM和VLDB上發(fā)表的3 025篇英文論文,并根據(jù)研究領(lǐng)域?qū)⒄撐姆譃閿?shù)據(jù)庫、無線通信和數(shù)據(jù)挖掘三類。數(shù)據(jù)集適用于文本聚類任務(wù),可參考文獻[30]。

d)Citeseer數(shù)據(jù)集(https://paperswithcode.com/dataset/ citeseer)。該數(shù)據(jù)集是一個引文網(wǎng)絡(luò),包含3 327條數(shù)據(jù),涉及代理、人工智能、數(shù)據(jù)庫、信息檢索、機器語言和人機交互六個領(lǐng)域。數(shù)據(jù)集常應(yīng)用于文本聚類任務(wù),可參照文獻[31]。

e)Reuters-10k數(shù)據(jù)集(https://github.com/slim1017/VaDE /tree/master/dataset/reuters10k)。該數(shù)據(jù)集選取了來自路透社的10 000條英語新聞故事,包含公司/工業(yè)、政府/社會、市場和經(jīng)濟這四個類別,常用于文本聚類或分類任務(wù),可參考文獻[2]。

3.2 評測指標

本文使用三種測量指標來評價聚類效果,分別是聚類精度(accuracy, ACC)、歸一化信息(normalized mutual information,NMI)、調(diào)整蘭德系數(shù)(adjusted Rand index,ARI)。

1)NMI

NMI用于衡量聚類的預(yù)測結(jié)果與標準結(jié)果之間的相似性,NMI 的取值在[0, 1],值越高表示預(yù)測的聚類結(jié)果越接近標準結(jié)果。計算如式(16)所示。

NMI(C;K)=2I(C;K)H(C)+H(K)(16)

其中:H(C)為預(yù)測聚類結(jié)果C的熵;H(K)為標準結(jié)果K的熵。計算如式(17)所示。

H(C)=-∑ni=1p(ci)log p(ci)(17)

其中:I(C;K)是C和K之間的互信息,代表聯(lián)合分布p(C,K)與乘積分布p(C)p(K)的相對熵,其計算如式(18)所示。

I(C;K)=∑c ∑kp(c,k)logp(c,k)p(c)p(k)(18)

2)ACC

ACC是一種用于衡量聚類算法性能的指標,類似于分類問題中的準確率。它衡量的是聚類結(jié)果中被正確歸類的樣本所占的比例,其計算如式(19)所示。

ACC=maxm∑ni=11{li=m(ci)}n(19)

其中:li是真實標簽;ci是模型預(yù)測的聚類分配;m(·)按照真實標簽的排列方式,將聚類分配映射成標簽結(jié)果。

3)ARI

調(diào)整蘭德系數(shù)是一種用于衡量聚類算法性能的指標,通常用于評估聚類結(jié)果與真實標簽之間的相似度。它的值越接近1,說明聚類結(jié)果越接近真實情況,計算如式(20)所示。

ARI=RI-E(RI)max(RI)-E(RI)(20)

RI(Rand index)是蘭德系數(shù),E(RI)是RI的期望。RI為

RI=TP+TNTP+FP+TN+FN(21)

其中:TP表示在真實標簽中屬于同一個類簇且在聚類結(jié)果中也被分到同一個簇的樣本對的數(shù)量,這是聚類結(jié)果和真實標簽都正確的樣本對的數(shù)量;TN表示在真實標簽中屬于不同類簇且在聚類結(jié)果中也被分到不同簇的樣本對的數(shù)量,這是聚類結(jié)果和真實標簽都正確的樣本對的數(shù)量;FP表示在真實標簽中屬于不同類簇但在聚類結(jié)果中被分到同一個簇的樣本對的數(shù)量,這是聚類結(jié)果中錯誤分類的樣本對的數(shù)量;FN表示在真實標簽中屬于同一個類簇但在聚類結(jié)果中被分到不同類簇的樣本對的數(shù)量,這是聚類結(jié)果中錯誤分類的樣本對的數(shù)量。

3.3 參數(shù)設(shè)置

本文使用自動編碼器對數(shù)據(jù)集進行預(yù)訓練,編碼器維度設(shè)置為d-500-500-500-10,其中d為數(shù)據(jù)集的維度,解碼器為編碼器的鏡像網(wǎng)絡(luò)。針對所有數(shù)據(jù)集,均采用學習率η=0.01,β=0.9的優(yōu)化器,批次大小為256,收斂閾值為0.1%。所有數(shù)據(jù)集的關(guān)系對數(shù)量b取1 000。每個數(shù)據(jù)集結(jié)果總共運行 10 次,并去掉最高值和最低值后算平均值,避免產(chǎn)生極端情況。

3.4 實驗分析

3.4.1 文本聚類實驗

本文在Abstract、BBC、ACM、Citesser、Reuters-10k共五個文本數(shù)據(jù)集上驗證DASCM的聚類性能,并選擇了三類聚類模型進行對比,分別是經(jīng)典的深度聚類模型、發(fā)掘文本之間關(guān)聯(lián)信息的聚類模型、深度半監(jiān)督聚類模型和帶主動學習模型。

a)經(jīng)典的深度聚類模型。本文選擇了三個經(jīng)典的深度聚類模型作比較。AE[32]是學習文本語義表示并進行聚類的兩階段深度聚類模型。DEC基于AE引入KL散度,以聯(lián)合優(yōu)化文本語義表示和聚類兩個過程。IDEC[33]對DEC進行改進,當學習文本語義表示時,在特征空間中保留了數(shù)據(jù)的局部結(jié)構(gòu)信息。

b)發(fā)掘文本之間關(guān)聯(lián)信息的聚類模型。GAE[34]將AE中的編碼器和解碼器換成圖卷積網(wǎng)絡(luò)(GCN)以學習圖結(jié)構(gòu)信息,SDCN[31]同時學習文本語義表示和文本結(jié)構(gòu)表示,并采用雙重自監(jiān)督以優(yōu)化學習表示和聚類兩個過程。

c)半監(jiān)督聚類模型。SDEC[15]是半監(jiān)督的深度聚類模型,它基于DEC引入先驗知識,以進一步優(yōu)化模型提高聚類效果。

d)帶主動學習的模型。ADC(active deep image clustering)[35]模型提出了一種新穎的深度主動聚類方法,該模型能主動選擇關(guān)鍵數(shù)據(jù)進行人工標注,并用以改進深度聚類。

其他模型按照其文獻給出的最優(yōu)參數(shù)進行實驗,ADC的約束對數(shù)量設(shè)置為1 000,訓練輪次和批次的設(shè)置與DASCM一致。為進一步驗證通過主動學習發(fā)現(xiàn)的邊緣文本與聚類性能提升的相關(guān)性,DASCM選取不同數(shù)量的關(guān)系對(b=200、b=500、b=1 000)進行實驗對比,實驗結(jié)果如表1所示。

在五個真實數(shù)據(jù)集上的實驗證明,DASCM 相較于其他無監(jiān)督聚類模型在文本聚類結(jié)果的各項評測指標上都有明顯提升,相較于所有模型中最優(yōu)的聚類結(jié)果,NMI 指標分別提升了8.35,12.3,10.65,4.68和5.77百分點,這是因為本文提出的主動學習能夠挑選出蘊涵豐富信息的邊緣文本,并生成了涵蓋邊緣文本的高質(zhì)量監(jiān)督信息,從而進一步提升了聚類性能。這也證明了DASCM的有效性。

DASCM的各項評測指標也高于同為深度半監(jiān)督聚類模型的SDEC,說明了基于主動學習的半監(jiān)督信息生成器產(chǎn)生的監(jiān)督信息比隨機產(chǎn)生的監(jiān)督信息對聚類更有意義。

然而含有主動學習的ADC表現(xiàn)較差,大概率是因為它是為處理圖像數(shù)據(jù)而設(shè)計的,所以在文本數(shù)據(jù)集上表現(xiàn)不佳。

為了更加直觀地展示模型性能隨著關(guān)系對數(shù)量變化而變化,本文繪制了各指標對比的折線圖,如圖3所示。隨著關(guān)系對數(shù)量的增加,各項指標也隨之提升,這是因為給的關(guān)系對越多,所提供的信息越豐富。對聚類任務(wù)而言,蘊涵更多信息的關(guān)系對具有更高的價值,對聚類的指導作用更大。這一結(jié)果也證明了本文設(shè)計的主動學習方法的有效性。但同樣可以觀察到隨著關(guān)系對數(shù)量的增加,各項聚類指標逐漸趨于平緩。這是因為隨著關(guān)系對數(shù)量的增加,所生成的關(guān)系對可能會包含那些蘊涵信息量較少的樣本,對聚類的指導作用不大,性能提升也不明顯。

3.4.2 消融實驗

為了驗證基于主動學習的半監(jiān)督信息生成器每個部分的有效性,本文在同樣的5個數(shù)據(jù)集上對每個部分逐一消融實驗,并與原模型的聚類性能對比,如表2所示。如果聚類性能都比原模型的低,則表明每個部分都是有效的。

DASCM-a去掉了基于主動學習的監(jiān)督信息生成部分,其他部分與參數(shù)均與原模型保持一致。DASCM-a實驗結(jié)果明顯低于原模型,這是因為該模型沒有生成涵蓋邊緣文本的監(jiān)督信息,未能對聚類進行有效指導。

在DASCM-r中,邊緣文本不再通過主動學習方法進行挑選,而是隨機選取,其數(shù)量與DASCM模型中的設(shè)置保持一致。此外,DASCM-r的其余部分和參數(shù)也和原模型保持一致。DASCM-r的聚類性能同樣也比原模型低,這是因為隨機挑選的文本質(zhì)量不佳,而通過主動學習方法挑選出的邊緣文本蘊涵更豐富的信息。對聚類任務(wù)而言,涵蓋邊緣文本的監(jiān)督信息也具有更高的價值,能更好地指導聚類。

3.4.3 可視化實驗

為了更加直觀體現(xiàn)模型的有效性,本文對比了去除基于主動學習的半監(jiān)督信息生成器的模型與DASCM的可視化聚類結(jié)果,可以直觀感受到DASC模型有效提升了聚類性能。

圖4展示了可視化聚類結(jié)果,其中圖(a)表示未加入基于主動學習的半監(jiān)督信息生成器的模型聚類結(jié)果,圖(b)展示了DASCM的聚類結(jié)果。圖4中紅色的點(見電子版)表示邊緣文本,在未加入基于主動學習的半監(jiān)督生成器時,類簇的邊界之間存在許多邊緣文本,嚴重影響了聚類結(jié)構(gòu)的清晰度。

加入基于主動學習的半監(jiān)督生成器之后,聚類結(jié)構(gòu)清晰度大大提升了,這是因為模型利用主動學習方法挑選出蘊涵豐富信息的邊緣文本,并生成監(jiān)督信息用于指導聚類過程。高價值的監(jiān)督信息對聚類起到了正向引導作用,使得邊緣文本所屬類簇更加明確,類簇結(jié)構(gòu)更加清晰。

3.4.4 主動學習代價分析

DASCM的代價主要由文本語義表示學習代價、主動學習挑選代價、標注代價和聚類代價四個部分組成。其中,文本語義表示學習成本和聚類成本類似于其他深度聚類模型。利用主動學習方法進行挑選的代價與數(shù)據(jù)集的規(guī)模密切相關(guān)。以BBC數(shù)據(jù)集為例(表3),可以觀察到使用主動學習進行挑選的代價在整個模型中占比較小。

在主動學習中,人工標注是不可避免的,并且其成本也與數(shù)據(jù)規(guī)模有關(guān),較大規(guī)模的數(shù)據(jù)集將需要更多的時間和資源進行標注。然而,相較于其他監(jiān)督模型和半監(jiān)督模型,DASCM花費同樣的代價卻能更大程度地提升模型性能。如表4所示,本文對比使用隨機方法選取1 000對關(guān)系對作為監(jiān)督信息(DASCM-r)和用主動學習方法選取1 000對關(guān)系對(DASCM)的聚類結(jié)果。可以注意到,當花費相同代價時,使用主動學習方法的模型性能可以得到更大提升。此外,本文挑選的關(guān)系對均為1 000對,而每個數(shù)據(jù)集可以組成上百萬的關(guān)系對(n×n對),相較而言,這個代價也是可接受的。

3.5 實現(xiàn)過程

本文以Abstract數(shù)據(jù)集為例,詳細描述DASCM的實現(xiàn)過程。如圖2所示,首先模型學習數(shù)據(jù)的文本語義表示,接著將學習到的文本語義表示進行聚類,得到初步的聚類結(jié)果。最后,DASCM根據(jù)當前聚類結(jié)果挑選邊緣文本。如圖5所示,圖5(a)展示了基于初步聚類結(jié)果挑選邊緣文本的結(jié)果。本文將每個類的邊緣文本顏色高亮展示,以示區(qū)分。

邊緣文本處于各個類的交界處,具有極高的不確定性,同時它們也蘊涵豐富的信息。為了進一步利用這些邊緣文本指導聚類。本文選擇將它們與中心文本(第一幅圖中加粗加黑的文本點)對應(yīng),以關(guān)系對的形式作為監(jiān)督信息。圖5(b)展示了關(guān)系對的構(gòu)造過程(因邊緣文本太多,本文只隨機選取5個邊緣文本點進行演示)。本文將邊緣文本(紅圈標明部分,參見電子版)與全部的中心文本一一對應(yīng),將這些文本對通過人工標注,標注過程詳見2.2.2小節(jié)。接著本文根據(jù)關(guān)系對構(gòu)造了一個半監(jiān)督信息矩陣,該矩陣是一個n×n的對稱矩陣,維度與數(shù)據(jù)集大小一致。

隨后矩陣將被用于更新重構(gòu)目標,方法如式(6)所示。本文選取其中一個邊緣文本觀察其重構(gòu)目標的高頻詞變化(圖5(c))。該邊緣文本真實的類別應(yīng)該為數(shù)據(jù)庫,更新后增加了table、data等與數(shù)據(jù)庫主題相關(guān)的詞語,能夠幫助學習到更好的文本語義表示。最后模型將根據(jù)更新后的重構(gòu)目標學習新的文本語義表示,進而將其用于聚類。圖5(d)展示了新的聚類結(jié)果,與圖5(a)比較,邊緣文本更加靠近其所屬類簇,類簇劃分也更加清晰。

4 結(jié)束語

本文提出一種基于主動學習的深度半監(jiān)督聚類模型(DASCM),該模型利用主動學習方法挑選出類簇的邊緣文本,并構(gòu)建了邊緣文本-中心文本關(guān)系對,為半監(jiān)督聚類提供了高質(zhì)量的監(jiān)督信息。本文利用這些關(guān)系對進一步構(gòu)建了半監(jiān)督信息矩陣,顯著提升了聚類效果。

在五個真實數(shù)據(jù)集上的實驗結(jié)果證明,相較于其他模型,DASCM在聚類性能上有明顯提升。然而,DASCM關(guān)系對的數(shù)量是給定的,當聚類結(jié)果中邊緣文本數(shù)量較少時,模型仍會挑選出給定數(shù)量的邊緣文本,這可能導致資源的浪費。因此,下一步的研究方向是設(shè)計一種衡量已挑選的樣本和未挑選樣本之間關(guān)聯(lián)度的方法,以避免選取對類簇劃分貢獻相似的樣本。此外,在訓練過程中,該方法設(shè)置合適的條件,一旦選取的樣本不再對類簇劃分產(chǎn)生優(yōu)化或其作用變得微不足道,將停止選取。

參考文獻:

[1]Ezugwu A E, Ikotun A M, Oyelade O O,et al. A comprehensive survey of clustering algorithms: state-of-the-art machine learning applications, taxonomy, challenges, and future research prospects[J]. Engineering Applications of Artificial Intelligence, 2022, 110: 104743.

[2]Xie Junyuan, Girshick R, Farhadi A. Unsupervised deep embedding for clustering analysis [C]// Proc of the 33rd International Confe-rence on Machine Learning. [S.l.]: PMLR, 2016: 478-487.

[3]Cai Jianghui, Hao Jing, Yang Haifeng,et al. A review on semi-supervised clustering[J]. Information Sciences, 2023, 632: 164-200.

[4]Liu Yuqiao, Sun Yanan, Xue Bing,et al. A survey on evolutionary neural architecture search[J]. IEEE Trans on Neural Networks and Learning Systems, 2021, 34(2): 550-570.

[5]張賢坤, 劉淵博, 任靜, 等. 主動糾錯式半監(jiān)督聚類社區(qū)發(fā)現(xiàn)算法[J]. 計算機應(yīng)用研究, 2019, 36(9): 2631-2635, 2660. (Zhang Xiankun, Liu Yuanbo, Ren Jing,et al. Active error-correcting community discovery algorithm based on semi-supervised clustering[J]. Application Research of Computers, 2019, 36(9): 2631-2635, 2660.)

[6]Ren Pengzhen, Xiao Yun, Chang Xiaojun,et al. A survey of deep active learning[J]. ACM Computing Surveys, 2021, 54(9): 1-40.

[7]Menin B. Unleashing the power of information theory: enhancing accuracy in modeling physical phenomena[J]. Journal of Applied Mathematics and Physics, 2023, 11(3): 760-779.

[8]李靜楠, 黃瑞章, 任麗娜. 用戶意圖補充的半監(jiān)督深度文本聚類[J]. 計算機科學與探索, 2023, 17(8): 1928-1937. (Li Jingnan, Huang Ruizhang, Ren Lina. Semi-supervised deep document clustering model with supplemented user intention[J]. Journal of Frontiers of Computer Science and Technology, 2023, 17(8): 1928-1937.)

[9]Bair E. Semi-supervised clustering methods[J]. Wiley Interdisciplinary Reviews: Computational Statistics, 2013, 5(5): 349-361.

[10]Taha K. Semi-supervised and un-supervised clustering: a review and experimental evaluation[J]. Information Systems, 2023, 114: 102178.

[11]Shen Baohua, Jiang Juan, Qian Fuan,et al. Semi-supervised hierarchical ensemble clustering based on an innovative distance metric and constraint information[J]. Engineering Applications of Artificial Intelligence, 2023, 124: 106571.

[12]Basu S, Bilenko M, Mooney R J. Comparing and unifying search-based and similarity-based approaches to semi-supervised clustering[C]// Proc of ICML-2003 Workshop on the Continuum from Labeled to Unlabeled Data in Machine Learning and Data Mining Systems. New York: ACM Press, 2003: 42-49.

[13]Kodinariya T M, Makwana P R. Review on determining number of cluster in K-means clustering[J]. International Journal, 2013, 1(6): 90-95.

[14]Wagstaff K, Cardie C. Clustering with instance-level constraints[C]// Proc of the 7th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc., 2000: 1103-1110.

[15]Ren Yazhou, Hu Kangrong, Dai Xinyi,et al. Semi-supervised deep embedded clustering[J]. Neurocomputing, 2019, 325: 121-130.

[16]Ohi A Q, Mridha M F, Safir F B,et al. AutoEmbedder: a semi-supervised DNN embedding system for clustering[J]. Knowledge-Based Systems, 2020, 204: 106190.

[17]Wang Yalin, Zou Jiangfeng, Wang Kai,et al. Semi-supervised deep embedded clustering with pairwise constraints and subset allocation[J]. Neural Networks, 2023, 164: 310-322.

[18]Nguyen V L, Shaker M H, Hüllermeier E. How to measure uncertainty in uncertainty sampling for active learning[J]. Machine Learning, 2022, 111(1): 89-122.

[19]Lewis D D. A sequential algorithm for training text classifiers: corrigendum and additional data[C]// Proc of ACM SIGIR Forum. New York: ACM Press, 1995, 29(2): 13-19.

[20]Seung H S, Opper M, Sompolinsky H. Query by committee[C]// Proc of the 5th Annual Workshop on Computational Learning Theory. New York: ACM Press, 1992: 287-294.

[21]Settles B, Craven M, Ray S. Multiple-instance active learning[C]// Proc of the 20th International Conference on Neural Information Processing Systems. New York: Curran Associates Inc., 2007: 1289-1296.

[22]Settles B, Craven M. An analysis of active learning strategies for sequence labeling tasks[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2008: 1070-1079.

[23]Sinha S, Ebrahimi S, Darrell T. Variational adversarial active lear-ning[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 5972-5981.

[24]Kim K, Park D, Kim K I,et al. Task-aware variational adversarial active learning[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2021:8166-8175.

[25]Cho J W, Kim D J, Jung Y,et al. MCDAL: maximum classifier discrepancy for active learning[J]. IEEE Trans on Neural Networks and Learning Systems, 2022, 34(11): 8753-8763.

[26]Gálvez-López D, Tardós J D. Real-time loop detection with bags of binary words[C]// Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE Press, 2011: 51-58.

[27]任麗娜, 秦永彬, 黃瑞章, 等. 基于多層子空間語義融合的深度文本聚類[J]. 計算機應(yīng)用研究, 2023, 40(1): 70-74, 79. (Ren Li’na, Qin Yongbin, Huang Ruizhang,et al. Deep document clustering model via multi-layer subspace semantic fusion[J]. Application Research of Computers, 2023, 40(1): 70-74, 79.)

[28]黃瑞章, 白瑞娜, 陳艷平, 等. CMDC: 一種差異互補的迭代式多維度文本聚類算法[J]. 通信學報, 2020, 41(8): 155-164. (Huang Ruizhang, Bai Ruina, Chen Yanping,et al. CMDC: an iterative algorithm for complementary multi-view document clustering[J]. Journal on Communications, 2020, 41(8): 155-164.)

[29]Greene D, Cunningham P. Practical solutions to the problem of diagonal dominance in kernel document clustering[C]// Proc of the 23rd International Conference on Machine Learning. New York: ACM Press, 2006: 377-384.

[30]Wang Xiao, Ji Houye, Shi Chuan,et al. Heterogeneous graph attention network[C]// Proc of World Wide Web Conference. New York: ACM Press, 2019: 2022-2032.

[31]Bo Deyu, Wang Xiao, Shi Chuan,et al. Structural deep clustering network[C]// Proc of Web Conference. New York: ACM Press, 2020: 1400-1410.

[32]Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.

[33]Guo Xifeng, Gao Long, Liu Xinwang,et al. Improved deep embedded clustering with local structure preservation[C]// Proc of the 26th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2017: 1753-1759.

[34]Wang Wei, Huang Yan, Wang Yizhou,et al. Generalized autoenco-der: a neural network framework for dimensionality reduction[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE Press, 2014: 496-503.

[35]Sun Bicheng, Zhou Peng, Du Liang,et al. Active deep image clustering[J]. Knowledge-Based Systems, 2022, 252: 109346.