陳 城,林 劼
(福建師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,福建 福州 350117)
生物測(cè)序技術(shù)的發(fā)展產(chǎn)生大量的生物序列數(shù)據(jù),對(duì)序列進(jìn)行聚類分析,把功能相近的序列聚為一類,可以幫助科研人員快速了解生物序列的功能,為后續(xù)的研究奠定堅(jiān)實(shí)的基礎(chǔ).聚類在生物信息學(xué)中并不是一個(gè)新話題.基因表達(dá)數(shù)據(jù)的分析常對(duì)微陣列數(shù)據(jù)進(jìn)行聚類,并認(rèn)為在同一個(gè)簇中的基因具有相同的功能.學(xué)者們提出了幾種先進(jìn)的微陣列聚類算法[1],包括層次聚類[2]和集成聚類[3].為了避免微陣列數(shù)據(jù)中的噪聲,雙聚類[4]的方法應(yīng)運(yùn)而生,它能夠同時(shí)進(jìn)行特征選擇和樣本選擇.單細(xì)胞測(cè)序數(shù)據(jù)的工作原理類似于基因表達(dá)數(shù)據(jù),根據(jù)不同的細(xì)胞類型[5-6]對(duì)不同的基因表達(dá)進(jìn)行聚類.然而,這些方法關(guān)注的是基因表達(dá)數(shù)據(jù),而不是生物序列數(shù)據(jù).
生物序列聚類是聚類算法在生物學(xué)中的應(yīng)用,使用的數(shù)據(jù)為:核酸序列(如DNA、RNA序列)或氨基酸序列(如蛋白質(zhì)序列).其中,核酸序列由4種堿基組成:A(腺嘌呤)、G(鳥嘌呤)、C(胞嘧啶)、T(胸腺嘧啶)/U(尿嘧啶),蛋白質(zhì)序列則是由20種氨基酸排列組合而成.序列聚類需要將序列轉(zhuǎn)化為數(shù)值向量.雖然有一些工具可以將DNA/RNA/蛋白質(zhì)序列轉(zhuǎn)化為數(shù)值向量[7-10],但對(duì)序列進(jìn)行表示學(xué)習(xí)仍然是聚類過(guò)程中重要的一步.生物序列聚類研究構(gòu)建衡量序列間的相似性或差異性的數(shù)學(xué)模型,旨在根據(jù)統(tǒng)計(jì)結(jié)果將序列劃分為幾個(gè)簇,同一簇中的序列具有相似的功能,這樣可以由已知序列的功能推測(cè)未知序列的功能[11].
生物序列聚類有利于分析序列潛在的結(jié)構(gòu)、功能等信息,進(jìn)一步推演序列在進(jìn)化過(guò)程中發(fā)生的先后關(guān)系[12].迄今為止,學(xué)者們已經(jīng)提出眾多優(yōu)秀的聚類算法,但是由于領(lǐng)域的差異、解釋性差等問(wèn)題,不能直接應(yīng)用在生物序列聚類上.目前,生物序列聚類的困難之處在于生物序列數(shù)據(jù)的特征難以正確提取,數(shù)據(jù)量大,計(jì)算復(fù)雜度高,內(nèi)存需求高,不能保證一定能夠找到最優(yōu)解且很難從生物學(xué)角度進(jìn)行結(jié)果解釋等.
本文提出一種基于多重解碼器的自編碼器模型,用于學(xué)習(xí)生物序列數(shù)據(jù)的表示,然后使用 k-means算法對(duì)序列的表示進(jìn)行聚類. 試驗(yàn)結(jié)果驗(yàn)證本文提出的方法在 DNA 序列數(shù)據(jù)集上具有良好的性能.
根據(jù)聚類方法的不同,生物序列上的聚類研究大致可分為:?jiǎn)l(fā)式生物聚類算法、層次生物聚類算法和其他生物聚類算法.
基于啟發(fā)式的生物聚類算法采用一種簡(jiǎn)單貪婪策略,始于一個(gè)種子(seed),基于一定的搜索技術(shù),合并、擴(kuò)張,完成序列的聚類過(guò)程.其代表性算法為FastGroup[13]、CD-HIT[14]、UCLUST[15]等.
2001年,Seguritan首次提出一種基于啟發(fā)式的生物序列聚類算法FastGroup.該算法主要有3個(gè)步驟:首先將數(shù)據(jù)集中的所有序列相互比較;然后將相似的序列分組;最后從每組中輸出一個(gè)代表序列.CD-HIT使用貪婪的增量聚類算法,該算法通過(guò)短詞過(guò)濾策略和并行化技術(shù)得到提高,有效地對(duì)大規(guī)模序列數(shù)據(jù)集進(jìn)行聚類.短詞過(guò)濾策略的整體思想為:若序列與代表序列的相似性低于預(yù)先設(shè)置的閾值,則該序列不進(jìn)行序列比對(duì).該策略可以使算法的運(yùn)行速度加快,其復(fù)雜度為O(N),N為序列數(shù)量.
USEARCH算法在進(jìn)行比對(duì)時(shí)會(huì)在所有相似度達(dá)到閾值的序列中尋找合適的比對(duì)位點(diǎn),基于這個(gè)特點(diǎn),UCLUST提出一種改進(jìn)方法,僅需要尋找一個(gè)或幾個(gè)合適的比對(duì)位點(diǎn),減少了比對(duì)位點(diǎn)的搜索數(shù)量,提高了序列比對(duì)速度.與CD-HIT相比,這種方法的運(yùn)算速度快、內(nèi)存需求低,且靈敏度較高.
Ghodsi等[16]提出了新的詞過(guò)濾方法DNACLUST,避免了序列間的兩兩比對(duì),是一種貪婪算法.該算法在精確模型下的運(yùn)算速度優(yōu)于CD-HIT與UCLUST,但在近似模型下的運(yùn)算速度與UCLUST差不多.SEED[17]則使用開(kāi)放哈希技術(shù)和一種特殊類型的稱為塊間隔的種子將輸入序列聚類.
UPARSE[18]是來(lái)自USEARCH的最新從頭聚類方法,它通過(guò)質(zhì)量過(guò)濾算法過(guò)濾read,將其修整為固定長(zhǎng)度.該方法使用UPARSE-OTU進(jìn)行聚類,這是一種新的貪婪算法,可同時(shí)執(zhí)行嵌合過(guò)濾和OTU聚類.由于質(zhì)量過(guò)濾算法的嚴(yán)格,生物物種豐富度和多樣性會(huì)被顯著低估,最后產(chǎn)生的生物學(xué)結(jié)果存在較多錯(cuò)誤.大規(guī)模過(guò)濾序列能夠減少運(yùn)行時(shí)間,但是過(guò)濾參數(shù)需要針對(duì)數(shù)據(jù)的不同進(jìn)行改變,且不能自動(dòng)對(duì)過(guò)濾參數(shù)進(jìn)行選擇,需要多次試驗(yàn)后人為進(jìn)行選擇,而這個(gè)過(guò)程的時(shí)間成本可能很高.
在進(jìn)行聚類的過(guò)程中,啟發(fā)式算法不需要計(jì)算距離矩陣,因此降低了存儲(chǔ)空間的需求和計(jì)算復(fù)雜度.缺點(diǎn)是不能保證一定能夠找到最優(yōu)解.
基于層次的生物序列聚類算法通過(guò)序列比對(duì),根據(jù)一定的相似性或距離度量方式獲得距離矩陣,再采用貪婪層次聚類算法完成生物序列聚類,是目前最常用的生物序列聚類方法,其代表性算法為DOTUR[19]、Mothur[20]、ESPRIT[21]、mBKM[22]等.
2005年,Schloss提出一種無(wú)種子(seed)的生物序列聚類算法DOTUR.DOTUR使用序列之間的遺傳距離將序列分配給OTU.它通過(guò)使用最遠(yuǎn)、平均或最近鄰居算法為OTU分配序列,并估計(jì)一個(gè)簇的豐富性和多樣性.
在DOTUR的基礎(chǔ)上,Schloss又開(kāi)發(fā)了Mothur.Mothur被用于修剪、篩選和排列序列,計(jì)算距離,將序列分配給OTU,Alpha和Beta多樣性計(jì)算,序列比對(duì),序列聚類注釋.距離矩陣對(duì)于Mothur聚集OTUs很重要.矩陣可以反映每個(gè)序列與其他序列的相似性或距離.計(jì)算矩陣和聚類具有較高的時(shí)間復(fù)雜度.基于此,Mothur不適合處理大數(shù)據(jù)集[23].該算法存在假陽(yáng)性率高、噪音信號(hào)強(qiáng)等缺點(diǎn),且很難從生物學(xué)角度進(jìn)行結(jié)果解釋.
Sun采用ESPRIT算法對(duì)生物序列進(jìn)行聚類劃分.該算法由4個(gè)模塊組成:(1)使用各種標(biāo)準(zhǔn)去除低質(zhì)量read;(2)計(jì)算read的成對(duì)距離;(3)將read分組到不同差異水平的OTU中;(4)執(zhí)行統(tǒng)計(jì)推斷來(lái)估計(jì)物種豐富度.該算法使用了Needleman-Wunsch雙序列比對(duì)算法,以k-mers的形式過(guò)濾無(wú)需比對(duì)的序列,利用在線學(xué)習(xí)開(kāi)發(fā)了一種名為Hduster的方法進(jìn)行層次聚類,在一定程度上降低了計(jì)算機(jī)的內(nèi)存需求,但計(jì)算復(fù)雜度為O(N2),當(dāng)N較大時(shí),算法的時(shí)間成本高.
Cai[24]基于ESPRIT算法提出了一種新的在線學(xué)習(xí)的算法ESPRIT-Tree.基本思想是使用偽度量構(gòu)造分區(qū)樹,利用分區(qū)樹將序列空間劃分為一組子空間,然后遞歸地細(xì)化這些子空間中的簇結(jié)構(gòu).該技術(shù)依賴于快速最近對(duì)搜索和一種動(dòng)態(tài)插入和刪除樹結(jié)點(diǎn)的方法.為了避免窮舉計(jì)算簇之間的成對(duì)距離,該方法將序列的每個(gè)簇表示為概率序列,并進(jìn)行一系列操作來(lái)比對(duì)這些概率序列并計(jì)算它們之間的遺傳距離.ESPRIT-Tree是啟發(fā)式生物序列聚類算法的一種,該算法同時(shí)解決了計(jì)算復(fù)雜度高和計(jì)算機(jī)內(nèi)存需求多的問(wèn)題,其計(jì)算復(fù)雜度幾乎與生物序列數(shù)目呈線性關(guān)系.
mBKM是一種基于新的距離度量DMk的非比對(duì)算法,用于聚類基因序列.該方法將DNA序列轉(zhuǎn)化為特征向量,其中包含DNA序列中k-mer的出現(xiàn)次數(shù)、位置和順序關(guān)系.然后,將層次聚類算法應(yīng)用于DNA序列.研究表明[25-26],當(dāng)基于同質(zhì)性標(biāo)準(zhǔn)對(duì)數(shù)據(jù)集進(jìn)行劃分時(shí),該方法得到了較好的聚類結(jié)果.
層次生物序列聚類算法的缺點(diǎn)是在擁有龐大的序列數(shù)據(jù)時(shí),所需要的儲(chǔ)存空間大,計(jì)算復(fù)雜度高.
其他生物聚類算法,如CROP[27]算法利用等級(jí)機(jī)制將需要比對(duì)的序列劃分為若干個(gè)子集,然后基于貝葉斯理論,采用高斯混合模型對(duì)序列進(jìn)行聚類.在生物序列中,CROP算法可以推斷出最優(yōu)的聚類結(jié)果,其中高斯模型的抗噪聲能力能夠克服由于測(cè)序誤差而導(dǎo)致對(duì)序列的高估、內(nèi)存需求高及計(jì)算效率低的問(wèn)題,在一定程度上能夠較好地實(shí)現(xiàn)生物序列聚類,具有較強(qiáng)的抗噪聲能力和魯棒性.
CBE[28]是一種基于最大熵原理的聚類方法.這種方法基于數(shù)據(jù)的先驗(yàn)信息來(lái)探索數(shù)據(jù)所有可能的概率分布空間,得到熵最大的分布,當(dāng)熵值達(dá)到最大時(shí),聚類結(jié)束.先驗(yàn)信息基于以下假設(shè):根據(jù)某種統(tǒng)計(jì)方法,簇中元素彼此相似.基于此,滿足條件的那些高熵分布優(yōu)于其他分布.
coreClust[29]是一種基于檢測(cè)保守區(qū)域的非比對(duì)聚類方法.這些區(qū)域的檢測(cè)可用于功能注釋和分組蛋白質(zhì)序列的區(qū)域.coreClust基于一種名為MinHash的技術(shù),該技術(shù)是一種局部敏感哈希方法,用于識(shí)別集合中的相似元素.它主要依賴于哈希,因此該方法非常適合MapReduce并行處理平臺(tái),從而實(shí)現(xiàn)可伸縮性.
DeLUCS[33]模型使用DNA序列的頻率混沌博弈表示(frequency chaos game representations,F(xiàn)CGR),并通過(guò)優(yōu)化多個(gè)神經(jīng)網(wǎng)絡(luò)生成模擬序列的FCGRs來(lái)學(xué)習(xí)數(shù)據(jù)的模式(基因組簽名).然后使用多數(shù)投票方案來(lái)確定每個(gè)序列的最終簇分配.ALFATClust[34]利用快速成對(duì)非比對(duì)的序列距離計(jì)算和社區(qū)檢測(cè)來(lái)生成簇.ALFATClust可以通過(guò)考慮簇的分離和簇內(nèi)序列相似性來(lái)動(dòng)態(tài)確定生成每個(gè)簇的閾值,而不是對(duì)每個(gè)生成的簇應(yīng)用單個(gè)閾值.
本文提出一種基于多重解碼器的自編碼器模型,用于生物序列數(shù)據(jù)的表示學(xué)習(xí),然后使用k-means算法對(duì)序列的表示進(jìn)行聚類.將整個(gè)過(guò)程分為兩個(gè)階段:表示學(xué)習(xí)階段和聚類階段.
在進(jìn)行聚類之前,需要對(duì)生物序列進(jìn)行表示學(xué)習(xí),得到序列所對(duì)應(yīng)的表示,以便進(jìn)行后續(xù)的聚類任務(wù).本方法使用的表示學(xué)習(xí)模型如圖1所示.首先,對(duì)生物序列數(shù)據(jù)進(jìn)行k-mer劃分并統(tǒng)計(jì)k-mer的頻率,得到序列k-mer的頻率向量作為模型的輸入;其次,在自編碼器模型的基礎(chǔ)上應(yīng)用多重解碼器的形式,從多個(gè)不同的空間對(duì)特征進(jìn)行重構(gòu);最后,將序列的k-mer頻率向量輸入到模型中使用均方差損失進(jìn)行訓(xùn)練得到序列的表示.
圖1 基于多重解碼器的自編碼器模型
2.1.1 k-mer的提取和頻率向量
k-mer是一段長(zhǎng)度為k的子串,它是由序列剪切一部分得到的.k-mer的提取指的是將一條序列連續(xù)切割,按照堿基的排列順序依次劃動(dòng)得到的一系列長(zhǎng)度為k的子串.
給定生物序列集S={S1,S2,…,Si,…,SN},序列Si的長(zhǎng)度為M,在序列上通過(guò)一個(gè)長(zhǎng)度為k(2≤k≤M-1)、步長(zhǎng)為1的滑動(dòng)窗口從序列中提取長(zhǎng)度為k的子串,即k-mer.在長(zhǎng)度為M的序列中存在M-k+1個(gè)k-mer.一條具有|Σ|個(gè)字母的序列最多有|Σ|k種不同的k-mer.一條DNA序列由字母表中的字母組成,字母表Σ={A,C,G,T}且|Σ|=4.
使用單個(gè)字母的頻率作為特征表示樣本時(shí),所有的關(guān)聯(lián)信息會(huì)被丟失.k-mer頻率向量通過(guò)描繪序列局部信息將每條樣本轉(zhuǎn)化成|Σ|k維向量,從而彌補(bǔ)這一缺陷.因此,使用k-mer頻率向量來(lái)表示樣本序列.
具有|Σ|k維的k-mer頻率向量可以表示為:
Xi= [Xi1,Xi2,…,Xij,…,Xi|Σ|k]T,
(1)
其中,Xij是第i條序列中第j種k-mer出現(xiàn)的頻率,Xij可由公式(2)計(jì)算得到:
(2)
其中,Nij是在第i條序列提取的所有的k-mer中第j種k-mer出現(xiàn)的次數(shù),Ni是第i條序列中提取的所有k-mer的數(shù)量.
2.1.2 編碼器
對(duì)生物序列Si提取k-mer得到頻率向量Xi后,使用編碼器E(·)對(duì)k-mer頻率向量Xi進(jìn)行特征提取,如公式(3)所示:
Zi=E(Xi),i=1,2,…,N,
(3)
其中,Zi表示序列Si的特征向量.在本文中,使用編碼器E(·)對(duì)序列數(shù)據(jù)進(jìn)行映射,得到序列的表示.它需要與解碼器Dl(·)一起使用均方差損失進(jìn)行訓(xùn)練.訓(xùn)練完成后,不再使用解碼器的部分,而是單獨(dú)使用編碼器.由編碼器得到的表示可以用于下游任務(wù),本文中,應(yīng)用學(xué)習(xí)到的表示進(jìn)行聚類.
2.1.3 多重解碼器
與傳統(tǒng)的自編碼器模型不同,本文采用多重解碼器的形式,具有提高編碼器表征能力的優(yōu)點(diǎn).給定L個(gè)解碼器Dl(·),l=1,2,…,L,對(duì)于序列Si的特征向量Zi,使用解碼器對(duì)其進(jìn)行解碼,重構(gòu)序列Si的k-mer頻率向量Xi,如公式(4)所示:
(4)
2.1.4 學(xué)習(xí)策略
綜上所述,模型是由一個(gè)編碼器和多個(gè)解碼器組成.訓(xùn)練時(shí),分別使用多個(gè)解碼器的輸出和序列的k-mer頻率向量計(jì)算均方差損失,解碼器Dl(·)的損失函數(shù)Ll如公式(5)所示:
(5)
最后,同時(shí)最小化解碼器的均方差損失,總損失函數(shù)如公式(6)所示:
(6)
模型訓(xùn)練完畢后,使用編碼器的輸出Zi作為序列的表示進(jìn)行后續(xù)的任務(wù).
為了推測(cè)未知生物序列的功能,分析基因間進(jìn)化的先后順序關(guān)系,對(duì)生物序列進(jìn)行聚類有助于科研人員快速了解生物序列,加快推動(dòng)相應(yīng)研究的進(jìn)展.本文使用的聚類算法是k-means算法.該算法具有收斂速度快的優(yōu)點(diǎn),并且能夠達(dá)到較好的聚類效果.
k-means算法是最常用的聚類算法,主要思想是在給定k值和k個(gè)初始簇中心點(diǎn)的情況下,把每個(gè)點(diǎn)(即樣本)分到離其最近的簇中心點(diǎn)所代表的簇中,所有點(diǎn)分配完畢后,根據(jù)一個(gè)簇內(nèi)的所有點(diǎn)重新計(jì)算該簇的中心點(diǎn)(取平均值),然后再迭代進(jìn)行分配點(diǎn)和更新簇中心點(diǎn)的步驟,直至簇中心點(diǎn)的變化很小,或者達(dá)到指定的迭代次數(shù).
給定樣本的表示Z(即為編碼器的輸出),包含了n個(gè)樣本的表示Z={Z1,Z2,Z3,…,Zn},其中每個(gè)表示都具有m個(gè)維度的特征.對(duì)于k-means算法,首先需要初始化k個(gè)簇中心{C1,C2,C3,…,Ck},1 (7) 其中,Zi表示第i個(gè)對(duì)象,1≤i≤n,Cj表示第j個(gè)簇中心,1≤j≤k,Zit表示第i個(gè)對(duì)象的第t個(gè)分量,1≤t≤m,Cjt表示第j個(gè)簇中心的第t個(gè)分量. 依次比較每一個(gè)樣本到每一個(gè)簇中心的距離,將對(duì)象分配到距離最近的簇中心的簇中,得到k個(gè)簇{S1,S2,S3,…,Sk}. 聚類時(shí),目標(biāo)是最小化每個(gè)樣本到其對(duì)應(yīng)的簇中心的距離,如公式(8)所示: (8) 基于多重解碼器的自編碼器模型的生物序列聚類算法,如算法1所示. 算法1 基于多重解碼器的自編碼器模型的生物序列聚類算法輸入:生物序列集S,編碼器E(·),解碼器Dl,序列數(shù)量N,解碼器數(shù)量L輸出:生物序列的簇標(biāo)簽1:for i=1 to Ndo2: Xi=從Si中提取kmer的頻率向量3: Zi = E(Xi)4: for l=1 to L do5: ^Xli=Dl(Zi)6: end for7:end for8: 計(jì)算損失 Ltotal如公式(6)所示9: 使用隨機(jī)梯度下降法計(jì)算梯度10:更新模型參數(shù),直到收斂11:得到訓(xùn)練完畢的編碼器 E(·)12:for i=1 to N do13: Zi= E(Xi)14:end for15: 使用k-means 對(duì)序列表示集 Z進(jìn)行聚類,得到生物序列的簇標(biāo)簽 HOGENOM是一個(gè)全序列生物同源基因家族的數(shù)據(jù)庫(kù),其中包含來(lái)自真核生物、細(xì)菌和古細(xì)菌的182個(gè)完整基因組的同源基因家族.本選題使用從HOGENOM中隨機(jī)抽取的HOG100、HOG200、HOG300共3個(gè)DNA序列數(shù)據(jù)集,其對(duì)應(yīng)的序列類別數(shù)分別為100、200和300,這些DNA數(shù)據(jù)由蛋白質(zhì)生物學(xué)和化學(xué)研究所(IBCP)使用基于人口的增量學(xué)習(xí)(PBIL)進(jìn)行收集,可以從ftp:∥pbil.univlyon1.fr/pub/hogenom/release—06/獲得相關(guān)數(shù)據(jù).表1列出了這3個(gè)DNA數(shù)據(jù)集的詳細(xì)信息. 表1 DNA數(shù)據(jù)集的詳細(xì)信息 本文選擇的k-mer的k為3.編碼器的網(wǎng)絡(luò)結(jié)構(gòu)為3個(gè)全連接層,神經(jīng)元參數(shù)分別設(shè)置為128、64和16,激活函數(shù)均為relu函數(shù).解碼器D1(·)的網(wǎng)絡(luò)結(jié)構(gòu)為4個(gè)全連接層,神經(jīng)元參數(shù)分別設(shè)置為128、64、32和64,激活函數(shù)均為relu函數(shù);解碼器D2(·)的網(wǎng)絡(luò)結(jié)構(gòu)為5個(gè)全連接層,神經(jīng)元參數(shù)分別設(shè)置為128、64、56、32和64,激活函數(shù)均為relu函數(shù);解碼器D3(·)的網(wǎng)絡(luò)結(jié)構(gòu)為5個(gè)全連接層,神經(jīng)元參數(shù)分別設(shè)置為128、256、128、32和64,第一層和最后一層的激活函數(shù)為tanh函數(shù),其余均為relu函數(shù). 本文采用的評(píng)價(jià)指標(biāo)是歸一化互信息 (normalized mutual information,NMI),NMI是聚類評(píng)價(jià)指標(biāo)中的一種外部指標(biāo),用于度量聚類結(jié)果與真實(shí)標(biāo)簽之間的關(guān)系,其范圍為[0,1].當(dāng)聚類的結(jié)果越接近真實(shí)的情況,NMI的數(shù)值就越接近1.若兩者之間相互獨(dú)立,那么NMI就為0.NMI的定義如公式(9)所示: (9) 其中,I表示互信息(mutual information),H為熵. (10) 其中,P(wk)、P(cj)、P(wk∩cj)可以分別看作樣本屬于聚類簇wk,屬于類別cj,同時(shí)屬于兩者的概率.第二個(gè)等價(jià)式子則是由概率的極大似然估計(jì)推導(dǎo)而來(lái). (11) 表2 聚類結(jié)果的比較 從試驗(yàn)的結(jié)果可以看出,本文提出的方法在HOG100數(shù)據(jù)集上具有競(jìng)爭(zhēng)性,在其他2個(gè)數(shù)據(jù)集上性能優(yōu)于另外2個(gè)方法.隨著數(shù)據(jù)集類別數(shù)量的增加,本方法的表現(xiàn)更加穩(wěn)定,其他2種方法的性能反而出現(xiàn)下滑的趨勢(shì),說(shuō)明本方法在種類數(shù)量大的序列數(shù)據(jù)集中一樣適用. 本文提出了一種基于多重解碼器的自編碼器模型的聚類方法.在自編碼器的基礎(chǔ)上進(jìn)行了改造,增加了解碼器的數(shù)量,從不同的空間對(duì)輸入數(shù)據(jù)進(jìn)行了重構(gòu),從而加強(qiáng)了模型進(jìn)行表示學(xué)習(xí)的能力;接著使用模型中編碼器的輸出作為k-means的輸入來(lái)進(jìn)行聚類.試驗(yàn)表明本方法獲得了良好的聚類效果,而且在當(dāng)前數(shù)據(jù)集下隨著數(shù)據(jù)集的類別數(shù)量的增加,本方法的性能將趨于穩(wěn)定. 未來(lái)會(huì)進(jìn)一步針對(duì)解碼器研究適用于不同任務(wù)的學(xué)習(xí)策略,繼續(xù)提高編碼器的表征能力,使得學(xué)習(xí)到的嵌入根據(jù)學(xué)習(xí)策略的不同能夠滿足一個(gè)或多個(gè)下游任務(wù)的需求.3 數(shù)據(jù)試驗(yàn)
3.1 數(shù)據(jù)集
3.2 參數(shù)設(shè)置
3.3 評(píng)價(jià)指標(biāo)
3.4 試驗(yàn)結(jié)果
4 結(jié)論