基于多重解碼器的自編碼器模型的生物序列聚類方法

2022-11-15 14:11陳城，林劼

福建師范大學(xué)學(xué)報(bào)（自然科學(xué)版） 2022年6期

陳城，林劼

(福建師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院，福建福州 350117)

生物測(cè)序技術(shù)的發(fā)展產(chǎn)生大量的生物序列數(shù)據(jù)，對(duì)序列進(jìn)行聚類分析，把功能相近的序列聚為一類，可以幫助科研人員快速了解生物序列的功能，為后續(xù)的研究奠定堅(jiān)實(shí)的基礎(chǔ).聚類在生物信息學(xué)中并不是一個(gè)新話題.基因表達(dá)數(shù)據(jù)的分析常對(duì)微陣列數(shù)據(jù)進(jìn)行聚類，并認(rèn)為在同一個(gè)簇中的基因具有相同的功能.學(xué)者們提出了幾種先進(jìn)的微陣列聚類算法[1]，包括層次聚類[2]和集成聚類[3].為了避免微陣列數(shù)據(jù)中的噪聲，雙聚類[4]的方法應(yīng)運(yùn)而生，它能夠同時(shí)進(jìn)行特征選擇和樣本選擇.單細(xì)胞測(cè)序數(shù)據(jù)的工作原理類似于基因表達(dá)數(shù)據(jù)，根據(jù)不同的細(xì)胞類型[5-6]對(duì)不同的基因表達(dá)進(jìn)行聚類.然而，這些方法關(guān)注的是基因表達(dá)數(shù)據(jù)，而不是生物序列數(shù)據(jù).

生物序列聚類是聚類算法在生物學(xué)中的應(yīng)用，使用的數(shù)據(jù)為：核酸序列(如DNA、RNA序列)或氨基酸序列(如蛋白質(zhì)序列).其中，核酸序列由4種堿基組成：A(腺嘌呤)、G(鳥嘌呤)、C(胞嘧啶)、T(胸腺嘧啶)/U(尿嘧啶)，蛋白質(zhì)序列則是由20種氨基酸排列組合而成.序列聚類需要將序列轉(zhuǎn)化為數(shù)值向量.雖然有一些工具可以將DNA/RNA/蛋白質(zhì)序列轉(zhuǎn)化為數(shù)值向量[7-10]，但對(duì)序列進(jìn)行表示學(xué)習(xí)仍然是聚類過(guò)程中重要的一步.生物序列聚類研究構(gòu)建衡量序列間的相似性或差異性的數(shù)學(xué)模型，旨在根據(jù)統(tǒng)計(jì)結(jié)果將序列劃分為幾個(gè)簇，同一簇中的序列具有相似的功能，這樣可以由已知序列的功能推測(cè)未知序列的功能[11].

生物序列聚類有利于分析序列潛在的結(jié)構(gòu)、功能等信息，進(jìn)一步推演序列在進(jìn)化過(guò)程中發(fā)生的先后關(guān)系[12].迄今為止，學(xué)者們已經(jīng)提出眾多優(yōu)秀的聚類算法，但是由于領(lǐng)域的差異、解釋性差等問(wèn)題，不能直接應(yīng)用在生物序列聚類上.目前，生物序列聚類的困難之處在于生物序列數(shù)據(jù)的特征難以正確提取，數(shù)據(jù)量大，計(jì)算復(fù)雜度高，內(nèi)存需求高，不能保證一定能夠找到最優(yōu)解且很難從生物學(xué)角度進(jìn)行結(jié)果解釋等.

本文提出一種基于多重解碼器的自編碼器模型，用于學(xué)習(xí)生物序列數(shù)據(jù)的表示，然后使用 k-means算法對(duì)序列的表示進(jìn)行聚類. 試驗(yàn)結(jié)果驗(yàn)證本文提出的方法在 DNA 序列數(shù)據(jù)集上具有良好的性能.

1 相關(guān)工作

根據(jù)聚類方法的不同，生物序列上的聚類研究大致可分為：?jiǎn)l(fā)式生物聚類算法、層次生物聚類算法和其他生物聚類算法.

1.1 啟發(fā)式生物聚類算法

基于啟發(fā)式的生物聚類算法采用一種簡(jiǎn)單貪婪策略，始于一個(gè)種子(seed)，基于一定的搜索技術(shù)，合并、擴(kuò)張，完成序列的聚類過(guò)程.其代表性算法為FastGroup[13]、CD-HIT[14]、UCLUST[15]等.

2001年，Seguritan首次提出一種基于啟發(fā)式的生物序列聚類算法FastGroup.該算法主要有3個(gè)步驟：首先將數(shù)據(jù)集中的所有序列相互比較；然后將相似的序列分組；最后從每組中輸出一個(gè)代表序列.CD-HIT使用貪婪的增量聚類算法，該算法通過(guò)短詞過(guò)濾策略和并行化技術(shù)得到提高，有效地對(duì)大規(guī)模序列數(shù)據(jù)集進(jìn)行聚類.短詞過(guò)濾策略的整體思想為：若序列與代表序列的相似性低于預(yù)先設(shè)置的閾值，則該序列不進(jìn)行序列比對(duì).該策略可以使算法的運(yùn)行速度加快，其復(fù)雜度為O(N)，N為序列數(shù)量.

USEARCH算法在進(jìn)行比對(duì)時(shí)會(huì)在所有相似度達(dá)到閾值的序列中尋找合適的比對(duì)位點(diǎn)，基于這個(gè)特點(diǎn)，UCLUST提出一種改進(jìn)方法，僅需要尋找一個(gè)或幾個(gè)合適的比對(duì)位點(diǎn)，減少了比對(duì)位點(diǎn)的搜索數(shù)量，提高了序列比對(duì)速度.與CD-HIT相比，這種方法的運(yùn)算速度快、內(nèi)存需求低，且靈敏度較高.

Ghodsi等[16]提出了新的詞過(guò)濾方法DNACLUST，避免了序列間的兩兩比對(duì)，是一種貪婪算法.該算法在精確模型下的運(yùn)算速度優(yōu)于CD-HIT與UCLUST，但在近似模型下的運(yùn)算速度與UCLUST差不多.SEED[17]則使用開(kāi)放哈希技術(shù)和一種特殊類型的稱為塊間隔的種子將輸入序列聚類.

UPARSE[18]是來(lái)自USEARCH的最新從頭聚類方法，它通過(guò)質(zhì)量過(guò)濾算法過(guò)濾read，將其修整為固定長(zhǎng)度.該方法使用UPARSE-OTU進(jìn)行聚類，這是一種新的貪婪算法，可同時(shí)執(zhí)行嵌合過(guò)濾和OTU聚類.由于質(zhì)量過(guò)濾算法的嚴(yán)格，生物物種豐富度和多樣性會(huì)被顯著低估，最后產(chǎn)生的生物學(xué)結(jié)果存在較多錯(cuò)誤.大規(guī)模過(guò)濾序列能夠減少運(yùn)行時(shí)間，但是過(guò)濾參數(shù)需要針對(duì)數(shù)據(jù)的不同進(jìn)行改變，且不能自動(dòng)對(duì)過(guò)濾參數(shù)進(jìn)行選擇，需要多次試驗(yàn)后人為進(jìn)行選擇，而這個(gè)過(guò)程的時(shí)間成本可能很高.

在進(jìn)行聚類的過(guò)程中，啟發(fā)式算法不需要計(jì)算距離矩陣，因此降低了存儲(chǔ)空間的需求和計(jì)算復(fù)雜度.缺點(diǎn)是不能保證一定能夠找到最優(yōu)解.

1.2 層次生物聚類算法

基于層次的生物序列聚類算法通過(guò)序列比對(duì)，根據(jù)一定的相似性或距離度量方式獲得距離矩陣，再采用貪婪層次聚類算法完成生物序列聚類，是目前最常用的生物序列聚類方法，其代表性算法為DOTUR[19]、Mothur[20]、ESPRIT[21]、mBKM[22]等.

2005年，Schloss提出一種無(wú)種子(seed)的生物序列聚類算法DOTUR.DOTUR使用序列之間的遺傳距離將序列分配給OTU.它通過(guò)使用最遠(yuǎn)、平均或最近鄰居算法為OTU分配序列，并估計(jì)一個(gè)簇的豐富性和多樣性.

在DOTUR的基礎(chǔ)上，Schloss又開(kāi)發(fā)了Mothur.Mothur被用于修剪、篩選和排列序列，計(jì)算距離，將序列分配給OTU，Alpha和Beta多樣性計(jì)算，序列比對(duì)，序列聚類注釋.距離矩陣對(duì)于Mothur聚集OTUs很重要.矩陣可以反映每個(gè)序列與其他序列的相似性或距離.計(jì)算矩陣和聚類具有較高的時(shí)間復(fù)雜度.基于此，Mothur不適合處理大數(shù)據(jù)集[23].該算法存在假陽(yáng)性率高、噪音信號(hào)強(qiáng)等缺點(diǎn)，且很難從生物學(xué)角度進(jìn)行結(jié)果解釋.

Sun采用ESPRIT算法對(duì)生物序列進(jìn)行聚類劃分.該算法由4個(gè)模塊組成：(1)使用各種標(biāo)準(zhǔn)去除低質(zhì)量read；(2)計(jì)算read的成對(duì)距離；(3)將read分組到不同差異水平的OTU中;(4)執(zhí)行統(tǒng)計(jì)推斷來(lái)估計(jì)物種豐富度.該算法使用了Needleman-Wunsch雙序列比對(duì)算法，以k-mers的形式過(guò)濾無(wú)需比對(duì)的序列，利用在線學(xué)習(xí)開(kāi)發(fā)了一種名為Hduster的方法進(jìn)行層次聚類，在一定程度上降低了計(jì)算機(jī)的內(nèi)存需求，但計(jì)算復(fù)雜度為O(N2)，當(dāng)N較大時(shí)，算法的時(shí)間成本高.

Cai[24]基于ESPRIT算法提出了一種新的在線學(xué)習(xí)的算法ESPRIT-Tree.基本思想是使用偽度量構(gòu)造分區(qū)樹，利用分區(qū)樹將序列空間劃分為一組子空間，然后遞歸地細(xì)化這些子空間中的簇結(jié)構(gòu).該技術(shù)依賴于快速最近對(duì)搜索和一種動(dòng)態(tài)插入和刪除樹結(jié)點(diǎn)的方法.為了避免窮舉計(jì)算簇之間的成對(duì)距離，該方法將序列的每個(gè)簇表示為概率序列，并進(jìn)行一系列操作來(lái)比對(duì)這些概率序列并計(jì)算它們之間的遺傳距離.ESPRIT-Tree是啟發(fā)式生物序列聚類算法的一種，該算法同時(shí)解決了計(jì)算復(fù)雜度高和計(jì)算機(jī)內(nèi)存需求多的問(wèn)題，其計(jì)算復(fù)雜度幾乎與生物序列數(shù)目呈線性關(guān)系.

mBKM是一種基于新的距離度量DMk的非比對(duì)算法，用于聚類基因序列.該方法將DNA序列轉(zhuǎn)化為特征向量，其中包含DNA序列中k-mer的出現(xiàn)次數(shù)、位置和順序關(guān)系.然后，將層次聚類算法應(yīng)用于DNA序列.研究表明[25-26]，當(dāng)基于同質(zhì)性標(biāo)準(zhǔn)對(duì)數(shù)據(jù)集進(jìn)行劃分時(shí)，該方法得到了較好的聚類結(jié)果.

層次生物序列聚類算法的缺點(diǎn)是在擁有龐大的序列數(shù)據(jù)時(shí)，所需要的儲(chǔ)存空間大，計(jì)算復(fù)雜度高.

1.3 其他生物聚類算法

其他生物聚類算法，如CROP[27]算法利用等級(jí)機(jī)制將需要比對(duì)的序列劃分為若干個(gè)子集，然后基于貝葉斯理論，采用高斯混合模型對(duì)序列進(jìn)行聚類.在生物序列中，CROP算法可以推斷出最優(yōu)的聚類結(jié)果，其中高斯模型的抗噪聲能力能夠克服由于測(cè)序誤差而導(dǎo)致對(duì)序列的高估、內(nèi)存需求高及計(jì)算效率低的問(wèn)題，在一定程度上能夠較好地實(shí)現(xiàn)生物序列聚類，具有較強(qiáng)的抗噪聲能力和魯棒性.

CBE[28]是一種基于最大熵原理的聚類方法.這種方法基于數(shù)據(jù)的先驗(yàn)信息來(lái)探索數(shù)據(jù)所有可能的概率分布空間，得到熵最大的分布，當(dāng)熵值達(dá)到最大時(shí)，聚類結(jié)束.先驗(yàn)信息基于以下假設(shè)：根據(jù)某種統(tǒng)計(jì)方法，簇中元素彼此相似.基于此，滿足條件的那些高熵分布優(yōu)于其他分布.

coreClust[29]是一種基于檢測(cè)保守區(qū)域的非比對(duì)聚類方法.這些區(qū)域的檢測(cè)可用于功能注釋和分組蛋白質(zhì)序列的區(qū)域.coreClust基于一種名為MinHash的技術(shù)，該技術(shù)是一種局部敏感哈希方法，用于識(shí)別集合中的相似元素.它主要依賴于哈希，因此該方法非常適合MapReduce并行處理平臺(tái)，從而實(shí)現(xiàn)可伸縮性.

DeLUCS[33]模型使用DNA序列的頻率混沌博弈表示(frequency chaos game representations，F(xiàn)CGR)，并通過(guò)優(yōu)化多個(gè)神經(jīng)網(wǎng)絡(luò)生成模擬序列的FCGRs來(lái)學(xué)習(xí)數(shù)據(jù)的模式(基因組簽名).然后使用多數(shù)投票方案來(lái)確定每個(gè)序列的最終簇分配.ALFATClust[34]利用快速成對(duì)非比對(duì)的序列距離計(jì)算和社區(qū)檢測(cè)來(lái)生成簇.ALFATClust可以通過(guò)考慮簇的分離和簇內(nèi)序列相似性來(lái)動(dòng)態(tài)確定生成每個(gè)簇的閾值，而不是對(duì)每個(gè)生成的簇應(yīng)用單個(gè)閾值.

2 方法

本文提出一種基于多重解碼器的自編碼器模型，用于生物序列數(shù)據(jù)的表示學(xué)習(xí)，然后使用k-means算法對(duì)序列的表示進(jìn)行聚類.將整個(gè)過(guò)程分為兩個(gè)階段：表示學(xué)習(xí)階段和聚類階段.

2.1 表示學(xué)習(xí)

在進(jìn)行聚類之前，需要對(duì)生物序列進(jìn)行表示學(xué)習(xí)，得到序列所對(duì)應(yīng)的表示，以便進(jìn)行后續(xù)的聚類任務(wù).本方法使用的表示學(xué)習(xí)模型如圖1所示.首先，對(duì)生物序列數(shù)據(jù)進(jìn)行k-mer劃分并統(tǒng)計(jì)k-mer的頻率，得到序列k-mer的頻率向量作為模型的輸入；其次，在自編碼器模型的基礎(chǔ)上應(yīng)用多重解碼器的形式，從多個(gè)不同的空間對(duì)特征進(jìn)行重構(gòu)；最后，將序列的k-mer頻率向量輸入到模型中使用均方差損失進(jìn)行訓(xùn)練得到序列的表示.

圖1 基于多重解碼器的自編碼器模型

2.1.1 k-mer的提取和頻率向量

k-mer是一段長(zhǎng)度為k的子串，它是由序列剪切一部分得到的.k-mer的提取指的是將一條序列連續(xù)切割，按照堿基的排列順序依次劃動(dòng)得到的一系列長(zhǎng)度為k的子串.

給定生物序列集S={S1，S2，…，Si，…，SN}，序列Si的長(zhǎng)度為M，在序列上通過(guò)一個(gè)長(zhǎng)度為k(2≤k≤M-1)、步長(zhǎng)為1的滑動(dòng)窗口從序列中提取長(zhǎng)度為k的子串，即k-mer.在長(zhǎng)度為M的序列中存在M-k+1個(gè)k-mer.一條具有|Σ|個(gè)字母的序列最多有|Σ|k種不同的k-mer.一條DNA序列由字母表中的字母組成，字母表Σ={A，C，G，T}且|Σ|=4.

使用單個(gè)字母的頻率作為特征表示樣本時(shí)，所有的關(guān)聯(lián)信息會(huì)被丟失.k-mer頻率向量通過(guò)描繪序列局部信息將每條樣本轉(zhuǎn)化成|Σ|k維向量，從而彌補(bǔ)這一缺陷.因此，使用k-mer頻率向量來(lái)表示樣本序列.

具有|Σ|k維的k-mer頻率向量可以表示為：

Xi= [Xi1，Xi2，…，Xij，…，Xi|Σ|k]T,

(1)

其中，Xij是第i條序列中第j種k-mer出現(xiàn)的頻率，Xij可由公式(2)計(jì)算得到：

(2)

其中，Nij是在第i條序列提取的所有的k-mer中第j種k-mer出現(xiàn)的次數(shù)，Ni是第i條序列中提取的所有k-mer的數(shù)量.

2.1.2 編碼器

對(duì)生物序列Si提取k-mer得到頻率向量Xi后，使用編碼器E(·)對(duì)k-mer頻率向量Xi進(jìn)行特征提取，如公式(3)所示：

Zi=E(Xi)，i=1，2，…，N,

(3)

其中，Zi表示序列Si的特征向量.在本文中，使用編碼器E(·)對(duì)序列數(shù)據(jù)進(jìn)行映射，得到序列的表示.它需要與解碼器Dl(·)一起使用均方差損失進(jìn)行訓(xùn)練.訓(xùn)練完成后，不再使用解碼器的部分，而是單獨(dú)使用編碼器.由編碼器得到的表示可以用于下游任務(wù)，本文中，應(yīng)用學(xué)習(xí)到的表示進(jìn)行聚類.

2.1.3 多重解碼器

與傳統(tǒng)的自編碼器模型不同，本文采用多重解碼器的形式，具有提高編碼器表征能力的優(yōu)點(diǎn).給定L個(gè)解碼器Dl(·)，l=1，2，…，L，對(duì)于序列Si的特征向量Zi，使用解碼器對(duì)其進(jìn)行解碼，重構(gòu)序列Si的k-mer頻率向量Xi，如公式(4)所示：

(4)

2.1.4 學(xué)習(xí)策略

綜上所述，模型是由一個(gè)編碼器和多個(gè)解碼器組成.訓(xùn)練時(shí)，分別使用多個(gè)解碼器的輸出和序列的k-mer頻率向量計(jì)算均方差損失，解碼器Dl(·)的損失函數(shù)Ll如公式(5)所示：

(5)

最后，同時(shí)最小化解碼器的均方差損失，總損失函數(shù)如公式(6)所示：

(6)

模型訓(xùn)練完畢后，使用編碼器的輸出Zi作為序列的表示進(jìn)行后續(xù)的任務(wù).

2.2 聚類

為了推測(cè)未知生物序列的功能，分析基因間進(jìn)化的先后順序關(guān)系，對(duì)生物序列進(jìn)行聚類有助于科研人員快速了解生物序列，加快推動(dòng)相應(yīng)研究的進(jìn)展.本文使用的聚類算法是k-means算法.該算法具有收斂速度快的優(yōu)點(diǎn)，并且能夠達(dá)到較好的聚類效果.

k-means算法是最常用的聚類算法，主要思想是在給定k值和k個(gè)初始簇中心點(diǎn)的情況下，把每個(gè)點(diǎn)(即樣本)分到離其最近的簇中心點(diǎn)所代表的簇中，所有點(diǎn)分配完畢后，根據(jù)一個(gè)簇內(nèi)的所有點(diǎn)重新計(jì)算該簇的中心點(diǎn)(取平均值)，然后再迭代進(jìn)行分配點(diǎn)和更新簇中心點(diǎn)的步驟，直至簇中心點(diǎn)的變化很小，或者達(dá)到指定的迭代次數(shù).

給定樣本的表示Z(即為編碼器的輸出)，包含了n個(gè)樣本的表示Z={Z1，Z2，Z3，…，Zn}，其中每個(gè)表示都具有m個(gè)維度的特征.對(duì)于k-means算法，首先需要初始化k個(gè)簇中心{C1，C2，C3，…，Ck}，1

(7)

其中，Zi表示第i個(gè)對(duì)象，1≤i≤n，Cj表示第j個(gè)簇中心，1≤j≤k，Zit表示第i個(gè)對(duì)象的第t個(gè)分量，1≤t≤m，Cjt表示第j個(gè)簇中心的第t個(gè)分量.

依次比較每一個(gè)樣本到每一個(gè)簇中心的距離，將對(duì)象分配到距離最近的簇中心的簇中，得到k個(gè)簇{S1，S2，S3，…，Sk}.

聚類時(shí)，目標(biāo)是最小化每個(gè)樣本到其對(duì)應(yīng)的簇中心的距離，如公式(8)所示：

(8)

基于多重解碼器的自編碼器模型的生物序列聚類算法，如算法1所示.

算法1 基于多重解碼器的自編碼器模型的生物序列聚類算法輸入:生物序列集S,編碼器E(·),解碼器Dl,序列數(shù)量N,解碼器數(shù)量L輸出:生物序列的簇標(biāo)簽1:for i=1 to Ndo2: Xi=從Si中提取kmer的頻率向量3: Zi = E(Xi)4: for l=1 to L do5: ^Xli=Dl(Zi)6: end for7:end for8: 計(jì)算損失 Ltotal如公式(6)所示9: 使用隨機(jī)梯度下降法計(jì)算梯度10:更新模型參數(shù),直到收斂11:得到訓(xùn)練完畢的編碼器 E(·)12:for i=1 to N do13: Zi= E(Xi)14:end for15: 使用k-means 對(duì)序列表示集 Z進(jìn)行聚類,得到生物序列的簇標(biāo)簽

3 數(shù)據(jù)試驗(yàn)

3.1 數(shù)據(jù)集

HOGENOM是一個(gè)全序列生物同源基因家族的數(shù)據(jù)庫(kù)，其中包含來(lái)自真核生物、細(xì)菌和古細(xì)菌的182個(gè)完整基因組的同源基因家族.本選題使用從HOGENOM中隨機(jī)抽取的HOG100、HOG200、HOG300共3個(gè)DNA序列數(shù)據(jù)集，其對(duì)應(yīng)的序列類別數(shù)分別為100、200和300，這些DNA數(shù)據(jù)由蛋白質(zhì)生物學(xué)和化學(xué)研究所(IBCP)使用基于人口的增量學(xué)習(xí)(PBIL)進(jìn)行收集，可以從ftp:∥pbil.univlyon1.fr/pub/hogenom/release—06/獲得相關(guān)數(shù)據(jù).表1列出了這3個(gè)DNA數(shù)據(jù)集的詳細(xì)信息.

表1 DNA數(shù)據(jù)集的詳細(xì)信息

3.2 參數(shù)設(shè)置

本文選擇的k-mer的k為3.編碼器的網(wǎng)絡(luò)結(jié)構(gòu)為3個(gè)全連接層，神經(jīng)元參數(shù)分別設(shè)置為128、64和16，激活函數(shù)均為relu函數(shù).解碼器D1(·)的網(wǎng)絡(luò)結(jié)構(gòu)為4個(gè)全連接層，神經(jīng)元參數(shù)分別設(shè)置為128、64、32和64，激活函數(shù)均為relu函數(shù)；解碼器D2(·)的網(wǎng)絡(luò)結(jié)構(gòu)為5個(gè)全連接層，神經(jīng)元參數(shù)分別設(shè)置為128、64、56、32和64，激活函數(shù)均為relu函數(shù)；解碼器D3(·)的網(wǎng)絡(luò)結(jié)構(gòu)為5個(gè)全連接層，神經(jīng)元參數(shù)分別設(shè)置為128、256、128、32和64，第一層和最后一層的激活函數(shù)為tanh函數(shù)，其余均為relu函數(shù).

3.3 評(píng)價(jià)指標(biāo)

本文采用的評(píng)價(jià)指標(biāo)是歸一化互信息 (normalized mutual information，NMI)，NMI是聚類評(píng)價(jià)指標(biāo)中的一種外部指標(biāo)，用于度量聚類結(jié)果與真實(shí)標(biāo)簽之間的關(guān)系，其范圍為[0，1].當(dāng)聚類的結(jié)果越接近真實(shí)的情況，NMI的數(shù)值就越接近1.若兩者之間相互獨(dú)立，那么NMI就為0.NMI的定義如公式(9)所示：

(9)

其中，I表示互信息(mutual information)，H為熵.

(10)

其中，P(wk)、P(cj)、P(wk∩cj)可以分別看作樣本屬于聚類簇wk，屬于類別cj，同時(shí)屬于兩者的概率.第二個(gè)等價(jià)式子則是由概率的極大似然估計(jì)推導(dǎo)而來(lái).

(11)

3.4 試驗(yàn)結(jié)果

表2 聚類結(jié)果的比較

從試驗(yàn)的結(jié)果可以看出，本文提出的方法在HOG100數(shù)據(jù)集上具有競(jìng)爭(zhēng)性，在其他2個(gè)數(shù)據(jù)集上性能優(yōu)于另外2個(gè)方法.隨著數(shù)據(jù)集類別數(shù)量的增加，本方法的表現(xiàn)更加穩(wěn)定，其他2種方法的性能反而出現(xiàn)下滑的趨勢(shì)，說(shuō)明本方法在種類數(shù)量大的序列數(shù)據(jù)集中一樣適用.

4 結(jié)論

本文提出了一種基于多重解碼器的自編碼器模型的聚類方法.在自編碼器的基礎(chǔ)上進(jìn)行了改造，增加了解碼器的數(shù)量，從不同的空間對(duì)輸入數(shù)據(jù)進(jìn)行了重構(gòu)，從而加強(qiáng)了模型進(jìn)行表示學(xué)習(xí)的能力；接著使用模型中編碼器的輸出作為k-means的輸入來(lái)進(jìn)行聚類.試驗(yàn)表明本方法獲得了良好的聚類效果，而且在當(dāng)前數(shù)據(jù)集下隨著數(shù)據(jù)集的類別數(shù)量的增加，本方法的性能將趨于穩(wěn)定.

未來(lái)會(huì)進(jìn)一步針對(duì)解碼器研究適用于不同任務(wù)的學(xué)習(xí)策略，繼續(xù)提高編碼器的表征能力，使得學(xué)習(xí)到的嵌入根據(jù)學(xué)習(xí)策略的不同能夠滿足一個(gè)或多個(gè)下游任務(wù)的需求.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡