国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

域間F-范數正則化遷移譜聚類方法*

2018-03-12 08:39魏彩娜錢鵬江
計算機與生活 2018年3期
關鍵詞:源域范數聚類

魏彩娜,錢鵬江,奚 臣

江南大學 數字媒體技術學院,江蘇 無錫 214122

1 引言

聚類分析是機器學習、模式識別等領域的主要課題之一,致力于將一組未標記的數據樣本按照它們內在本質上的親疏程度劃分到多個組(group)中,且同一組內樣本間的相似程度應足夠大,不同組間的相似程度應足夠小[1-3]。然而現實中往往遇到由于信號干擾或環(huán)境噪聲等因素的影響,使得采集的數據樣本受到很大程度污染,不能理想反映數據內在的分布特征的情況,此時,傳統(tǒng)聚類分析算法的聚類性能常常面臨很大挑戰(zhàn)。

針對上述挑戰(zhàn),近年來機器學習領域出現了遷移學習研究熱潮[4-7]。遷移學習可以很好地解決數據受干擾或噪聲影響時聚類效果差的問題,當前在聚類、分類問題中引入遷移學習機制已引起了學者們的廣泛研究。Zhao等人將遷移學習運用到在線任務上[4];Yang等人提出應用于圖像聚類的異構遷移學習方法[5];Dai等人提出自學習無監(jiān)督遷移聚類算法(selftaught clustering,STC),在大量的輔助未標記數據的幫助下對目標未標注數據進行聚類[6];Jiang等人提出遷移譜聚類算法(transfer spectral clustering,TSC),主要利用協(xié)同聚類來實現和控制任務之間的知識轉移[7];Qian等人提出的兩種基于多樣性測量和知識遷移的跨域軟分區(qū)聚類算法TI-KT-CM(type-I knowledgetransfer-oriented C-means)和TII-KT-CM(type-II knowledge-transfer-oriented C-means),主要解決數據不充分或由于大量的噪音干擾帶來異常值的問題[8]。

譜聚類方法作為聚類方法的一個研究分支,以圖論為理論基礎,利用數據樣本間的相似度矩陣構建(廣義)特征系統(tǒng),再基于此特征系統(tǒng)的特征矩陣進行K-means或譜擾動聚類[9]。其本質是將聚類問題轉化為圖論中的無向加權圖的最優(yōu)分割問題。與現有的其他典型的聚類分析方法(如K-means[10]和模糊C均值[11])相比,譜聚類具有(近似)全局最優(yōu)解,且同時適用于凸形和非凸形數據集[9]。

本文以譜聚類為基礎,利用遷移學習機制,提出域間F-范數正則化遷移譜聚類算法(transfer spectral clustering based on inter-domain F-norm regularization,TSC-IDFR)。TSC-IDFR的主旨是利用源域的歷史譜聚類知識,即部分歷史特征向量來輔助目標域的譜聚類過程。為此本文基于K近鄰(Knearest neighbor)策略[12]為目標域每一數據樣本從源域挑選一可用來遷移歷史聚類知識的歷史樣本,利用這些歷史數據樣本的歷史特征向量組成歷史特征矩陣,結合F-范數正則化機制[13]構造目標域最優(yōu)譜聚類目標函數完成聚類。本文算法具有三大特點:

(1)通過遷移歷史特征矩陣,TSC-IDFR實現了對歷史知識的有效學習和利用,很大程度上提高了目標算法在受干擾或噪聲影響的目標數據集上的聚類效果。

(2)TSC-IDFR從源域遷移的是歷史特征矩陣這一高級歷史知識,而非原始數據樣本,這在一定程度上可以滿足源域隱私保護的要求。

(3)通過第K近鄰點策略和為F-范數正則化項引入正則化系數λ(λ≥0),結合有效的聚類有效性驗證指標,TSC-IDFR可以較靈活地決定關于源域歷史知識的借鑒程度,最終服務于目標域的譜聚類過程。

2 相關工作

2.1 譜聚類算法

譜聚類是模式識別中聚類學習的重要技術之一[14-17],是一種基于圖論的聚類算法,它可以聚類并收斂于任意形狀樣本空間的全局最優(yōu)解,且能夠同時適用于凸形和非凸形的數據集。

給定樣本空間X={xi|xi∈Rd,i=1,2,…,N},d表示數據集的維度,N表示數據集樣本容量。G=(V,E,W)表示無向加權圖,其中數據集X中的每個數據對應于圖G中的一個頂點V,每兩個頂點vi、vj的連線構成邊集合E,每條邊上的兩個頂點相似度wij作為邊的權重,所有邊的權重構成了相似度矩陣W。兩個頂點間的相似度wij由采用的親和度函數計算而得,如高斯徑向基函數:

L=稱為拉普拉斯矩陣(Laplacian matrix),其中D稱為度矩陣(degree matrix)且有D=diag(d11,

譜聚類的最優(yōu)化模型可以表示為:

其中,tr()表示矩陣的跡;U是由拉普拉斯矩陣L特征分解后的前k個特征向量歸一化以后組成的特征矩陣;k對應聚類的類別數。

歸一化譜聚類算法(normalized spectral clustering)的具體執(zhí)行步驟如下:

步驟1根據式(1)計算相似度矩陣W,進而計算度矩陣D和拉普拉斯矩陣L;

步驟2通過對L的特征分解得到前k個特征向量,對每一行進行歸一化操作得到特征矩陣U;

步驟3通過k-means聚類或譜擾動[9]算法對特征矩陣U的每一行進行聚類。

2.2 遷移學習

遷移學習引起了廣泛的關注和研究,它是運用已有的知識對不同但相關的領域問題進行求解的一種機器學習方法的統(tǒng)稱。遷移學習也稱知識遷移,是從歷史場景(稱作源域)獲取有益信息(數據或知識),用于指導現有場景(稱作目標域)的數據分析過程。遷移學習的目標是將從一個環(huán)境中學到的知識用來幫助新環(huán)境中的學習任務,即目標域上的新的學習處理過程。關于遷移學習的整體介紹可參見文獻[18-23]。

遷移學習場景中,源域和目標域的數據分布規(guī)律通常表象不同但內在存在一定聯系。鑒于此特點,目標域如何有效地從源域發(fā)現有用的可借鑒知識,并如何適度地借鑒學習此知識是知識遷移的關鍵問題之一。

3 基于域間F-范數正則化遷移的譜聚類算法

為了解決受噪聲或干擾信息影響的目標域數據集的有效聚類問題,本文引入遷移學習機制,在F-范數正則化的基礎上構建了遷移譜聚類算法TSC-IDFR。

介紹TSC-IDFR算法之前,首先介紹譜聚類方法中什么知識可以用來進行源域到目標域的知識遷移。如第2.1節(jié)所介紹,譜聚類最終將進行基于拉普拉斯矩陣L的特征分解操作,得到由前k個特征向量(對應于前k個最小的特征值)構成的特征矩陣。也就是說譜聚類可以理解為將數據信息從原數據集X(N×d)變換成特征矩陣U(N×k),如圖1所示。

Fig.1 Transformation from data setXto eigenvector matrixUin spectral clustering圖1 譜聚類中原數據集X與特征矩陣U的轉換

譜聚類中這種從原數據集X到特征矩陣U的轉換過程給了人們很大的啟示。認為U可被視作一種源域中的高級知識,是對源域數據分布規(guī)律的一種高級知識表示形式,且這種知識表示可被目標域的聚類過程借鑒學習。這正是本文最大的研究創(chuàng)新。如此,可以從兩方面受益:

(1)從源域獲得一種可用于目標域知識借鑒的高級知識表示機制;

(2)基于特征矩陣進行知識遷移而非源域數據樣本本身,這可滿足數據隱私保護環(huán)境下的遷移學習過程。

接著分析如何從源域獲取適用的特征矩陣用于目標域的知識借鑒學習。這里需要強調一點:本文重點關注一個經典的遷移學習場景,即目標域數據樣本由于受到一定程度的環(huán)境噪聲或干擾信息的影響,以至于數據樣本本身并不能準確反映潛在的數據分布真相的場景。在此場景下,為目標域的任意數據樣本從源域找到適宜的可從其借鑒知識的參照樣本是本文需要首先解決的問題(假設源域的數據量遠大于目標域的數據量)。為此,本文提出第K近鄰機制:對于目標域中的任意樣本,從源域找距離它第K個最近的樣本作為它的可參照樣本(注意,這里不是選前K個最近的樣本,而是僅第K個最近樣本,即前面K-1個最近樣本都不被采用)。通過這種機制,本文旨在提出一種源域與目標域之間的較具有靈活性的知識借鑒機制(本文K的最佳取值將通過網格尋優(yōu)策略決定)。這樣,基于目標域的N個數據樣本可從源域找出由相應N個樣本構成的歷史被參照樣本子集,這些歷史被參照樣本在源域特征矩陣中的相應行就構成了最終用以目標域知識借鑒的特征子矩陣(記作U(O))。

基于上述思想,在經典譜聚類的最優(yōu)化架構上融入對源域知識的借鑒學習項,參考文獻[24-28]本文提出TSC-IDFR的最優(yōu)化目標表達式。

根據遷移學習理論,源域數據(歷史被參照數據)與目標域數據(當前待處理數據)應具有一定程度的相似性。本文用D(U(C),U(O))來度量目標域數據上的譜聚類知識和源域數據上的譜聚類知識之間的不相似程度,其中U(C)和U(O)分別表示目標域數據和源域數據的特征矩陣。為定義D(U(C),U(O)),本文引入線性核函數和F-范數的相關知識。用符號KU(C)和分別表示目標域特征矩陣U(C)和源域特征矩陣U(O)對應的相似度矩陣(由線性核函數計算而得),||*||F表示相似度矩陣的F范數。這樣本文D(U(C),U(O))可以定義為:

由于采用線性核函數,將得到兩個性質:

式(4)等號右邊的式子等于F范數的平方,對于n×m矩陣A,其F范數為:

設B、C均為n矩陣,矩陣的跡具有以下性質:

為了找到目標域數據上的譜聚類知識和源域數據上的譜聚類知識之間的不相似程度,按照F范數和矩陣跡的性質和公式,式(4)改變?yōu)椋?/p>

經過以上公式最終得到:

本文希望最小化不相似度D(U(C),U(O)),即最大化tr(U(C)U(C)TU(O)U(O)T)。這樣省略常數項因子,基于譜聚類目標函數,可以提出TSC-IDFR的最優(yōu)化目標函數:

其中,tr(U(C)TL(C)U(C))是原譜聚類最優(yōu)化項;U(O)U(O)T)是基于F-范數的知識遷移正則化項;λ(λ≥0)是遷移正則化項的系數。

適當合并處理后式(9)可寫成:目標表達式中的L(C)+λU(O)U(O)T等同于經典譜聚類里面的拉普拉斯矩陣L,區(qū)別在于前者加入了供目標域知識借鑒的特征子矩陣的相關信息。這里將歷史信息以特征矩陣的形式給出,通過調整正則化系數λ的值來調整目標域關于源域知識的遷移學習程度,成功地將歷史相關知識融入到目標函數中實現了遷移譜聚類的思想。

TSC-IDFR算法的整體設計思想如圖2所示。

Fig.2 Design idea of TSC-IDFR圖2 TSC-IDFR算法設計架構

TSC-IDFR算法的具體執(zhí)行步驟為:

階段1數據處理階段

步驟1輸入目標域數據集和源域數據集,根據第K最近鄰策略為目標域任一樣本從源域數據集挑選出一可參照數據樣本,如此獲得目標域在源域的可參照數據子集。

階段2遷移譜聚類算法階段

步驟2輸入相似度參數σ,經由式(1)分別計算出目標域數據和源域的可參照數據子集上的拉普拉斯矩陣L(C)和L(O)L(O);

步驟3對L(O)進行特征分解,取前k個最小特征值對應的特征向量,并對每一行進行歸一化操作得到特征矩陣U(O);

步驟4根據式(10),輸入正則化系數λ,新的譜聚類的拉普拉斯矩陣等于L(C)+λU(O)U(O)T;

步驟5對步驟4得到的新拉普拉斯矩陣做特征分解,最后通過k-means聚類算法或譜擾動方法對特征矩陣的每一行進行聚類;

步驟6輸出聚類實驗結果。

4 實驗研究

為驗證本文提出的TSC-IDFR算法的聚類有效性,以下將基于一組模擬數據集和5個真實數據集進行實驗。本文除了與經典譜聚類算法(spectral clustering,SC)對比,還將在對比實驗中加入現有的幾種典型的相關算法進行比較評價,包括共享學習子空間的多任務聚類算法(learning the shared subspace for multi-task clustering,LSSMTC)[29]、自學習聚類算法(STC)[6]、遷移譜聚類算法(TSC)[7]和兩種基于分歧度度量知識遷移的跨域軟劃分聚類算法(TI-KT-CM/TII-KT-CM)[8]。需要說明的是,TSC算法要求數據維度大于聚類的類目數,因此對于不滿足該條件的數據集,以“—”表示無法獲得其上的聚類結果。本實驗采用歸一化互信息(normalized mutual information,NMI[30])和芮氏指標(rand index,RI[31])兩種外部評價指標對實驗結果進行評價。兩種評價指標的取值范圍均為[0,1],值越大表明算法的聚類性能越好。

本文算法涉及對徑向基參數σ、正則化系數λ和第K近鄰機制中的參數K的取值問題,為此本文采用了廣為熟知的網格搜索法來進行參數遍歷尋優(yōu)。表1給出了本文TSC-IDFR算法關于徑向基參數σ和正則化系數λ在各個數據集上的推薦尋優(yōu)區(qū)間;第K近鄰參數K的值則從1到7在各個數據集上遍歷獲得。其他幾種被比較算法均采用原文獻推薦的參數區(qū)間設置。實驗結果統(tǒng)計中NMI-meanNMI-std(RI-meanRI-std)分別表示在最優(yōu)參數下運行10次后NMI的均值與方差(RI的均值與方差)。

Table 1 Recommended parameter settings to TSC-IDFR表1 TSC-IDFR算法推薦參數尋優(yōu)區(qū)間

實驗環(huán)境:i3 3.7 GHz CPU,12 GB RAM(根據自己電腦實際修改),Matlab R2014a等。

4.1 模擬數據集實驗與結果分析

鑒于遷移學習的場景是源域和目標域數據分布通常表象不同但存在內在關聯性,為此本文特設計滿足此特點的兩種模擬遷移數據場景如下。

(1)月牙型遷移數據場景L1-M1。構造如圖3(a)、(b)所示的二維月牙型數據集L1和M1。其中L1不含噪聲,2類分布清晰共含1 210個數據點;M1則較明顯不同于L1的數據分布,即所含2類形狀與L1明顯不同且類間部分重疊相交(模擬受噪聲干擾場景),且共有460個數據點。

(2)簇狀遷移數據場景L2-M2。構造如圖3(c)、(d)所示的二維人造簇狀數據集。首先采用高斯概率分布函數生成4類共1 200個數據點的源域數據集L2(每類300個點),其中4類滿足如下分布規(guī)律:第一類均值m=[10 8],方差s=[8 0;0 8];第二類均值m=[25 10],方差s=[14 0;0 16];第三類均值m=[40 18],方差s=[20 0;0 20];第四類均值m=[-1 8],方差s=[12 0;0 12]。類似地采用高斯概率分布函數生成目標域數據集M2,它包含3類共600個數據點(每類200個點)。這3類滿足如下分布:第一類均值m=[10 20],方差s=[10 0;0 10];第二類均值m=[15 10],方差s=[12 0;0 14];第 3 類均值m=[20 25],方差s=[15 0;0 15]。這三類彼此部分重疊,用于模擬受噪聲干擾目標域類簇較難區(qū)分的場景。

本實驗的目的是檢驗遷移聚類算法是否能通過來自源域的知識借鑒以有效提升其在目標域數據集(受到較大程度噪聲影響)上的聚類有效性。這里L1-M1場景屬于遷移學習中任務相同(都要求劃分出2類)但數據域不同(源域和目標域數據分布明顯不同)的情形;L2-M2場景則屬于任務和數據域均不相同的遷移學習場景,因為源域和目標域不僅數據分布不同,所含類簇數也不同。

Fig.3 Artificial transfer data scenarios圖3 人造遷移數據場景

注意:TSC算法要求數據維度大于聚類的類目數,這里的模擬數據集顯然不滿足該條件,因此本文模擬數據集上的實驗未使用TSC算法。

表2給出了各算法在L1-M1和L2-M2遷移數據場景下的最終聚類性能情況?;诒?可以給出如下實驗結果分析。

(1)從源域是L1目標域是M1組成的遷移場景L1-M1可以看出,在如圖3(b)所示的非凸形目標數據集上,基于譜聚類的TSC-IDFR、SC和STC算法的性能明顯優(yōu)于LSSMTC、TI-KT-CM和TII-KT-CM算法。這是因為譜聚類可以適應任意形狀(凸形或非凸形)數據集且擁有全局(近似)最優(yōu)解。TI-KT-CM和TII-KT-CM雖然也屬于時興知識遷移聚類算法,但對于非凸形數據集聚類效果不佳。就TSC-IDFR、SC和STC三者而言,基于歷史譜聚類知識遷移的TSC-IFR算法明顯優(yōu)于SC和STC算法。原因有二:一方面是TSC-IDFR學習的是歷史特征矩陣這一高級歷史譜聚類知識,而非來自源域的原始數據樣本,這使其具備了避免由于參照數據選擇不當而造成負遷移的能力,從而實現在目標數據集上的相對有效聚類;另一方面通過靈活調整正則化系數λ的值,在源域與目標域數據分布區(qū)別明顯的情況下,TSC-IDFR仍然實現了對源域歷史譜聚類知識的較合理利用,從而在目標域聚類中獲益。

(2)從源域是L2目標域是M2組成的遷移場景L2-M2可以看出,TSC-IDFR、STC、TI-KT-CM和TIIKT-CM算法的聚類性能都優(yōu)于LSSMTC算法。這是因為LSSMTC算法是一種多任務聚類算法。其目的是同時完成多個聚類任務且任務之間會有一些交互信息。由于源域與目標域間數據分布的差異,導致源域聚類任務和目標域聚類任務之間的交互有效性降低,從而得不到理想的雙贏結果。遷移聚類算法TSC-IDFR、STC、TI-KT-CM和TII-KT-CM在此遷移場景中均可獲得來自源域的有用信息來提高其在目標域中的聚類有效性。

(3)較之經典譜聚類SC算法,TSC-IDFR的實際性能提升取決于其從源域獲取的知識對其在目標域上聚類的實際指導價值??傮w而言,目標域與源域相似度越大,從源域獲取的知識對目標域的指導價值就越大。比如L1-M1場景較之L2-M2場景源域跟目標域更相似,因此較之SC,TSC-IDFR算法在M1數據集上獲得了約11%的聚類性能提升,而在M2上僅4%左右。

4.2 真實數據集實驗及結果分析

為了進一步驗證本文算法的有效性,選擇了5個真實數據源用于構造遷移學習場景。

(1)來自新聞文本數據庫20NG(http://www.cs.nyu.edu/?roweis/data.html)的rec VS talk數據集。本文從原數據庫選擇其中rec和talk兩個大類涉及的相關子類的數據記錄構成該遷移學習數據集,其中源域數據由rec.autos和talk.politics.guns的1 500條數據組成,目標域由rec.sports.baseball和talk.politics.mideast的500條記錄構成。

(2)來自電子郵件垃圾郵件過濾資源庫的ESF數據庫(http://www.ecmlpkdd2006.org/challenge.html)。其中源域數據來自公共可用消息資源的4 000條記錄,目標域則來自用戶1的私人消息資源共2 500條記錄。

Table 2 Clustering results of each algorithm in simulated data sets表2 模擬數據集的各算法聚類結果

(3)來自UCI的人類活動時間序列(human motion time series,HMTS)數據集(http://archive.ics.uci.edu/ml/datasets/)。該數據集的原始數據由每個志愿者進行各類日?;顒訒r,包括爬樓梯、坐下、走路等,其佩戴在手腕的3個傳感器記錄的3條時間序列組成。本文首先經3到6層的Haar離散小波變換處理將每一原始時間序列統(tǒng)一降維到17維,接著把每個志愿者的3條17維的新序列拼接為統(tǒng)一的51維特征向量[8]。本文將女性志愿者的共494條記錄用作源域,男性志愿者的共312條記錄構成目標域數據。

(4)來自人臉數據庫的ORL數據集(http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html)。本文選擇其中8個不同人的各10幅人臉圖像用以構成實驗圖像。把每人的任意8幅圖像放入源域,剩余的2幅圖像放入目標域。為了使源域與目標域數據差異盡可能大,對源域每幅人臉分別按10°和20°進行正時針繞轉,對目標域圖像則按10°和20°進行反時針繞轉,由此形成實驗用的所有人臉圖像。對每一圖像的像素灰度特征用PCA方法降維后獲得最終239維的ORL數據集。

(5)來自Brodatz紋理數據庫(http://www.ee.oulu.fi/research/imag/texture/image_data/Brodatz32.html)的TIS數據集。本文從中選擇了3種不同紋理用以分別構造源域和目標域紋理圖像。如圖4(a)為源域紋理圖像(無噪聲),圖4(b)為目標域圖像(與源域分布不同且受到一定程度的噪聲干擾)。通過Gabor濾波方法提取紋理特征構成了最終數據集TIS。

Fig.4 Texture images of TIS data sets圖4 TIS數據集涉及的紋理圖像

上述5個真實遷移數據場景的源域和目標域數據記錄數、數據維度及所含類別數情況詳見表3。表4給出了各算法在這些數據集上的聚類結果。此外,為了驗證本文TSC-IDFR算法關于參數的魯棒性,也評估了TSC-IDFR算法中的3個參數,第K近鄰機制參數K、正則化系數λ和徑向基函數參數σ,對其實際性能的具體影響情況。如圖5~圖7所示,以其中4個數據集為例示意了TSC-IDFR關于核心算法參數的性能變化情景。

Table 3 Characteristics of real-world transfer data sets表3 真實遷移數據集數據特征

通過觀察表4及圖5~圖7,可以得到如下結論:

(1)無論是高維數據(如ORL和rec VS talk)還是較低維情景(如TIS),TSC-IDFR算法的聚類性能都優(yōu)于其他算法。這是因為TSC-IDFR算法通過第K近鄰點策略為目標數據集找到適宜的可從其借鑒知識的參照樣本,通過遷移歷史特征矩陣,實現了對歷史知識的有效學習和利用。具體說就是通過第K近鄰點策略和F-范數正則化系數λ的調節(jié),TSC-IDFR算法可以較靈活地決定關于源域歷史知識的借鑒程度,最終服務于目標域的譜聚類過程。此外,TSCIDFR遷移的是歷史特征矩陣,這還可以滿足源域隱私保護的特定需求。這些結論與在人造數據場景中所得結論是一致的。

(2)TII-KT-CM算法的實際性能始終優(yōu)于TI-KTCM算法,這是因為TI-KT-CM僅依賴于源域歷史類中心這一高級知識,而TII-KT-CM同時借鑒了源域歷史類中心和關于歷史類中心的模糊隸屬度知識,即TII-KT-CM具有更強的歷史知識借鑒學習能力,因此總體上比TI-KT-CM更有效。而在這些數據集上本文TSC-IDFR算法更優(yōu)于TII-KT-CM算法,這進一步佐證了本文同時結合遷移學習、譜聚類和F范數正則化等機制提出的遷移譜聚類方法的有效性。

Table 4 Clustering results of all algorithms on real-world data sets表4 真實數據集的各算法聚類結果

Fig.5 Relationships between parameterKand clustering performance in TSC-IDFR圖5 TSC-IDFR算法性能與參數K關系曲線

Fig.6 Relationships between parameterλand clustering performance in TSC-IDFR圖6 TSC-IDFR算法性能與參數λ關系曲線

Fig.7 Relationships between parameterσand clustering performance in TSC-IDFR圖7 TSC-IDFR算法性能與參數σ關系曲線

(3)圖5示意了參數K對TSC-IDFR算法的性能影響情況。結合給定的聚類有效性指標,可以為每個數據集找到一個最優(yōu)K值。圖6、圖7示意了參數λ和σ對TSC-IDFR算法的聚類性能影響情況,總體上看,取最佳參數設置時,TSC-IDFR算法對正則化參數λ相對穩(wěn)定,對高斯徑向基窗寬參數σ相對敏感,但在合適區(qū)間范圍內,其聚類性能總體上波動不大。

5 結束語

為了解決受噪聲或干擾信息影響的目標域數據集的有效聚類問題,本文引入遷移學習機制,在F-范數正則化的基礎上構建了遷移譜聚類算法TSC-IDFR。通過遷移歷史特征矩陣,TSC-IDFR實現了對歷史知識的有效學習和利用,很大程度上提高了目標算法在受干擾或噪聲影響的目標數據集上的聚類效果。本文在人造數據集和真實數據集聚類中較充分地驗證了TSC-IDFR算法的有效性。關于該研究的進一步工作:一是將此算法進一步應用到某些領域,如面向大尺度醫(yī)學圖像的有效分割問題。二是在此算法基礎上加入半監(jiān)督知識,如加入成對約束信息等,以更好地解決數據缺失等問題。

[1]Tzortzis G,Likas A,Tzortzis G.The MinMaxk-means clustering algorithm[J].Pattern Recognition,2014,47(7):2505-2516.

[2]Deng Zhaohong,Zhang Jiangbin,Jiang Yizhang,et al.Fuzzy subspace clustering based zero-order L2-norm TSK fuzzy system[J].Journal of Electronics&Information Technology,2015,37(9):2082-2088.

[3]Jiang Yizhang,Deng Zhaohong,Wang Jun,et al.Transfer generalized fuzzy C-means clustering algorithm with improved fuzzy partitions by leveraging knowledge[J].Pattern Recognition andArtificial Intelligence,2013,26(10):975-984.

[4]Zhao Peilin,Hoi S C H,Wang Jialei,et al.Online transfer learning[J].Artificial Intelligence,2014,216:76-102.

[5]Yang Qiang,Chen Yuqiang,Xue Guirong,et al.Heterogeneous transfer learning for image clustering via the socialweb[C]//Proceedings of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the AFNLP,Singapore,Aug 2-7,2009.Stroudsburg:ACL,2009:1-9.

[6]Dai Wenyuan,Yang Qiang,Xue Guirong,et al.Self-taught clustering[C]//Proceedings of the 25th International Conference on Machine Learning,Helsinki,Jun 5-9,2008.New York:ACM,2008:200-207.

[7]Jiang Wenhao,Chung F L.Transfer spectral clustering[C]//LNCS 7524:Proceedings of the 2012 European Conference on Machine Learning and Knowledge Discovery in Databases,Bristol,Sep 24-28,2012.Berlin,Heidelberg:Springer,2012:789-803.

[8]Qian Pengjiang,Sun Shouwei,Jiang Yizhang,et al.Crossdomain,soft-partition clustering with diversity measure and knowledge reference[J].Pattern Recognition,2016,50:155-177.

[9]Qian Pengjiang,Jiang Yizhang,Wang Shitong,et al.Affinity and penalty jointly constrained spectral clustering with allcompatibility,flexibility,and robustness[J].IEEE Transactions on Neural Networks and Learning Systems,2016,28(5):1123-1138.

[10]Kanungo T,Mount D M,Netanyahu N S,et al.An efficientk-means clustering algorithm:analysis and implementation[J].IEEE Transactions on PatternAnalysis and Machine Intelligence,2002,24(7):881-892.

[11]Zhu Lin,Chung F L,Wang Shitong.Generalized fuzzy C-means clustering algorithm with improved fuzzy partitions[J].IEEE Transactions on Systems,Man and Cybernetics:Part B Cybernetics,2009,39(3):578-591.

[12]Samadpour M M,Parvin H,Rad F.Diminishing prototype size fork-nearest neighbors classification[C]//Proceedings of the 14th Mexican International Conference on Artificial Intelligence,Cuernavaca,Oct 25-31,2015.Washington:IEEE Computer Society,2015:139-144.

[13]Fang Jianbin,Chen Zhengxu.An approximation method of positive semi-definite matrix based on weighted F-norm[J].Statistics&Information Forum,2007,22(2):44-48.

[14]Kamvar S D,Klein D,Manning C D.Spectral learning[C]//Proceedings of the 18th International Joint Conference on Artificial Intelligence,Acapulco,Aug 9-15,2003.San Francisco:Morgan Kaufmann Publishers Inc,2003:561-566.

[15]Fan R K C.Spectral graph theory[M]//Conference Board of the Mathematical Sciences Regional Conference Series in Mathematics.Providence:American Mathematical Society,1997:149-180.

[16]Zhou Dengyong,Burges C J C.Spectral clustering and transductive learning with multiple views[C]//Proceedings of the 24th International Conference on Machine Learning,Corvallis,Jun 20-24,2007.New York:ACM,2007:1159-1166.

[17]Luxburg U V.A tutorial on spectral clustering[J].Statistics and Computing,2007,17(4):395-416.

[18]Ling Xiao,Dai Wenyuan,Xue Guirong,et al.Spectral domaintransfer learning[C]//Proceedings of the 14th International Conference on Knowledge Discovery and Data Mining,Las Vegas,Aug 24-27,2008.New York:ACM,2008:488-496.

[19]Weiss K,Khoshgoftaar T M,Wang Dingding.A survey of transfer learning[J].Journal of Big Data,2016,3(1):9.

[20]Pan S J,Yang Qiang.A survey on transfer learning[J].IEEE Transactions on Knowledge and Data Engineering,2010,22(10):1345-1359.

[21]Saha B,Gupta S K,Phung D Q,et al.Multiple task transfer learning with small sample sizes[J].Knowledge and Information Systems,2016,46(2):315-342.

[22]Liu Zhen,Yang Junan,Liu Hui,et al.Transfer learning by fuzzy neighborhood density-based clustering and re-sampling[C]//Proceedings of the 2015 International Conference on Computer Science and Applications,Wuhan,Nov 20-22,2015.Washington:IEEE Computer Society,2015:232-236.

[23]Zhuang Fuzhen,Luo Ping,He Qing,et al.Survey on transfer learning research[J].Journal of Software,2015,26(1):26-39.

[24]Kumar A,Rai P,Daumé H.Co-regularized multi-view spectral clustering[C]//Proceedings of the 2011 International Conference on Neural Information Processing Systems,Granada,Dec 12-14,2011:1413-1421.

[25]Huang Likun,Lu Jiwen,Tan Y P.Co-learned multi-view spectral clustering for face recognition based on image sets[J].IEEE Signal Processing Letters,2014,21(7):875-879.

[26]Sun Shouwei,Qian Pengjiang,Chen Aiguo,et al.Clustercenter-distance maximization clustering with knowledge transfer[J].Computer Engineering and Applications,2016,52(16):149-155.

[27]Chen Aiguo,Wang Shitong.Knowledge transfer clustering algorithm with privacy protection[J].Journal of Electronics&Information Technology,2016,38(3):523-531.

[28]Qian Pengjiang,Sun Shouwei,Jiang Yizhang,et al.Knowledge transfer based maximum entropy clustering[J].Control and Decision,2015,30(6):1000-1006.

[29]Gu Quanquan,Zhou Jie.Learning the shared subspace for multi-task clustering and transductive transfer classification[C]//Proceedings of the 9th IEEE International Conference on Data Mining,Miami,Dec 6-9,2009.Washington:IEEE Computer Society,2009:159-168.

[30]Jing Liping,Ng M K,Huang J Z.An entropy weightingkmeans algorithm for subspace clustering of high-dimensional sparse data[J].IEEE Transactions on Knowledge and Data Engineering,2007,19(8):1026-1041.

[31]Liu Jun,Mohammed J,Carter J,et al.Distance-based clustering of CGH data[J].Bioinformatics,2006,22(16):1971-1978.

附中文參考文獻:

[2]鄧趙紅,張江濱,蔣亦樟,等.基于模糊子空間聚類的〇階L2型TSK模糊系統(tǒng)[J].電子與信息學報,2015,37(9):2082-2088.

[3]蔣亦樟,鄧趙紅,王駿,等.基于知識利用的遷移學習一般化增強模糊劃分聚類算法[J].模式識別與人工智能,2013,26(10):975-984.

[13]方建斌,陳正旭.一種基于加權F-范數的半正定矩陣的逼近方法[J].統(tǒng)計與信息論壇,2007,22(2):44-48.

[23]莊福振,羅平,何清,等.遷移學習研究進展[J].軟件學報,2015,26(1):26-39.

[26]孫壽偉,錢鵬江,陳愛國,等.具備遷移能力的類中心距離極大化聚類算法[J].計算機工程與應用,2016,52(16):149-155.

[27]陳愛國,王士同.具有隱私保護功能的知識遷移聚類算法[J].電子與信息學報,2016,38(3):523-531.

[28]錢鵬江,孫壽偉,蔣亦樟,等.知識遷移極大熵聚類算法[J].控制與決策,2015,30(6):1000-1006.

猜你喜歡
源域范數聚類
基于同倫l0范數最小化重建的三維動態(tài)磁共振成像
基于參數字典的多源域自適應學習算法
向量范數與矩陣范數的相容性研究
數種基于SPSS統(tǒng)計工具的聚類算法效率對比
面向WSN的聚類頭選舉與維護協(xié)議的研究綜述
改進K均值聚類算法
基于加權核范數與范數的魯棒主成分分析
從映射理論視角分析《麥田里的守望者》的成長主題
基于Spark平臺的K-means聚類算法改進及并行化實現