杜 芬,王 彬,薛 潔,龍雨涵,劉 輝,熊 新
1(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500)2(云南警官學(xué)院 信息網(wǎng)絡(luò)安全學(xué)院,昆明 650223)
隨著人機(jī)交互和圖像識(shí)別技術(shù)在生活中的廣泛應(yīng)用,數(shù)字手寫體的識(shí)別問題得到了越來越深入的研究.由于不同文化、不同個(gè)體有不同的書寫習(xí)慣,即便是同一個(gè)人,由于書寫環(huán)境、書寫方式等外界因素的不同,都可能導(dǎo)致書寫結(jié)果的不一致,這使得每個(gè)手寫體數(shù)字所呈現(xiàn)的特征是多種多樣的.圖1是從MNIST數(shù)字手寫體數(shù)據(jù)庫中選取的手寫體數(shù)字樣本,可以看出雖然相同數(shù)字的主要特征相同,但不同數(shù)字手寫體樣本即便是代表相同數(shù)字,在外形上可能還是存在較大的差異,這類與標(biāo)準(zhǔn)數(shù)字寫法相差較大的手寫體數(shù)字樣本我們稱之為奇異樣本,奇異樣本的識(shí)別是手寫體數(shù)字識(shí)別中的難點(diǎn)問題.
為了得到更好的識(shí)別效果,近年來很多學(xué)者采用機(jī)器學(xué)習(xí)的方法對(duì)數(shù)字手寫體識(shí)別問題展開了深入研究,2012年Ciregan D等人將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的方法應(yīng)用于美國郵政服務(wù)提供的手寫郵政編碼數(shù)字的識(shí)別[1].2013年Dan Z和Xu C提出用反向傳播(BackPropagation,BP)神經(jīng)網(wǎng)絡(luò)的方法對(duì)手寫體數(shù)字進(jìn)行特征提取[2]. 2015年J Schmidhuber提出結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)和支持向量機(jī)(Support Vector Machine,SVM)[3]的混合模型在MNIST數(shù)字?jǐn)?shù)據(jù)庫中進(jìn)行手寫體識(shí)別[4].周菲菲等采用改進(jìn)的方向特征提取方法與BP神經(jīng)網(wǎng)絡(luò)分類器相結(jié)合,提高了數(shù)字手寫體的識(shí)別率,同時(shí)降低了拒識(shí)率[5].許潔等構(gòu)建了一種基于稀疏保持典型相關(guān)分析的特征提取算法,在融合信息的同時(shí)還可以過濾冗余信息,提高了手寫體的識(shí)別精度[6].采用支持向量機(jī)、BP算法、卷積神經(jīng)網(wǎng)絡(luò)等方法展開的手寫體數(shù)字識(shí)別,其主要思想是通過構(gòu)建機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練樣本數(shù)據(jù),學(xué)習(xí)更有用的特征,從而提高手寫體數(shù)字預(yù)測(cè)的準(zhǔn)確性.盡管以上研究通過對(duì)超大量樣本取得了較高的識(shí)別率,但由于奇異樣本在主要特征上的差異,使得此類樣本成為了影響樣本識(shí)別率的主要因素,因此本文專門針對(duì)提高這類奇異樣本的識(shí)別問題展開了研究.
由于上述數(shù)字手寫體奇異樣本的特征與常規(guī)數(shù)字手寫體的樣本差別較大,且時(shí)間復(fù)雜度高,因此使用機(jī)器學(xué)習(xí)方法難以準(zhǔn)確的預(yù)測(cè),因此本文擬采用降維的方法提取其主要特征并直接映射到二維空間內(nèi),通過分類完成數(shù)字手寫體的識(shí)別.目前主流的線性高維降維方法如局部線性嵌入(Locally Linear Embedding,LLE)[7,8]、主成成分分析(Principal Component Analysis,PCA)[9,10]等已被應(yīng)用于數(shù)字手寫體的識(shí)別中,1997年Hinton G E等人用PCA方法對(duì)手寫數(shù)字圖像流形的建模方法進(jìn)行研究[11];2006年Chang H和Yeung D Y對(duì)手寫體數(shù)字提出了魯棒局部線性嵌入(RLLE)的方法[12,13];2015年P(guān)han N H和Bui T T T提出了一種使用PCA、小波變換和神經(jīng)網(wǎng)絡(luò)組合的手寫字符識(shí)別算法[14].相對(duì)于線性降維算法,非線性降維方法能更好地發(fā)掘隱藏在高維數(shù)據(jù)中的流形分布[15],其中t 分布隨機(jī)領(lǐng)域嵌入算法( t-distributed tochastic neighbor embedding,t-SNE)[16]是由G Hinton于2008年根據(jù)2002年Hinton和Rowei所提出的SNE算法[17]進(jìn)行改進(jìn)并提出的新算法,并應(yīng)用于數(shù)字手寫體問題中.
圖1 不同人書寫的手寫體數(shù)字0-9Fig.1 Handwritten numerals 0-9 written by different people
t-SNE算法是用高斯核函數(shù)計(jì)算高維聯(lián)合概率,得到高維相似度距離,通過t-分布核函數(shù)定義低維空間內(nèi)嵌入樣本的相似度,并用梯度下降法的方法進(jìn)行KL散度( kullback- leibler divergence,KL)的尋優(yōu)計(jì)算,從而找到原高維空間和嵌入低維空間內(nèi)盡可能相近的聯(lián)合概率分布.由于高維空間內(nèi)變量間的復(fù)雜非線性關(guān)系,這種單純使用歐式距離來衡量樣本相似性的方法并不能如實(shí)反映樣本在高維空間真實(shí)的分布情況.為了使樣本的主要特征能更好地保留下來,降低高維空間的信息在降維后的損失,可以對(duì)歐式距離進(jìn)行分組加權(quán)處理.2013年Singha J等人對(duì)印度語言識(shí)別使用特征值進(jìn)行加權(quán)歐幾里德距離分類進(jìn)行研究[18];2014年Liu H C等人使用模糊混合加權(quán)歐氏距離進(jìn)行失效模式和效應(yīng)的分析[19];2017年詹威威等人提出了自適應(yīng)加權(quán)t-SNE算法應(yīng)用在腦網(wǎng)絡(luò)狀態(tài)觀測(cè)矩陣降維中[20].
文中以提高數(shù)字手寫體中的奇異樣本識(shí)別率為主要目標(biāo),提出了一種分組加權(quán)歐式距離的t-SNE算法,該算法通過分析手寫體數(shù)字在高維空間中分布緊密關(guān)系的不同,將其分組加權(quán),并構(gòu)建新的高斯核函數(shù)計(jì)算其高維聯(lián)合概率以及高維條件相似度距離,從而得到新的低維映射關(guān)系.基于MNIST公開測(cè)試數(shù)據(jù)庫中奇異樣本的實(shí)驗(yàn)結(jié)果顯示,本文算法比t-SNE算法獲得了更好的聚類效果,且查全率(Recall Rate)平均可提高4%,查準(zhǔn)率(Precision)平均可提高3.3%,為奇異樣本手寫體數(shù)字的識(shí)別問題提供了一種新的解決方案.
t-SNE算法是將高維空間中樣本對(duì)之間的歐氏距離轉(zhuǎn)化為高維聯(lián)合條件概率,同時(shí)計(jì)算低維空間內(nèi)樣本對(duì)的聯(lián)合概率,并用KL散度構(gòu)建目標(biāo)函數(shù),通過梯度下降法求取低維表達(dá)最優(yōu)解.
在傳統(tǒng)的t-SNE算法中,歐式距離表征兩個(gè)空間向量之間的累積差異,并沒有考慮對(duì)應(yīng)單個(gè)元素之間差異的影響.如果直接將歐式距離用于特征向量之間的相似性度量,其度量精度存在較大的誤差,因?yàn)樗雎粤颂卣飨蛄恐袑?duì)應(yīng)數(shù)字手寫體元素之間相似性的影響[21].本文擬采用一種分組加權(quán)的t-SNE(Grouped Weighted t-SNE,GW t-SNE)改進(jìn)算法,該算法首先計(jì)算奇異樣本在高維空間內(nèi)的歐式距離,然后根據(jù)數(shù)據(jù)在高維中距離的不同遠(yuǎn)近關(guān)系進(jìn)行分組,不同的分組采用不同的加權(quán)系數(shù),使距離近的更近,遠(yuǎn)的更遠(yuǎn),不近不遠(yuǎn)的保持不變.根據(jù)上述加權(quán)策略后,得到新的高維相似度距離度量方法并計(jì)算高維聯(lián)合概率,再計(jì)算其低維聯(lián)合概率,通過梯度下降的方法得到最小化的KL散度,并將其映射在二維空間內(nèi).
圖2 Fig.2
該算法的原理如圖2所示,其中圖2(a)為t-SNE的相似度計(jì)算方法,無論樣本之間相似程度多高,都是采用相同的歐式距離度量方法,該原理并不能反映出高維空間中樣本分布的遠(yuǎn)近特征和相似關(guān)系的不同.而采用分組加權(quán)t-SNE算法的原理圖見圖2(b),由于對(duì)不同的歐式距離樣本對(duì)采用了不同的加權(quán)處理,使得在高維空間內(nèi)距離較近的樣本對(duì)的相似程度變得更高,距離較遠(yuǎn)的樣本對(duì)的相似程度變得更低,而不近不遠(yuǎn)距離內(nèi)的樣本對(duì)相似程度保持不變,這使得其特征更加分明.
本文算法首先計(jì)算出xi、xj在高維空間中的歐氏距離d(xi,xj),并對(duì)這個(gè)歐式距離進(jìn)行歸一化處理,根據(jù)其距離分布特征進(jìn)行分組,按照不同的距離特征進(jìn)行合適的權(quán)重選取,進(jìn)行加權(quán),從而得到加權(quán)歐氏距離 d*(xi,xj).在使用分組加權(quán)t-SNE算法降維時(shí),將加權(quán)歐氏距離替換歐氏距離,計(jì)算xi、xj在高維空間中的聯(lián)合概率pij;得到y(tǒng)i、yj的低維空間聯(lián)合概率qij;并用KL散度構(gòu)建目標(biāo)函數(shù),通過梯度下降法求取數(shù)字手寫體的低維表達(dá)最優(yōu)解.
傳統(tǒng)的歐氏距離計(jì)算表達(dá)式為:
(1)
在加權(quán)t-SNE算法中,通過高維目標(biāo)函數(shù)的輸入,可以得到其高斯核函數(shù)d(xi,xj),它為兩特征向量數(shù)據(jù)xi和xj之間的距離,即為歐氏距離.想進(jìn)行加權(quán),則先對(duì)高維樣本空間的歐氏距離做歸一化處理,得到矩陣m:
(2)
當(dāng)dij=dmin時(shí),m取最小值為0;當(dāng)dij=dmax時(shí),m取最大值為1.由式(1) 可以知道,加權(quán)的歐氏距離可以表示為:
(3)
其中,α表示每個(gè)距離分類的權(quán)重.
本文目前研究中將距離分為三類,近距離,較近距離和遠(yuǎn)距離,并對(duì)其進(jìn)行加權(quán),使得近距離越近,遠(yuǎn)距離越遠(yuǎn),中間距離不變,從而得到加權(quán)距離d*=α·d.此時(shí)樣本高維相似性條件概率pi|j和pj|i變?yōu)椋?/p>
(4)
其中,δi是以數(shù)字手寫體數(shù)據(jù)點(diǎn)xi為中心的高斯函數(shù)的矢量方差.
高維聯(lián)合概率pij為:
(5)
低維映射聯(lián)合概率為qij:
(6)
該方法最終優(yōu)化目標(biāo)定義為:通過最小化高維樣本相似度P和低維樣本相似度Q之間的KL散度得到最優(yōu)結(jié)果.梯度下降的求導(dǎo)如公式(7)、公式(8)所示:
(7)
(8)
分組加權(quán)t-SNE算法流程圖見圖3,先設(shè)置總迭代次數(shù)M,另當(dāng)前迭代次數(shù)為m,輸入N個(gè)1*784的手寫體數(shù)字樣本向量,按上文步驟完成映射并將結(jié)果輸出到低維空間內(nèi).
分組加權(quán)t-SNE算法運(yùn)用加權(quán)歐氏距離來計(jì)算樣本之間的相似度,可以反映出不同樣本在高維空間內(nèi)分布的遠(yuǎn)近程度,對(duì)高維降維數(shù)據(jù)中更好地保留其重要特征能起到更好地效果,由此使得高維相似度高的同類數(shù)據(jù)距離更近,相似度低的不同類數(shù)據(jù)距離更遠(yuǎn),可以使低維空間的映射結(jié)果更加如實(shí)地反應(yīng)在高維空間內(nèi)的相似程度.
圖3 分組加權(quán)t-SNE算法的流程圖Fig.3 Flow chart of GW t-SNE algorithm
根據(jù)MNIST手寫體庫,選擇n個(gè)特征特異難以識(shí)別的手寫體數(shù)字圖片組成實(shí)驗(yàn)樣本庫,每一個(gè)圖片是28*28大小的bmp圖片,將其轉(zhuǎn)換為n*784的高維矩陣,并將這些灰度圖進(jìn)行二值化處理,最終形成由0和1構(gòu)成的n*784的矩陣,這就是要進(jìn)行降維的高維數(shù)據(jù),具體過程如圖4所示.
圖4 手寫體數(shù)字奇異樣本庫的構(gòu)建方法Fig.4 Construction method of handwritten digital singular sample library
首先,對(duì)選擇的手寫體樣本使用t-SNE算法進(jìn)行降維及可視化,圖5為2500個(gè)奇異樣本數(shù)據(jù)經(jīng)過t-SNE算法進(jìn)行降維并映射到二維坐標(biāo)的降維結(jié)果,從圖中可以看出相對(duì)于其它數(shù)字,由于數(shù)字4和數(shù)字9的外形相似,因此在映射過程中出現(xiàn)了較多的重合,數(shù)字3、5、8的分布也較為緊密,這給手寫字?jǐn)?shù)字的識(shí)別帶來了困難,同時(shí)也是出現(xiàn)誤判的主要原因.因此下文將分組加權(quán)t-SNE的手寫體數(shù)字降維算法分別用于手寫體數(shù)字4、9以及手寫體3、5、8的降維和聚類,通過使用t-SNE和分組加權(quán)t-SNE算法后的降維效果來展開對(duì)比和分析.
圖5 奇異手寫體數(shù)字0-9進(jìn)行t-SNE算法降維結(jié)果Fig.5 Singular handwritten numeral 0-9 performs t-SNE dimensionality reduction results
3.2.1 降維及可視化實(shí)驗(yàn)
首先選擇手寫體數(shù)字4和9為一組,為了更深入的對(duì)比結(jié)果,根據(jù)樣本數(shù)的不同,分別構(gòu)建了奇異樣本數(shù)為2000個(gè)和4000個(gè)的兩個(gè)樣本集.對(duì)兩個(gè)樣本集里不同的手寫體數(shù)字奇異樣本4和9分別使用t-SNE算法進(jìn)行降維,再使用本文的分組加權(quán)t-SNE算法進(jìn)行降維,并實(shí)現(xiàn)二維空間內(nèi)的可視化,通過二維可視化圖從聚類結(jié)果上進(jìn)行對(duì)比分析.
接著在MNIST手寫體庫中選擇易混淆的奇異手寫體樣本3、5、8為實(shí)驗(yàn)數(shù)據(jù),同樣構(gòu)建2000個(gè)和4000個(gè)的不同樣本集進(jìn)行降維可視化映射.分別使用t-SNE算法和本文的分組加權(quán)t-SNE算法進(jìn)行降維和可視化聚類.
需要說明的是由于t-SNE降維算法是將每個(gè)點(diǎn)通過梯度下降法進(jìn)行低維映射,因?yàn)樵谶@個(gè)過程中有隨機(jī)量,所以每一次的降維結(jié)果分布會(huì)有不同,其二維坐標(biāo)沒有真實(shí)意義,只是用于代表映射后這些樣本的相似程度.
3.2.2 實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo)
除了可視化結(jié)果對(duì)比之外,本文還將通過查全率和查準(zhǔn)率[22]兩個(gè)評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià).
表1 分類結(jié)果混淆矩陣Table1 Confusion matrix of classification results
查準(zhǔn)率P=發(fā)現(xiàn)的正確的映射個(gè)數(shù)/發(fā)現(xiàn)的所有映射個(gè)數(shù),見公式(9):
(9)
查全率R=發(fā)現(xiàn)的正確的映射個(gè)數(shù)/存在的映射數(shù),如公式(10):
(10)
為了能準(zhǔn)確的對(duì)比其降維效果,選擇相同的數(shù)據(jù)樣本集,分別使用t-SNE算法和本文給出的分組加權(quán)t-SNE算法對(duì)其進(jìn)行降維處理,使用相同的方法分別計(jì)算它的查全率和查準(zhǔn)率.指標(biāo)計(jì)算思想如下:首先分別計(jì)算出每個(gè)數(shù)字進(jìn)行t-SNE降維后映射在二維空間上坐標(biāo)的中心坐標(biāo),并以其中心坐標(biāo)為圓心規(guī)定相同半徑進(jìn)行畫圓,在此圓范圍內(nèi),計(jì)算其評(píng)價(jià)指標(biāo).其次計(jì)算同一數(shù)據(jù)樣本進(jìn)行加權(quán)t-SNE算法降維,再用同樣的方法計(jì)算映射后二維空間上的中心坐標(biāo),保持同組樣本中相同數(shù)字的半徑與t-SNE算法相同,并計(jì)算改進(jìn)后算法的評(píng)價(jià)指標(biāo).
圖6 數(shù)字手寫體分組加權(quán)t-SNE降維算法實(shí)驗(yàn)過程圖Fig.6 Digital handwritten GW t-SNE dimension reduction algorithm experimental process chart
由于查全率和查準(zhǔn)率是一對(duì)矛盾的度量,一般來說,查全率越高查準(zhǔn)率越低,查準(zhǔn)率越高查全率越低.因此在進(jìn)行實(shí)驗(yàn)結(jié)果驗(yàn)證時(shí),要綜合分析兩個(gè)指標(biāo)以確定降維方法的效果.需要說明的是在使用非線性降維的方法衡量樣本的聚類效果時(shí),由于樣本映射到二維的點(diǎn)分布并不是固定的,分布也是不均勻的,計(jì)算查全率和查準(zhǔn)率時(shí)并非直接固定其點(diǎn)的坐標(biāo),而是固定其相同的面積,因此在查全率和查準(zhǔn)率上達(dá)不到均為90%的效果.此外由于本文的實(shí)驗(yàn)數(shù)據(jù)是奇異樣本庫,因此與使用機(jī)器學(xué)習(xí)算法對(duì)標(biāo)準(zhǔn)手寫體數(shù)字樣本庫所得到的查全率與查準(zhǔn)率的指標(biāo)結(jié)果有所區(qū)別.圖6為數(shù)字手寫體分組加權(quán)t-SNE降維算法實(shí)驗(yàn)過程圖.
3.3.1 可視化的對(duì)比及分析
圖7是相同數(shù)字4、9在不同數(shù)據(jù)樣本中分別進(jìn)行t-SNE和分組加權(quán)t-SNE算法中的降維可視化圖.
圖7 數(shù)字4、9進(jìn)行t-SNE和分組加權(quán)t-SNE算法的降維可視化結(jié)果Fig.7 Dimensionality reduction visualization results of t-SNE and GW t-SNE algorithm are carried out in figures 4 and 9
圖7(a)為2000個(gè)4、9數(shù)據(jù)樣本集在t-SNE算法中的降維效果,通過圖可以清晰地看到,相同數(shù)字映射點(diǎn)之間間距大,圖7(b)經(jīng)過分組加權(quán)t-SNE算法降維后,發(fā)現(xiàn)相同數(shù)據(jù)點(diǎn)之間聯(lián)系更加緊密,而不同數(shù)據(jù)點(diǎn)之間相對(duì)分散.
圖7(c)是4000個(gè)數(shù)據(jù)樣本集在t-SNE算法中的降維效果,數(shù)字4、9在可視化圖中有交叉,說明數(shù)字4、9在此方法下無法清晰地分為兩類.但在圖7(d)的分組加權(quán)t-SNE算法可視化圖中,手寫體4、9雖仍有交叉部分,但可以清晰地分為兩類,在二維可視化圖中本文算法明顯優(yōu)于t-SNE算法.
圖8是數(shù)字3、5、8在不同數(shù)據(jù)樣本中分別進(jìn)行t-SNE和分組加權(quán)t-SNE算法中的降維可視化圖.
圖8 數(shù)字3、5、8進(jìn)行t-SNE和分組加權(quán)t-SNE算法的降維可視化結(jié)果Fig.8 Dimensionality reduction visualization results of t-SNE and GW t-SNE algorithm are carried out for numbers 3,5 and 8
圖8(a)為2000個(gè)3、5、8數(shù)據(jù)樣本集在t-SNE算法中的降維效果,通過圖可以清晰地看出,數(shù)字之間有明顯的交叉,且各個(gè)點(diǎn)分布稀疏.圖8(b)經(jīng)過分組加權(quán)t-SNE算法降維后,發(fā)現(xiàn)相同數(shù)據(jù)點(diǎn)之間聯(lián)系十分緊密,且沒有被其它數(shù)字完全阻隔的現(xiàn)象.
圖8(c)是4000個(gè)數(shù)據(jù)樣本集在t-SNE算法中的降維效果,數(shù)字3、5、8在可視化圖中相同數(shù)字分布沒有很緊密,交叉和聚類錯(cuò)誤的點(diǎn)較多.但在圖8(d)的分組加權(quán)t-SNE算法可視化圖中,手寫體3、5、8相同部分聯(lián)系明顯更緊密,且沒有過多的交叉和重疊,因此在降維后二維可視化的聚類結(jié)果對(duì)比中,可以得出本文算法優(yōu)于t-SNE算法.
3.3.2 評(píng)價(jià)指標(biāo)對(duì)比及分析
圖9是本文中選取的2000個(gè)樣本中每個(gè)數(shù)字的評(píng)價(jià)指標(biāo)的對(duì)比,圖9中(a)、(c)為查全率的對(duì)比,(b)、(d)為查準(zhǔn)率的對(duì)比,圖(a)、(b)為2000個(gè)奇異樣本數(shù)據(jù)集,圖(c)、(d)為4000個(gè)奇異樣本數(shù)據(jù)集.其中左側(cè)表示t-SNE算法計(jì)算出的評(píng)價(jià)指標(biāo),右側(cè)表示本文算法加權(quán)t-SNE計(jì)算出的評(píng)價(jià)指標(biāo).
從柱狀圖9中,明顯可以看出分組加權(quán)t-SNE算法在查全率和查準(zhǔn)率中,比t-SNE算法均有提高.
通過以上幾組數(shù)據(jù)對(duì)比可以發(fā)現(xiàn),二維圖中同類各點(diǎn)分布明顯聚攏,分界線相對(duì)明顯,評(píng)價(jià)指標(biāo)的查全率和查準(zhǔn)率也有所提高.由于t-SNE算法存在隨機(jī)變量,無法消除每次降維結(jié)果在二維空間內(nèi)的隨機(jī)映射現(xiàn)象,因此采取多次計(jì)算求平均值的方法,對(duì)查全率和查準(zhǔn)率進(jìn)行評(píng)價(jià),評(píng)價(jià)結(jié)果表明,同組數(shù)據(jù)多次進(jìn)行t-SNE和加權(quán)t-SNE算法計(jì)算后,每組查全率平均有了4%的提高,同時(shí)查準(zhǔn)率平均也有了3.3%的提高.由于查全率和查準(zhǔn)率是互相矛盾的一對(duì)變量,但在本文實(shí)驗(yàn)中,兩個(gè)數(shù)字的評(píng)價(jià)指標(biāo)同時(shí)都得到了提高,說明了分組加權(quán)t-SNE算法比t-SNE算法的性能更好,因而可以更好的保留數(shù)字手寫體在高維的主要特征.
圖9 4.9.3.5.8在t-SNE和分組加權(quán)t-SNE算法中的評(píng)價(jià)指標(biāo)的對(duì)比Fig.9 Comparison of the evaluation indexes of 4.9.3.5.8 in t-SNE and GW t-SNE algorithms
本文以提高數(shù)字手寫體易混淆奇異樣本的識(shí)別率問題為目標(biāo),提出了一種分組加權(quán)t-SNE的手寫數(shù)字奇異類樣本聚類方法,通過對(duì)高維空間中不同歐式距離的樣本對(duì)采用不同的分組加權(quán)算法計(jì)算距離,再根據(jù)新的評(píng)價(jià)距離計(jì)算高維空間中各數(shù)據(jù)樣本對(duì)之間的聯(lián)合密度和條件相似度的方法,達(dá)到了使高維空間內(nèi)樣本相似度估計(jì)更加精確的效果,從而提高了手寫體數(shù)字庫中奇異樣本和易混淆樣本的識(shí)別度.
實(shí)驗(yàn)結(jié)果顯示,在低維聚類可視化結(jié)果圖中,同類的明顯結(jié)合更緊密,不同類區(qū)分更明顯.并且使用分組加權(quán)的t-SNE算法在奇異手寫體數(shù)字樣本的查全率和查準(zhǔn)率上均得到了提升.多次實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)顯示,加權(quán)t-SNE算法的查全率比t-SNE算法查全率平均提高了4%,查準(zhǔn)率平均提高了3.3%.由此可見,本文方法對(duì)數(shù)字手寫體中奇異樣本在高維中主要特征的保留比普通t-SNE算法要好,因此可以得到更準(zhǔn)確的降維效果并提高識(shí)別度,從而為手寫體數(shù)字的奇異樣本研究提供了理論和技術(shù)基礎(chǔ).
盡管本文所述方法對(duì)奇異手寫體聚類有一定的改善效果,但是使用該方法將高維空間中的樣本映射到低維空間中的效果還有很大的提高空間,并且該方法中高維距離分組和權(quán)重的選擇對(duì)降維結(jié)果也都有一定的影響,下一步的工作也將針對(duì)這些因素展開深入研究和優(yōu)化.