杜 淼,余 勤,雒瑞森
四川大學(xué) 電氣工程學(xué)院,成都610065
在模式識(shí)別中,通常使用提取特征的方法對(duì)目標(biāo)進(jìn)行分類[1],在分類過(guò)程中為了識(shí)別各個(gè)類別,需要找到更好的分隔面,而不同的方法在求解中有不同的分類效果。隨著機(jī)器學(xué)習(xí)的發(fā)展,大量?jī)?yōu)秀的分類器被逐漸提出,通過(guò)特征進(jìn)行分類與識(shí)別的應(yīng)用越來(lái)越廣泛,如支持向量機(jī)(Support Vector Machine,SVM)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)等。但是,在這些分類過(guò)程中,提取的特征對(duì)分隔面產(chǎn)生了很大的影響,并且由特征形成的特征空間不具有動(dòng)態(tài)變化的過(guò)程,在很大程度上限制了識(shí)別效果。正如支持向量機(jī)被廣泛應(yīng)用于各種行業(yè)中,并取得了不錯(cuò)的效果,其通過(guò)使訓(xùn)練集的分類錯(cuò)誤更小進(jìn)而優(yōu)化出最大分隔面。為了克服SVM形成的平行分隔面和提高SVM的效率,許多學(xué)者做出了改進(jìn)[2-3]。
C-SVM 是在SVM 基礎(chǔ)上進(jìn)行了改進(jìn):(1)加入松弛變量并使用懲罰項(xiàng)C 約束;(2)使用核函數(shù)將原本的特征空間映射到高維[4]。C-SVM 的改進(jìn)大大提高了SVM 的效率。但是之前的SVM 存在著將所有數(shù)據(jù)同時(shí)訓(xùn)練的問(wèn)題,這個(gè)問(wèn)題使得在同一個(gè)特征空間中不同類的數(shù)據(jù)同時(shí)求解一個(gè)優(yōu)化問(wèn)題。孿生支持向量機(jī)(Twin SVM,TWSVM)提出了分別優(yōu)化兩個(gè)超平面,這種方法將原本訓(xùn)練所有數(shù)據(jù)集的學(xué)習(xí)問(wèn)題轉(zhuǎn)化為兩個(gè)更小的二次規(guī)劃問(wèn)題。通過(guò)分別求解這兩個(gè)二次規(guī)劃問(wèn)題,得到適用于每一類分隔超平面[5],從實(shí)驗(yàn)結(jié)果可以看出TWSVM表現(xiàn)很好。在SVM中特征空間被映射至高維,但是在不同的場(chǎng)景使用核函數(shù)的方法并不固定。
作為在各個(gè)領(lǐng)域表現(xiàn)非常好的神經(jīng)網(wǎng)絡(luò),它在訓(xùn)練過(guò)程中使用梯度下降方法使訓(xùn)練的錯(cuò)誤率不斷降低來(lái)獲得一個(gè)有效的模型[6]。神經(jīng)動(dòng)態(tài)分類器(Neural Dynamic Classification,NDC)提出另一種思想:尋找更容易分隔的特征空間來(lái)獲得更好的識(shí)別率[7]。NDC 將每一個(gè)類使用感知器來(lái)構(gòu)造新的特征空間,在一個(gè)特征空間中所有數(shù)據(jù)被分為+1類和-1類,通過(guò)將每一個(gè)相同的類聚集得到多個(gè)具有兩個(gè)超平面的特征空間。但是算法本身具有以下缺點(diǎn):(1)運(yùn)算量極大,使得該算法對(duì)手寫體分類時(shí)需要使用超級(jí)計(jì)算機(jī);(2)實(shí)驗(yàn)效果受到迭代次數(shù)的影響,其原因在于損失函數(shù)構(gòu)造不合理。
為了將SVM分隔超平面優(yōu)勢(shì)與神經(jīng)網(wǎng)絡(luò)的非線性優(yōu)勢(shì)結(jié)合,孿生神經(jīng)網(wǎng)絡(luò)(Twin Neural Networks,TNN)被提出[8]。TNN結(jié)合了TWSVM的優(yōu)勢(shì),能夠?qū)γ恳活惖挠?xùn)練數(shù)據(jù)分別訓(xùn)練出不同的分隔超平面,尤其是對(duì)于不平衡數(shù)據(jù)表現(xiàn)更好,并且TNN 也結(jié)合了神經(jīng)網(wǎng)絡(luò)非線性的特征變換,使得最后的分類效果得到提高。
通過(guò)TWSVM和TNN可以看出,特征變換后,針對(duì)不同類別的數(shù)據(jù)進(jìn)行處理可以得到不錯(cuò)的效果。因此本文提出了一種動(dòng)態(tài)超球體算法(Dynamic Hypersphere Algorithm,DHA),通過(guò)使用一層感知器構(gòu)造動(dòng)態(tài)特征空間,再利用NDC 將相同類聚集在一個(gè)超球面的思想重新構(gòu)造合理的損失函數(shù),最終將特征變換與針對(duì)每個(gè)類別進(jìn)行優(yōu)化的優(yōu)點(diǎn)結(jié)合起來(lái)。本文提出的動(dòng)態(tài)超球體算法克服了NDC 的兩個(gè)問(wèn)題:(1)計(jì)算量極大,由于NDC會(huì)生成與類別相同的特征空間,使得計(jì)算量增加;(2)收斂問(wèn)題,NDC算法在構(gòu)造損失函數(shù)時(shí)的思想將相同類別的特征聚集到中心點(diǎn),使得隨著迭代次數(shù)增加,特征點(diǎn)收攏至一個(gè)點(diǎn),超球體半徑迅速減少,最后迭代次數(shù)過(guò)多,影響最后的效果。本文提出的動(dòng)態(tài)超球體算法,利用動(dòng)態(tài)特征空間獲得超球體分隔面,具有更好的識(shí)別效果。
圖1 展示了DHA 算法的整體結(jié)構(gòu)。圖中從左往右依次為原始特征空間S,使用感知器進(jìn)行空間變換,形成新的特征空間U,最后根據(jù)本文定義的條件得到超球體模型。在模型中,本文構(gòu)造了新的損失函數(shù),通過(guò)計(jì)算模型的分類結(jié)果與真實(shí)類別的誤差,使用梯度下降[9]的方法更新參數(shù),實(shí)現(xiàn)超球體的動(dòng)態(tài)變化。與神經(jīng)動(dòng)態(tài)分類器(NDC)不同,NDC 的目標(biāo)函數(shù)主要是將每一類特征點(diǎn)聚集到球心,而本文提出的動(dòng)態(tài)超球體算法(DHA)的目標(biāo)函數(shù)主要將每一類特征點(diǎn)約束到球內(nèi),最后導(dǎo)致的不同在于NDC 訓(xùn)練過(guò)程中超球體快速變小,過(guò)度收斂,而DHA 會(huì)呈現(xiàn)先快速收斂,最后緩慢變小趨于穩(wěn)定。同時(shí),DHA 也繼承了TWSVM 和TNN 分別求解各個(gè)類別與特征變換的優(yōu)勢(shì)。
圖1 DHA的整體框架
構(gòu)造動(dòng)態(tài)超球體的目標(biāo)是特征變換后在特征空間中將相同類別的數(shù)據(jù)變換到對(duì)應(yīng)的超球體中。假設(shè)數(shù)據(jù)集為S,其中有m 類共N 個(gè)樣本,因此第i 個(gè)數(shù)據(jù)表示為Si,S={S1,S2,…,SN|Si∈?n,?i=1,2,…,N} 。第i個(gè)樣本屬于第j 類表示為Sj,i,第j類的樣本數(shù)量表示為Nj,特征空間的表示為:
其中,W 是n×I 的矩陣,B 是1×I 的向量,Ui是在新的特征空間U 中的第i 個(gè)點(diǎn),U={U1,U2,…,UN|Ui∈?n,?i=1,2,…,N}。特征變換后,開(kāi)始定義構(gòu)造超球體條件。超球體中心Ci與各個(gè)點(diǎn)到中心的距離di表示為:
其中,Ci是第i 類超球體的中心,di是第i 類的所有點(diǎn)到球心的總距離。為了讓屬于同一類的數(shù)據(jù)聚集在對(duì)應(yīng)超球體中,定義了第一個(gè)條件:
為了得到第i 類數(shù)據(jù)到第i 類超球體的總距離的關(guān)系,本文做了以下定義:
為了使不屬于第i 類超球體數(shù)據(jù)點(diǎn)在第i 類超球體外,定義了第二個(gè)條件:
其中,-i 指不屬于第i 類。同理得到不屬于第i 類數(shù)據(jù)到第i 類超球體的總距離的關(guān)系:
為了讓每個(gè)超球體相互盡量分開(kāi),定義了第三個(gè)條件:
最后一個(gè)條件滿足超球體半徑大于0:
通過(guò)這些限制條件,本文構(gòu)造了一種損失函數(shù)L(θ),θ={W,B,R}:
其中,P 是懲罰系數(shù)。在計(jì)算最小化L 過(guò)程中,本文使用了梯度下降法求解θ,這些參數(shù)更新方法表示為[9]:
其中,η 是學(xué)習(xí)率。
本文使用了一種適用于DHA 的分類方法,測(cè)試數(shù)據(jù)通過(guò)式(1)的特征變換后,被分為距離其最近的超球體對(duì)應(yīng)的類,公式表示為:
下面通過(guò)實(shí)驗(yàn)分析了DHA算法的分類效果。實(shí)驗(yàn)使用了深度學(xué)習(xí)框架tensorflow,編程語(yǔ)言為python。本文在UCI、MNIST、不平衡MNIST 數(shù)據(jù)集[10-11]進(jìn)行實(shí)驗(yàn)。標(biāo)準(zhǔn)數(shù)據(jù)集來(lái)自UCI,每個(gè)數(shù)據(jù)集的信息展示在表1 中。為了增加統(tǒng)計(jì)意義,減少偶然性,最終結(jié)果選擇使用連續(xù)10次實(shí)驗(yàn)的平均值,實(shí)驗(yàn)過(guò)程如圖2所示。
表1 數(shù)據(jù)集信息
圖2 實(shí)驗(yàn)過(guò)程
本節(jié)使用UCI 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),其中DHA 的懲罰系數(shù)P ∈[0.001,1]。在本次實(shí)驗(yàn)中隨機(jī)抽取一定比例的數(shù)據(jù)作為測(cè)試集,剩下的作為訓(xùn)練集。抽取的比例包括10%,20%,30%,40%,50%,用RTT 表示。在實(shí)驗(yàn)中對(duì)標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行了歸一化的預(yù)處理,將特征值量化到[0,1]區(qū)間。表2 展示了比較的算法在所有比例的分類效果,表3展示了比較的算法在10%抽取比例時(shí)的識(shí)別率。從表2中可以看到,DHA在大部分的數(shù)據(jù)集上具有良好的識(shí)別率,其中在RTT=10%時(shí),DHA具有更好的表現(xiàn),如表3所示。
表2 不同抽樣比例下各個(gè)算法的識(shí)別率 %
表3 數(shù)據(jù)測(cè)試集為10%時(shí)各個(gè)算法的識(shí)別率 %
本文將DHA 算法與NDC、SVM 在MNIST 上進(jìn)行比較。MINST 有70 000 張圖片,本次實(shí)驗(yàn)使用的計(jì)算機(jī)配置為i5-7400。由于本次實(shí)驗(yàn)計(jì)算資源有限,使用了1vs1 的策略對(duì)手寫體進(jìn)行分類[12]。本文在實(shí)驗(yàn)中一共使用了4 000 張圖進(jìn)行訓(xùn)練,意味著每個(gè)訓(xùn)練類別只有400張圖。本次實(shí)驗(yàn)中,將28×28的圖片轉(zhuǎn)換為1×784的向量,訓(xùn)練集表示為(4 000,784),模型中使用參數(shù)P=0.1,W 矩陣為784×10,DHA最后的識(shí)別率為90.18%。
本文認(rèn)為DHA 能獲得更好的特征空間,因此在不平衡手寫體上進(jìn)行了分類實(shí)驗(yàn)。從文獻(xiàn)[8]中可以看到,TNN 適合于大型不平衡數(shù)據(jù)集分類,并且效果明顯。本文將與TNN進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)中本文通過(guò)隨機(jī)抽取的方法得到的數(shù)據(jù)集包括:30 張手寫體“1”與3 000 張手寫體“0”,30 張手寫體“1”與3 000 張手寫體“7”。兩種手寫體比例為100∶1。保持不平衡比例,本文隨機(jī)抽取了3張手寫體“1”與300張手寫體“0”,3張手寫體“1”與300張手寫體“7”進(jìn)行實(shí)驗(yàn)。最后得到4個(gè)實(shí)驗(yàn)結(jié)果,與MNIST 實(shí)驗(yàn)相同,將手寫體的像素作為784 個(gè)特征點(diǎn)進(jìn)行訓(xùn)練,實(shí)驗(yàn)中參數(shù)設(shè)置為P=0.01,W 矩陣為784×10,得到混淆矩陣[12]。如圖3 所示,為了方便本文的表達(dá),精度評(píng)價(jià)指標(biāo)如下[13]:
其中,TP 是預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽為“True”的數(shù)量,TN是預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽為“False”的數(shù)量。圖3 展示了不平衡手寫體在TNN與DHA的實(shí)驗(yàn)結(jié)果。在圖3所示的混淆矩陣中,顏色越深,對(duì)應(yīng)區(qū)域的數(shù)值越大,在每一個(gè)混淆矩陣下給出了對(duì)應(yīng)使用的算法與計(jì)算得到的識(shí)別率,以及對(duì)少數(shù)的樣本的召回率、F-measure、MCC 等評(píng)價(jià)指標(biāo)。
圖3 TNN與DHA在不平衡手寫體的實(shí)驗(yàn)結(jié)果
本文提出一種動(dòng)態(tài)超球體算法(DHA),利用特征數(shù)據(jù)集,通過(guò)求解構(gòu)造分隔球面,獲得了更有效的特征空間。下面對(duì)第3 章實(shí)驗(yàn)內(nèi)容與結(jié)果進(jìn)行深入討論與解釋,并進(jìn)一步討論構(gòu)造算法與優(yōu)化特征空間,最后從MNIST擴(kuò)展分析DHA應(yīng)用場(chǎng)景。
TWSVM、TNN 分類時(shí)主要基于SVM 分隔超平面的方法,而在形成特征空間時(shí)TNN 采用了神經(jīng)網(wǎng)絡(luò)進(jìn)行了特征變換,如式(1)所示,TWSVM、TNN 的提出主要解決了數(shù)據(jù)不平衡的分類問(wèn)題,其中TNN 主要在大型數(shù)據(jù)中表現(xiàn)良好。這兩種算法的優(yōu)勢(shì)在于,求解分隔超平面時(shí),各個(gè)類的數(shù)據(jù)分別用于求解優(yōu)化問(wèn)題,降低了不平衡數(shù)據(jù)的影響。NDC算法同樣采用神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行特征變換,不同在于,NDC提出了一種新穎的想法,將數(shù)據(jù)分類看成兩分類問(wèn)題,分別求解形成的多個(gè)特征空間,最后采用高斯概率密度函數(shù)獲得測(cè)試數(shù)據(jù)屬于某類空間的概率。本文算法主要的不同在于:(1)結(jié)合以上優(yōu)勢(shì)構(gòu)造新的目標(biāo)函數(shù),在一個(gè)空間形成多個(gè)超球體,在構(gòu)造超球體時(shí)為了克服超球體隨迭代次數(shù)迅速縮小,構(gòu)造了以生成超球體為目標(biāo)的函數(shù),分隔面之間的距離作為約束項(xiàng);(2)對(duì)結(jié)果采用了簡(jiǎn)單的距離進(jìn)行分類。本文提出的DHA 結(jié)合了這些算法的優(yōu)勢(shì):(1)采用式(1)進(jìn)行特征變換;(2)分隔平面使用不同類別分別求解。通過(guò)表2 與圖3 的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),在標(biāo)準(zhǔn)數(shù)據(jù)集與不平衡手寫體識(shí)別率表現(xiàn)較好。
本文算法結(jié)合了4.1節(jié)提到的優(yōu)點(diǎn),因此與TNN相比,在不平衡數(shù)據(jù)集上展現(xiàn)了一定的優(yōu)勢(shì),如圖3所示,“0”和“1”識(shí)別率的比較上,DHA 為98.67%,略高于TNN的97.33%。在“1”和“7”的比較上,DHA為96.83%,高于TNN 的90.34%。通過(guò)圖3 實(shí)驗(yàn)?zāi)軌蜃C明,對(duì)于不平衡的數(shù)據(jù)形成的特征空間,DHA具有一定的優(yōu)勢(shì)。
為了證明形成更有效的特征空間進(jìn)行了分隔平面的展示,圖4(c)、(d)展示了C-SVM與DHA形成的特征空間與分隔平面。從圖4(c)中可以明顯觀察到有些點(diǎn)混合到了其他類別的點(diǎn)中,與圖4(d)比較,DHA算法通過(guò)改變特征空間獲得的分隔超球面將能更好地分離各個(gè)數(shù)據(jù)點(diǎn)。在DHA 形成特征空間的過(guò)程中,損失函數(shù)的值逐漸降低收斂,優(yōu)化半徑逐漸趨于穩(wěn)定,從圖4(a)、(b)可以觀察到這樣的結(jié)果。其中從圖4(b)中可以觀察到隨著迭代次數(shù)的增加,半徑在第50 次迭代時(shí)逐漸穩(wěn)定,但是隨著迭代次數(shù)的增加,半徑有細(xì)微的下降。結(jié)合式(12)可以看到di為一類特征點(diǎn)到球心的總距離,在最小化過(guò)程中,總距離減少速度與參數(shù)P 設(shè)置有關(guān),但是可以知道在最小化過(guò)程中超球體會(huì)逐漸變小,也就是從圖中的細(xì)微差別可以看到半徑也會(huì)逐漸減小。
本文算法在UCI實(shí)驗(yàn)中可以發(fā)現(xiàn),在大部分?jǐn)?shù)據(jù)集中具有良好的識(shí)別效果,且這些數(shù)據(jù)集表示為在某種應(yīng)用中的數(shù)據(jù)特征。從算法中可以知道,DHA 主要在于形成特征空間與分隔面,因此DHA 將適用于使用提取的特征來(lái)表示數(shù)據(jù)的場(chǎng)景,如電力系統(tǒng)中通過(guò)提取某些特征來(lái)分析異常情況[14-15]等。
圖4 可視化變化過(guò)程,C-SVM和DHA的特征空間和分隔面
從3.2節(jié)在MNIST手寫體上實(shí)驗(yàn)的表現(xiàn)來(lái)看,對(duì)于特征數(shù)據(jù)較多的情況,計(jì)算速度受到了影響,但是從另一方面來(lái)看DHA 也能形成一個(gè)有效的特征空間,在訓(xùn)練集數(shù)量與識(shí)別率上具有一定的優(yōu)勢(shì)與優(yōu)化潛力。為了進(jìn)一步驗(yàn)證DHA在形成有效空間與分隔面上具有一定的優(yōu)勢(shì),3.3節(jié)展示了在不平衡比例1∶300情況下的實(shí)驗(yàn)。從實(shí)驗(yàn)結(jié)果上分析,訓(xùn)練數(shù)據(jù)的數(shù)量對(duì)DHA 的影響更小,且在不平衡數(shù)據(jù)集中DHA 也具有更好的實(shí)驗(yàn)效果。
本文提出了利用動(dòng)態(tài)特征空間構(gòu)造超球體的分類方法——?jiǎng)討B(tài)超球體算法(DHA)。DHA利用了孿生支持向量機(jī)(TWSVM)對(duì)不同類別的數(shù)據(jù)分別求超平面思想,結(jié)合了孿生神經(jīng)網(wǎng)絡(luò)(TNN),利用感知器優(yōu)化特征空間,其中在構(gòu)造超球體時(shí)利用神經(jīng)動(dòng)態(tài)分類器(NDC)的想法,最后構(gòu)造屬于DHA的損失函數(shù)優(yōu)化特征空間,在特征空間中形成屬于每個(gè)類的超球體。
在標(biāo)準(zhǔn)數(shù)據(jù)集實(shí)驗(yàn)部分,本文提出的DHA 在識(shí)別率上與其他算法相比有較好的效果。如圖4 所示,在Wine 標(biāo)準(zhǔn)數(shù)據(jù)集上C-SVM 形成的特征空間的分隔與DHA 特征空間的球面相比,DHA 具有通過(guò)特征空間變換能更好地將數(shù)據(jù)分隔開(kāi)的效果。在手寫體識(shí)別中,本文采用了構(gòu)造多個(gè)分類器進(jìn)行識(shí)別,通過(guò)減少訓(xùn)練樣本也能獲得較好的實(shí)驗(yàn)結(jié)果。不平衡手寫體實(shí)驗(yàn)證明,DHA算法在不平衡的情況下也能找到一個(gè)有效的特征空間,充分證明了DHA利用了TNN、TWSVM在不平衡數(shù)據(jù)上的優(yōu)勢(shì)。綜上所述,本文提出的動(dòng)態(tài)超球體算法(DHA)通過(guò)線性空間變換與構(gòu)造超球體空間能夠?qū)ふ业礁玫奶卣骺臻g,在提高數(shù)據(jù)集的分類效果,結(jié)合特征空間變化與按照各類別進(jìn)行目標(biāo)函數(shù)的優(yōu)化方面具有一定的參考價(jià)值。值得一提的是,DHA 算法在訓(xùn)練樣本較少、不平衡較高的情況下具有著較好的表現(xiàn)。