動(dòng)態(tài)特征空間的超球體分類算法

2020-11-18 09:14雒瑞森

計(jì)算機(jī)工程與應(yīng)用 2020年22期

杜淼，余勤，雒瑞森

四川大學(xué) 電氣工程學(xué)院，成都610065

1 引言

在模式識(shí)別中，通常使用提取特征的方法對(duì)目標(biāo)進(jìn)行分類[1]，在分類過(guò)程中為了識(shí)別各個(gè)類別，需要找到更好的分隔面，而不同的方法在求解中有不同的分類效果。隨著機(jī)器學(xué)習(xí)的發(fā)展，大量?jī)?yōu)秀的分類器被逐漸提出，通過(guò)特征進(jìn)行分類與識(shí)別的應(yīng)用越來(lái)越廣泛，如支持向量機(jī)（Support Vector Machine，SVM）、人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network，ANN）等。但是，在這些分類過(guò)程中，提取的特征對(duì)分隔面產(chǎn)生了很大的影響，并且由特征形成的特征空間不具有動(dòng)態(tài)變化的過(guò)程，在很大程度上限制了識(shí)別效果。正如支持向量機(jī)被廣泛應(yīng)用于各種行業(yè)中，并取得了不錯(cuò)的效果，其通過(guò)使訓(xùn)練集的分類錯(cuò)誤更小進(jìn)而優(yōu)化出最大分隔面。為了克服SVM形成的平行分隔面和提高SVM的效率，許多學(xué)者做出了改進(jìn)[2-3]。

C-SVM 是在SVM 基礎(chǔ)上進(jìn)行了改進(jìn)：（1）加入松弛變量并使用懲罰項(xiàng)C 約束；（2）使用核函數(shù)將原本的特征空間映射到高維[4]。C-SVM 的改進(jìn)大大提高了SVM 的效率。但是之前的SVM 存在著將所有數(shù)據(jù)同時(shí)訓(xùn)練的問(wèn)題，這個(gè)問(wèn)題使得在同一個(gè)特征空間中不同類的數(shù)據(jù)同時(shí)求解一個(gè)優(yōu)化問(wèn)題。孿生支持向量機(jī)（Twin SVM，TWSVM）提出了分別優(yōu)化兩個(gè)超平面，這種方法將原本訓(xùn)練所有數(shù)據(jù)集的學(xué)習(xí)問(wèn)題轉(zhuǎn)化為兩個(gè)更小的二次規(guī)劃問(wèn)題。通過(guò)分別求解這兩個(gè)二次規(guī)劃問(wèn)題，得到適用于每一類分隔超平面[5]，從實(shí)驗(yàn)結(jié)果可以看出TWSVM表現(xiàn)很好。在SVM中特征空間被映射至高維，但是在不同的場(chǎng)景使用核函數(shù)的方法并不固定。

作為在各個(gè)領(lǐng)域表現(xiàn)非常好的神經(jīng)網(wǎng)絡(luò)，它在訓(xùn)練過(guò)程中使用梯度下降方法使訓(xùn)練的錯(cuò)誤率不斷降低來(lái)獲得一個(gè)有效的模型[6]。神經(jīng)動(dòng)態(tài)分類器（Neural Dynamic Classification，NDC）提出另一種思想：尋找更容易分隔的特征空間來(lái)獲得更好的識(shí)別率[7]。NDC 將每一個(gè)類使用感知器來(lái)構(gòu)造新的特征空間，在一個(gè)特征空間中所有數(shù)據(jù)被分為+1類和－1類，通過(guò)將每一個(gè)相同的類聚集得到多個(gè)具有兩個(gè)超平面的特征空間。但是算法本身具有以下缺點(diǎn)：（1）運(yùn)算量極大，使得該算法對(duì)手寫體分類時(shí)需要使用超級(jí)計(jì)算機(jī)；（2）實(shí)驗(yàn)效果受到迭代次數(shù)的影響，其原因在于損失函數(shù)構(gòu)造不合理。

為了將SVM分隔超平面優(yōu)勢(shì)與神經(jīng)網(wǎng)絡(luò)的非線性優(yōu)勢(shì)結(jié)合，孿生神經(jīng)網(wǎng)絡(luò)（Twin Neural Networks，TNN）被提出[8]。TNN結(jié)合了TWSVM的優(yōu)勢(shì)，能夠?qū)γ恳活惖挠?xùn)練數(shù)據(jù)分別訓(xùn)練出不同的分隔超平面，尤其是對(duì)于不平衡數(shù)據(jù)表現(xiàn)更好，并且TNN 也結(jié)合了神經(jīng)網(wǎng)絡(luò)非線性的特征變換，使得最后的分類效果得到提高。

通過(guò)TWSVM和TNN可以看出，特征變換后，針對(duì)不同類別的數(shù)據(jù)進(jìn)行處理可以得到不錯(cuò)的效果。因此本文提出了一種動(dòng)態(tài)超球體算法（Dynamic Hypersphere Algorithm，DHA），通過(guò)使用一層感知器構(gòu)造動(dòng)態(tài)特征空間，再利用NDC 將相同類聚集在一個(gè)超球面的思想重新構(gòu)造合理的損失函數(shù)，最終將特征變換與針對(duì)每個(gè)類別進(jìn)行優(yōu)化的優(yōu)點(diǎn)結(jié)合起來(lái)。本文提出的動(dòng)態(tài)超球體算法克服了NDC 的兩個(gè)問(wèn)題：（1）計(jì)算量極大，由于NDC會(huì)生成與類別相同的特征空間，使得計(jì)算量增加；（2）收斂問(wèn)題，NDC算法在構(gòu)造損失函數(shù)時(shí)的思想將相同類別的特征聚集到中心點(diǎn)，使得隨著迭代次數(shù)增加，特征點(diǎn)收攏至一個(gè)點(diǎn)，超球體半徑迅速減少，最后迭代次數(shù)過(guò)多，影響最后的效果。本文提出的動(dòng)態(tài)超球體算法，利用動(dòng)態(tài)特征空間獲得超球體分隔面，具有更好的識(shí)別效果。

2 動(dòng)態(tài)超球體算法

2.1 構(gòu)造動(dòng)態(tài)超球體模型

圖1 展示了DHA 算法的整體結(jié)構(gòu)。圖中從左往右依次為原始特征空間S,使用感知器進(jìn)行空間變換，形成新的特征空間U,最后根據(jù)本文定義的條件得到超球體模型。在模型中，本文構(gòu)造了新的損失函數(shù)，通過(guò)計(jì)算模型的分類結(jié)果與真實(shí)類別的誤差，使用梯度下降[9]的方法更新參數(shù)，實(shí)現(xiàn)超球體的動(dòng)態(tài)變化。與神經(jīng)動(dòng)態(tài)分類器（NDC）不同，NDC 的目標(biāo)函數(shù)主要是將每一類特征點(diǎn)聚集到球心，而本文提出的動(dòng)態(tài)超球體算法（DHA）的目標(biāo)函數(shù)主要將每一類特征點(diǎn)約束到球內(nèi)，最后導(dǎo)致的不同在于NDC 訓(xùn)練過(guò)程中超球體快速變小，過(guò)度收斂，而DHA 會(huì)呈現(xiàn)先快速收斂，最后緩慢變小趨于穩(wěn)定。同時(shí)，DHA 也繼承了TWSVM 和TNN 分別求解各個(gè)類別與特征變換的優(yōu)勢(shì)。

圖1 DHA的整體框架

構(gòu)造動(dòng)態(tài)超球體的目標(biāo)是特征變換后在特征空間中將相同類別的數(shù)據(jù)變換到對(duì)應(yīng)的超球體中。假設(shè)數(shù)據(jù)集為S，其中有m 類共N 個(gè)樣本，因此第i 個(gè)數(shù)據(jù)表示為Si,S={S1,S2,…,SN|Si∈?n,?i=1,2,…,N} 。第i個(gè)樣本屬于第j 類表示為Sj,i，第j類的樣本數(shù)量表示為Nj，特征空間的表示為：

其中，W 是n×I 的矩陣，B 是1×I 的向量，Ui是在新的特征空間U 中的第i 個(gè)點(diǎn)，U={U1,U2,…,UN|Ui∈?n,?i=1,2,…,N}。特征變換后，開(kāi)始定義構(gòu)造超球體條件。超球體中心Ci與各個(gè)點(diǎn)到中心的距離di表示為：

其中，Ci是第i 類超球體的中心，di是第i 類的所有點(diǎn)到球心的總距離。為了讓屬于同一類的數(shù)據(jù)聚集在對(duì)應(yīng)超球體中，定義了第一個(gè)條件：

為了得到第i 類數(shù)據(jù)到第i 類超球體的總距離的關(guān)系，本文做了以下定義：

為了使不屬于第i 類超球體數(shù)據(jù)點(diǎn)在第i 類超球體外，定義了第二個(gè)條件：

其中，-i 指不屬于第i 類。同理得到不屬于第i 類數(shù)據(jù)到第i 類超球體的總距離的關(guān)系：

為了讓每個(gè)超球體相互盡量分開(kāi)，定義了第三個(gè)條件：

最后一個(gè)條件滿足超球體半徑大于0：

通過(guò)這些限制條件，本文構(gòu)造了一種損失函數(shù)L(θ)，θ={W,B,R}：

其中，P 是懲罰系數(shù)。在計(jì)算最小化L 過(guò)程中，本文使用了梯度下降法求解θ，這些參數(shù)更新方法表示為[9]：

其中，η 是學(xué)習(xí)率。

2.2 分類方法

本文使用了一種適用于DHA 的分類方法，測(cè)試數(shù)據(jù)通過(guò)式（1）的特征變換后，被分為距離其最近的超球體對(duì)應(yīng)的類，公式表示為：

3 實(shí)驗(yàn)結(jié)果

下面通過(guò)實(shí)驗(yàn)分析了DHA算法的分類效果。實(shí)驗(yàn)使用了深度學(xué)習(xí)框架tensorflow，編程語(yǔ)言為python。本文在UCI、MNIST、不平衡MNIST 數(shù)據(jù)集[10-11]進(jìn)行實(shí)驗(yàn)。標(biāo)準(zhǔn)數(shù)據(jù)集來(lái)自UCI，每個(gè)數(shù)據(jù)集的信息展示在表1 中。為了增加統(tǒng)計(jì)意義，減少偶然性，最終結(jié)果選擇使用連續(xù)10次實(shí)驗(yàn)的平均值，實(shí)驗(yàn)過(guò)程如圖2所示。

表1 數(shù)據(jù)集信息

3.1 UCI

圖2 實(shí)驗(yàn)過(guò)程

本節(jié)使用UCI 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，其中DHA 的懲罰系數(shù)P ∈[0.001,1]。在本次實(shí)驗(yàn)中隨機(jī)抽取一定比例的數(shù)據(jù)作為測(cè)試集，剩下的作為訓(xùn)練集。抽取的比例包括10%，20%，30%，40%，50%，用RTT 表示。在實(shí)驗(yàn)中對(duì)標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行了歸一化的預(yù)處理，將特征值量化到[0，1]區(qū)間。表2 展示了比較的算法在所有比例的分類效果，表3展示了比較的算法在10%抽取比例時(shí)的識(shí)別率。從表2中可以看到，DHA在大部分的數(shù)據(jù)集上具有良好的識(shí)別率，其中在RTT=10%時(shí)，DHA具有更好的表現(xiàn)，如表3所示。

表2 不同抽樣比例下各個(gè)算法的識(shí)別率 %

表3 數(shù)據(jù)測(cè)試集為10%時(shí)各個(gè)算法的識(shí)別率 %

3.2 MNIST

本文將DHA 算法與NDC、SVM 在MNIST 上進(jìn)行比較。MINST 有70 000 張圖片，本次實(shí)驗(yàn)使用的計(jì)算機(jī)配置為i5-7400。由于本次實(shí)驗(yàn)計(jì)算資源有限，使用了1vs1 的策略對(duì)手寫體進(jìn)行分類[12]。本文在實(shí)驗(yàn)中一共使用了4 000 張圖進(jìn)行訓(xùn)練，意味著每個(gè)訓(xùn)練類別只有400張圖。本次實(shí)驗(yàn)中，將28×28的圖片轉(zhuǎn)換為1×784的向量，訓(xùn)練集表示為（4 000，784），模型中使用參數(shù)P=0.1,W 矩陣為784×10，DHA最后的識(shí)別率為90.18%。

3.3 不平衡MNIST

本文認(rèn)為DHA 能獲得更好的特征空間，因此在不平衡手寫體上進(jìn)行了分類實(shí)驗(yàn)。從文獻(xiàn)[8]中可以看到，TNN 適合于大型不平衡數(shù)據(jù)集分類，并且效果明顯。本文將與TNN進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)中本文通過(guò)隨機(jī)抽取的方法得到的數(shù)據(jù)集包括：30 張手寫體“1”與3 000 張手寫體“0”，30 張手寫體“1”與3 000 張手寫體“7”。兩種手寫體比例為100∶1。保持不平衡比例，本文隨機(jī)抽取了3張手寫體“1”與300張手寫體“0”，3張手寫體“1”與300張手寫體“7”進(jìn)行實(shí)驗(yàn)。最后得到4個(gè)實(shí)驗(yàn)結(jié)果，與MNIST 實(shí)驗(yàn)相同，將手寫體的像素作為784 個(gè)特征點(diǎn)進(jìn)行訓(xùn)練，實(shí)驗(yàn)中參數(shù)設(shè)置為P=0.01,W 矩陣為784×10，得到混淆矩陣[12]。如圖3 所示，為了方便本文的表達(dá)，精度評(píng)價(jià)指標(biāo)如下[13]：

其中，TP 是預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽為“True”的數(shù)量，TN是預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽為“False”的數(shù)量。圖3 展示了不平衡手寫體在TNN與DHA的實(shí)驗(yàn)結(jié)果。在圖3所示的混淆矩陣中，顏色越深，對(duì)應(yīng)區(qū)域的數(shù)值越大，在每一個(gè)混淆矩陣下給出了對(duì)應(yīng)使用的算法與計(jì)算得到的識(shí)別率，以及對(duì)少數(shù)的樣本的召回率、F-measure、MCC 等評(píng)價(jià)指標(biāo)。

圖3 TNN與DHA在不平衡手寫體的實(shí)驗(yàn)結(jié)果

4 討論

本文提出一種動(dòng)態(tài)超球體算法（DHA），利用特征數(shù)據(jù)集，通過(guò)求解構(gòu)造分隔球面，獲得了更有效的特征空間。下面對(duì)第3 章實(shí)驗(yàn)內(nèi)容與結(jié)果進(jìn)行深入討論與解釋，并進(jìn)一步討論構(gòu)造算法與優(yōu)化特征空間，最后從MNIST擴(kuò)展分析DHA應(yīng)用場(chǎng)景。

4.1 DHA特色與優(yōu)勢(shì)

TWSVM、TNN 分類時(shí)主要基于SVM 分隔超平面的方法，而在形成特征空間時(shí)TNN 采用了神經(jīng)網(wǎng)絡(luò)進(jìn)行了特征變換，如式（1）所示，TWSVM、TNN 的提出主要解決了數(shù)據(jù)不平衡的分類問(wèn)題，其中TNN 主要在大型數(shù)據(jù)中表現(xiàn)良好。這兩種算法的優(yōu)勢(shì)在于，求解分隔超平面時(shí)，各個(gè)類的數(shù)據(jù)分別用于求解優(yōu)化問(wèn)題，降低了不平衡數(shù)據(jù)的影響。NDC算法同樣采用神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行特征變換，不同在于，NDC提出了一種新穎的想法，將數(shù)據(jù)分類看成兩分類問(wèn)題，分別求解形成的多個(gè)特征空間，最后采用高斯概率密度函數(shù)獲得測(cè)試數(shù)據(jù)屬于某類空間的概率。本文算法主要的不同在于：（1）結(jié)合以上優(yōu)勢(shì)構(gòu)造新的目標(biāo)函數(shù)，在一個(gè)空間形成多個(gè)超球體，在構(gòu)造超球體時(shí)為了克服超球體隨迭代次數(shù)迅速縮小，構(gòu)造了以生成超球體為目標(biāo)的函數(shù)，分隔面之間的距離作為約束項(xiàng)；（2）對(duì)結(jié)果采用了簡(jiǎn)單的距離進(jìn)行分類。本文提出的DHA 結(jié)合了這些算法的優(yōu)勢(shì)：（1）采用式（1）進(jìn)行特征變換；（2）分隔平面使用不同類別分別求解。通過(guò)表2 與圖3 的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)，在標(biāo)準(zhǔn)數(shù)據(jù)集與不平衡手寫體識(shí)別率表現(xiàn)較好。

4.2 特征空間的形成

本文算法結(jié)合了4.1節(jié)提到的優(yōu)點(diǎn)，因此與TNN相比，在不平衡數(shù)據(jù)集上展現(xiàn)了一定的優(yōu)勢(shì)，如圖3所示，“0”和“1”識(shí)別率的比較上，DHA 為98.67%，略高于TNN的97.33%。在“1”和“7”的比較上，DHA為96.83%，高于TNN 的90.34%。通過(guò)圖3 實(shí)驗(yàn)?zāi)軌蜃C明，對(duì)于不平衡的數(shù)據(jù)形成的特征空間，DHA具有一定的優(yōu)勢(shì)。

為了證明形成更有效的特征空間進(jìn)行了分隔平面的展示，圖4（c）、（d）展示了C-SVM與DHA形成的特征空間與分隔平面。從圖4（c）中可以明顯觀察到有些點(diǎn)混合到了其他類別的點(diǎn)中，與圖4（d）比較，DHA算法通過(guò)改變特征空間獲得的分隔超球面將能更好地分離各個(gè)數(shù)據(jù)點(diǎn)。在DHA 形成特征空間的過(guò)程中，損失函數(shù)的值逐漸降低收斂，優(yōu)化半徑逐漸趨于穩(wěn)定，從圖4（a）、（b）可以觀察到這樣的結(jié)果。其中從圖4（b）中可以觀察到隨著迭代次數(shù)的增加，半徑在第50 次迭代時(shí)逐漸穩(wěn)定，但是隨著迭代次數(shù)的增加，半徑有細(xì)微的下降。結(jié)合式（12）可以看到di為一類特征點(diǎn)到球心的總距離，在最小化過(guò)程中，總距離減少速度與參數(shù)P 設(shè)置有關(guān)，但是可以知道在最小化過(guò)程中超球體會(huì)逐漸變小，也就是從圖中的細(xì)微差別可以看到半徑也會(huì)逐漸減小。

4.3 分析DHA應(yīng)用場(chǎng)景

本文算法在UCI實(shí)驗(yàn)中可以發(fā)現(xiàn)，在大部分?jǐn)?shù)據(jù)集中具有良好的識(shí)別效果，且這些數(shù)據(jù)集表示為在某種應(yīng)用中的數(shù)據(jù)特征。從算法中可以知道，DHA 主要在于形成特征空間與分隔面，因此DHA 將適用于使用提取的特征來(lái)表示數(shù)據(jù)的場(chǎng)景，如電力系統(tǒng)中通過(guò)提取某些特征來(lái)分析異常情況[14-15]等。

圖4 可視化變化過(guò)程，C-SVM和DHA的特征空間和分隔面

從3.2節(jié)在MNIST手寫體上實(shí)驗(yàn)的表現(xiàn)來(lái)看，對(duì)于特征數(shù)據(jù)較多的情況，計(jì)算速度受到了影響，但是從另一方面來(lái)看DHA 也能形成一個(gè)有效的特征空間，在訓(xùn)練集數(shù)量與識(shí)別率上具有一定的優(yōu)勢(shì)與優(yōu)化潛力。為了進(jìn)一步驗(yàn)證DHA在形成有效空間與分隔面上具有一定的優(yōu)勢(shì)，3.3節(jié)展示了在不平衡比例1∶300情況下的實(shí)驗(yàn)。從實(shí)驗(yàn)結(jié)果上分析，訓(xùn)練數(shù)據(jù)的數(shù)量對(duì)DHA 的影響更小，且在不平衡數(shù)據(jù)集中DHA 也具有更好的實(shí)驗(yàn)效果。

5 結(jié)束語(yǔ)

本文提出了利用動(dòng)態(tài)特征空間構(gòu)造超球體的分類方法——?jiǎng)討B(tài)超球體算法（DHA）。DHA利用了孿生支持向量機(jī)（TWSVM）對(duì)不同類別的數(shù)據(jù)分別求超平面思想，結(jié)合了孿生神經(jīng)網(wǎng)絡(luò)（TNN），利用感知器優(yōu)化特征空間，其中在構(gòu)造超球體時(shí)利用神經(jīng)動(dòng)態(tài)分類器（NDC）的想法，最后構(gòu)造屬于DHA的損失函數(shù)優(yōu)化特征空間，在特征空間中形成屬于每個(gè)類的超球體。

在標(biāo)準(zhǔn)數(shù)據(jù)集實(shí)驗(yàn)部分，本文提出的DHA 在識(shí)別率上與其他算法相比有較好的效果。如圖4 所示，在Wine 標(biāo)準(zhǔn)數(shù)據(jù)集上C-SVM 形成的特征空間的分隔與DHA 特征空間的球面相比，DHA 具有通過(guò)特征空間變換能更好地將數(shù)據(jù)分隔開(kāi)的效果。在手寫體識(shí)別中，本文采用了構(gòu)造多個(gè)分類器進(jìn)行識(shí)別，通過(guò)減少訓(xùn)練樣本也能獲得較好的實(shí)驗(yàn)結(jié)果。不平衡手寫體實(shí)驗(yàn)證明，DHA算法在不平衡的情況下也能找到一個(gè)有效的特征空間，充分證明了DHA利用了TNN、TWSVM在不平衡數(shù)據(jù)上的優(yōu)勢(shì)。綜上所述，本文提出的動(dòng)態(tài)超球體算法（DHA）通過(guò)線性空間變換與構(gòu)造超球體空間能夠?qū)ふ业礁玫奶卣骺臻g，在提高數(shù)據(jù)集的分類效果，結(jié)合特征空間變化與按照各類別進(jìn)行目標(biāo)函數(shù)的優(yōu)化方面具有一定的參考價(jià)值。值得一提的是，DHA 算法在訓(xùn)練樣本較少、不平衡較高的情況下具有著較好的表現(xiàn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡