国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

*1極坐標(biāo)核在樣本分類(lèi)問(wèn)題中的應(yīng)用研究

2016-06-20 06:20:12郭金玲
關(guān)鍵詞:降維

郭金玲

(山西大學(xué) 商務(wù)學(xué)院,山西 太原 030031)

?

*1極坐標(biāo)核在樣本分類(lèi)問(wèn)題中的應(yīng)用研究

郭金玲

(山西大學(xué) 商務(wù)學(xué)院,山西 太原 030031)

〔摘要〕核函數(shù)選擇是支撐向量機(jī)(Support Vector Machine,SVM)研究的熱點(diǎn)和難點(diǎn).針對(duì)目前SVM核函數(shù)的選擇沒(méi)有統(tǒng)一規(guī)則的現(xiàn)狀,探討極坐標(biāo)核在樣本分類(lèi)問(wèn)題中的應(yīng)用,提出一種結(jié)合樣本分布特征進(jìn)行SVM核選擇的方法.首先分析極坐標(biāo)核的映射原理,采用主成分分析方法(Principle Component Analysis,PCA)對(duì)高維數(shù)據(jù)集合理降維,在得到樣本集分布特征的基礎(chǔ)上進(jìn)行SVM核選擇,在Matlab環(huán)境中,采用四組數(shù)據(jù)集進(jìn)行分類(lèi)實(shí)驗(yàn),驗(yàn)證結(jié)合樣本分布特征選擇SVM核函數(shù)的分類(lèi)效果.實(shí)驗(yàn)結(jié)果表明,呈類(lèi)圓形分布的樣本集采用極坐標(biāo)核進(jìn)行分類(lèi),識(shí)別率達(dá)到100%,訓(xùn)練時(shí)間最短,優(yōu)于采用高斯核SVM的分類(lèi)效果.該方法提高了SVM的泛化能力,方案具有可行性和有效性.

〔關(guān)鍵詞〕支撐向量機(jī);極坐標(biāo)核;樣本分類(lèi);降維

0引言

SVM是Vapnik等于1995年首先提出的一種用來(lái)解決高維樣本分類(lèi)及預(yù)測(cè)問(wèn)題的技術(shù)[1,2].因?yàn)閷?shí)驗(yàn)樣本維數(shù)較高時(shí),在低維空間較難被高效率地劃分開(kāi),SVM技術(shù)可以高效解決高維樣本分類(lèi)問(wèn)題[3,4].

SVM的分類(lèi)過(guò)程主要涉及到非線性映射Φ,通常,Φ以?xún)?nèi)積〈φ(xi),φ(xi)〉形式出現(xiàn).內(nèi)積計(jì)算復(fù)雜度較高,通過(guò)引入核函數(shù),將內(nèi)積運(yùn)算轉(zhuǎn)化為在輸入空間的計(jì)算,從而降低映射計(jì)算的復(fù)雜度[1].即

(1)

其中,K(xi,xj)代表核函數(shù).

SVM的求解為以下最優(yōu)化問(wèn)題:

(2)

分類(lèi)函數(shù)f(x)如公式(3):

(3)

SVM的分類(lèi)性能和核函數(shù)的選擇有著直接的聯(lián)系,由于高斯核K(x,x′)=exp(-||x-x′||/σ2分類(lèi)效果好,參數(shù)范圍選擇較寬,近年來(lái),高斯核函數(shù)Kgau得到了廣泛的應(yīng)用[5-7].但是針對(duì)一些具有特殊幾何分布的數(shù)據(jù)集,如何選擇合適的核函數(shù)是近年來(lái)的研究難題[8-10].

考慮到極坐標(biāo)核KPolar可高效解決直角坐標(biāo)不可分,極坐標(biāo)線性可分的應(yīng)用特點(diǎn),文中分析了極坐標(biāo)核的映射原理,探討極坐標(biāo)核在數(shù)據(jù)分類(lèi)問(wèn)題中的應(yīng)用,在Matlab環(huán)境中,分別采用兩組真實(shí)數(shù)據(jù)集和兩組人工構(gòu)造數(shù)據(jù)集進(jìn)行數(shù)值實(shí)驗(yàn)并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析.

1數(shù)據(jù)預(yù)處理

文中實(shí)驗(yàn)部分主要采用二維樣本集,通常真實(shí)數(shù)據(jù)集維數(shù)較高,本文采用主成分分析方法 (Principle Component Analysis,PCA)進(jìn)行高維數(shù)據(jù)的降維處理.PCA方法是一種常用的數(shù)據(jù)降維處理技術(shù),算法直觀,應(yīng)用廣泛[11],具體算法如下:

設(shè)樣本集X={x1,x2,…,xl},維數(shù)為k.

Step1:計(jì)算協(xié)方差矩陣C:

Step2:計(jì)算C的特征值λ和特征向量e:

Step3: 樣本集降維:

Step4: 輸出降維后的數(shù)據(jù)集X′:X′={z1,z2,…,zl}, 維數(shù)為m,且m個(gè)主成分累計(jì)貢獻(xiàn)率達(dá)85%以上.

運(yùn)用PCA算法可以在最大程度地保留高維數(shù)據(jù)集的內(nèi)部分布特征的基礎(chǔ)上,進(jìn)行合理降維[11].

2實(shí)驗(yàn)樣本集

顯然,如果樣本集的幾何分布特征基本呈圓形,經(jīng)過(guò)以上函數(shù)映射到特征空間后,可被高效地分成兩類(lèi),且線性可分.

為驗(yàn)證極坐標(biāo)核的分類(lèi)效果,進(jìn)行數(shù)值實(shí)驗(yàn).四組樣本集的分布特征、維數(shù)、樣本個(gè)數(shù)等見(jiàn)表1,樣本集具體幾何分布見(jiàn)圖1、圖2、圖3及圖4.

表1 實(shí)驗(yàn)樣本集

采用PCA方法對(duì)高維數(shù)據(jù)集D2進(jìn)行降維處理,圖2為降維后的二維數(shù)據(jù)集E2的幾何分布情況.

3數(shù)值實(shí)驗(yàn)

在Matlab環(huán)境中,分別選取極坐標(biāo)核KPolar及高斯核Kgau進(jìn)行分類(lèi)實(shí)驗(yàn).圖5、圖7、圖9、圖11為數(shù)據(jù)集采用KPolar的分類(lèi)情況,圖6、圖8、圖10、圖12為數(shù)據(jù)集采用Kgau的分類(lèi)情況.

圖1 D1幾何分布圖圖2 E2幾何分布圖

圖3 D3幾何分布圖圖4 D4幾何分布圖

圖5 D1分類(lèi)結(jié)果圖(KPolar)圖6 D1分類(lèi)結(jié)果圖(Kgau)圖7 E2分類(lèi)結(jié)果圖(KPolar)圖8 E2分類(lèi)結(jié)果圖(Kgau)圖9 D3分類(lèi)結(jié)果圖(KPolar)圖10 D3分類(lèi)結(jié)果圖(Kgau)圖11 D4分類(lèi)結(jié)果圖(KPolar)圖12 D4分類(lèi)結(jié)果圖(Kgau)

結(jié)合實(shí)驗(yàn)數(shù)據(jù)分析,采用兩種核函數(shù)對(duì)數(shù)據(jù)集D1,E2進(jìn)行分類(lèi),識(shí)別率均為100%,但是采用極坐標(biāo)核的實(shí)驗(yàn)時(shí)間大大低于高斯核,效率較高.采用極坐標(biāo)核對(duì)D3進(jìn)行分類(lèi)的識(shí)別率為100%,高斯核對(duì)應(yīng)識(shí)別率為98%.不呈圓形分布的數(shù)據(jù)集D4采用高斯核分類(lèi)效果更好.

4結(jié)束語(yǔ)

本文探討了極坐標(biāo)核在數(shù)據(jù)分類(lèi)問(wèn)題中的應(yīng)用情況,實(shí)驗(yàn)結(jié)果證明采用極坐標(biāo)核對(duì)類(lèi)圓形分布的數(shù)據(jù)集進(jìn)行分類(lèi)時(shí),識(shí)別率高,性能更佳.在類(lèi)圓形樣本集分類(lèi)問(wèn)題中,結(jié)合文中的實(shí)驗(yàn)結(jié)果進(jìn)行核選擇,可提高SVM學(xué)習(xí)方法的泛化能力,有一定的實(shí)用價(jià)值.

參考文獻(xiàn):

[1]VAPNIK V.The nature of statitiscal learning theory[M].New York:Spring Verlag Press,1995

[2]鄧乃揚(yáng),田英杰.支持向量機(jī)理論-理論、算法與拓展[M].北京:科學(xué)出版社,2009

[3]劉紹毓,周杰,李弼程,等.基于多分類(lèi)SVM-KNN的實(shí)體關(guān)系抽取方法[J].數(shù)據(jù)采集與處理,2015,30(1):202-210

[4]KRAWCZYK B,WOZNIAK M,HERRERA F.On the usefulness of one-class classifier ensembles for decomposition of multi-class problems[J].Pattern Recognition,2015,48(12):3969-3982

[5]WANG Xiaoming,CHUNG F L,WANG Shitong.Theoretical analysis for solution of support vector data description [J].Neural Networks,2011,24(4):360-369

[6]GAO S,TSANG I,W H,CHIA l T,et al.Local features are not lonely laplacian sparse coding for image classification[J].CVPR,2010,18(6):126-138

[7]CHOI Y S.Least Squares One-class support vector machine[J].Pattern Recognition Letters,2009,30(13):1236-1240

[8]張莉,周偉達(dá),焦李成.一類(lèi)新的支撐矢量機(jī)核[J].軟件學(xué)報(bào),2002,13(4):713-718

[9]劉松華.核矩陣低秩分解與核空間信息能度研究及應(yīng)用[D].西安:西安電子科技大學(xué),2011

[10]郭金玲,王文劍.一種基于數(shù)據(jù)分布的SVM核選擇方法[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,34(5):525-528

[11]COX T,COX M.Multidimensional scaling[M].London:Chapman & Hall,1994

The Study of Polar Kernel Function Application in Classification Problem

GUO Jinling

(Business College, Shanxi University, Taiyuan 030031, China)

〔Abstract〕In Support Vector Machine study, kernel function selection is hot and difficult. Aiming at the current situation of no unified rules for SVM kernel function, the paper explores polar kernel function application in classification problem, puts forward a new way to select the kernel function based on the characteristics of dataset distribution. First Analysis of the mapping principle of the polar kernel function, then dimension reduction of the high dimensional dataset were processed with Principle Component Analysis method. On the basis of determining dataset distribution, how to select the kernel function was discussed. In the matlab environment, four groups of dataset were adopted to improve the classification experiment. The experimental results illustrate that the classification recognition rate of circle datasets reaches 100% with polar kernel and the training time is the shortest. The classification effect is better than that of using gaussian kernel SVM. The method can improve the generalization ability of SVM and the scheme is practical and feasible.

〔Key words〕support vector machine; polar kernel; data classification; dimension reduction

*收稿日期:2015-12-25

作者簡(jiǎn)介:郭金玲(1982-),女,山西省長(zhǎng)子人,碩士,山西大學(xué)商務(wù)學(xué)院講師,主要從事機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘研究.

〔文章編號(hào)〕1672-2027(2016)01-0043-04〔中圖分類(lèi)號(hào)〕TP301

〔文獻(xiàn)標(biāo)識(shí)碼〕A

猜你喜歡
降維
Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
混動(dòng)成為降維打擊的實(shí)力 東風(fēng)風(fēng)神皓極
基于數(shù)據(jù)降維與聚類(lèi)的車(chē)聯(lián)網(wǎng)數(shù)據(jù)分析應(yīng)用
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
降維打擊
海峽姐妹(2019年12期)2020-01-14 03:24:40
一種基于降維對(duì)偶四元數(shù)的多源導(dǎo)航系統(tǒng)信息融合方法
基于堆棧自編碼降維的武器裝備體系效能預(yù)測(cè)
圖像降維下的埋弧焊缺陷自動(dòng)識(shí)別算法及框架
焊接(2016年9期)2016-02-27 13:05:19
一種改進(jìn)的稀疏保持投影算法在高光譜數(shù)據(jù)降維中的應(yīng)用
基于簡(jiǎn)化CKF/降維CKF混合濾波的非線性對(duì)準(zhǔn)技術(shù)研究
贡嘎县| 临沂市| 乌兰察布市| 贵阳市| 兴和县| 酒泉市| 霍山县| 双柏县| 晴隆县| 新津县| 上饶市| 永胜县| 星子县| 任丘市| 中卫市| 莱西市| 饶平县| 哈密市| 英吉沙县| 东乡县| 白玉县| 那曲县| 大英县| 油尖旺区| 海盐县| 鹰潭市| 灌南县| 上栗县| 阳原县| 维西| 正宁县| 梧州市| 德惠市| 金塔县| 乌拉特中旗| 南宁市| 内丘县| 荥阳市| 江永县| 宣汉县| 元谋县|