国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于混合核極限學(xué)習(xí)機(jī)的多標(biāo)簽學(xué)習(xí)研究

2019-05-24 01:02錢萌唐家康
關(guān)鍵詞:學(xué)習(xí)機(jī)集上標(biāo)簽

錢萌 唐家康

(1. 安慶師范大學(xué)計(jì)算機(jī)與信息學(xué)院, 安徽 安慶 246133;2. 安徽省高校智能感知與計(jì)算重點(diǎn)實(shí)驗(yàn)室, 安徽 安慶 246133)

多標(biāo)簽學(xué)習(xí)是指利用已知的樣本標(biāo)簽訓(xùn)練來預(yù)測未知樣本的標(biāo)簽集[13]。學(xué)者們就多標(biāo)簽學(xué)習(xí)提出了各種算法。其中,Zhang等人提出了一種多層ELM-RBF 分類算法(ML-ELM-EBF)[4]。傳統(tǒng)極限學(xué)習(xí)算法采用的是單層策略,而該算法采用的是多隱含層策略,在性能上有一定優(yōu)勢。傳統(tǒng)的ELM算法需要設(shè)置隱含層數(shù)目,且隨機(jī)產(chǎn)生偏置和權(quán)值,由此會(huì)導(dǎo)致不可預(yù)期的結(jié)果波動(dòng)。Luo等人使用核函數(shù)代替隱含層映射處理多標(biāo)簽問題,以保證并增強(qiáng)算法的穩(wěn)定性[5-6]。單核函數(shù)往往可以滿足算法在某一方向上的要求,但是對(duì)于其他方向基本上沒有好的應(yīng)對(duì)策略。本次研究提出了基于混合核極限學(xué)習(xí)機(jī)的ML-MKELM(ML-Mixtures Kernel Extreme Learning Machine)算法,所使用的混合核函數(shù)由RBF核函數(shù)與多項(xiàng)式核函數(shù)組合而成,克服了極限學(xué)習(xí)機(jī)中單個(gè)核函數(shù)的局限性。

1 基本理論

1.1 極限學(xué)習(xí)機(jī)理論

傳統(tǒng)神經(jīng)網(wǎng)絡(luò)處理框架基本上需要進(jìn)行較多并且復(fù)雜的網(wǎng)絡(luò)參數(shù)設(shè)置,且難以得出全局最優(yōu)解,容易陷入局部最優(yōu)的境況。極限學(xué)習(xí)機(jī)框架是一種在求解單隱含層前饋神經(jīng)網(wǎng)時(shí)非常高效的算法。該框架在第一次運(yùn)行時(shí),只需要給定隱含層節(jié)點(diǎn)數(shù),初始化權(quán)值和偏置則隨機(jī)給出,因?yàn)樵O(shè)置參數(shù)的簡化還帶來了泛化性能強(qiáng)、運(yùn)行速度快的優(yōu)點(diǎn)[7]。

假設(shè)N個(gè)不同的樣本(xi,ti),其中,xi=[xi1,xi2,…,xin]T,ti=[ti1,ti2,…,tim]T,具有L個(gè)隱含節(jié)點(diǎn)和激活函數(shù)g(x)的單隱含層神經(jīng)網(wǎng)絡(luò),L≤N,形式化定義為:

Hβ=K

(1)

(2)

設(shè):β=[β1,β2,…,βL]T∈RL×d,為輸出層權(quán)值矩陣;K=[t1,t2,…,tN]T∈RL×d,為樣本輸出矩陣;H為極限學(xué)習(xí)機(jī)的隱含層輸出矩陣,它的第i列表示的是第i個(gè)隱含層神經(jīng)元關(guān)于輸入x1,x2,…,xN的輸出。

(3)

1.2 核函數(shù)

核函數(shù)的作用是使非線性變換?(·)滿足式(4)所示一類函數(shù):

K(xi,xj)=?(xi)·(xj)

(4)

核函數(shù)的最大作用就是避免高維空間的維數(shù)災(zāi)難問題,從而使ELM得以實(shí)用化。核函數(shù)的使用,將線性分類引入到高維特征樣本中,使高維空間中的內(nèi)積運(yùn)算利用原函數(shù)來進(jìn)行,在特征空間中分類樣本集卻不增加計(jì)算的復(fù)雜度。核函數(shù)應(yīng)滿足 Mecrer條件[8]。當(dāng)前研究應(yīng)用最多的核函數(shù)主要有3 類,即多項(xiàng)式核函數(shù)、RBF核函數(shù)和Sigmoid函數(shù)。

多項(xiàng)式核函數(shù):

K(x,xi)=[(x·xi)+1]q

(5)

RBF核函數(shù):

(6)

Sigmoid函數(shù):

K(x,xi)=tanh(v(x·xi)+c)

(7)

以上各式中,q、σ、c均為常數(shù)參數(shù),可根據(jù)具體問題選取合理的參數(shù)值。

核函數(shù)的種類主要分為局部核函數(shù)與全局核函數(shù)。RBF函數(shù)是一種局部核函數(shù),它對(duì)數(shù)據(jù)中存在的噪聲有著較好的抗干擾能力;但其抗干擾能力具有很強(qiáng)的局部性,其參數(shù)決定了函數(shù)作用范圍有限,缺乏全局抗干擾能力。多項(xiàng)式函數(shù)是一種全局核函數(shù),它一般允許相距很遠(yuǎn)的數(shù)據(jù)點(diǎn)對(duì)核函數(shù)產(chǎn)生影響。多項(xiàng)式核函數(shù)的參數(shù)q取值越大,映射的維度越高,計(jì)算量就會(huì)越大。當(dāng)q過大時(shí),由于學(xué)習(xí)的復(fù)雜性過高,易出現(xiàn)過擬合現(xiàn)象。因此,考慮將兩者結(jié)合起來,構(gòu)造一種新的兼具兩者共同優(yōu)點(diǎn)的混合核函數(shù),應(yīng)用于極限學(xué)習(xí)機(jī)中。

1.3 混合核函數(shù)

局部核函數(shù)的學(xué)習(xí)能力明顯強(qiáng)于全局核函數(shù),而其泛化能力則相對(duì)較弱??山Y(jié)合二者優(yōu)勢來構(gòu)造一種兼顧學(xué)習(xí)能力和泛化能力的混合核函數(shù)(Mixed Ernel Function),以提升極限學(xué)習(xí)機(jī)的分類性能。由核函數(shù)的構(gòu)成條件可知,二者混合后依然滿足Mecrer條件,基于此提出以下新的混合核函數(shù):

Kmix=λKpoly+(1-λ)KRBF

(8)

式中,參數(shù)λ是用來調(diào)節(jié)多項(xiàng)式核函數(shù)和RBF核函數(shù)在混合核函數(shù)中貢獻(xiàn)值的常數(shù),通過實(shí)驗(yàn)得出,一般為 0.50~0.99 。這里還需要確定最優(yōu)混合系數(shù),且當(dāng)λ值較大時(shí) (例如取0.98),更能體現(xiàn)混合核函數(shù)的性能。為了保證混合核函數(shù)具有更好的學(xué)習(xí)能力和泛化能力 ,RBF核函數(shù)中的σ2應(yīng)該取值0.01~0.50,多項(xiàng)式核函數(shù)中的q值一般取1或2 。

2 多標(biāo)簽學(xué)習(xí)

2.1 多標(biāo)簽學(xué)習(xí)的定義

通常,應(yīng)用傳統(tǒng)的單標(biāo)簽學(xué)習(xí)無法對(duì)真實(shí)世界對(duì)象的多語義性、概念復(fù)雜性進(jìn)行處理,也無法滿足目前機(jī)器學(xué)習(xí)的高要求。在此,建立多標(biāo)簽學(xué)習(xí)框架。該框架中,可對(duì)任意一個(gè)對(duì)象的某一特征向量進(jìn)行描述,然后根據(jù)特征向量對(duì)各對(duì)象進(jìn)行精準(zhǔn)分類,賦予類別標(biāo)簽。

在這種多標(biāo)簽框架下,我們用(xi,yi)表示一個(gè)樣本集中的輸入輸出對(duì)。其中,yi是二進(jìn)制向量(yi1,yi2,…,yiq),yij代表第i個(gè)樣本的第j個(gè)標(biāo)簽,yij=0表示該類別為負(fù),yij=1表示該類別為正。假設(shè)一個(gè)問題的類別標(biāo)簽有藍(lán)天、白云、大海,那yi就是一個(gè)三維的行向量(yi1,yi2,yi3)。如果輸入圖片只有藍(lán)天和白云,則yi=(1,1,0)。這便是多標(biāo)簽學(xué)習(xí)的定義。

2.2 多標(biāo)簽學(xué)習(xí)評(píng)價(jià)指標(biāo)

在多標(biāo)簽學(xué)習(xí)評(píng)價(jià)中,常使用以下5 種評(píng)價(jià)指標(biāo):海明損失(Hamming Loss)、1-錯(cuò)誤率(One-Error)、覆蓋率(Coverage)、排序損失(Ranking Loss)、平均精度( Average Precision)。

(1) 海明損失。海明損失(Hamming Loss)是用來表示沒有能夠被正確分類的標(biāo)簽的情況。當(dāng)該指標(biāo)的數(shù)值為0時(shí),算法結(jié)果最優(yōu),即該指標(biāo)數(shù)值越小表示算法性能越好。其算式為:

(9)

式中Δ代表兩個(gè)集合之間的對(duì)稱差異。

(2) 1-錯(cuò)誤率。1-錯(cuò)誤率(One-Error)是評(píng)估對(duì)象最高排位標(biāo)記沒有被正確標(biāo)記的次數(shù)。當(dāng)該項(xiàng)指標(biāo)數(shù)值為0時(shí),性能最優(yōu)。其算式為:

(10)

式中實(shí)值函數(shù)f(xi,l)對(duì)應(yīng)多標(biāo)簽分類器h(x)。

(3) 覆蓋率。覆蓋率是評(píng)估對(duì)象序列中所需標(biāo)記數(shù)達(dá)到覆蓋全部標(biāo)記的指標(biāo),該項(xiàng)數(shù)值越小表示算法性能越好。其算式為:

(11)

(4) 排序損失。排序損失是評(píng)估對(duì)象非屬標(biāo)記的排位高于所屬標(biāo)記的次數(shù)。當(dāng)該項(xiàng)數(shù)值為0時(shí)為最優(yōu)。其算式為:

|{(l,l)|f(xi,l1)≤

(12)

(5) 平均精度。平均精度是評(píng)估特定標(biāo)記l∈yi排序的正確標(biāo)記平均分?jǐn)?shù)。當(dāng)該項(xiàng)數(shù)值為1時(shí)最優(yōu),該項(xiàng)數(shù)值越大表示算法性能越好。其算式為:

(13)

在上述5個(gè)指標(biāo)當(dāng)中,前4個(gè)指標(biāo)的數(shù)值越小,表示算法性能越好;而平均精度的數(shù)值越大,說明算法性能越好。

3 多標(biāo)簽學(xué)習(xí)下的極限學(xué)習(xí)機(jī)

3.1 多標(biāo)簽學(xué)習(xí)下的極限學(xué)習(xí)機(jī)

多標(biāo)簽極限學(xué)習(xí)機(jī)的輸出函數(shù)fi(x)為:

(14)

由式(5)(6)求解輸出權(quán)值β:

(15)

多標(biāo)簽極限學(xué)習(xí)機(jī)的輸出函數(shù)為:

(16)

3.2 混合核極限學(xué)習(xí)機(jī)

傳統(tǒng) ELM 算法需設(shè)置隱含層節(jié)點(diǎn)數(shù),每次需要隨機(jī)設(shè)定權(quán)值和偏置,因此計(jì)算結(jié)果并不穩(wěn)定,容易受到隨機(jī)設(shè)定值的影響。采用核 ELM 則可以解決這一問題。當(dāng)映射函數(shù)(x)未知時(shí),引入混合核函數(shù),即利用RBF核函數(shù)和多項(xiàng)式核函數(shù)構(gòu)造的混合函數(shù)Kmix=λKpoly+(1-λ)KRBF代替特征矩陣運(yùn)算HHT。

Ωelm=HHT:Ωelm(i,j)=h(xi,xj)

(17)

k(xi,xj)=λKpoly+(1-λ)KRBF

(18)

(19)

3.3 混合核極限學(xué)習(xí)機(jī)的多標(biāo)簽學(xué)習(xí)算法

(2)輸出。預(yù)測分布K算法如下:

①初始化正則參數(shù)C,混合核參數(shù)λ、q、σ;

②for多標(biāo)簽訓(xùn)練集Sxi∈D;

③計(jì)算核矩陣Ωtrain,Ωtrain=Ωelm(i,j)=h(xi,xj);

④end;

⑦計(jì)算核矩陣Ωtest,Ωtest=Ωelm(i,j)=h(xi,xj);

⑧end;

⑩P←f(x*)。

4 多標(biāo)簽學(xué)習(xí)實(shí)驗(yàn)方案及結(jié)果分析

為了驗(yàn)證本算法的有效性,實(shí)驗(yàn)中采用了幾種在多標(biāo)簽學(xué)習(xí)中被廣泛使用的數(shù)據(jù)集(見表1)。

4.1 實(shí)驗(yàn)方案

實(shí)驗(yàn)硬件平臺(tái)配置為Intel(R) core(TM)i5-6300HQ 3.2GHz CPU,8G RAM,軟件為Matlab2016a。為了減少隨機(jī)誤差的產(chǎn)生,對(duì)于每一種算法用相同的數(shù)據(jù)集進(jìn)行 10 折交叉實(shí)驗(yàn),最后實(shí)驗(yàn)得到的評(píng)價(jià)指標(biāo)求取平均值。將5個(gè)評(píng)價(jià)指標(biāo)記為 HL、OE、CV、RL 和 AP。

4.2 實(shí)驗(yàn)結(jié)果

對(duì)照5種現(xiàn)有算法,分別以5種評(píng)價(jià)指標(biāo)進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表 2 — 表8 所示。其中,表2、表3分別是酵母基因與自然場景數(shù)據(jù)集實(shí)驗(yàn)結(jié)果,表4 — 表8 是雅虎網(wǎng)頁數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。

表1 數(shù)據(jù)集特征描述

注:數(shù)據(jù)來自http://mulan.sourceforge.net/datasets-mlc.html。

表2 酵母基因數(shù)據(jù)集測試結(jié)果

表3 自然場景數(shù)據(jù)集測試結(jié)果

酵母基因數(shù)據(jù)集與自然場景數(shù)據(jù)集測試結(jié)果顯示,ML-MKELM算法在覆蓋范圍、排名損失和平均精度方面全部取得最優(yōu)結(jié)果。

在表4中,ML-ASRKELM算法在 Business、Education、Entertainment、Society、Image 數(shù)據(jù)集上的指標(biāo)最優(yōu),其他數(shù)據(jù)集指標(biāo)稍差。在表 5中,ML-MLELM算法只在Business數(shù)據(jù)集上為第3,在其他剩余的9個(gè)數(shù)據(jù)集的表現(xiàn)上均為最優(yōu)。在表6中,ML-MKELM算法在 Computers、Entertainment、Health、Recreation、Image 數(shù)據(jù)集上覆蓋率測試指標(biāo)性能最優(yōu),在Arts、Business、Education、Recreation、Science、Society數(shù)據(jù)集上性能排第2。在表 7中,ML-MKELM算法在Arts、Business、 Computers、Entertainment、Recreation、Image 數(shù)據(jù)集上,排序損失測試結(jié)果指標(biāo)性能最優(yōu),在Education、Recreation、Science、Society數(shù)據(jù)集上性能排第2。在表8中,ML-MKELM 算法在各個(gè)數(shù)據(jù)集上的平均精度測試指標(biāo)性能均為最優(yōu)。

表4 雅虎網(wǎng)頁數(shù)據(jù)集海明損失測試結(jié)果

表5 雅虎網(wǎng)頁數(shù)據(jù)集 1-錯(cuò)誤率測試結(jié)果

表6 雅虎網(wǎng)頁數(shù)據(jù)集覆蓋率測試結(jié)果

表7 雅虎網(wǎng)頁數(shù)據(jù)集排序損失測試結(jié)果

表8 雅虎網(wǎng)頁數(shù)據(jù)集平均精度測試結(jié)果

4.3 統(tǒng)計(jì)檢驗(yàn)

對(duì)于每種算法,都有20種實(shí)驗(yàn)對(duì)比結(jié)果(4種對(duì)比算法,5種評(píng)價(jià)指標(biāo))。本次提出的ML-MKELM算法,各指標(biāo)性能良好,有40%的比例與其他算法無明顯差異。根據(jù)不同的指標(biāo)來對(duì)比算法性能,如圖1所示。其中,ML-MKELM與ML-RBF相比,在AP指標(biāo)上無明顯的性能差異。ML-MKELM與ML-RBF、ML-KNN相比,在HL指標(biāo)上無明顯的性能差異。ML-MKELM與ML-RBF、ML-ELM-RBF相比,在CV指標(biāo)上無明顯的性能差異。ML-MKELM與ML-RBF相比,在OE指標(biāo)上無明顯的性能差異。ML-MKELM與ML-RBF、ML-KNN相比,在RL指標(biāo)上無明顯的性能差異,有60%的比例優(yōu)于其他算法。對(duì)于ML-RBF算法,有60%的比例在統(tǒng)計(jì)指標(biāo)上與其他算法無明顯的性能差異,有30%的比例優(yōu)于其他算法。對(duì)于ML-ELM-RBF算法,有65%的比例在統(tǒng)計(jì)指標(biāo)上與其他算法無明顯的性能差異,有5%的比例優(yōu)于其他算法。

5 結(jié) 語

在本次針對(duì)極限學(xué)習(xí)機(jī)中核函數(shù)的研究中,考慮不同核函數(shù)的優(yōu)勢,將多項(xiàng)式核函數(shù)和RBF核函數(shù)進(jìn)行組合,提出基于混合核的多標(biāo)簽學(xué)習(xí)算法。在極限學(xué)習(xí)機(jī)算法中通過混合核函數(shù)將特征映射到高維空間,對(duì)原標(biāo)記空間建立模型預(yù)測未知樣本的標(biāo)記。實(shí)驗(yàn)表明,采用混合核計(jì)算效率高、魯棒性強(qiáng),能夠有效提升多標(biāo)簽分類的性能,算法具有較好的穩(wěn)定性,但是核函數(shù)在不同數(shù)據(jù)集上的效果并不相同。如何針對(duì)數(shù)據(jù)集提出更加有效的混合核極限學(xué)習(xí)機(jī)算法,將是今后學(xué)習(xí)機(jī)研究的重要方向。

圖1 算法綜合性能比較

猜你喜歡
學(xué)習(xí)機(jī)集上標(biāo)簽
GCD封閉集上的冪矩陣行列式間的整除性
R語言在統(tǒng)計(jì)學(xué)教學(xué)中的運(yùn)用
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
基于極限學(xué)習(xí)機(jī)參數(shù)遷移的域適應(yīng)算法
基于改進(jìn)極限學(xué)習(xí)機(jī)的光譜定量建模方法
分層極限學(xué)習(xí)機(jī)在滾動(dòng)軸承故障診斷中的應(yīng)用
讓衣柜擺脫“雜亂無章”的標(biāo)簽
師如明燈,清涼溫潤
科學(xué)家的標(biāo)簽
德江县| 博野县| 桓台县| 山东省| 宜兴市| 中阳县| 岑巩县| 济源市| 原平市| 巴南区| 金堂县| 东台市| 临桂县| 壶关县| 松溪县| 曲松县| 个旧市| 伊吾县| 林口县| 阜新市| 姜堰市| 伊金霍洛旗| 通许县| 公主岭市| 唐山市| 广宗县| 图木舒克市| 阜宁县| 精河县| 方城县| 英超| 枣庄市| 桃园市| 福建省| 南华县| 兴隆县| 鹤岗市| 商丘市| 慈利县| 鹿邑县| 泰州市|