国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于三元糾錯(cuò)輸出編碼的偏標(biāo)記學(xué)習(xí)算法*

2018-09-12 02:22周斌斌張敏靈劉胥影
計(jì)算機(jī)與生活 2018年9期
關(guān)鍵詞:集上分類器編碼

周斌斌,張敏靈+,劉胥影

1.東南大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210096

2.東南大學(xué) 計(jì)算機(jī)網(wǎng)絡(luò)和信息集成教育部重點(diǎn)實(shí)驗(yàn)室,南京 210096

1 引言

偏標(biāo)記學(xué)習(xí)(partial label learning)是一類重要的弱監(jiān)督學(xué)習(xí)(weakly supervised learning)框架,在該框架下,每個(gè)訓(xùn)練樣本在輸入空間由單個(gè)示例(特征向量)描述,而在輸出空間與一組候選標(biāo)記集合(candidate label set)相關(guān)聯(lián),其中有且僅有一個(gè)是其真實(shí)標(biāo)記[1-2]。偏標(biāo)記學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一個(gè)從輸入空間到輸出空間的多類分類器。最近幾年,偏標(biāo)記學(xué)習(xí)技術(shù)已經(jīng)廣泛應(yīng)用于真實(shí)世界的問題中,例如文本挖掘[3]、圖片分類[4]、生態(tài)信息學(xué)[5]等領(lǐng)域。

偏標(biāo)記學(xué)習(xí)框架的形式化定義如下。設(shè)X=Rd代表樣本特征空間,Y={y1,y2,…,yq}代表樣本標(biāo)記空間。給定偏標(biāo)記訓(xùn)練集D={(xi,Si)|1≤i≤m},其中xi∈X為d維特征向量,Si?Y為xi的候選標(biāo)記集合,xi的真實(shí)標(biāo)記yi未知但滿足條件yi∈Si。偏標(biāo)記學(xué)習(xí)目標(biāo)是基于訓(xùn)練集D學(xué)習(xí)得到多類分類器f:X→Y。

偏標(biāo)記學(xué)習(xí)的難點(diǎn)在于樣本的真實(shí)標(biāo)記隱藏在候選標(biāo)記集合中,樣本的真實(shí)標(biāo)記無(wú)法獲得。目前解決這個(gè)問題的基本策略是消歧。消歧思想是消除偏標(biāo)記對(duì)象候選標(biāo)記中偽標(biāo)記引起的歧義性?,F(xiàn)有的消歧策略算法主要包括基于辨識(shí)的消歧(disambiguation of identification-based)和基于平均的消歧(disambiguation of averaging-based)?;诒孀R(shí)的消歧將樣本的真實(shí)標(biāo)記當(dāng)作隱變量,通過迭代方式優(yōu)化內(nèi)嵌隱變量來實(shí)現(xiàn)消歧?;谄骄南鐚?duì)偏標(biāo)記樣本的各個(gè)候選標(biāo)記賦予相同的權(quán)重,通過綜合學(xué)習(xí)模型在各候選標(biāo)記上的輸出來實(shí)現(xiàn)消歧[1,6-7]。

然而,基于消歧的偏標(biāo)記學(xué)習(xí)技術(shù)很大程度上會(huì)受到偽標(biāo)記(即Si?{yi})帶來的不利影響。為了緩解這個(gè)不利影響,Zhang提出了一種基于糾錯(cuò)輸出編碼(error-correcting output codes,ECOC[8-9])的非消歧策略的偏標(biāo)記學(xué)習(xí)算法PL-ECOC[10](partial labelerror-correcting output codes),該方法將多類分類技術(shù)糾錯(cuò)輸出編碼應(yīng)用到偏標(biāo)記學(xué)習(xí)中,通過編碼的方式將偏標(biāo)記學(xué)習(xí)問題轉(zhuǎn)換為多個(gè)二類學(xué)習(xí)問題,然后對(duì)多個(gè)二類分類器集成得到最終的分類器。

很明顯,候選標(biāo)記數(shù)目越多,偏標(biāo)記對(duì)象的偽標(biāo)記信息就會(huì)越多,偏標(biāo)記學(xué)習(xí)問題的難度越大,從而不利于偏標(biāo)記問題的學(xué)習(xí)。因此可以通過減少候選標(biāo)記的數(shù)目來降低偏標(biāo)記學(xué)習(xí)的難度,從而有利于偏標(biāo)記問題的學(xué)習(xí)。本文從該角度出發(fā),提出了一種基于三元糾錯(cuò)輸出編碼的偏標(biāo)記學(xué)習(xí)算法(partial labelternary error-correcting output codes,PL-TECOC),該算法類似于但不同于PL-ECOC且能獲得較好的分類性能,PL-TECOC算法采用三元編碼方式,即使用{+1,-1,0}進(jìn)行編碼,在將偏標(biāo)記學(xué)習(xí)問題轉(zhuǎn)換為多個(gè)二類學(xué)習(xí)問題的過程中,編碼“0”用于忽略相應(yīng)的標(biāo)記,只依靠非“0”標(biāo)記完成二類學(xué)習(xí)問題訓(xùn)練數(shù)據(jù)的構(gòu)建,從而減少候選標(biāo)記個(gè)數(shù)以降低偏標(biāo)記學(xué)習(xí)問題的難度。

本文的組織結(jié)構(gòu)如下:第2章介紹偏標(biāo)記學(xué)習(xí)的相關(guān)工作;第3章介紹本文提出的PL-TECOC算法;第4章是實(shí)驗(yàn)部分,最后對(duì)本文進(jìn)行總結(jié)和展望。

2 相關(guān)工作

目前,關(guān)于偏標(biāo)記學(xué)習(xí)的算法主要分為基于辨識(shí)的消歧策略、基于平均的消歧策略以及基于非消歧的策略。

基于辨識(shí)的消歧策略,現(xiàn)有方法將真實(shí)標(biāo)記當(dāng)作隱變量,然后通過迭代方式優(yōu)化內(nèi)嵌隱變量的目標(biāo)函數(shù)來達(dá)成消歧。首先假設(shè)一個(gè)特定的參數(shù)模型F(x,y;θ)(θ為模型參數(shù)),然后把真實(shí)標(biāo)記當(dāng)作隱變量并且根據(jù)式子y?i=argmaxy∈SiF(xi,y;θ)來確定真實(shí)標(biāo)記,最后通過EM[11-12]算法(expectation maximization algorithm)或其他算法來優(yōu)化基于最大似然準(zhǔn)則函數(shù)或來優(yōu)化基于最大化間隔的準(zhǔn)則函數(shù)定義的目標(biāo)函數(shù)來迭代改良隱變量(真實(shí)標(biāo)記)。

基于平均的消歧策略,現(xiàn)有方法對(duì)偏標(biāo)記樣本的各個(gè)候選標(biāo)記賦予相同的權(quán)重,通過綜合學(xué)習(xí)模型在各候選標(biāo)記上的輸出來實(shí)現(xiàn)消歧。常見方法包括基于k近鄰的偏標(biāo)記方法,該方法通過對(duì)樣本近鄰的候選標(biāo)記集合進(jìn)行加權(quán)投票來預(yù)測(cè)樣本的類別標(biāo)記,即,其中 I(·)為指示函數(shù),N(x*)為樣本x*的近鄰?;谕箖?yōu)化的偏標(biāo)記學(xué)習(xí)方法通過最小化偏標(biāo)記樣本在候選標(biāo)記集合上經(jīng)驗(yàn)損失(由決定)以及在非候選標(biāo)記集合上的經(jīng)驗(yàn)損失(由F(x,y;θ)y?Si決定)[1]來進(jìn)行偏標(biāo)記學(xué)習(xí)。

以上是消歧策略,Zhang近年來提出了一種全新的非消歧策略算法PL-ECOC,它將多類學(xué)習(xí)的糾錯(cuò)輸出編碼應(yīng)用到偏標(biāo)記學(xué)習(xí)中,通過編碼的方式將偏標(biāo)記學(xué)習(xí)問題轉(zhuǎn)換為多個(gè)二類學(xué)習(xí)問題,最后對(duì)多個(gè)二類分類器集成以得到最終的學(xué)習(xí)器。

3 基于三元糾錯(cuò)輸出編碼的偏標(biāo)記學(xué)習(xí)算法

偏標(biāo)記學(xué)習(xí)的任務(wù)是學(xué)習(xí)一個(gè)多類分類器f:X→Y,本質(zhì)上這是一個(gè)多類學(xué)習(xí)問題。在傳統(tǒng)監(jiān)督學(xué)習(xí)框架下,解決多類學(xué)習(xí)問題一種常見方式就是將多類學(xué)習(xí)問題分解為多個(gè)二類學(xué)習(xí)問題進(jìn)行求解。常見的分解方式有一對(duì)一(one-vs-one)、一對(duì)多(one-vs-rest)和糾錯(cuò)輸出編碼(ECOC),在偏標(biāo)記學(xué)習(xí)問題中,由于訓(xùn)練樣本的真實(shí)標(biāo)記未知,無(wú)法直接使用一對(duì)一和一對(duì)多的分解策略,而糾錯(cuò)輸出編碼可以多對(duì)多,因此可用為分解策略。

本文提出的PL-TECOC算法旨在通過減少候選標(biāo)記的數(shù)目來降低偏標(biāo)記學(xué)習(xí)的難度。它對(duì)基于二元編碼的PL-ECOC算法進(jìn)行擴(kuò)展,采用三元編碼方式,即使用{+1,-1,0}進(jìn)行編碼。在將偏標(biāo)記學(xué)習(xí)問題轉(zhuǎn)換為多個(gè)二類學(xué)習(xí)問題的過程中,編碼“0”用于忽略相應(yīng)的標(biāo)記,只依據(jù)非0標(biāo)記完成二類學(xué)習(xí)問題訓(xùn)練數(shù)據(jù)的構(gòu)造,從而減少候選標(biāo)記個(gè)數(shù)以降低偏標(biāo)記學(xué)習(xí)問題的難度。PL-TECOC算法主要分為編碼和解碼階段。

在編碼階段,首先隨機(jī)生成一個(gè)編碼矩陣M∈{+1,0,-1}q×L,其中q為類別標(biāo)記個(gè)數(shù),L為編碼長(zhǎng)度。編碼矩陣M的每一行即M(j,:)是類別yi的一個(gè)L位編碼字,矩陣的每一列M(:,?)=σ=[σ1,σ2,…,σq]T代表q位的列編碼,其中 [σ1,σ2,…,σq]T∈{+1,0,-1}q,它根據(jù)式(1)將標(biāo)記空間Y={y1,y2,…,yq}劃分為3個(gè)部分

根據(jù)式(2)得知,對(duì)于偏標(biāo)記訓(xùn)練集的每個(gè)樣本xi,如果其候選標(biāo)記集合包含于組成的并集合中且與的交集不為空時(shí),則將該樣本歸為正類樣本;如果其候選標(biāo)記集合包含于組成的并集合中且與的交集不為空時(shí),則將該樣本歸為負(fù)類樣本,否則丟棄該樣本。這樣偏標(biāo)記訓(xùn)練集中的部分樣本可能既不屬于也不屬于因此,為了避免二類訓(xùn)練集樣本數(shù)過少的問題,PL-TECOC設(shè)置一個(gè)閾值τ來減少其影響,即二類訓(xùn)練集大小須要大于等于閾值τ。此外構(gòu)建的二類訓(xùn)練集存在類別不平衡問題,即一類樣本明顯少于另一類樣本。PLTECOC設(shè)置閾值υ來解決這個(gè)問題,即二類訓(xùn)練集中兩類樣本數(shù)比例須小于等于參數(shù)υ。

在解碼階段,類似于ECOC的解碼,將未知樣本x*預(yù)測(cè)為其編碼字h(x*)與標(biāo)記編碼字最近的標(biāo)記,見式(3)。

其中h(x*)=[h1(x*),h2(x*),…,hL(x*)],關(guān)于如何計(jì)算h(x*)具體見算法1的算法偽碼。dist(·,·)為距離函數(shù),針對(duì)三元解碼,常見的方式有減弱的歐式解碼(attenuated Euclidean decoding,AED)、基于損失的解碼(lossbased decoding)以及基于概率的解碼(probabilisticbased decoding)等方式[15]。PL-TECOC采用減弱的歐式解碼,其定義為:

PL-TECOC算法不同于PL-ECOC,主要體現(xiàn)在以下兩方面:(1)本算法采用三元編碼方式將偏標(biāo)記學(xué)習(xí)問題轉(zhuǎn)換為多個(gè)二類學(xué)習(xí)問題,編碼“0”用于忽略相應(yīng)的標(biāo)記,只依據(jù)非0標(biāo)記完成二類學(xué)習(xí)問題訓(xùn)練數(shù)據(jù)的構(gòu)造,從而減少候選標(biāo)記個(gè)數(shù)以降低偏標(biāo)記學(xué)習(xí)問題的難度。(2)在構(gòu)建的二類訓(xùn)練集存在類別不平衡問題,本算法通過設(shè)置一個(gè)閾值τ來減少其帶來的影響。

算法1PL-TECOC算法

輸入:D={(xi,Si)|1≤i≤m}為偏標(biāo)記訓(xùn)練集,L為編碼長(zhǎng)度,Ψ為二類分類器,τ為二類訓(xùn)練集大小的閾值,υ為二類訓(xùn)練集不平衡比例的閾值,x*為測(cè)試樣本。

輸出:y*為樣本x*的預(yù)測(cè)標(biāo)記。

訓(xùn)練

1.?=0

2.While?≠L

3. 隨機(jī)生成q位的列編碼σ=[σ1,σ2,…,σq]T∈{+1,0,-1}q

5.根據(jù)式(2)將偏標(biāo)記訓(xùn)練集D={(xi,Si)|1≤i≤m}轉(zhuǎn)換為二類訓(xùn)練集Bσ

6. If|Bσ|≥τ并且

7. ?=?+1

8. 令M(:,?)=σ

9.基于二類訓(xùn)練集Bσ學(xué)習(xí)一個(gè)二類分類器即h?←Ψ(Bσ)

10. End If

11.End While

測(cè)試

12.根據(jù)訓(xùn)練階段學(xué)習(xí)的二類分類器得到樣本x*的編碼字h(x*)=[h1(x*),h2(x*),…,hL(x*)]

13.根據(jù)式(3)得到測(cè)試樣本x*的標(biāo)記y*=f(x*)

4 實(shí)驗(yàn)及實(shí)驗(yàn)結(jié)果

4.1 實(shí)驗(yàn)設(shè)置

本文在人工數(shù)據(jù)集[16]和真實(shí)數(shù)據(jù)集上分別進(jìn)行了實(shí)驗(yàn)。數(shù)據(jù)集信息分別見表1和表2,包括樣本數(shù)、屬性數(shù)、類別數(shù),另外真實(shí)數(shù)據(jù)集還給出了樣本的平均候選標(biāo)記集合大小。

Table 1 UCI datasets表1 人工數(shù)據(jù)集

對(duì)于人工數(shù)據(jù)集,根據(jù)常用的設(shè)置方法[1,5,10],通過控制ρ、r、ε這3個(gè)參數(shù)從多類數(shù)據(jù)集中生成人工偏標(biāo)記數(shù)據(jù)集,其中ρ控制偏標(biāo)記訓(xùn)練樣本的比例(即|Si|>1),r控制候選標(biāo)記中偽標(biāo)記的個(gè)數(shù)(|Si|=r+1),ε控制一個(gè)額外候選標(biāo)記y′≠y與真實(shí)標(biāo)記y同時(shí)出現(xiàn)的概率。由表1可見,對(duì)于每個(gè)人工數(shù)據(jù)集,總共有28(4×7)個(gè)參數(shù)設(shè)置,于是生成28組不同設(shè)置的偏標(biāo)記數(shù)據(jù)集。

對(duì)于真實(shí)數(shù)據(jù)集,Lost[1]、Soccer Player[4]、LYN(Labeled Yahoo!News)[17]數(shù)據(jù)集來自于自動(dòng)人臉識(shí)別,MSRCv2[5]數(shù)據(jù)集來自于目標(biāo)分類,BirdSong[18]數(shù)據(jù)集來自于鳥類音節(jié)分類。對(duì)于自動(dòng)人臉識(shí)別任務(wù),將圖片或視頻上出現(xiàn)的人臉作為示例,然后從標(biāo)題或字幕上抽取的人名作為候選標(biāo)記,特別地,保留LYN數(shù)據(jù)集出現(xiàn)數(shù)目最多的Num(Num∈{10,20,50,100,200})個(gè)人物名字作為標(biāo)記空間,這樣可以生成5個(gè)版本的LYN數(shù)據(jù)集,數(shù)據(jù)集命名為L(zhǎng)YN Num。對(duì)于目標(biāo)分類,MSRCv2數(shù)據(jù)集包括23個(gè)類別的1 758個(gè)圖像分割區(qū)域,每個(gè)圖分割區(qū)域代表一個(gè)示例,而其候選標(biāo)記集合為出現(xiàn)在同一圖像的所有對(duì)象類別。對(duì)于鳥類音節(jié)分類,BirdSong數(shù)據(jù)集將鳥叫聲的音節(jié)作為一個(gè)示例,而將出現(xiàn)在音節(jié)10 s期間的鳥類當(dāng)作候選標(biāo)記集合。

Tabel 2 Real-world datasets表2 真實(shí)數(shù)據(jù)集

為了驗(yàn)證提出算法的有效性,本文將和以下幾個(gè)常用的偏標(biāo)記學(xué)習(xí)算法進(jìn)行對(duì)比。

(1)基于k近鄰的偏標(biāo)記學(xué)習(xí)算法PL-KNN(partial labelknearest neighbor)[6]:一種基于平均消歧策略的偏標(biāo)記學(xué)習(xí)算法,參數(shù)k設(shè)置為10。

(2)基于凸優(yōu)化的偏標(biāo)記學(xué)習(xí)算法CLPL(convex learning from partial labels)[1]:一種基于平均消歧策略的偏標(biāo)記學(xué)習(xí)算法,二類分類器采用基于L2正則化鉸鏈損失(hingeloss)的SVM算法,使用Liblinear工具包實(shí)現(xiàn)。

(3)基于最大間隔的偏標(biāo)記學(xué)習(xí)算法PL-SVM(partial label support vector machine)[14]:一種基于辨識(shí)策略的偏標(biāo)記學(xué)習(xí)算法,正則化參數(shù)從{10-3,10-2,…,103}這個(gè)范圍內(nèi)選擇,使用線性核。

(4)基于最大似然的偏標(biāo)記學(xué)習(xí)算法LSB-CMM(logistic stick-breaking conditional multinomial model)[5]:一種基于辨識(shí)策略的偏標(biāo)記學(xué)習(xí)算法,其中混合成分個(gè)數(shù)設(shè)為q(即類別標(biāo)記個(gè)數(shù))。

(5)基于非消歧策略的偏標(biāo)記學(xué)習(xí)算法PLECOC[10]:編碼長(zhǎng)度設(shè),二類訓(xùn)練集大小閾值設(shè)為

對(duì)于PL-TECOC算法,二類基分類器采用Libsvm[19]工具箱實(shí)現(xiàn)的支持向量機(jī),二類訓(xùn)練集大小閾值參數(shù)τ設(shè)為偏標(biāo)記訓(xùn)練集大小的1/10,即,編碼長(zhǎng)度設(shè)為,二類訓(xùn)練集不平衡的比例閾值υ設(shè)為4。在本文中,對(duì)于人工數(shù)據(jù)集和真實(shí)數(shù)據(jù)集均采用10倍交叉驗(yàn)證實(shí)驗(yàn),并記錄各對(duì)比算法的準(zhǔn)確率以及標(biāo)準(zhǔn)差。

4.2 人工數(shù)據(jù)集實(shí)驗(yàn)

圖1到圖3展示了PL-TECOC和各種對(duì)比算法分別在r=1,2,3,ρ以步長(zhǎng)0.1從0.1到0.7變化時(shí)的分類準(zhǔn)確率。圖4展示了PL-TECOC和各種對(duì)比算法在ρ=1,r=1,ε以步長(zhǎng)0.1從0.1到0.7變化時(shí)的分類準(zhǔn)確率。(a)~(d)分別是4個(gè)數(shù)據(jù)集上對(duì)應(yīng)的結(jié)果圖。

圖1到圖4表明在所有情況下PL-TECOC的性能優(yōu)于或持平于其他對(duì)比算法?;陲@著程度為0.05的成對(duì)t檢驗(yàn),表3給出了在4個(gè)數(shù)據(jù)集上所有設(shè)置情況下PL-TECOC優(yōu)于/持平/劣于其各對(duì)比算法的次數(shù)。從表3可以得出以下結(jié)論:

(1)在所有參數(shù)設(shè)置下的人工數(shù)據(jù)集上,對(duì)比算法的性能劣于PL-TECOC。

Tabel 3 Win/tie/loss counts on classification performance of PL-TECOC against each compared algorithm表3 PL-TECOC分類性能優(yōu)于/持平/劣于其他對(duì)比算法的次數(shù)統(tǒng)計(jì)

Fig.1 Classification accuracy of each compared algorithm under configurationr=1,ρ∈{0 .1,0.2,…,0.7}圖1 對(duì)應(yīng)設(shè)置為r=1,ρ∈{0 .1,0.2,…,0.7}時(shí)各種算法的分類準(zhǔn)確率

Fig.2 Classification accuracy of each compared algorithm under configurationr=2,ρ∈{0 .1,0.2,…,0.7}圖2 對(duì)應(yīng)設(shè)置為r=2,ρ∈{0 .1,0.2,…,0.7}時(shí)各種算法的分類準(zhǔn)確率

Fig.3 Classification accuracy of each compared algorithm under configurationr=3,ρ∈{0 .1,0.2,…,0.7}圖3 對(duì)應(yīng)設(shè)置為r=3,ρ∈{0 .1,0.2,…,0.7}時(shí)各種算法的分類準(zhǔn)確率

Fig.4 Classification accuracy of each compared algorithm under configuration ρ=1,r=1,ε∈{0.1,0.2,…,0.7}圖4 對(duì)應(yīng)設(shè)置為 ρ=1,r=1,ε∈{0 .1,0.2,…,0.7}時(shí)各種算法的分類準(zhǔn)確率

(2)和基于平均消歧策略方法相比,PL-TECOC分別在83.0%和86.6%的情況下優(yōu)于PL-KNN和CLPL。

(3)和基于辨識(shí)消歧策略方法相比,PL-TECOC分別在100.0%和76.7%的情況下優(yōu)于PL-SVM和LSB-CMM。

(4)和非消歧策略方法相比,PL-TECOC基本上與PL-ECOC持平。

4.3 真實(shí)數(shù)據(jù)集實(shí)驗(yàn)

基于顯著程度為0.05時(shí)的成對(duì)t檢驗(yàn),表4給出了在真實(shí)數(shù)據(jù)集上PL-TECOC和各對(duì)比算法的性能表現(xiàn)。從表4可以看出:

(1)在MSRCv2數(shù)據(jù)集上,PL-TECOC算法性能優(yōu)于其他所有對(duì)比算法。

(2)在LYN100和LYN200數(shù)據(jù)集上,PL-TECOC持平于PL-ECOC,優(yōu)于其他對(duì)比算法。在LYN20數(shù)據(jù)集上,PL-TECOC持平于LSB-CMM,優(yōu)于其他對(duì)比算法。在BirdSong數(shù)據(jù)集上,PL-TECOC持平于PL-ECOC和LSB-CMM,優(yōu)于其他對(duì)比算法。

(3)在Lost數(shù)據(jù)集上,PL-TECOC劣于CLPL和PL-SVM,優(yōu)于PL-KNN,持平于其他對(duì)比算法。在Soccer Player數(shù)據(jù)集上,PL-TECOC劣于PL-ECOC和LSB-CMM,優(yōu)于CLPL,持平于其他對(duì)比算法。

(4)在LYN50數(shù)據(jù)集上,PL-TECOC劣于LSBCMM,優(yōu)于其他對(duì)比算法。

4.4 算法的參數(shù)敏感性分析

對(duì)PL-TECOC算法關(guān)于參數(shù)υ及L的敏感性進(jìn)行了分析,圖5展示了PL-TECOC算法性能在不同參數(shù)設(shè)置下的變化情況。本文選擇了Lost、MSRCv2、BirdSong 3個(gè)數(shù)據(jù)集來進(jìn)行參數(shù)的敏感性分析,對(duì)于其他的數(shù)據(jù)集也有類似的觀察結(jié)果。圖5(a)表示PL-TECOC隨著以步長(zhǎng)10改變時(shí)分類準(zhǔn)確率的變化。圖5(b)表示PL-TECOC隨著υ從3到7以步長(zhǎng)1改變時(shí)分類準(zhǔn)確率的變化。

Table 4 Classification accuracy of each algorithm on real-world datasets表4各算法在真實(shí)數(shù)據(jù)集上的分類準(zhǔn)確度

Fig.5 Parameter sensitivity analysis for PL-TECOC on Lost,MSRCv2 and BirdSong datasets圖5 PL-TECOC在Lost、MSRCv2、BirdSong 3個(gè)數(shù)據(jù)集上的參數(shù)敏感性分析

由圖5可見:對(duì)于參數(shù)L,PL-TECOC性能先提高后趨于穩(wěn)定。對(duì)于參數(shù)υ,PL-TECOC性能先呈現(xiàn)下降趨勢(shì),最終趨于穩(wěn)定??偟膩碚f,參數(shù)υ對(duì)于算法性能影響明顯,因此對(duì)于該參數(shù)的選擇非常重要。

5 總結(jié)與展望

為了減少候選標(biāo)記的數(shù)目以降低偏標(biāo)記學(xué)習(xí)的難度,本文提出了一種基于三元糾錯(cuò)輸出編碼技術(shù)的偏標(biāo)記學(xué)習(xí)方法PL-TECOC。實(shí)驗(yàn)表明該算法在人工數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上均表現(xiàn)良好的性能。

PL-TECOC算法的一個(gè)潛在缺點(diǎn)是在構(gòu)建二類訓(xùn)練集時(shí)一些偏標(biāo)記訓(xùn)練樣本會(huì)被剔除(見算法1步驟5),未來工作方向之一是如何有效地利用這些被踢除的偏標(biāo)記樣本。另外,如何設(shè)計(jì)更好的編碼方式來解決偏標(biāo)記學(xué)習(xí)問題也是一個(gè)值得研究的方向。

猜你喜歡
集上分類器編碼
學(xué)貫中西(6):闡述ML分類器的工作流程
關(guān)于短文本匹配的泛化性和遷移性的研究分析
生活中的編碼
基于樸素Bayes組合的簡(jiǎn)易集成分類器①
基于互信息的多級(jí)特征選擇算法
《全元詩(shī)》未編碼疑難字考辨十五則
子帶編碼在圖像壓縮編碼中的應(yīng)用
Genome and healthcare
基于差異性測(cè)度的遙感自適應(yīng)分類器選擇
師如明燈,清涼溫潤(rùn)
西丰县| 江城| 牙克石市| 鱼台县| 新巴尔虎右旗| 凤山县| 宜都市| 望都县| 马山县| 彰化市| 沭阳县| 麻城市| 广南县| 伊宁市| 交口县| 泗洪县| 巴彦淖尔市| 富宁县| 皋兰县| 广汉市| 武山县| 彩票| 久治县| 昭通市| 扶沟县| 建昌县| 阿克苏市| 金堂县| 海安县| 苍梧县| 广平县| 汝阳县| 陇南市| 清水河县| 孝感市| 西畴县| 江都市| 无为县| 张家界市| 隆昌县| 六枝特区|