章東平,徐佳慧,楊 力
(中國(guó)計(jì)量大學(xué) 信息工程學(xué)院,浙江 杭州 310018)
?
模型參數(shù)遷移的改進(jìn)LS-SVM算法及其應(yīng)用
章東平,徐佳慧,楊 力
(中國(guó)計(jì)量大學(xué) 信息工程學(xué)院,浙江 杭州 310018)
針對(duì)目標(biāo)領(lǐng)域樣本不足的問(wèn)題,提出了一種基于模型參數(shù)遷移的改進(jìn)LS-SVM算法.在LS-SVM的基礎(chǔ)上加入了遷移項(xiàng),使得模型既保持了LS-SVM的基本屬性,即最大化幾何間隔,又能夠有效地使用源領(lǐng)域的已知知識(shí).通過(guò)圖像分類驗(yàn)證了本算法比其他遷移算法具有更好的分類精度.
遷移學(xué)習(xí);最小二乘支持向量機(jī);模型參數(shù)遷移;圖像分類
隨著信息科技的不斷發(fā)展以及互聯(lián)網(wǎng)的日益普及,網(wǎng)絡(luò)上的圖片呈現(xiàn)爆炸式增長(zhǎng),一些少見(jiàn)或未知類別的圖片也逐漸進(jìn)入了人們的視線.如何正確地對(duì)這些類別圖片進(jìn)行分類成了一個(gè)值得學(xué)習(xí)的問(wèn)題.通常情況下,當(dāng)我們面對(duì)一個(gè)新的或者未知的類別時(shí),我們得到的樣本數(shù)比較少,此時(shí)使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法直接訓(xùn)練分類器,會(huì)造成分類器的性能不理想;若為了得到更多的樣本而進(jìn)行人工標(biāo)記,則需要投入大量的人力和物力,并且人的主觀判斷也會(huì)存在錯(cuò)誤,對(duì)部分圖片的標(biāo)記會(huì)產(chǎn)生偏差.遷移學(xué)習(xí)的提出,有效地解決了上述問(wèn)題.遷移學(xué)習(xí)作為一種新的機(jī)器學(xué)習(xí)算法,在近年來(lái),得到了大量研究者的關(guān)注.其主要思想是:利用源領(lǐng)域中已經(jīng)學(xué)習(xí)得到的知識(shí)幫助目標(biāo)領(lǐng)域?qū)W習(xí)新的任務(wù).
本文提出了一種改進(jìn)的LS-SVM算法,主要通過(guò)源領(lǐng)域的超平面參數(shù)幫助僅含少量樣本的目標(biāo)領(lǐng)域?qū)W習(xí),從而得到最佳目標(biāo)超平面,如圖1.我們將改進(jìn)LS-SVM算法主要分成兩部分:基本項(xiàng)和遷移項(xiàng),前者能保持LS-SVM最大化幾何間隔的屬性,后者達(dá)到了有效使用了已知模型參數(shù)的目的.我們通過(guò)在公共數(shù)據(jù)集Caltech-256[7]上的實(shí)驗(yàn)結(jié)果證明我們提出的方法在準(zhǔn)確率相較于LS-SVM、Single-KT、Average-KT以及Multi-KT有一定的提高.
圖1 遷移形式Figure 1 Form of transferring
1.1 LS-SVM基本原理
首先,簡(jiǎn)單回顧一下LS-SVM算法.1999年Suykens等人[8]提出了LS-SVM,他們將SVM中的誤差項(xiàng)進(jìn)行了二范數(shù)處理,并將約束條件中的不等式形式改為等式形式,最后通過(guò)Kuhn-Tucker條件對(duì)優(yōu)化問(wèn)題進(jìn)行求解.相比較于SVM,LS-SVM避免了編程的復(fù)雜要求,有效地提高了訓(xùn)練的效率.
LS-SVM的優(yōu)化問(wèn)題表示為
s.t yi=ωTφ(xi)+b+ξi.
(1)
其中,ω為超平面參數(shù),ξi為第i個(gè)樣本的預(yù)測(cè)值與真實(shí)值之間的誤差.
如果直接使用少量樣本訓(xùn)練分類模型,會(huì)造成分類器性能不理想.本文中,我們提出一種具有遷移能力的改進(jìn)LS-SVM算法.
1.2 改進(jìn)LS-SVM算法
借助源領(lǐng)域的已知知識(shí)幫助目標(biāo)領(lǐng)域?qū)W習(xí)新的任務(wù),有效地解決了目標(biāo)領(lǐng)域樣本不足的問(wèn)題.因此,我們對(duì)LS-SVM進(jìn)行改進(jìn),將其分為L(zhǎng)S-SVM的基本項(xiàng)和遷移項(xiàng)[5],即保留了LS-SVM中最大化幾何間隔的屬性,又體現(xiàn)了源領(lǐng)域的輔助作用.
改進(jìn)LS-SVM的優(yōu)化問(wèn)題如下:
(3)
其中,N+,N-分別是目標(biāo)領(lǐng)域中正、負(fù)訓(xùn)練樣本的總數(shù).
為了優(yōu)化式(2),我們將式(2)轉(zhuǎn)化為拉格朗日函數(shù)形式:
b+ξi-yi).
(4)
其中,ai是拉格朗日乘子,根據(jù)KTT條件,我們對(duì)ω,b,ξi,ai分別求偏導(dǎo),得:
(5)
聯(lián)立式(5)中的四個(gè)式子,可將式(5)化簡(jiǎn)為
(6)
其中,
K=φ(xk)Tφ(xi).
最后,目標(biāo)領(lǐng)域分類器的預(yù)測(cè)輸出形式可表示為
(7)
1.3 遷移權(quán)值γ選擇
我們通過(guò)留一法[9]求解最優(yōu)γ.γj作為遷移權(quán)值,表明了源領(lǐng)域與目標(biāo)領(lǐng)域之間的關(guān)聯(lián)性.若γj>0時(shí),此時(shí)的源領(lǐng)域知識(shí)可以作為遷移知識(shí)用于目標(biāo)領(lǐng)域的學(xué)習(xí),并且γj是該領(lǐng)域的遷移程度;若γj=0時(shí),認(rèn)為源領(lǐng)域與目標(biāo)領(lǐng)域之間無(wú)關(guān)聯(lián),則該領(lǐng)域不能遷移;若γj<0時(shí),認(rèn)為此時(shí)出現(xiàn)了“負(fù)遷移”,為了避免“負(fù)遷移”,將γj置0.
當(dāng)?shù)趉個(gè)樣本作為測(cè)試樣本時(shí),此時(shí)的留一錯(cuò)誤率為
(8)
s.t.‖γ‖2≤1
s.t.γj≥0.
(9)
通過(guò)優(yōu)化公式(9)得到多個(gè)源領(lǐng)域同時(shí)遷移時(shí)的最佳遷移權(quán)值.
本文所有的實(shí)驗(yàn)均在MATLAB R2013a環(huán)境下進(jìn)行,電腦配置為Intel(R) Core(TM)i3-4130 CPU@3.40GHz,內(nèi)存為2.00GB.
為了證明本文算法的有效性,我們選擇在公共數(shù)據(jù)集Caltech-256進(jìn)行圖像分類實(shí)驗(yàn),將我們的改進(jìn)算法與傳統(tǒng)LS-SVM算法、Single-KT算法、Average-KT算法以及Multi-KT算法進(jìn)行比較.在本實(shí)驗(yàn)中,我們選擇的特征有:SIFT[10],LBP[11],Region Covariance[12]以及PHOG[13].
2.1 6類食品類別
在本節(jié)實(shí)驗(yàn)中,我們從Caltech-256數(shù)據(jù)集中選擇了6類食品,分別為蛋糕、熱狗、披薩、漢堡、壽司以及冰淇淋,如圖2.我們依次將每一類別作為目標(biāo)類別,其余5類作為源類別進(jìn)行實(shí)驗(yàn).
圖2 6類食品Figure 2 Six food categories
實(shí)驗(yàn)結(jié)果如圖3,本文方法相比較于LS-SVM算法,有非常明顯的提高;相比較于其他三種遷移方法,本文方法也有明顯的提高,本文方法的準(zhǔn)確率提高了3%左右.并且,本文方法的準(zhǔn)確率整體達(dá)到了95%左右.
圖3 本文方法在6類食品類別上的分類準(zhǔn)確率Figure 3 Classification accuracy on six food categories
此時(shí),相應(yīng)的源領(lǐng)域權(quán)值如表1,當(dāng)?shù)案忸悇e是目標(biāo)類別時(shí),熱狗、披薩、漢堡、壽司以及冰淇淋類別的遷移權(quán)值如第一行所示.當(dāng)其余類別作為目標(biāo)類別時(shí),遷移權(quán)值同理.其中,表中的數(shù)值表示在源類別知識(shí)的遷移程度,值越大,遷移程度越大;反之,遷移程度越小.符號(hào)“×”表示此時(shí)對(duì)應(yīng)的類別是目標(biāo)類別,不存在遷移權(quán)值.
表1 6類食品圖片下的遷移權(quán)值
2.2 6類交通工具類別
在本節(jié)實(shí)驗(yàn)中,我們從Caltech-256數(shù)據(jù)集中選擇了6類交通工具,分別為推土機(jī)、摩托車、公交車、觀光車、汽車以及雪車,如圖4.
圖4 6類交通工具Figure 4 Six vehicle categories
圖5 算法在6類交通工具類別上的分類準(zhǔn)確率Figure 5 Classification accuracy on six vehicle categories
從圖5上,我們可以清楚的看到,本文的算法比LS-SVM仍有明顯的提高.相比較于Single-KT,本文方法的準(zhǔn)確率比其高出了5%左右.相對(duì)于Multi-KT以及Average-KT,在正樣本數(shù)為1時(shí),本文方法有1%的優(yōu)勢(shì).
表2顯示每個(gè)交通工具類別分別作為目標(biāo)類別時(shí),其他類別相應(yīng)的遷移權(quán)值.
2.3 10類混合類別
在這個(gè)實(shí)驗(yàn)中,我們選擇了混合類別,即,不是所有的類別都是相似的.我們選擇狗、仙人掌、汽車、戰(zhàn)斗機(jī)、鵝、斑馬、摩托車、馬、海豚、直升機(jī).如圖6.
圖6 10類混合類別Figure 6 Ten mixed categories
如圖7,在混合類別上,本文算法相比較于LS-SVM仍有非常明顯優(yōu)勢(shì).本文方法與Single-KT、Average-KT和Multi-KT比較,本文方法的
分類準(zhǔn)確率達(dá)到最佳,并且比Single-KT、Average-KT分別高出5%和2.5%,而當(dāng)正樣本數(shù)為1和6時(shí),本文方法對(duì)比于Multi-KT具有1%的優(yōu)勢(shì).
圖7 算法在混合類別上的分類準(zhǔn)確率Figure 7 Classification accuracy on ten mixed categories
表3顯示每個(gè)混合類別分別作為目標(biāo)類別時(shí),其他類別作為源類別時(shí)的遷移權(quán)值.其中0表示對(duì)應(yīng)類別作為源類別不能遷移知識(shí)給目標(biāo)類別.
2.4 λ參數(shù)的比較
在本節(jié)中,為了客觀的觀察λ值對(duì)本算法的影響,我們?cè)O(shè)置μ=1.我們計(jì)算了λ∈{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9}時(shí),本文算法在食品、交通工具和混合類別上的分類準(zhǔn)確度.
表3 10類混合類別圖片下的遷移權(quán)值
如圖8,在食品類別上時(shí),我們可以清晰地看到當(dāng)λ∈{0.3,0.4,0.5}時(shí),效果是比較好;而在車輛類別上,λ∈{0.1,0.2}是最佳的參數(shù)設(shè)置;最后,在混合類別上,λ∈{0.2,0.3}效果比較好.考慮到我們所取的訓(xùn)練樣本非常少,因此改進(jìn)LS-SVM基本項(xiàng)對(duì)算法的影響比重不及遷移項(xiàng).所以,當(dāng)λ∈{0.2,0.3}時(shí),本文算法效果達(dá)到最佳.
圖8 參數(shù)λ在食品類別、車輛類別、混合類別上的比較Figure 8 Comparison of the value of λ on foods, vehicles and mixed categories separately
本文從LS-SVM基本屬性和遷移學(xué)習(xí)兩個(gè)方面出發(fā),提出了改進(jìn)的LS-SVM算法,在滿足幾何間隔最大化的同時(shí),有效地使用源領(lǐng)域的已知知識(shí),并通過(guò)λ平衡基本項(xiàng)與遷移項(xiàng)的貢獻(xiàn)能力.實(shí)驗(yàn)表明,在相同的前提條件下,與LS-SVM和其它三種遷移方法相比,本文方法的分類準(zhǔn)確率更優(yōu).最后討論了λ值對(duì)分類準(zhǔn)確率的影響,認(rèn)為在訓(xùn)練樣本極少時(shí),λ∈{0.2,0.3}時(shí)本文的準(zhǔn)確率最好.
[1] PAN S J, YANG Qiang. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering,2010,22(10):1345-1359.
[2] DAI Wenyuan, YANG Qiang, XUE Guirong,et al. Boosting for transfer learning[C]// Proceedings of the 24th International Conference on Machine Learning. New York: ACM,2007:193-200.
[3] PAN S J, NI Xiaochuan, SUN Jiantao, et al. Cross-domain sentiment classification via spectral feature alignment[C]// Proceedings of the 19th International Conference on World wide Web. New York: ACM,2010:751-760.
[4] OQUAB M, BOTTOU L, LAPTEV I, et al. Learning and transferring mid-level image representations using convolutional neural networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE Press,2014:1717-1724.
[5] TOMMASI T, ORABONA F, CAPUTO B. Learning categories from few examples with multi model knowledge transfer[J]. Pattern Analysis and Machine Intelligence,2014,36(5):928-941.
[6] TOMMASI T, ORABONA F, CAPUTO B. Safety in numbers: Learning categories from few examples with multi model knowledge transfer[C]//Computer Vision and Pattern Recognition. USA: IEEE Press,2010:3081-3088.
[7] GRIFFIN G, HOLUB A, PERONA P. Caltech-256 object category dataset[R]. USA:California Institute of Technology,2007.
[8] SUYKENS J A K, VANDEWALLE J. Least squares support vector machine classifiers[J]. Neural Processing Ietters,1999,9(3):293-300.
[9] CAWLEY G C. Leave-one-out cross-validation based model selection criteria for weighted LS-SVMs[C]// International Joint Conference on Neural Networks. USA: IEEE Press,2006:1661-1668.
[10] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision,2004,60(2):91-110.
[11] OJALA T, PIETIKINEN M, HARWOOD D. A comparative study of texture measures with classification based on featured distributions[J]. Pattern Recognition,1996,29(1):51-59.
[12] TUZEL O, PORIKLI F, MEER P. Human detection via classification on riemannian manifolds[C]// Computer Vision and Pattern Recognition. USA: IEEE Press,2007:1-8.
[13] BOSCH A, ZISSERMAN A, MUNOZ X. Representing shape with a spatial pyramid kernel[C]//Proceedings of the 6th ACM International Conference on Image and Video Retrieval. New York:ACM,2007:401-408.
An improved LS-SVM algorithm based on model parameter transfer and its application
ZHANG Dongping, XU Jiahui, YANG Li
(College of Information Engineering, China Jiliang University, Hangzhou 310018, China)
To solve the problem of insufficient data supply of a target domain, an improved LS-SVM algorithm based on model parameter transfer was proposed. The transfer based term was added to the original LS-SVM. It not only maximized the geometrical margin of LS-SVM but also effectively employed the knowledge of the source domain. We verified the algorithm by image classification. Experimental results showed the proposed algorithm had a better classification accuracy than other transfer methods.
transfer learning; LS-SVM; model parameter transfer; image classification
2096-2835(2016)03-0313-06
10.3969/j.issn.2096-2835.2016.03.013
2016-05-20 《中國(guó)計(jì)量大學(xué)學(xué)報(bào)》網(wǎng)址:zgjl.cbpt.cnki.net
浙江省自然科學(xué)基金資助項(xiàng)目(No.LY15F020021),浙江省公益性項(xiàng)目(No.2016C31079).
章東平(1970- ),男,江西省鄱陽(yáng)人,教授,主要研究方向?yàn)閳D像處理機(jī)器學(xué)習(xí).
E-mail: silenttree_zju@cjlu.edu.cn
TP391
A