国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

LIBSVM,LIBLINEAR,SVM比較研究

2016-03-27 09:44:44崔萌張春雷濱州醫(yī)學(xué)院網(wǎng)絡(luò)信息中心濱州醫(yī)學(xué)院解剖教研室
數(shù)碼世界 2016年7期
關(guān)鍵詞:樣本數(shù)分類器線性

崔萌張春雷.濱州醫(yī)學(xué)院網(wǎng)絡(luò)信息中心 .濱州醫(yī)學(xué)院解剖教研室

?

LIBSVM,LIBLINEAR,SVM比較研究

崔萌1張春雷2
1.濱州醫(yī)學(xué)院網(wǎng)絡(luò)信息中心 2.濱州醫(yī)學(xué)院解剖教研室

SVM是Vapnik等人在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上針對(duì)線性分類器提出的一種最佳分類準(zhǔn)則,被廣泛應(yīng)用于文本、圖像、語(yǔ)音等多個(gè)領(lǐng)域的分類問題。LIBSVM、LIBLINEAR、SVM是基于支持向量機(jī)(SVM)原理集成的兩類或多類分類器工具包,這三種工具均實(shí)現(xiàn)了對(duì)數(shù)據(jù)的最優(yōu)化分類,但彼此之間也有各自的特點(diǎn)。對(duì)于不同規(guī)模的數(shù)據(jù)集,即樣本數(shù)與特征數(shù)比例不同的數(shù)據(jù)集的分類結(jié)果會(huì)存在差異。因此,本文從訓(xùn)練時(shí)間(Training Time),分類準(zhǔn)確率(Precision)和采用的線性核函數(shù)(Kernel Function)這三個(gè)方面對(duì) 各個(gè)工具包的分類性能進(jìn)行詳細(xì)分析,從而給出三種工具的各自的優(yōu)缺點(diǎn),以便為使用這三種工具的研究者們提供一些經(jīng)驗(yàn)支持。實(shí)驗(yàn)結(jié)果表明,針對(duì)線性可分的數(shù)據(jù),LIBLINEAR工具包具有訓(xùn)練時(shí)間短,分類準(zhǔn)確率高的特點(diǎn),非常適用于大規(guī)模數(shù)據(jù)的分類。

LIBSVM LIBLINEAR SVMmulticlass 比較研究

支持向量機(jī)(SVM,Suppor t Vector Machine) 屬于一種線性分類器,是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC 維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理的基礎(chǔ)上,根據(jù)有限的訓(xùn)練集,在模型的復(fù)雜性和學(xué)習(xí)性之間尋求最佳的折中,以獲得最好的泛化能力的經(jīng)典分類方法。對(duì)于SVM可以簡(jiǎn)單的理解為(以二分類為例)根據(jù)訓(xùn)練集中數(shù)據(jù)及其label找到一個(gè)分割面把兩類準(zhǔn)確的分開,分割面的確定是根據(jù)支持向量和分割面的距離最大化確定的。SVM是當(dāng)前最好的有監(jiān)督學(xué)習(xí)算法,它的出現(xiàn)解決了神經(jīng)網(wǎng)絡(luò)的局部最優(yōu)化的問題,得到全局最優(yōu)化,因此一經(jīng)提出到現(xiàn)在得到廣泛的應(yīng)用。

SVM是由SVMlight T具包發(fā)展而來(lái)的,是SVMlight的“升級(jí)版”。SVMlight是僅支持傳統(tǒng)二元分類自@SVMl ight2K具包,后由根據(jù)多分類的需求,由康奈爾大學(xué)的Thorsten Joachims開發(fā)并將SVMl ight集成為目前支持多元分類的SVM也是林智仁(Chih—Jen Lin)教授開發(fā)的,于2011年創(chuàng)建,它支持邏輯回歸和線性支持向量機(jī),最新的版本為1.96,更新于2014年11月15日。LIBLINEAR是基于LIBSVM的基礎(chǔ)上提出的。LIBSVM、LIBLINEARTHSVM也是林智仁 (Chih—Jen Lm)教授開發(fā)的,于2011年創(chuàng)建,它支持邏輯回歸和線性支持向量機(jī),最新的版本為1.96,更新于2014年11月15日。LIBLINEAR是基于LIBSVM的基礎(chǔ)上提出的。LIBSVM、LIBLINEAR和SvM…l t”la”都是跨平臺(tái)的通用工具庫(kù),其中LIBSVM和LIBLINEAR的版 本更新比較近,支持windows/linux/macos系統(tǒng),開發(fā)環(huán)境為C++,同時(shí)也有mat lab、python、j ava, c/c++擴(kuò)展接口,可在不同語(yǔ)言環(huán)境的使用。然而,雖然LIB SVM、LIBLINEAR和SVM都是基于SVM理論解決兩類及多類分類問題的工具,但是它們?cè)谑褂梅矫孢€是會(huì)有效果上的差別。例如對(duì)于LIBSVM,林智仁教授是這樣描述它的:LIBSVM is an integrated sof tware for support vector classif ication,(C—SVC, nu—svc),regression(epsi l on—SVR,nu—SVR)and dis t r ibut ion est imat ion(one—c lass SVM).It suppor ts mul t i—c lass classi ficat ion.說(shuō)明LIBSVM是一個(gè)整合了支持向量機(jī)、回歸、分布估計(jì)的軟件,而且支持多類的分類。 對(duì)于L I B L I N E AR,官網(wǎng)上是這樣介紹的: “LIBLINEAR is a linear c lassi f ier for data wi th mi l l ions of instances and features”,即主要專門為百萬(wàn)級(jí)數(shù)據(jù)和特征實(shí)現(xiàn)的線性分類器。因此本文從訓(xùn)練時(shí)間 (Training Time),測(cè)試結(jié)果準(zhǔn)確率(Precision)以及是 否采用線性核函數(shù)(Kernel Function)這三個(gè)方面進(jìn)行對(duì)上述三種工具包進(jìn)行對(duì)比分析。

1 SVM原理

支持向量機(jī)(Support Vector Machine,SVM),屬于線性分類器,它能夠同時(shí)最小化經(jīng)驗(yàn)誤差與最大化幾何邊緣區(qū)域,因此也稱為最大邊緣區(qū)分類器。它的原理是構(gòu)造一個(gè)或多個(gè)超平面(下面稱為決策面),將這個(gè)決策面放置在兩類中離超平面最近的點(diǎn)(支持向量)最遠(yuǎn)的位置。

這是一個(gè)在不等式約束下的優(yōu)化問題,求解過程用Lagrange方法,相關(guān)過程可參見C.J.C Burges 的《模式識(shí)別支持向量機(jī)指南》[10][41,這里不做贅述。SVM對(duì)于無(wú)法直接線性可分的情況,引用核函數(shù)映射到高維空間,使其接近于或等于線性可分。并且為了不讓噪聲點(diǎn)影響決策面的確定,引入懲罰因子和松弛變量進(jìn)行優(yōu)化,這里也不做詳細(xì)介紹。

2 工具配置比較

SVM、LIBSVM乖HLIBLINEAR工具包中均存在訓(xùn)練程序和測(cè)試程序,但命名方式不同。通過訓(xùn)練集訓(xùn)練后會(huì)生成模型文件(model f ile),記錄 SVM模型的類別數(shù)、特征數(shù)、核函數(shù)類型、支持向量等模型必須的參數(shù)。LIBLINEAR不提供核函數(shù)選項(xiàng),其本身可以理解為是一個(gè)線性分類器。SVM和 LIBSVM提供多種核函數(shù)供選擇,共同包含線性核函數(shù)、多項(xiàng)式核函數(shù)、sigmoid核函數(shù),不同的是SVM還包含高斯核函數(shù),而LIBSVM 則包含徑向基函數(shù)(RBF,Radial Basis Function)。SVM默認(rèn)為線性核函數(shù),LIBSVM默認(rèn)為RBF。SVM對(duì)數(shù)據(jù)格式的要求也比較嚴(yán)格。它要求類別標(biāo)簽必須為整數(shù),而且特征向量必須為正整數(shù)且升序排列。而LIBSVM和HLIBLINEAR并沒有這些要求,應(yīng)用更為方便。還有一個(gè)重要的不同是,SVM不提供自動(dòng)調(diào)參,尋找最優(yōu)參數(shù)的過程,而LIBSVM會(huì)通過網(wǎng)格遍歷的方法自動(dòng)尋找最優(yōu)的參數(shù)c fH3,使輸出模型為當(dāng)前配置下的最優(yōu)模型。這個(gè)方面的差異可能會(huì)給實(shí)驗(yàn)結(jié)果帶來(lái)負(fù)面影響。

3 樣本數(shù)大于特征數(shù)性能比較

3.1數(shù)據(jù)來(lái)源

在本章中,主要針對(duì)樣本數(shù)大于特征數(shù)的數(shù)據(jù)集的分類結(jié)果進(jìn)行對(duì)比研究。Train 1到Train 5數(shù)據(jù)集來(lái)自加利福尼亞大學(xué)爾灣分校(UCI,Universi ty of Cali fornia,Irvine)的機(jī)器學(xué)習(xí)知識(shí)庫(kù)(Machine Learning Repository),是(John C .Plat t et a1.1999)論 文的數(shù)據(jù)集。Train 6來(lái)自于Delve Datasets,Train 7f fgLIBSVM具包自帶樣例數(shù)據(jù)集。

3.2訓(xùn)練時(shí)間比較

在比較訓(xùn)練時(shí)間的過程中,SVM、 LIBSVM和13LIBLINEAR在相同的可調(diào)參數(shù)選項(xiàng)中設(shè) 置了相同的參數(shù)。在訓(xùn)練數(shù)據(jù)中。Train 1至l j Train 5 為特征數(shù)相同但樣本數(shù)逐次增力N-i,)l l練數(shù)據(jù),用以在等特征數(shù)的條件下進(jìn)行對(duì)比試驗(yàn)。Train 6fHTrain 7 是與訓(xùn)練數(shù)據(jù)Train 1至1]Train 5不同的數(shù)據(jù)集,為了驗(yàn)證這三種工具對(duì)不同數(shù)據(jù)集的泛化能力。在7種訓(xùn)練數(shù)據(jù)中,LIBLINEAR在訓(xùn)練時(shí)間方面的優(yōu)勢(shì)非常明顯,而且隨著樣本數(shù)與特征數(shù)比值的增大,訓(xùn)練時(shí)間的優(yōu)勢(shì)就更加明顯,例如,在Train l中sl f;為8.25時(shí),LIBLINEARi)I{練 時(shí)間為L(zhǎng)IBSVM的0.191,但在Train 5中s/偽165.83 時(shí),LIBLINEARJ,JI[練時(shí)間僅為L(zhǎng)IBSVMf l@O.014。SVM的訓(xùn)練時(shí)間小于LIBSVM,這樣的結(jié)果是因?yàn)镾VM的默認(rèn)核函數(shù)為線性核函數(shù),而 LIBSVM的默認(rèn)核函數(shù)為徑向基函數(shù)(RBF,Radial Basis Function)。線性核函數(shù)的運(yùn)算時(shí)間小于徑向基函數(shù)。僅從數(shù)據(jù)的訓(xùn)練時(shí)間對(duì)三種工具作出的評(píng)價(jià)是片面的,所以下面比較了在相同訓(xùn)練集和測(cè)試集下的準(zhǔn)確率。

3.3分類準(zhǔn)確率比較

在進(jìn)行準(zhǔn)確率比較的實(shí)驗(yàn)中,SVM、 LIBSVM和LIBLINEAR均采用與上一節(jié)相同的配置、相同的訓(xùn)練數(shù)據(jù)。由實(shí)驗(yàn)數(shù)據(jù)可以看出,總體來(lái)看,SVM的準(zhǔn)確率要低于LIBSVM和LIBLINEAR。對(duì)于 LIBSVM和LIBLINEAR,在s/f/}、的情況、LIBSVM的準(zhǔn)確率要優(yōu)于LIBLINEAR,然而在sl t’N日大的過程中,LIBLINEAR的準(zhǔn)確率逐漸優(yōu)于LIBSVM,并且隨著s/f的值越大,準(zhǔn)確率的差距越明顯。

3.4結(jié)論

在實(shí)際應(yīng)用中,數(shù)據(jù)集樣本數(shù)大于特征數(shù)的情況是比較普遍的,因此3.2和3.3中的實(shí)驗(yàn)中重點(diǎn)考慮了這種情況下SVM、LIBSVM和WLIBLINEAR 在訓(xùn)練時(shí)間和準(zhǔn)確率方面的比較。結(jié)合訓(xùn)練時(shí)間和準(zhǔn)確率兩方面來(lái)看,LIBLNEAR在訓(xùn)練時(shí)間上的優(yōu)勢(shì)很大,而且在s/大的情況下,無(wú)論訓(xùn)練時(shí)間和準(zhǔn)確率都占優(yōu),因此在樣本數(shù)大于特征數(shù)時(shí),當(dāng)樣本數(shù)的數(shù)量級(jí)比較大,LIBLINEAR的表現(xiàn)最佳: LIBSVM在樣本數(shù)相對(duì)較小的情況下準(zhǔn)確率是最高的,訓(xùn)練時(shí)間與LIBLINEAR相差很小,且均為毫秒級(jí),這種差距在實(shí)際應(yīng)用中基本可以忽略,所以在樣本數(shù)與特征數(shù)比值較小時(shí),LIBSVM的表現(xiàn)最佳:SVMmul t ic lass雖然在訓(xùn)練時(shí)間和準(zhǔn)確率方面均還算可觀,但均不是效果最好的,而且從前面介紹 的更新時(shí)間為2008年,而LIBSVM幣ILIBLINEAR為2014年,這個(gè)工具在近幾年并沒有更新,可以間接推斷出SVM對(duì)于當(dāng)前數(shù)據(jù)類型的適應(yīng)能力也沒有LIBSVM幣ILIBLINEAR表現(xiàn)好,因此我們?cè)谙旅娴膶?shí)驗(yàn)中只對(duì)LIBSVM乖ILIBLINEAR進(jìn)行比較。

4 特征數(shù)大于樣本數(shù)性能比較

4.1數(shù)據(jù)來(lái)源

本節(jié)主要對(duì)樣本數(shù)遠(yuǎn)小于特征數(shù)的數(shù)據(jù)集進(jìn)行 對(duì)比分析。Train 8來(lái)自(T.R.Golub et a1.,1998)‘7]論 文的數(shù)據(jù)集,Train 9J陲自(M.Westet a1.,1998)‘6]論 文的數(shù)據(jù)集,Train 10來(lái)自(U.Alon et a1.,1999)惻 論文的數(shù)據(jù)集。4.2訓(xùn)練時(shí)間比較 在訓(xùn)練時(shí)間的比較實(shí)驗(yàn)中,L I B S vM和LIBLINEAR均采用默認(rèn)設(shè)置。由于網(wǎng)絡(luò)上可利用的 被公認(rèn)為的特征數(shù)大于樣本數(shù)的數(shù)據(jù)集比較少,所 以本章只給出了三組實(shí)驗(yàn)結(jié)果比較。其中Train 8和 Train 9在相同的特征數(shù)條件下做對(duì)比試驗(yàn),Train 10 為不同類型特征數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果。

可以看出,LIBLINEAR的訓(xùn)練時(shí)間在三種訓(xùn)練集下均仁?,LIBSVM快。而且隨著s/增大, LIBLINEAR在訓(xùn)練時(shí)間方面的優(yōu)勢(shì)越明顯。這種時(shí)間的差距主要是因?yàn)長(zhǎng)IBLINEAR沒有計(jì)算核函數(shù)參 數(shù)(kernel value),而LIBSVM要計(jì)算RBF的核函數(shù)參數(shù)Y,而且特征數(shù)比較大,使特征維度很高,對(duì)于核函數(shù)的計(jì)算也增加了難度,因止LLIBLINEAR的速度會(huì)明顯快于LIBSVM。但是近從訓(xùn)練時(shí)間就對(duì)樣本 數(shù)遠(yuǎn)小于特征數(shù)的數(shù)據(jù)集情況下兩種工具的優(yōu)劣進(jìn)行評(píng)價(jià)明顯很單薄,所以在相同的條件下進(jìn)行了準(zhǔn)確率的比較。

4.3從分類準(zhǔn)確率比較

在準(zhǔn)確率的比較實(shí)驗(yàn)中,采用了與5.1同樣實(shí)驗(yàn)配置和數(shù)據(jù)集。由上述實(shí)驗(yàn)數(shù)據(jù)可以看出,LIBLINEAR在三種訓(xùn)練集下的準(zhǔn)確率均I:kLIBSVM要高。造成這樣的結(jié)果可能因?yàn)楫?dāng)特征維度相對(duì)樣本數(shù)很大的情況下,每個(gè)樣本的分類依據(jù)很強(qiáng),線性分類器就足以將其準(zhǔn)確的分開。但對(duì)于LIBSVM,由于上述樣本中的數(shù)據(jù)過少,對(duì)于RBF核函數(shù)參數(shù)的調(diào)節(jié)不是很充分, 所以會(huì)造成準(zhǔn)確率的不理想。

4.4結(jié)論

在實(shí)際應(yīng)用中,特征數(shù)與樣本數(shù)的比值較大的情況相對(duì)較少,例如,自然語(yǔ)言處理(NLP)的關(guān)系抽取。由4.2和4.3的比較結(jié)果可以看出,在特征數(shù)與樣本數(shù)的比值較大的情況下,LIBLINEAR無(wú)論在訓(xùn)練時(shí)間和準(zhǔn)確率方面都要優(yōu)于LIBSVM。造成這種絕對(duì)的情況說(shuō)明線性分類在處理特征數(shù)遠(yuǎn)大于樣本數(shù)的數(shù)據(jù)集有著絕對(duì)的優(yōu)勢(shì)。

5 總結(jié)

SVM、LIBSVM和ILIBLINEAR是當(dāng)前比較常用的三個(gè)基于SVM原理的分類工具。由我們的實(shí)驗(yàn)結(jié)果可以看出,在特征數(shù)與樣本數(shù)的比值較大的情況下,利用LIBLINEART時(shí)間和準(zhǔn)確 率均有著很大的優(yōu)勢(shì):在樣本數(shù)遠(yuǎn)大于特征數(shù)的情況下,LIBLINEAR的效果的優(yōu)勢(shì)也非常明顯。因此在處理數(shù)據(jù)量或數(shù)據(jù)特征量非常大的情況下,宜利用LIBLINEAR進(jìn)行分類。在特征數(shù)和樣本數(shù)相對(duì)較小的情況下,雖然利用LIB SVM的訓(xùn)練時(shí)間比LIBLINEAR要長(zhǎng),但這個(gè)訓(xùn)練時(shí)間是在完全可以接受的范圍內(nèi),而且準(zhǔn)確率最高,所以宜采用 LIBSVM。SVM的處理效果適中,但沒有突出的優(yōu)勢(shì),而且參數(shù)也不能自動(dòng)調(diào)參,而需要人工設(shè)定,所以在大部分情況下建議使用LIBSVM和LIBLINEAR。

[1]Rong—En Fan,Kai—Wei Chang,Cho—Jui Hsieh,Xiang—Rui Wang,Chih—Jen Lin.LIBLINEAR:A Library for Large Linear Cl assi f icat ion,Journa l of Machine Learning Research 9(2008)187 1—1 874.

[2]K.Crammer and Y.Singer.Ont heAl gorithmic Imp lementation of Multi—class SVMs,JMLR,2001.

[3]I.Tsochantar idis,T.Hofmann,T.Joachims,and YAl tun.Support Vector Learning for Interdependent and Structured Output Spaces,ICML,2004.

[4] Chih—W西Hsu,Chih—Chung Chang,and Chih—Jen Lin .A pract ical guide to supportvector classification . Technical report,Department of Computer Science,Nat ional Taiwan University,2003.

[5]C.一C.Chang and C.一J.Lin.LIBSVM:a library for suppor tvector machines.ACM Transactions on Intel ligent Systems and Technology,2:27:1一一27:27,2011.

[6] M.West,C.Blanchet te,H.Dressman,E.Huang,S. Ishida,R.Spang,H.Zuzan,J.A.Ol son,Jr.,J.R. Marks,and J.R.Nevins.Predicting the clinical status ofhuman breast cancer by using gene expression prof i les .Proceedings of the National Academy of Sciences,98: 11462—11467,2001.

[7]T.R.Golub,D.K.Slonim,P.Tamayo,C.Huard,M. Gaasenbeek,J.P.Mesirov,H.Col ler,M.L.Loh, J.R. Downing,M.A.Cal igiur i,C.D.Bloomf ield, and E,S .Lander.Molecular classi fication of cancer: class d iscovery and class predi ction by gene expression monitoring.Science,286(5439):53 1,1999.

[8].b1111 C.Plat t.Fast training of suppor t vec tor machines using sequent ia lminimalop timizat ion. In Bernhard Sch61kopf,Chr is topher J.C.Burges,and Alexander J. Smola,edi tors,Advances in Kernel Methods—Support Vector Learning,Cambr idge,MA,1 998 .

[9]U.Alon,N.Barkai,D.A.Not terman,K.Gish, S. Ybarra,D.Mack,and A.J.Levine.Broad paaems of gene expression revealed by cluster ing analysis of tumor and normal colon tissues probed by 01igonucleotidear rays. Cell Biology,96:6745—6750.1999.

[10]Burges C J C.A tutorial on support vector machines for pat tern recogni tion[J].Data mining and knowledge discovery,1998,2(2):121—167.

猜你喜歡
樣本數(shù)分類器線性
漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
勘 誤 聲 明
線性回歸方程的求解與應(yīng)用
二階線性微分方程的解法
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
三時(shí)間間隔圓錐補(bǔ)償姿態(tài)更新算法性能分析
田間鑒定雜交棉品種純度的適宜時(shí)期和樣本數(shù)
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
苏尼特右旗| 都兰县| 贞丰县| 山东省| 类乌齐县| 全州县| 武穴市| 内黄县| 平湖市| 石泉县| 襄樊市| 平乡县| 启东市| 荣昌县| 岳西县| 双流县| 府谷县| 苏尼特右旗| 安岳县| 建水县| 屯门区| 娱乐| 浠水县| 德清县| 新巴尔虎左旗| 晋江市| 南城县| 山西省| 万山特区| 思茅市| 崇阳县| 临安市| 金秀| 昭平县| 兴和县| 神木县| 大庆市| 遂宁市| 甘洛县| 治多县| 浪卡子县|