趙興章
【摘要】低質(zhì)量數(shù)據(jù)驅(qū)動(dòng)的支持向量機(jī)主要的作用是機(jī)器學(xué)習(xí)和模式識(shí)別。它在機(jī)器學(xué)習(xí)和模式識(shí)別方面具有理想的性能和特有的優(yōu)勢。
【關(guān)鍵詞】低質(zhì)量數(shù)據(jù);支持向量機(jī);機(jī)器學(xué)習(xí);機(jī)器學(xué)習(xí)
引言
支持向量機(jī)是機(jī)器學(xué)習(xí)與模式識(shí)別領(lǐng)域最優(yōu)秀的成果。SVM以統(tǒng)計(jì)學(xué)理論為基礎(chǔ),研究小樣本情況下的機(jī)器學(xué)習(xí)規(guī)律,考慮漸近性能要求,并追求有限信息條件下的最優(yōu)結(jié)果。SVM采用了新型的統(tǒng)計(jì)學(xué)VC維理論,并運(yùn)用結(jié)構(gòu)風(fēng)險(xiǎn)最小化、間隔最大化、核函數(shù)等相關(guān)技術(shù)。SVM具有堅(jiān)實(shí)的數(shù)學(xué)理論基礎(chǔ),有效地解決了有限樣本條件下高維數(shù)據(jù)模型的構(gòu)建問題,并具有泛化能力強(qiáng)、收斂到全局最優(yōu)、維數(shù)不敏感等優(yōu)點(diǎn)。SVM模型及相關(guān)理論已經(jīng)被成功地應(yīng)用于眾多領(lǐng)域,如:文本歸類、圖像處理、語言分析、人臉識(shí)別、生物信息辨識(shí)等。這也說明了SVM在機(jī)器學(xué)習(xí)和模式識(shí)別方面具有理想的性能和特有的優(yōu)勢。目前,SVM是機(jī)器學(xué)習(xí)與模式識(shí)別領(lǐng)域最熱門的研究方向之一。
一、支持向量機(jī)在各個(gè)領(lǐng)域遇到的問題
SVM理論在工業(yè)領(lǐng)域已有的應(yīng)用存在著一些問題。第一個(gè)方面的問題是已應(yīng)用的SVM理論不完全符合工業(yè)數(shù)據(jù)的低質(zhì)量驅(qū)動(dòng)特性。一個(gè)不可忽略的事實(shí)是從工業(yè)現(xiàn)場獲得的工業(yè)數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù)。這里的“低質(zhì)量”表達(dá)了多個(gè)方面的含義,我們以工業(yè)鋼表面缺陷分類識(shí)別為例說明。第一個(gè)方面,低質(zhì)量數(shù)據(jù)表示缺陷樣本的標(biāo)記信息存在噪聲。表面缺陷數(shù)據(jù)采集于鋼鐵企業(yè)生產(chǎn)線,其人工標(biāo)記的群體一部分來自專家,另一部分來自一線工人。專家的缺陷標(biāo)記質(zhì)量能夠得到可靠的保證,但是一線工人的標(biāo)記質(zhì)量差異較大,存在錯(cuò)誤標(biāo)記的情況。第二個(gè)方面,低質(zhì)量數(shù)據(jù)表示缺陷樣本的特征存在噪聲。缺陷特征噪聲主要源于工業(yè)生產(chǎn)線惡劣環(huán)境的影響,以及設(shè)備與采樣的錯(cuò)誤。這些影響與錯(cuò)誤造成了同類型缺陷不同樣本的特征差異,引起特征噪聲。查閱已應(yīng)用SVM理論的鋼表面缺陷識(shí)別的文獻(xiàn)發(fā)現(xiàn),大部分文獻(xiàn)都假設(shè)鋼表面缺陷是標(biāo)準(zhǔn)質(zhì)量數(shù)據(jù),少部分文獻(xiàn)對(duì)具有噪聲、不平衡的缺陷數(shù)據(jù)進(jìn)行了分析,但只從樣本權(quán)重上進(jìn)行解決。
第二個(gè)問題是已應(yīng)用的SVM算法不滿足工業(yè)數(shù)據(jù)持續(xù)學(xué)習(xí)的要求。一個(gè)不可忽略的事實(shí)是工業(yè)數(shù)據(jù)的獲取是一個(gè)持續(xù)的過程。一般來說,工業(yè)數(shù)據(jù)都源于實(shí)際的產(chǎn)品生產(chǎn)線,這些產(chǎn)品生產(chǎn)線在運(yùn)行的過程中會(huì)持續(xù)產(chǎn)生新的數(shù)據(jù)。這些新的數(shù)據(jù)對(duì)于學(xué)習(xí)與識(shí)別而言,可以作為原有的訓(xùn)練數(shù)據(jù)的補(bǔ)充。因?yàn)檫@些新的數(shù)據(jù)一方面解決了原有訓(xùn)練數(shù)據(jù)的不充足問題,另一方面對(duì)于不同時(shí)期的工業(yè)產(chǎn)品提供了最新的訓(xùn)練數(shù)據(jù)。因此,工業(yè)數(shù)據(jù)的獲取、分析、學(xué)習(xí)需要以更新的方式實(shí)現(xiàn)。比如說,工業(yè)鋼表面缺陷檢測系統(tǒng)就被安裝在實(shí)際的鋼生產(chǎn)線上。檢測系統(tǒng)實(shí)時(shí)的分析、學(xué)習(xí)與識(shí)別鋼制產(chǎn)品,并使用這些新的數(shù)據(jù)在線更新檢測系統(tǒng)。因此,對(duì)于鋼表面缺陷的學(xué)習(xí)與識(shí)別算法要求具備增量學(xué)習(xí)的能力。已應(yīng)用SVM算法的鋼表面缺陷識(shí)別的文獻(xiàn)很少涉及在線更新,也很少使用具有增量學(xué)習(xí)的SVM模型。也就是說,這些文獻(xiàn)都采用一個(gè)固定的訓(xùn)練數(shù)據(jù)集,獲得一個(gè)固定的學(xué)習(xí)模型,忽略了后續(xù)獲得的新數(shù)據(jù)。
第三個(gè)問題是SVM最新理論沒有被及時(shí)的應(yīng)用于工業(yè)領(lǐng)域。查閱相關(guān)的文獻(xiàn)發(fā)現(xiàn),工業(yè)領(lǐng)域?qū)τ赟VM的應(yīng)用還停留在標(biāo)準(zhǔn)SVM及改進(jìn)的SVM理論上。近幾年,隨著對(duì)SVM標(biāo)準(zhǔn)模型研究的深入,又出現(xiàn)了一批新的SVM模型,如:孿生支持向量機(jī)、彈球損失函數(shù)支持向量機(jī)、孿生超球體支持向量機(jī)、非平行支持向量機(jī)、未確知支持向量機(jī)等。我們把這些新型的SVM模型統(tǒng)稱為新生類SVM,它們主要在效率、精度、推廣性能與泛化性能上具有優(yōu)勢。這些新生類SVM模型很少被應(yīng)用到工業(yè)數(shù)據(jù)的機(jī)器學(xué)習(xí)與模式識(shí)別,如鋼表面缺陷檢測、工業(yè)故障診斷等。
二、低質(zhì)量數(shù)據(jù)驅(qū)動(dòng)的支持向量機(jī)
針對(duì)低質(zhì)量數(shù)據(jù)的兩種情況:M分布不平衡和噪聲的問題,研究新的魯棒性分類模型。首先研究樣本分布不平衡,將兩類樣本盡量正確分開。以下有很多方法第一基于采樣的方法,基于數(shù)據(jù)層面的方法被廣泛應(yīng)用基于SVM不平衡數(shù)據(jù)分類算法中,在訓(xùn)練SVM模型前通過使用各種數(shù)據(jù)預(yù)處理方法使訓(xùn)練樣本達(dá)到平衡,這些方法包括隨即向上/向下采樣法,這種方法不僅有效地減少對(duì)SVM的訓(xùn)練時(shí)間,而且能提高分類器的性能。其次是基于核調(diào)整的方法通過核調(diào)整函數(shù)來改善SVM對(duì)不平衡數(shù)據(jù)集的分類性能。當(dāng)訓(xùn)練樣本包含大量噪聲樣本時(shí),基于單一稀有類訓(xùn)練出來的模型,通常與基于兩類樣本得到的模型具有良好的性能??梢允褂媚:碚摵蜎Q策樹等方法解決不平衡數(shù)據(jù)分類問題。這種方法的優(yōu)點(diǎn)可以解決大量噪聲的樣本的效果比較好。最后,是噪聲問題噪聲,主要包括標(biāo)簽噪聲和特征噪聲主要解決的就是特征噪聲問題,特征噪聲可以采用二次損失函數(shù)和彈球(pinball)損失函數(shù)的SVM,主要從全局的角度降低了分類器對(duì)噪聲的敏感性。
結(jié)語
作為一種新型的機(jī)器學(xué)習(xí)方法,低質(zhì)量數(shù)據(jù)驅(qū)動(dòng)的支持向量機(jī)具有很強(qiáng)的理論基礎(chǔ),能夠解決低質(zhì)量數(shù)據(jù)的數(shù)學(xué)問題與實(shí)際問題,主要適用于模擬的函數(shù)、回歸分析和數(shù)據(jù)分類領(lǐng)域。與基本的支持向量機(jī)相比它的適應(yīng)性更好、速度更快。