摘要:通過梳理企業(yè)管理領(lǐng)域的二分類問題,發(fā)現(xiàn)二分類支持向量機(jī)廣泛應(yīng)用于客戶流失預(yù)測(cè)、上市公司財(cái)務(wù)困境預(yù)警和信用風(fēng)險(xiǎn)評(píng)估。并且為了提高預(yù)測(cè)精度,學(xué)者不斷改進(jìn)該模型:為適應(yīng)具體數(shù)據(jù)特征,如數(shù)據(jù)存在外點(diǎn)或噪聲點(diǎn)、非平衡性、重疊性、錯(cuò)分代價(jià)差異性等,相應(yīng)引入模糊、加權(quán)、雙隸屬支持向量機(jī)以及代價(jià)敏感性學(xué)習(xí)機(jī)制等。
關(guān)鍵詞:二分類支持向量機(jī)(SVM) 企業(yè)管理 綜述
1 概述
當(dāng)前,企業(yè)管理領(lǐng)域中的客戶流失預(yù)測(cè)、公司財(cái)務(wù)困境預(yù)警、信用風(fēng)險(xiǎn)評(píng)估已成為學(xué)術(shù)界和業(yè)界關(guān)注的焦點(diǎn),能否科學(xué)合理的對(duì)其進(jìn)行預(yù)測(cè),關(guān)乎企業(yè)生存和發(fā)展。利用客戶靜態(tài)屬性數(shù)據(jù),預(yù)測(cè)客戶是否流失;利用公司財(cái)務(wù)、經(jīng)營情況,預(yù)測(cè)上市公司是“財(cái)務(wù)狀況正?!被颉柏?cái)務(wù)狀況異?!保焕媒杩钊素?cái)務(wù)、非財(cái)務(wù)狀況,預(yù)測(cè)其信用狀況是“正?!被颉斑`約”。雖然上述3領(lǐng)域研究方向差異性大,但研究使用方法相似,因此將上述3領(lǐng)域研究統(tǒng)稱為經(jīng)濟(jì)與管理科學(xué)領(lǐng)域二分類問題研究,簡稱二分類問題研究。
以上二分類問題研究利用判別分析,取得了相對(duì)準(zhǔn)確的理論結(jié)果,但該方法需要很強(qiáng)的假設(shè)和限制條件,而這些條件在實(shí)際分析中通常得不到滿足。近年來,隨著人工智能學(xué)科的發(fā)展,學(xué)者引入神經(jīng)網(wǎng)絡(luò),并取得了優(yōu)于判別分析法的結(jié)果。但神經(jīng)網(wǎng)絡(luò)很可能陷入局部最優(yōu),無法得到全局最優(yōu),同時(shí)它是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原理,經(jīng)常出現(xiàn)“過擬合”現(xiàn)象。1995年Vapnik提出支持向量機(jī)模型(Support Vector Machine,SVM),一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化的算法。之后學(xué)者將SVM進(jìn)入上述二分類問題研究,發(fā)現(xiàn)其泛化能力、預(yù)測(cè)精度都高于判別分析、神經(jīng)網(wǎng)絡(luò)。
近年來,為提高二分類問題研究中SVM預(yù)測(cè)精度,學(xué)者不斷探索如何改進(jìn)二分類SVM,有效降低樣本數(shù)據(jù)外點(diǎn)或噪聲點(diǎn)、非平衡性、重疊性及錯(cuò)分代價(jià)差異性的影響。
本文結(jié)構(gòu)安排如下:第一部分是引言,第二部分是考慮樣本特征的改進(jìn)支持向量機(jī),第三部分是結(jié)論與展望。
2 改進(jìn)支持向量機(jī)
隨著人工智能領(lǐng)域的快速發(fā)展,學(xué)者將傳統(tǒng)支持向量機(jī)(C-SVM)引入二分類問題研究:Min和Lee將C-SVM引入上市公司財(cái)務(wù)困境預(yù)測(cè),夏國恩等將C-SVM引入客戶流失預(yù)測(cè),發(fā)現(xiàn)C-SVM優(yōu)于傳統(tǒng)判別分析、神經(jīng)網(wǎng)絡(luò)。但此階段僅限于對(duì)模型的簡單應(yīng)用,未充分考慮樣本數(shù)據(jù)存在外點(diǎn)或噪聲點(diǎn)、非平衡性、重疊性、錯(cuò)分代價(jià)差異性等。
2.1 外點(diǎn)或噪聲點(diǎn)
當(dāng)數(shù)據(jù)集中存在外點(diǎn)或噪聲點(diǎn)時(shí),容易使二分類SVM結(jié)果不理想,為此Liu和Huang將模糊化思想引入SVM,提出了模糊支持向量機(jī)(FSVM),根據(jù)數(shù)據(jù)點(diǎn)對(duì)所在類(正類、負(fù)類)的相對(duì)重要程度,分配不同的權(quán)重,以降低外點(diǎn)和噪聲點(diǎn)影響。楊海軍、太雷將模糊支持向量機(jī)(FSVM)算法引入上市公司財(cái)務(wù)困境預(yù)測(cè),對(duì)滬深兩市按行業(yè)板塊分類的上市公司實(shí)證分析,顯示該模型預(yù)測(cè)優(yōu)于C-SVM。
2.2 重疊性
傳統(tǒng)SVM將樣本集絕對(duì)分為互斥的兩類,但現(xiàn)實(shí)世界中這種分類不存在經(jīng)濟(jì)意義,即樣本很可能存在重疊性,例如財(cái)務(wù)困境預(yù)測(cè)時(shí),財(cái)務(wù)指標(biāo)既定的企業(yè),可能由于經(jīng)營遠(yuǎn)離財(cái)務(wù)困境,也可能由于經(jīng)營不力而陷入財(cái)務(wù)困境。
考慮樣本數(shù)據(jù)重疊性、外點(diǎn)或噪聲點(diǎn),Wang等構(gòu)建了雙隸屬模糊支持向量機(jī)(B-FSVM),使每個(gè)樣本點(diǎn)依據(jù)隸屬函數(shù)同時(shí)屬于兩類,并利用3個(gè)公開信用數(shù)據(jù)庫實(shí)證分析,發(fā)現(xiàn)B-FSVM判別能力高于C-SVM和FSVM。闞寶奎、劉志新等[1]將B-FSVM引入上市公司虛擬財(cái)務(wù)報(bào)告識(shí)別,其中樣本點(diǎn)對(duì)于兩類樣本的隸屬程度確定采用譜聚類方法。研究發(fā)現(xiàn),該模型的判別準(zhǔn)確率、泛化能力都顯著優(yōu)于C-SVM、BP神經(jīng)網(wǎng)絡(luò),且可以顯著降低將虛假財(cái)務(wù)報(bào)告識(shí)別為真實(shí)財(cái)務(wù)報(bào)告的錯(cuò)誤。
張目、周宗放[2]采用多目標(biāo)規(guī)劃,減少兩類樣本企業(yè)信用狀況的重疊?;赥OPSIS法,分別以“正常企業(yè)”樣本逼近理想點(diǎn)、“違約企業(yè)”樣本逼近負(fù)理想點(diǎn)為目標(biāo),構(gòu)建多目標(biāo)規(guī)劃模型;運(yùn)用實(shí)碼加速遺傳算法求解得出指標(biāo)綜合權(quán)重,通過構(gòu)造加權(quán)樣本,減少兩類樣本企業(yè)信用狀況的重疊,進(jìn)而提高SVM預(yù)測(cè)精度。選取滬、深股市中具有“高新技術(shù)概念”上市公司作為實(shí)驗(yàn)樣本,實(shí)證分析得出,該方法一定程度上利于兩類樣本的正確區(qū)分,使SVM的預(yù)測(cè)精度提高。
2.3 非平衡性
經(jīng)濟(jì)與管理科學(xué)中的二分類問題數(shù)據(jù)大多存在非平衡性,而非平衡性會(huì)對(duì)C-SVM分類效果產(chǎn)生不利影響,即C-SVM只會(huì)對(duì)數(shù)量上占優(yōu)的類別具有很強(qiáng)的識(shí)別能力[3]。解決數(shù)據(jù)非平衡性可使用向下采樣方法或構(gòu)建相應(yīng)模型。向下采樣方法:以客戶流失預(yù)測(cè)為例,從非流失客戶中抽取部分樣本與流失客戶樣本構(gòu)成k:1的訓(xùn)練集。這種方法雖然平衡了訓(xùn)練集類分布,但損失了很多信息,且抽取比例、k取值確定需要多次嘗試和實(shí)驗(yàn)。
應(yīng)維云、覃正等[4]考慮到流失客戶和非流失客戶正負(fù)樣本數(shù)據(jù)不平衡,引入分類加權(quán)支持向量機(jī)算法(CW-SVM),對(duì)深圳市某銀行個(gè)人信貸部的客戶信貸數(shù)據(jù)分析,結(jié)果表明CW-SVM要好于神經(jīng)元網(wǎng)絡(luò)和決策樹方法。其中CW-SVM算法,能夠通過調(diào)整類權(quán)重參數(shù),改變分類面位置,進(jìn)而提高算法分類準(zhǔn)確性。
2.4 錯(cuò)分代價(jià)差異性
二分類問題研究,很難使用傳統(tǒng)的基于預(yù)測(cè)準(zhǔn)確率的模型解決,如客戶流失、信用評(píng)估等,這些問題中不同類別樣本的錯(cuò)分代價(jià)相差很大。解決錯(cuò)分代價(jià)差異問題,可以通過樣本數(shù)據(jù)的預(yù)處理,也可以通過引入錯(cuò)分代價(jià)差異:闞寶奎、劉志新等考慮到人們對(duì)于兩種判別錯(cuò)誤的“厭惡程度差異”,在雙隸屬SVM建立時(shí),對(duì)訓(xùn)練樣本進(jìn)行“非對(duì)稱”處理(將虛假財(cái)務(wù)報(bào)告視為絕對(duì)屬于虛假財(cái)務(wù)報(bào)告,而所謂的真實(shí)報(bào)告“謹(jǐn)慎”對(duì)待,進(jìn)行雙隸屬分析)。這種新方法在公司財(cái)務(wù)報(bào)告真?zhèn)闻袆e時(shí),表現(xiàn)出了高于C-SVM和BP神經(jīng)網(wǎng)絡(luò)的判別準(zhǔn)確率、泛化能力,并且顯著降低了將虛假財(cái)務(wù)報(bào)告識(shí)別為真實(shí)財(cái)務(wù)報(bào)告的錯(cuò)誤。錢蘇麗、何建敏等[5]將錯(cuò)分代價(jià)納入分類算法,同時(shí)考慮數(shù)據(jù)不平衡問題,建立了代價(jià)敏感支持向量機(jī),使算法基于代價(jià)而非基于準(zhǔn)確率。利用中國電信某分公司預(yù)付費(fèi)小靈通用戶數(shù)據(jù)實(shí)證,顯示改進(jìn)SVM能顯著提高模型效能,且模型能夠在兩類錯(cuò)誤(將流失客戶錯(cuò)誤預(yù)測(cè)為不流失客戶、將不流失客戶預(yù)測(cè)為流失客戶)中找到一個(gè)平衡點(diǎn)使代價(jià)最小,彌補(bǔ)了傳統(tǒng)模型默認(rèn)代價(jià)相同、一味追求準(zhǔn)確率的不足。
3 結(jié)論與展望
當(dāng)前,對(duì)客戶流失預(yù)測(cè)、財(cái)務(wù)困境預(yù)警、信用風(fēng)險(xiǎn)評(píng)估的研究方興未艾,繼傳統(tǒng)統(tǒng)計(jì)模型、神經(jīng)網(wǎng)絡(luò)等,學(xué)者引入支持向量機(jī)??傮w看來,二分類支持向量機(jī)預(yù)測(cè)精度、泛化能力都高于其他模型,同時(shí)為了進(jìn)一步提高其效果,學(xué)者不斷研究:針對(duì)數(shù)據(jù)特征(存在外點(diǎn)或噪聲點(diǎn)、非平衡性、重疊性、錯(cuò)分代價(jià)差異性等)相應(yīng)引入模糊支持向量機(jī)、加權(quán)支持向量機(jī)、雙隸屬支持向量機(jī)以及代價(jià)敏感性學(xué)習(xí)機(jī)制等。雖然有關(guān)二分類支持向量機(jī)的研究趨于成熟,但仍存在一定的局限性:目前仍沒有很好的方法指導(dǎo)針對(duì)具體問題的核函數(shù)選擇,缺乏有效方式將二分類問題擴(kuò)展為多分類問題研究,將是未來研究方向。
參考文獻(xiàn):
[1]闞寶奎,劉志新,宋曉東,楊眾.改進(jìn)支持向量機(jī)在虛假財(cái)務(wù)報(bào)告識(shí)別中的應(yīng)用[J].管理評(píng)論,vol.24,2012(5).
[2]張目,周宗放.基于多目標(biāo)規(guī)劃和支持向量機(jī)的企業(yè)信用評(píng)估模型[J].中國軟科學(xué),vol.4,2009(5).
[3]Gang Wu,Edward Y.Chang.Class-Boundary Alignment for Imbalanced Dataset Learning[C].ICML Workshop on Learning from Imbalanced Data Sets II,Washington DC.2003.
[4]應(yīng)維云,覃正,趙宇,李兵,李秀.SVM方法及其在客戶流失預(yù)測(cè)中的應(yīng)用研究[J].系統(tǒng)工程理論與實(shí)踐,Vol.7,2007(7).
[5]錢蘇麗,何建敏,王純麟.基于改進(jìn)支持向量機(jī)的電信客戶流失預(yù)測(cè)模型[J].管理科學(xué),vol.20,2007(2).
作者簡介:牛軒(1989-),女,河北新樂人,碩士研究生,研究方向:市場調(diào)查。