李珊珊,許 萍, 梁小紅, 徐 琳
(1.福建商學(xué)院 a.會(huì)計(jì)系; b.財(cái)會(huì)智能與服務(wù)研究中心, 福州 350012;2.福州大學(xué) 經(jīng)濟(jì)與管理學(xué)院, 福州 350003;3.福建師范大學(xué)福清分校 創(chuàng)新信息產(chǎn)業(yè)研究所, 福建 福清 350300)
財(cái)務(wù)金融系統(tǒng)是國(guó)家與企業(yè)單位的關(guān)鍵系統(tǒng)之一,財(cái)務(wù)分析是企業(yè)執(zhí)行國(guó)家政策、決策及完善經(jīng)營(yíng)的重要依據(jù)[1]。財(cái)務(wù)金融系統(tǒng)的時(shí)間序列具有非線性、非平穩(wěn)性與噪聲大的特點(diǎn),使得傳統(tǒng)的分析模型無(wú)法獲得較好的分析效果[2-3]。神經(jīng)網(wǎng)絡(luò)具有極強(qiáng)的學(xué)習(xí)能力與擬合能力,但神經(jīng)網(wǎng)絡(luò)需要大量樣本,且模型的參數(shù)較多,因此難以廣泛應(yīng)用于實(shí)際應(yīng)用中[4-5]。目前,在財(cái)務(wù)金融預(yù)測(cè)領(lǐng)域中應(yīng)用最為廣泛的是支持向量機(jī)(SVM)[6]。SVM能夠解決維度災(zāi)難與過(guò)度學(xué)習(xí)的問(wèn)題,但核函數(shù)對(duì)其性能影響極大?;趶较蚧瘮?shù)(radial basis function,RBF)的SVM具有較強(qiáng)的學(xué)習(xí)能力,但泛化能力弱。基于多項(xiàng)式核函數(shù)的SVM則具有較強(qiáng)的泛化能力,但學(xué)習(xí)能力弱[7]。此外,SVM對(duì)于噪聲與孤立點(diǎn)十分敏感,而財(cái)務(wù)金融時(shí)間序列存在大量的噪聲與孤立點(diǎn),因此許多研究人員為支持向量機(jī)引入了模糊化處理,以期提高支持向量機(jī)的泛化能力與魯棒性[8-9]。
粗糙集理論處理不精確、不一致、不完整等各種不完備信息的效果較好,非常適合財(cái)務(wù)金融時(shí)間序列的分析與處理,已經(jīng)取得了一定的效果[10-11]。文獻(xiàn)[12]采用粗糙集模型構(gòu)建金融時(shí)間序列與多指標(biāo)的混合模型,實(shí)驗(yàn)結(jié)果證明該模型的分類(lèi)準(zhǔn)確率較高,但算法具有不可忽略的采樣偏差。文獻(xiàn)[13-14]設(shè)計(jì)了輪轉(zhuǎn)窗口驗(yàn)證模型,有效地解決了粗糙集模型將時(shí)間序列離散化處理所導(dǎo)致的采樣偏差問(wèn)題。
基于粗糙集模型的財(cái)務(wù)金融預(yù)測(cè)模型主要通過(guò)粗糙集的化簡(jiǎn)概念刪除輸入數(shù)據(jù)集的冗余信息,根據(jù)事實(shí)信息生成無(wú)噪聲的決策規(guī)則,但此類(lèi)算法未考慮訓(xùn)練樣本與測(cè)試樣本的間隔時(shí)間長(zhǎng)度對(duì)分類(lèi)準(zhǔn)確率的影響。本文對(duì)基于粗糙集的金融時(shí)間序列預(yù)測(cè)方案進(jìn)行了改進(jìn),考慮訓(xùn)練樣本與測(cè)試樣本之間時(shí)間間隔對(duì)分類(lèi)準(zhǔn)確率的影響,設(shè)計(jì)了加權(quán)調(diào)和的粗糙集模型,為時(shí)期久遠(yuǎn)的訓(xùn)練樣本分配較低的權(quán)重,為時(shí)期較近的訓(xùn)練樣本分配較高的權(quán)重,從而提高近期訓(xùn)練樣本對(duì)粗糙集模型的貢獻(xiàn)。
RS理論建立在分類(lèi)機(jī)制的基礎(chǔ)之上,將分類(lèi)理解為在特定空間上的等價(jià)關(guān)系,等價(jià)關(guān)系構(gòu)成了對(duì)該空間的劃分。RS理論將知識(shí)理解為對(duì)數(shù)據(jù)的劃分,每一被劃分的集合稱(chēng)為概念。粗糙集理論的主要思想是利用已知的知識(shí)庫(kù)將不精確或不確定的知識(shí)用已知的知識(shí)庫(kù)中的知識(shí)來(lái)近似刻畫(huà)。
RS理論中,假設(shè)I=(U,A)構(gòu)成一個(gè)信息系統(tǒng),其中U是一個(gè)非空有限目標(biāo)集(論域),A是一個(gè)非空有限屬性集。RS的核心概念是不可區(qū)分性,即給定一個(gè)信息系統(tǒng)I=(U,A),不可區(qū)分關(guān)系可定義為:
IND(B)={(x,y)∈U2,
B?A|?a∈Ba(x)=a(y)}
(1)
從式(1)可看出:如果(x,y)∈IND(B),那么目標(biāo)x與y是B-等價(jià)類(lèi)或B-基本集,表示為[x]B,x∈U。
財(cái)務(wù)時(shí)間序列是一種典型的不一致決策系統(tǒng),包含沖突的目標(biāo)集合,即目標(biāo)有相同的條件屬性值,但決策屬性值不同,因此目標(biāo)屬于不同的決策類(lèi)。不一致決策系統(tǒng)的表示是RS理論的核心,能夠近似任意的數(shù)據(jù)集X?U,下近似集與上近似集分別定義如下:
任意明確集的并集也是一個(gè)明確集,其他集合X?U均為等價(jià)類(lèi)[x]B的近似,稱(chēng)為粗糙集。粗糙集包含了無(wú)法明確分類(lèi)的目標(biāo),這些目標(biāo)組成了X的區(qū)域,表示為如下關(guān)系式:
(2)
X的近似精度定義為:
(3)
經(jīng)典的上、下近似集的定義可能因?yàn)楣铝Ⅻc(diǎn)導(dǎo)致等價(jià)類(lèi)的劃分不準(zhǔn)確,研究人員對(duì)經(jīng)典粗糙集模型進(jìn)行了擴(kuò)展,提高了上、下近似集的彈性。本文采用變化精度粗糙集(VPRS),算法允許控制分類(lèi)的不確定性,控制因子表示兩個(gè)集合(X,Y∈U)的非空子集,定義為c(X,Y)=1-|X∩Y|/|X|。此外,定義了期望分類(lèi)誤差參數(shù)β,用于控制不確定級(jí)別,VPRS的下、上近似集分別定義為:
(4)
(5)
式中:[x]B表示B的等價(jià)類(lèi)。如果β=0,那么VPRS是經(jīng)典的RS模型;如果β>0,則放松了下近似集的條件。
財(cái)務(wù)時(shí)間序列具有大量的候選特征,例如:經(jīng)濟(jì)變量、技術(shù)指標(biāo)、財(cái)務(wù)專(zhuān)家分析等。大量的候選特征包含了許多冗余信息,因此需要尋找一個(gè)最小的候選特征集合,且該集合應(yīng)保持充分的區(qū)別能力。利用RS的化簡(jiǎn)技術(shù)完成上述目標(biāo),給定決策系統(tǒng)S=(U,C∪syggg00),最小決策化簡(jiǎn)是屬性的子集R?C,其中?x∈U∶[x]C?[x]d→[x]R?[x]d。
本文采用區(qū)分矩陣M(S)尋找決策系統(tǒng)的化簡(jiǎn)S=(U,C∪syggg00),M是一個(gè)n×n的對(duì)稱(chēng)矩陣(n=|U|),其元素cij(i,j=1,…,n)定義為:
cij=cij=
(6)
(7)
決策系統(tǒng)S中存在許多化簡(jiǎn),所有化簡(jiǎn)的條件屬性集稱(chēng)為粗糙集的核。搜索決策系統(tǒng)的最小化簡(jiǎn)是NP-hard問(wèn)題,因此本文使用啟發(fā)式貪婪算法[15]搜索最小化簡(jiǎn)。
RS的決策規(guī)則可定義為IF-THEN的條件語(yǔ)句形式,決策規(guī)則定義為:
(8)
使用決策類(lèi)[x]d的下近似集與上近似集基于化簡(jiǎn)機(jī)制引入決策規(guī)則與非決策規(guī)則。
粗糙集中分類(lèi)一個(gè)新目標(biāo)可能導(dǎo)致以下3種情況:
1) 新目標(biāo)與具有相同基本決策的一個(gè)決策規(guī)則匹配。
2) 新目標(biāo)與具有不同基本決策的多個(gè)決策規(guī)則匹配。
3) 新目標(biāo)與所有可用規(guī)則均不匹配。
第1種情況容易解決,第2、3種情況需要通過(guò)搜索最優(yōu)的匹配決策類(lèi)解決。第2種情況一般采用多數(shù)投票法[16],將匹配認(rèn)證對(duì)象的條件屬性集合的每個(gè)決策規(guī)則設(shè)為與訓(xùn)練數(shù)據(jù)目標(biāo)數(shù)量相等的權(quán)重,為分類(lèi)的驗(yàn)證樣本分配1個(gè)決策值,以匹配最多匹配訓(xùn)練數(shù)據(jù)目標(biāo)的決策規(guī)則。對(duì)于給定的式(8)決策規(guī)則集合L,使用它的前項(xiàng)φ匹配驗(yàn)證樣本x:
φ∈L,Fψ?Fφ?Fφ
(9)
相等權(quán)重的多數(shù)投票法忽略了財(cái)務(wù)時(shí)間序列樣本的時(shí)間特征,即訓(xùn)練數(shù)據(jù)與目標(biāo)數(shù)據(jù)之間的時(shí)間長(zhǎng)度,而財(cái)務(wù)時(shí)間序列中訓(xùn)練數(shù)據(jù)與目標(biāo)數(shù)據(jù)之間的時(shí)間長(zhǎng)度極為重要[17]。
在財(cái)務(wù)時(shí)間序列的場(chǎng)景下,針對(duì)第2種情況設(shè)計(jì)了加權(quán)調(diào)和的多數(shù)投票法,考慮訓(xùn)練樣本與目標(biāo)樣本之間的時(shí)間長(zhǎng)度。該方法引入1個(gè)時(shí)間加權(quán)函數(shù)τ(x,y),基于訓(xùn)練樣本與目標(biāo)樣本之間的間隔天數(shù)修改決策規(guī)則的強(qiáng)度,因此,式(9)可改為:
y∈Fφ,φ∈L,Fψ?Fφ?Fφ
(10)
在多數(shù)投票程序中,近期的訓(xùn)練樣本對(duì)規(guī)則的影響更大,使用以下兩式定義時(shí)間加權(quán)函數(shù):
τ(x,y)=1/(1+(Δ/λ)k),
k>0,λ>0
(11)
(12)
式中:Δ為測(cè)試樣本y與訓(xùn)練樣本x之間間隔的天數(shù);λ為半衰期因子;k為斜率系數(shù)。
時(shí)間衰減函數(shù)定義了不同速度的時(shí)間衰變過(guò)程,因此可對(duì)預(yù)測(cè)準(zhǔn)確率進(jìn)行配置。圖1是不同k值與λ=365時(shí)粗糙集的時(shí)間衰減函數(shù),可看出近期樣本的因子λ較小、k較大。第3種情況通過(guò)返回一個(gè)無(wú)活動(dòng)決策來(lái)解決。
圖1 粗糙集的時(shí)間衰減函數(shù)
圖2 基于前進(jìn)分析法的實(shí)驗(yàn)流程
使用相同ETF指數(shù)時(shí)間序列數(shù)據(jù)訓(xùn)練、校準(zhǔn)與測(cè)試各個(gè)模型。實(shí)驗(yàn)環(huán)境:SQL與Rosetta粗糙集系統(tǒng)[18]。
采用香港恒生指數(shù)(HSI)訓(xùn)練與測(cè)試各個(gè)預(yù)測(cè)模型,數(shù)據(jù)被分為訓(xùn)練集、校準(zhǔn)集與測(cè)試集,所有數(shù)據(jù)來(lái)自(http://finance.yahoo.com)網(wǎng)站下載。采用文獻(xiàn)[19]的條件屬性方案,表1所示是股票指數(shù)不同條件屬性的定義[19]。
表1 股票指數(shù)不同條件屬性的定義
本算法包含向前分析法與加權(quán)多數(shù)投票的粗糙集模型,對(duì)向前分析法與SVM模型組合進(jìn)行了實(shí)驗(yàn),比較分析粗糙集模型與SVM模型的優(yōu)劣。
測(cè)試的VPRS模型輪詢(xún)3 333個(gè)交易日(固定長(zhǎng)度)的訓(xùn)練樣本,為向前分析法生成準(zhǔn)確的策規(guī)則與近似的決策規(guī)則,向前分析法的每個(gè)實(shí)驗(yàn)中均生成了新的規(guī)則集合。每個(gè)測(cè)試樣本設(shè)置了不同的β參數(shù),獲得3個(gè)候選規(guī)則集合,選擇其中準(zhǔn)確率最高的預(yù)測(cè)規(guī)則用于測(cè)試集的實(shí)驗(yàn)。
圖3所示在不同時(shí)間間隔下,VPRS生成的決策規(guī)則數(shù)量,VPRS的β參數(shù)對(duì)生成規(guī)則的數(shù)量與質(zhì)量具有明顯的影響:β越大,決策規(guī)則數(shù)量越大,當(dāng)β=49%時(shí),決策規(guī)則數(shù)量最多。HIS指數(shù)生成的規(guī)則數(shù)量從2010年開(kāi)始降低直至2011年底,然后從2011年底增長(zhǎng)直至2014年。
表2與圖4所示是本模型、原VPRS模型與SVM模型的分類(lèi)結(jié)果。從表2可看出:原VPRS預(yù)測(cè)模型的性能優(yōu)于SVM模型,本算法模型的預(yù)測(cè)準(zhǔn)確率則同時(shí)優(yōu)于原VPRS模型與SVM模型。VPRS模型使用相等權(quán)重的規(guī)則選擇方案,因此,VPRS模型的所有規(guī)則均參與了分類(lèi)程序,且VPRS模型僅基于β值選擇最優(yōu)的匹配規(guī)則集。該模型的性能隨著校準(zhǔn)時(shí)段長(zhǎng)度的增加而降低,因此對(duì)校準(zhǔn)時(shí)間長(zhǎng)度較為敏感。
本算法模型與VPRS模型的規(guī)則集相似,但使用更長(zhǎng)的校準(zhǔn)時(shí)間段校準(zhǔn)模型的參數(shù),從而提高模型的分類(lèi)準(zhǔn)確率。從實(shí)驗(yàn)結(jié)果可看出:本文加權(quán)調(diào)和的多數(shù)投票機(jī)制有效地提高了VPRS的分類(lèi)準(zhǔn)確率。
圖3 VPRS生成的決策規(guī)則數(shù)量圖
測(cè)試樣本的長(zhǎng)度本算法VPRSSVM調(diào)節(jié)天數(shù)21351.2451.6448.76550.4551.5451.642148.9649.7549.35調(diào)節(jié)天數(shù)42348.5649.7551.54548.1650.6551.742148.2648.8652.23調(diào)節(jié)天數(shù)63348.0649.5553.72548.7649.7551.142150.5550.2553.03
圖4 本算法、VPRS模型與SVM模型對(duì)恒生指數(shù)的分類(lèi)結(jié)果
為提高企事業(yè)單位財(cái)務(wù)金融長(zhǎng)期趨勢(shì)的預(yù)測(cè)準(zhǔn)確率與可靠性,提出了一種基于粗糙集的財(cái)務(wù)金融時(shí)間序列預(yù)測(cè)算法。該算法考慮了訓(xùn)練樣本與測(cè)試樣本之間時(shí)間間隔對(duì)分類(lèi)準(zhǔn)確率的影響,設(shè)計(jì)了加權(quán)調(diào)和的粗糙集模型,為時(shí)期久遠(yuǎn)的訓(xùn)練樣本分配較低的權(quán)重?;谙愀酆闵笖?shù)的實(shí)驗(yàn)結(jié)果表明:本算法獲得了較高的預(yù)測(cè)準(zhǔn)確率。