楊 柳
(復(fù)旦大學(xué)軟件學(xué)院 上海 201203)
?
樣條函數(shù)在構(gòu)造債券收益率曲線中的應(yīng)用
楊柳
(復(fù)旦大學(xué)軟件學(xué)院上海 201203)
摘要針對債券市場上蕪雜的行情數(shù)據(jù),提出將DBSCAN聚類算法應(yīng)用于構(gòu)造債券收益率曲線樣條函數(shù)。通過運用DBSCAN算法對用于構(gòu)造債券收益率曲線的行情數(shù)據(jù)進(jìn)行聚類分析,能夠有效地剔除市場上的異常交易數(shù)據(jù)。在聚類分析結(jié)果的基礎(chǔ)上,再次應(yīng)用DBSCAN算法于構(gòu)造債券收益率曲線,根據(jù)市場上行情數(shù)據(jù)的密集區(qū)域?qū)訔l函數(shù)進(jìn)行分段。此外,針對傳統(tǒng)的依賴于經(jīng)驗進(jìn)行債券收益率曲線樣條函數(shù)分段點選取的缺點,使用DBSCAN算法可有效地提高債券收益率曲線和行情數(shù)據(jù)的符合程度。實驗結(jié)果表明,將DBSCAN算法用于構(gòu)建債券收益率曲線樣條函數(shù),可以提高收益率曲線反映利率期限結(jié)構(gòu)波動及準(zhǔn)確性的效果。
關(guān)鍵詞債券收益率曲線樣條函數(shù)聚類分析DBSCAN算法利率期限結(jié)構(gòu)
0引言
債券作為一類固定收益證券,是資本市場的重要組成部分,債券收益率曲線對社會經(jīng)濟(jì)的發(fā)展及金融體系的完善起著重要的作用。隨著中國資本市場的逐步完善,對于債券收益率曲線也受到了市場前所未有的關(guān)注。
市場上債券的交易存在著流動性偏差以及操作方式多樣化的特點。券商需要知道隨市場波動的債券價格以開展業(yè)務(wù)操作,因此必須對盡可能多的債券進(jìn)行估值。將市場上的行情數(shù)據(jù)引入樣條函數(shù),構(gòu)造債券收益率曲線,并保證曲線的連續(xù)性以及平滑性,可以更為合理地對市場上發(fā)行的債券進(jìn)行估值。從收益率曲線構(gòu)造模型的研究角度出發(fā),可以分為靜態(tài)模型和動態(tài)模型兩類[1]。從國際上債券估值的經(jīng)驗來看,美國和日本的央行使用的曲線模型是根據(jù)Fisher、Nychka和Zervos提出的,基于McCulloch三次樣條函數(shù)的三次平滑樣條函數(shù);英國央行的曲線模型使用的是基于平滑樣條的VRP(VariableRoughnessPenalty)方法,Waggoner(1997)地將平滑樣條常數(shù)粗糙度懲罰項優(yōu)化為可變的粗糙度懲罰項[2];除英國以外的其他歐洲國家則都采用的是NS模型或者是NSS模型,NS模型的主要特點就是簡潔,對于簡單的收益率曲線,能夠較好地估計它的形態(tài)[3],但是曲線的擬合程度并不高,特別是用于較為復(fù)雜的期限結(jié)構(gòu),所以Svensson擴(kuò)展了NS模型,即NSS模型,它能夠有效地提高曲線擬合的效果[4]。除此以外Hermite差值方法在國際上也有機(jī)構(gòu)使用,比如美國的財政部。從上述國際機(jī)構(gòu)使用收益率曲線構(gòu)造模型的情況來看,基本上大部分的國際機(jī)構(gòu)都選擇使用了靜態(tài)模型,并且資本市場越是發(fā)達(dá)的國家,越是偏向于使用樣條函數(shù)構(gòu)造收益率曲線。
傳統(tǒng)的樣條函數(shù)分段處理方式中,分段點的選取通常依賴于經(jīng)驗,并且分界點通常取1、3、5等[5],債券的性質(zhì)決定債券市場的交易具有局部性的特點,傳統(tǒng)的處理方式不能隨著市場的變動調(diào)整樣條函數(shù)參數(shù)數(shù)量,即曲線的擬合程度不足。針對以上不足,本文利用債券交易局部性的特點,利用DBSCAN算法對樣條函數(shù)進(jìn)行分段,DBSCAN算法是一種較為常見的基于密度的聚類方法[6], 聚類分析是數(shù)據(jù)挖掘的常用的方法之一,數(shù)據(jù)挖掘就是從大量的市場交易數(shù)據(jù)中提取包含在其中的隱藏的知識的過程。能夠識別出運營數(shù)據(jù)中的孤立點,去除噪音,消除數(shù)據(jù)中的不一致[7]。董樂在研究債券流動性溢價的問題的時候使用了聚類方法進(jìn)行樣本篩選[8],將聚類結(jié)果用于債券溢價模型[9,10],雖然聚類在該過程中屬于一個輔助的過程,卻增加實驗結(jié)果的可信度。許瑾在研究資產(chǎn)定價模型問題時使用聚類分析方法對研究對象進(jìn)行分類[11],證明聚類分析在辨別數(shù)據(jù)有效性時具有較好的效果。特別是DBSCAN算法,它的優(yōu)點是能夠發(fā)現(xiàn)任意形狀的聚類簇,聚類算法執(zhí)行速度較快以及不受數(shù)據(jù)錄入順序的影響,用來根據(jù)市場上的交易數(shù)據(jù)來擬合債券收益率曲線,提高收益率曲線反映債券利率期限結(jié)構(gòu)波動情況及其準(zhǔn)確性。
1債券收益率曲線擬合數(shù)據(jù)分析
用于構(gòu)造債券收益率曲線的數(shù)據(jù)往往過多地依賴于人為判斷,因此債券收益率曲線擬合時,擬合程度與光滑程度之間的平衡直接受制于人為因素,除此以外,現(xiàn)有市場債券收益率曲線發(fā)布的現(xiàn)狀不能滿足數(shù)據(jù)的實時性要求。所以如何通過應(yīng)用數(shù)據(jù)挖掘技術(shù)來改善上述問題,降低人為因素對于債券收益率曲線準(zhǔn)確性的影響、縮短市場和債券收益率曲線發(fā)布之間的響應(yīng)時間成了本文解決的問題。
2樣條函數(shù)的應(yīng)用過程
目前市場上發(fā)布債券收益率曲線的機(jī)構(gòu)每日只在市場收盤時發(fā)布一次,比如中國在債券收益率曲線編制方面最具影響力的公司——中國債券登記結(jié)算有限公司,也僅僅在每日盤終向市場發(fā)布數(shù)據(jù)。從某種程度上而言,用債券收益率曲線來反映債券市場波動,在時效性方面是不足的,特別是除了“11超日債”成為了中國債券歷史上首例違約的事件之外,還有類似于“PR青州債”在盤中被交易所公告“重大事項未公布,暫停交易”的情況發(fā)生。可以認(rèn)為中國債市也同樣存在風(fēng)險,捕捉市場對于風(fēng)險的反映往往比給風(fēng)險定價更為重要。目前為止國內(nèi)大部分的研究都集中于提升收益率曲線模型有效性,而輕于數(shù)據(jù)的處理,個人認(rèn)為,數(shù)據(jù)的準(zhǔn)確性比模型的可用性更為重要,所以債券收益率曲線擬合的效果受到用于擬合曲線的行情數(shù)據(jù)處理效果的影響。
雖然DBSCAN算法在執(zhí)行時需要預(yù)先制定相關(guān)參數(shù),并且也存在諸如OPTICS算法對于該方面進(jìn)行了改進(jìn)[12],但是在擬合債券收益率曲線時,本文卻使用了DBSCAN算法?,F(xiàn)代金融學(xué)雖然是建立在理性人假設(shè)基礎(chǔ)之上的,但是金融市場在理論實踐方面仍然是個弱有效的市場,所以在樣條函數(shù)應(yīng)用過程中,使用聚類算法必須將經(jīng)驗效用納入考量范圍,因此使用預(yù)先制定參數(shù)的DBSCAN算法更為合適。
2.1DBSCAN聚類算法及交易數(shù)據(jù)篩選
對幾個基本的密度聚類算法的定義做以下簡單的介紹。
(1) ε領(lǐng)域
對于給定的數(shù)據(jù)點p,其半徑長度為ε內(nèi)的區(qū)域稱為該數(shù)據(jù)點的ε領(lǐng)域。
(2) 核心對象
假設(shè)MinPs為某數(shù)據(jù)點ε領(lǐng)域內(nèi),最少包含的MinPs個數(shù)的數(shù)據(jù)點。
(3) 密度可達(dá)
假設(shè)數(shù)據(jù)點集Ω,如果存在一組數(shù)據(jù)點p1,p2,…,pn;p1=a;pn=b,對于任意的pi,1≤i≤n都存在一個數(shù)據(jù)點pj,i≠j的ε領(lǐng)域εj,使得pi∈εj,那么則稱數(shù)據(jù)點a與數(shù)據(jù)點b密度可達(dá)。
(4) 噪音的定義
基于密度可達(dá)的最大的ε領(lǐng)域的集合稱之為簇,如果存在一個數(shù)據(jù)點p∈Ω,p不屬于任何一個簇,則該數(shù)據(jù)點p被稱之為噪音。
數(shù)據(jù)挖掘中的DBSCAN算法是基于密度的聚類算法中一個非常典型的聚類算法, 能夠發(fā)現(xiàn)任意形狀的聚類?;舅枷胧牵涸跀?shù)據(jù)點集Ω的某一個點p,如果要判斷它是否歸于某一個簇,在點未分配到某個簇的時候,首先判斷點p是否為核心對象,若p是核心對象,就對點p的ε領(lǐng)域進(jìn)行查詢,查詢出所有密度可達(dá)的數(shù)據(jù)點,形成密度連通集。重復(fù)迭代該過程,得到所有的密度連通集,最后剩下的不屬于任何密度連通集的數(shù)據(jù)點就被稱為噪音。DBSCAN算法的特點是由核心對象向周圍進(jìn)行搜索,用以保證密度連通逐個形成[6]。DBSCAN算法通過索引相鄰數(shù)據(jù)點,對于全部的數(shù)據(jù)點只索引一次,加快索引速度。在選擇下一個待處理的數(shù)據(jù)點前,排除當(dāng)前ε領(lǐng)域內(nèi)的點,減少重復(fù)查詢的次數(shù)[13]。
在行情交易數(shù)據(jù)篩選中使用密度聚類的過程就是,首先基于歷史數(shù)據(jù)找出在發(fā)生行情的債券剩余期限附近的價格波動區(qū)間,在區(qū)間之外的可以認(rèn)為是異常數(shù)據(jù);然后在異常數(shù)據(jù)附近尋找臨近的數(shù)據(jù)點,如果低于某個閾值,就可以認(rèn)為該數(shù)據(jù)為噪音。密度聚類的目標(biāo)就是提供給樣條函數(shù)用于收益率曲線擬合的有效行情數(shù)據(jù),過濾掉異常行情數(shù)據(jù),進(jìn)一步縮小樣條函數(shù)擬合數(shù)據(jù)的范圍,提高擬合曲線效率。使用密度聚類為樣條函數(shù)進(jìn)行數(shù)據(jù)準(zhǔn)備,首先要去掉那些明顯的異常行情數(shù)據(jù),即行情數(shù)據(jù)中的孤立點。其次計算對應(yīng)收益率曲線在該債券剩余期限處20天內(nèi)的標(biāo)準(zhǔn)差,如果這個債券的交易行情的值在6倍標(biāo)準(zhǔn)差之外,或者在臨近該債券剩余期限的范圍之內(nèi)及2倍標(biāo)準(zhǔn)差之內(nèi),不存在其他的交易行情數(shù)據(jù),這樣的行情記錄可以刪除,如圖1所示。
圖1 數(shù)據(jù)準(zhǔn)備中刪除數(shù)據(jù)示意圖
2.2樣條函數(shù)分段點的選取
在上述對于將DBSCAN算法用于判斷異常數(shù)據(jù)是否為噪音,將該算法還可以用于在有效行情中判斷分界點。
(1) 根據(jù)經(jīng)驗指定收益率曲線分界點
根據(jù)陳震構(gòu)造收益率曲線的結(jié)論[5],首先按照債券期限結(jié)構(gòu)進(jìn)行經(jīng)驗上的分段點的選取。一年內(nèi)的債券為到期債券密集的區(qū)域,每0.1年設(shè)置一個分界點;1至10年為市場上交易比較密集的區(qū)域,每0.5年設(shè)置一個分界點;10年以上交易量急劇下降,每10年設(shè)置一個分界點。
(2) 根據(jù)交易密度指定收益率曲線分界點
使用DBSCAN算法,尋找ε為0.01年的行情數(shù)據(jù)領(lǐng)域,尋找交易數(shù)據(jù)的密集區(qū)域,在經(jīng)驗進(jìn)行分段的基礎(chǔ)上,根據(jù)數(shù)據(jù)密集領(lǐng)域再次進(jìn)行分段。
除此以外,隨著市場交易的繼續(xù)進(jìn)行,原先被判定為異常交易的附近出現(xiàn)了更多的期限結(jié)構(gòu)上臨近的交易行情,則可以認(rèn)為該區(qū)域的行情為合理行情,即孤立點區(qū)間交易密度達(dá)到密度聚類的下限,該數(shù)據(jù)將不被剔除。保留高密度區(qū)域數(shù)據(jù)的示意如圖2所示。
圖2 保留高密度區(qū)域數(shù)據(jù)
2.3樣條函數(shù)的參數(shù)估計
根據(jù)債券的價格理論,即債券的估值等于所有未來現(xiàn)金流的現(xiàn)值之和如下:
(1)
其中,Pj為第j個債券的估值價格,Nj為該券現(xiàn)金流的數(shù)量,tm為第m筆現(xiàn)金流的剩余期限,Cj(tm)為第m筆現(xiàn)金流的值,D(tm)為tm時刻的貼現(xiàn)函數(shù),經(jīng)過簡化后,可以得到函數(shù)式:
(2)
其中Tn為樣條函數(shù)的分界點。上述公式的標(biāo)準(zhǔn)公式如下:
(3)
其中:
(4)
式中的W是一個對角矩陣,處于計算方便的角度考慮,將債券的權(quán)重皆設(shè)置成1,矩陣上的每個元素代表相關(guān)債券的權(quán)重,將債券的久期的導(dǎo)數(shù)作為權(quán)重如下:
(5)
其中,Duri為第i個債券的久期,三次分段懲罰項的平滑樣條需要解決的問題就是:
(6)
這樣就轉(zhuǎn)化為一個最小二乘擬合問題,通過迭代擬合求解。
3債券收益率曲線擬合結(jié)果分析
3.1與行情數(shù)據(jù)擬合效果分析
以2013年10月之后將近一個月的國債交易數(shù)據(jù)為例,采用上述樣條模型應(yīng)用過程進(jìn)行實證分析。表1市場上實際存在行情數(shù)據(jù)的債券與其估值價格的偏差分析。
表1 行情價格數(shù)據(jù)與估值結(jié)果偏差統(tǒng)計表
其中估值日為20131108那天,行情偏差最小值存在異常數(shù)據(jù),經(jīng)查證為“光大烏龍指”數(shù)據(jù)如圖3所示。圖中圓圈為發(fā)生異常債券的期限處,并且在行情收益率曲線擬合的時候已經(jīng)將該異常數(shù)據(jù)予以排除,故并未對該期限處的收益率曲線波動造成太大的影響,體現(xiàn)出在異常數(shù)據(jù)篩選時密度聚類的有效性。從結(jié)果中還可以發(fā)現(xiàn),平均的行情數(shù)據(jù)與估值結(jié)果的偏差不足0.1元,所以對市場上存在行情數(shù)據(jù)的債券來說有很好的估值效果。
圖3 國債收益率曲線生成效果圖
從收益率曲線幾個關(guān)鍵的期限來看,1年內(nèi)、1至3年、3至5年、5至于7年以及7至10年之內(nèi)行情收益率數(shù)據(jù)與曲線收益率數(shù)據(jù)的偏差如表2所示。平均收益率的偏差最大在6BP左右,具有較好的擬合效果。
表2 行情價格數(shù)據(jù)與估值結(jié)果偏差統(tǒng)計表
3.2與其他模型生成的收益率曲線數(shù)據(jù)比對
圖4是使用2014年9月12日中國債市行情數(shù)據(jù)生成的國債收益率曲線效果對比圖。Hermite曲線為中債公司使用Hermite插值方法生成的收益率曲線;Splines曲線為本文通過樣條函數(shù)的應(yīng)用過程生成收益率曲線??梢钥闯鯯plines曲線在10年以內(nèi)的波動更大,對那一天中國債市的行情數(shù)據(jù)進(jìn)行統(tǒng)計得到表3所示。
圖4 國債收益率曲線生成效果對比圖
偏差期限 Hermite均值(%)Hermite中位數(shù)(%)Splines平均值(%)Splines中位數(shù)(%)(0,1]-0.08942-0.06634-0.010280.03767(1,3]-0.06367-0.035830.00444-0.00048(3,5]-0.00651-0.00246-0.00693-0.00030(5,7]0.004470.000130.001520.001866(7,10]0.020700.022800.00051-0.00115
從表3中的統(tǒng)計數(shù)據(jù)可知,通過樣條函數(shù)應(yīng)用過程得到的Splines曲線,雖然在十年之內(nèi)波動較大,但是它對市場上的債券價格波動擬合程度更好。Hermite曲線在不同期限上,與行情發(fā)生價格偏差最大可達(dá)到9BP、最小接近0.4BP;Splines曲線最大接近4BP、最小只有0.03BP。Hermite曲線構(gòu)造的一個重要的問題就是確定用于插值用的數(shù)據(jù)點,這需要依賴于一個強(qiáng)大的研究團(tuán)隊,這樣就無法發(fā)揮出數(shù)據(jù)挖掘的智能性。
將用于擬合Splines曲線的數(shù)據(jù)用于NSS模型,由于NSS模型的參數(shù)個數(shù)是確定的,可以使用R程序中的fBonds工具包進(jìn)行優(yōu)化求解,得到模型參數(shù)估計值,見表4所示。
表4 Nelson Siegel Svensson模型參數(shù)估計
將NSS模型擬合收益率曲線的結(jié)果與Splines曲線進(jìn)行比對,就可以發(fā)現(xiàn)NSS模型在擬合收益率曲線方面并不見長,特別是在行情波動比較大的區(qū)域,如圖5所示。
綜上所述,在樣條函數(shù)構(gòu)造債券收益率曲線的過程中應(yīng)用密度聚類,可以有效地過濾掉異常數(shù)據(jù),并且通過樣條函數(shù)分段點的選取,可以有效提高與市場債券價格波動的符合程度。
圖5 國債收益率NSS模型曲線生成效果對比圖
4結(jié)語
傳統(tǒng)的樣條模型分段處理方式中,分界點的選取通常依賴于經(jīng)驗,并且分界點通常取1、3、5等[5]。債券的性質(zhì)決定債券市場的交易具有局部性的特點,傳統(tǒng)的處理方式不能隨著市場的變動調(diào)整樣條模型參數(shù)數(shù)量,即曲線的擬合程度以及實時性方面存在不足。本文基于DBSCAN算法實現(xiàn)了對于樣條模型分界點的自動選取,并在交易不足的區(qū)域保留了分段點經(jīng)驗選取的方式,能夠在交易密集區(qū)提高曲線的擬合程度;在交易稀疏區(qū)指導(dǎo)曲線的走向,從而更好地生成符合市場波動的債券收益率曲線。
參考文獻(xiàn)
[1]RobertCMerton.Continusous-TimeFinance[M].Wiley-Blackwell,1992.
[2]WaggonerD.Splinemethodsforextractinginterestratecurvesfromcouponbondprices[R].Georgia:FederalReserveBankofAtlanta,1997.
[3]SvenssonLEO.Estimatingandinterpretingforwardinterestrate[R].Sweden:CEPRDiscussionPaperSeries,1994.
[4]SvenssonL.EstimatingforwardinterestrateswiththeextendedNelson&Siegelmethod[R].SverigesRiksbankQuarterlyReview,1995.
[5] 陳震.中國國債收益率曲線研究[D].上海:復(fù)旦大學(xué),2009.
[6]KhanK.DBSCAN:Past,presentandfuture,ProceedingsofFifthInternationalConferenceonApplicationsofdigitalInformationandwebtechnologies(ICADIWT),Bangalore,2014[C]//IEEE:Piscataway,2014:232-238.
[7]JiaweiHan,MichelineKamber.Datamining:conceptsandtechniques[M].3rded.ElsevierInc.,2012.
[8] 董樂.銀行間債券市場流動性溢價問題研究[J].運籌與管理,2007,16(4):79-88.
[9]TakemataJun,MiyazakiKoichi.TheGRStestforassetpricingmodelsintheJapaneseequitymarket[J].JournalofJapanIndustrialManagementAssociation,2013,64(1):75-84.
[10]DeGiuli,MariaElena.Bayesianoutlierdetectionincapitalassetpricingmodel[J].StatisticalModelling:AnInternationalJournal,2010,10(4):375-390.
[11] 許瑾.統(tǒng)計方法在利率期限結(jié)構(gòu)和多因素資產(chǎn)定價模型中的應(yīng)用[D].安徽:中國科學(xué)技術(shù)大學(xué),2005.
[12]AnkerstM,BreunigMM,KriegelHP,etal.OPTICS:orderingpointstoidentifytheclusteringstructure[R].ACMSIGMODRecord,1999,28(2):49-60.
[13] 李雙慶.一種改進(jìn)的DBSCAN算法及其應(yīng)用[J].計算機(jī)工程與應(yīng)用,2014,50(8):72-76.
[14]WileyFinance.Analysingandinterpretingtheyieldcurve[M].Hoboken:JOHNWILEY&SONSINC,2004.
APPLICATION OF SPLINE FUNCTION IN CONSTRUCTING BOND YIELD CURVE
Yang Liu
(School of Software Engineering,Fudan University,Shanghai 201203,China)
AbstractIn light of the miscellaneous quotation data in bond market, we proposed to apply the DBSCAN algorithm to constructing the spline function of bond yield curve. By employing DBSCAN algorithm to the cluster analysis of the quotation data, which is used to construct bond yield curve, it is able to eliminate effectively the abnormal transaction data on the market. On the basis of cluster analysis results, we used the DBSCAN algorithm once again to construct the bond yield curve, and segmented the spline function into sections according to the dense regions of quotation data on the market. Besides, targeted at the defect of traditional way that it selects the segment points of spline function of bond yield curve depending on experience, the use of DBSCAN algorithm can effectively improve the conformance between the bond yield curve and the bond quotation data. From the experimental results it is illustrated that to apply the DBSCAN algorithm to constructing the spline function of bond yield curve can improve the effects of reflecting the fluctuations of interest term structure by bond yield curve and its accuracy.
KeywordsBond yield curveSpline functionCluster analysisDBSCAN algorithmInterest term structure
收稿日期:2015-01-13。楊柳,碩士,主研領(lǐng)域:數(shù)據(jù)挖掘。
中圖分類號TP311
文獻(xiàn)標(biāo)識碼A
DOI:10.3969/j.issn.1000-386x.2016.06.023