国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)算法的金融期權(quán)波動(dòng)率預(yù)測(cè)*

2018-10-18 01:21:02
學(xué)海 2018年5期
關(guān)鍵詞:樣本數(shù)期權(quán)波動(dòng)

內(nèi)容提要 期權(quán)波動(dòng)率預(yù)測(cè)是期權(quán)風(fēng)險(xiǎn)預(yù)警管理的關(guān)鍵問題,傳統(tǒng)方法采取GARCH等時(shí)間序列模型。與傳統(tǒng)方法不同,本文創(chuàng)建了基于機(jī)器學(xué)習(xí)算法的“SKRG遞進(jìn)集成”新預(yù)警體系,體系以中國波指為對(duì)象,采取48個(gè)相關(guān)指標(biāo)作為對(duì)中國波指預(yù)測(cè)的特征(Feature),依次引入SVM機(jī)器學(xué)習(xí)、KNN樣本不平衡機(jī)器學(xué)習(xí)、RF劃分、GBDT優(yōu)化完成機(jī)器學(xué)習(xí)建模過程,逐步提高預(yù)測(cè)精準(zhǔn)率。測(cè)試樣本顯示,基于機(jī)器學(xué)習(xí)的預(yù)測(cè)效果好于傳統(tǒng)的GARCH模型。本文的理論價(jià)值在于豐富了期權(quán)隨機(jī)波動(dòng)率預(yù)測(cè)領(lǐng)域的相關(guān)文獻(xiàn),應(yīng)用價(jià)值在于為波動(dòng)率的預(yù)測(cè)進(jìn)而期權(quán)風(fēng)險(xiǎn)預(yù)警提供了新的方法。

引 言

金融工程中,期權(quán)是重要的衍生品工具。作為機(jī)構(gòu)交易者,在設(shè)計(jì)交易期權(quán)的策略中,突出的交易策略是賣出類。但單向賣出期權(quán)與單項(xiàng)買入期權(quán)一樣,存在巨大的交易風(fēng)險(xiǎn)。為獲取穩(wěn)健的賣出類期權(quán)策略收益,需要?jiǎng)討B(tài)對(duì)沖。

如何考慮對(duì)沖的動(dòng)態(tài)連續(xù)性和前瞻性,成為風(fēng)險(xiǎn)管理的焦點(diǎn)。市場(chǎng)波動(dòng)率是決定期權(quán)價(jià)格的重要變量,然而事實(shí)和研究表明,期權(quán)波動(dòng)率并不是一成不變的,而是具有隨機(jī)性。波動(dòng)率的不可預(yù)測(cè)性意味著難以找到合適的波動(dòng)率對(duì)期權(quán)予以定價(jià)。因而要把握期權(quán)價(jià)格的變化趨勢(shì)以及對(duì)沖的動(dòng)態(tài)性和前瞻性,對(duì)波動(dòng)率的預(yù)測(cè)就成為十分重要的工作。比如,在賣出期權(quán)的策略中風(fēng)險(xiǎn)的很大一部分來自隱含波動(dòng)率的大幅度上漲,因此如果我們能夠提前預(yù)測(cè)出隱含波動(dòng)率的上漲,便可以通過對(duì)沖倉位的調(diào)整來削減或是規(guī)避掉波動(dòng)率上漲帶來的風(fēng)險(xiǎn)。

波動(dòng)率預(yù)測(cè)急需使用新的方法體系模型。近年來,隨著大數(shù)據(jù)、人工智能、機(jī)器學(xué)習(xí)技術(shù)的日趨成熟,可以利用新技術(shù)實(shí)現(xiàn)波動(dòng)率的預(yù)測(cè)。大數(shù)據(jù)是新技術(shù)處理模式中,具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)T+0交易的期權(quán)在年度、月度、周度、日度、秒度的不同層次、不同深度數(shù)據(jù),可以滿足數(shù)據(jù)“大”的標(biāo)準(zhǔn)。而“人工智能”從1956年Dartmouth學(xué)會(huì)上提出至今已經(jīng)滿了一個(gè)60年,其研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的技術(shù)科學(xué),具體研究包括機(jī)器人、語言識(shí)別、圖像識(shí)別、自然語言處理和專家系統(tǒng)等,其中的核心是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)設(shè)計(jì)和分析這些讓計(jì)算機(jī)可以自動(dòng)“學(xué)習(xí)”的算法,正是期權(quán)策略中,對(duì)波動(dòng)率預(yù)測(cè)可以使用的新方法。

因此,利用交易數(shù)據(jù)和算法人工智能,將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于期權(quán)金融市場(chǎng),提高期權(quán)風(fēng)險(xiǎn)管理水平和投資決策效率,是本文嘗試的一個(gè)方向。本文主要目的是探索機(jī)器學(xué)習(xí)在期權(quán)波動(dòng)預(yù)測(cè)中的應(yīng)用,主要?jiǎng)?chuàng)新是提出波動(dòng)率預(yù)測(cè)“SKRG遞進(jìn)集成”法,較高質(zhì)量預(yù)測(cè)了隱含波動(dòng)率,該機(jī)器學(xué)習(xí)有利于提高波動(dòng)率預(yù)測(cè)的精度。具體而言,SKRG遞進(jìn)集成法,是基于中國波指預(yù)測(cè)的特征(Feature),分別運(yùn)用隨機(jī)森林、GBM及K臨近等算法,搭建了層層遞進(jìn)的48個(gè)指標(biāo),并在邏輯上做集成處理,得到最優(yōu)化成果。

文獻(xiàn)綜述

對(duì)收益波動(dòng)率的建模和預(yù)測(cè)是金融市場(chǎng)研究的一個(gè)重要議題。主流的方法是通過歷史數(shù)據(jù)即時(shí)間序列模型。

Engle等較早提出ARCH類模型,之后學(xué)者提出GARCH等一系列修正模型。黃海南等(2007)運(yùn)用GARCH模型對(duì)上證指數(shù)收益率進(jìn)行估計(jì)及樣本外預(yù)測(cè),然后以已實(shí)現(xiàn)波動(dòng)率作為波動(dòng)率預(yù)測(cè)的評(píng)價(jià)標(biāo)準(zhǔn),通過M-Z回歸和損失函數(shù)來評(píng)價(jià)GARCH類模型的波動(dòng)率預(yù)測(cè)表現(xiàn)。結(jié)果表明,無論是樣本內(nèi)還是樣本外,GARCH類模型都能夠較好地預(yù)測(cè)上證指數(shù)的收益波動(dòng)率。其中,偏斜t-分布假設(shè)下的GJR(1,1)模型的預(yù)測(cè)能力最強(qiáng)。趙華等(2011)分別基于誤差項(xiàng)服從正態(tài)分布、t分布、廣義誤差分布的GARCH族模型和MRS-GARCH模型對(duì)中國股市波動(dòng)的結(jié)構(gòu)變化特征進(jìn)行實(shí)證研究。結(jié)果表明,中國股市存在顯著的高、低波動(dòng)狀態(tài),MRS-GARCH模型預(yù)測(cè)效果總體上優(yōu)于GARCH族模型。李漢東等(2003)討論了在金融時(shí)間序列中廣泛應(yīng)用的兩類波動(dòng)性模型,即自回歸條件異方差(ARCH)模型和隨機(jī)波動(dòng)(SV)模型的關(guān)系問題,認(rèn)為一個(gè)離散的EGARCH(1,1)模型在弱GARCH過程的條件下與一個(gè)離散的SV模型是一一對(duì)應(yīng)的。在此基礎(chǔ)上進(jìn)一步討論了EGARCH(1,1)模型和SV模型的單位根問題,結(jié)果表明:兩類模型的單位根存在對(duì)應(yīng)的關(guān)系,即二者的持續(xù)性能夠通過隨機(jī)微分方程的形式來傳遞。但GARCH模型的缺點(diǎn)在于,無法考慮期權(quán)波動(dòng)率二階的復(fù)雜性和非線性特征。

部分學(xué)者利用貝葉斯原理對(duì)隨機(jī)波動(dòng)率模型進(jìn)行研究。Jacquieret al.(2002)利用股票的收益率和換手率的日數(shù)據(jù)和周數(shù)據(jù),通過抽樣實(shí)驗(yàn)來比較貝葉斯估計(jì)法、矩量法和擬極大似然法。實(shí)驗(yàn)結(jié)果表明:在參數(shù)估計(jì),貝葉斯估計(jì)法要優(yōu)于另外兩種方法。蔣祥林等(2005)基于貝葉斯原理對(duì)隨機(jī)波動(dòng)性模型進(jìn)行研究,并將隨機(jī)波動(dòng)率模型應(yīng)用于股市風(fēng)險(xiǎn)價(jià)值的估計(jì)與預(yù)測(cè)。針對(duì)中國股市數(shù)據(jù)進(jìn)行的實(shí)證結(jié)果表明:與GARCH模型相比,隨機(jī)波動(dòng)率模型能更好地描述股票市場(chǎng)回報(bào)的異方差和波動(dòng)率的序列相關(guān)性,基于隨機(jī)波動(dòng)率的VaR較GARCH模型的VaR具有更高的精度。類似地,羅嘉雯等(2017)通過構(gòu)建包含時(shí)變系數(shù)和動(dòng)態(tài)方差的貝葉斯HAR潛在因子模型,對(duì)我國金融期貨的高頻已實(shí)現(xiàn)波動(dòng)率進(jìn)行預(yù)測(cè)。結(jié)果表明,時(shí)變貝葉斯?jié)撛谝蜃幽P驮谒袇⑴c比較的預(yù)測(cè)模型當(dāng)中具有最優(yōu)的短期、中期和長期預(yù)測(cè)效果。同時(shí),在股指期貨和國債期貨的預(yù)測(cè)模型中加入投機(jī)活動(dòng)變量可以獲得更好的預(yù)測(cè)效果。但貝葉斯估計(jì)法難以處理期權(quán)的不同執(zhí)行價(jià)、不同到期日、不同執(zhí)行權(quán)的歐式或美式等多維度特征,常常依賴于單因素的分布條件。

陳蓉等(2010)利用香港恒生指數(shù)期權(quán)的數(shù)據(jù),對(duì)隱含波動(dòng)率曲面動(dòng)態(tài)過程進(jìn)行建模和估計(jì),建立了一個(gè)五因子隨機(jī)隱含波動(dòng)率模型。在模型的估計(jì)方法上,首次引入了基于小樣本面板數(shù)據(jù)的擴(kuò)展的卡爾曼濾波法。結(jié)果顯示,在香港市場(chǎng)上,擴(kuò)展的卡爾曼濾波法比傳統(tǒng)的兩步法可以得到更好的估計(jì)結(jié)果,五因子隨機(jī)隱含波動(dòng)率模型能很好地刻畫恒指期權(quán)隱含波動(dòng)率曲面的變動(dòng)規(guī)律,效果明顯優(yōu)于靜態(tài)隱含波動(dòng)率模型。但中國市場(chǎng)的期權(quán)交易尚不充分活躍的情形下,部分非主力合約的波動(dòng)率曲面的建立容易失真。

除了傳統(tǒng)的波動(dòng)率預(yù)測(cè)模型之外,部分學(xué)者不斷提出新的預(yù)測(cè)模型。魏宇等(2015)在已有的多分形波動(dòng)率(multifractal volatility)測(cè)度方法的基礎(chǔ)上提出新的波動(dòng)率測(cè)度方法及模型?;谏献C綜指的5 min高頻數(shù)據(jù),發(fā)現(xiàn)不論是短記憶模型還是長記憶模型,多分形波動(dòng)率模型的預(yù)測(cè)精度明顯優(yōu)于GARCH族模型,且長記憶模型的預(yù)測(cè)能力要好于短記憶模型。鄭振龍等(2017)根據(jù)新的隱含波動(dòng)率半?yún)?shù)模型,利用MATLAB編程,選擇香港小型恒生指數(shù)期權(quán)2013年1月到2015年3月的日交易數(shù)據(jù),分別實(shí)現(xiàn)了滾動(dòng)加權(quán)平均法與BP神經(jīng)網(wǎng)絡(luò)法對(duì)參數(shù)的周期性時(shí)間序列進(jìn)行外推預(yù)測(cè),發(fā)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)法明顯優(yōu)于滾動(dòng)加權(quán)平均法。這些嘗試是機(jī)器學(xué)習(xí)在期權(quán)波動(dòng)率預(yù)測(cè)的嘗試,盡管主要局限于上證股票指數(shù)或香港期權(quán)市場(chǎng)。

近年來機(jī)器學(xué)習(xí)在金融市場(chǎng)預(yù)測(cè)中得到越來越多的應(yīng)用。Rose(2013)將機(jī)器學(xué)習(xí)用于流行病學(xué)研究,結(jié)果發(fā)現(xiàn)超級(jí)學(xué)習(xí)者在預(yù)測(cè)死亡率方面比單一算法具有優(yōu)勢(shì)。李光明(2013)基于粗糙集的神經(jīng)網(wǎng)絡(luò)模型,針對(duì)國有企業(yè)目前的經(jīng)營績(jī)效進(jìn)行分類,實(shí)驗(yàn)結(jié)果顯示約簡(jiǎn)后的國有資產(chǎn)指標(biāo)集可以很好地反映國有企業(yè)的財(cái)務(wù)風(fēng)險(xiǎn)情況。彭巖等(2017)討論了基于案例的推理(CBR,Case based Reasoning)、支持向量機(jī)(SVM,SupportVectot Machine)以及人工神經(jīng)網(wǎng)絡(luò)(ANN,Artificial Neural Network)等機(jī)器學(xué)習(xí)方法在風(fēng)險(xiǎn)預(yù)測(cè)中的作用。曹正鳳(2014)通過比較分析價(jià)值策略和成長策略,提出以價(jià)值成長投資策略(GARP)理念為基礎(chǔ)的選股模型指標(biāo)體系,通過樣本數(shù)據(jù)發(fā)現(xiàn),使用隨機(jī)森林算法可以更好地完成股票分類,實(shí)現(xiàn)更好收益。辛治運(yùn)和顧明(2008)基于最小二乘支持向量機(jī)的對(duì)復(fù)雜金融時(shí)間序列進(jìn)行預(yù)測(cè),吳微等(2001)運(yùn)用BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)股票市場(chǎng)漲跌,張煒等(2015)基于自適應(yīng)遺傳算法對(duì)股票未來走勢(shì)進(jìn)行預(yù)測(cè),蘇治等(2013)通過核主成分遺傳算法對(duì)SVR選股模型進(jìn)行改進(jìn),王夢(mèng)雪(2016)利用拍拍貸平臺(tái)的借貸數(shù)據(jù),通過各種機(jī)器學(xué)習(xí)的算法選擇風(fēng)控模型的因子,并對(duì)約定的違約進(jìn)行預(yù)測(cè),得到比較滿意的結(jié)果。整體上看,這些研究標(biāo)的物多為股票或借貸,在國內(nèi)的金融期權(quán)上尚屬于空白。

通過上述文獻(xiàn)可以看出,盡管機(jī)器學(xué)習(xí)正越來越多地用于金融預(yù)測(cè)與風(fēng)險(xiǎn)管理,但用于期權(quán)風(fēng)險(xiǎn)預(yù)警、預(yù)測(cè)波動(dòng)率的文獻(xiàn)還較少。同時(shí),如何在期權(quán)隱含波動(dòng)率預(yù)測(cè)上建立一個(gè)機(jī)器學(xué)習(xí)應(yīng)用模型,這一空白需要填補(bǔ)。因此,本文運(yùn)用機(jī)器算法機(jī)制,綜合隨機(jī)森林、GBM及K臨近等算法,提出“SKRG遞進(jìn)集成”法模型,用于期權(quán)風(fēng)險(xiǎn)預(yù)警,并通過實(shí)盤數(shù)據(jù)進(jìn)行了有效檢驗(yàn)。

基于機(jī)器學(xué)習(xí)算法的期權(quán)波動(dòng)率預(yù)測(cè)

(一)機(jī)器學(xué)習(xí)在期權(quán)波動(dòng)率預(yù)測(cè)上的評(píng)價(jià)標(biāo)準(zhǔn)

能否高質(zhì)量地評(píng)價(jià)機(jī)器學(xué)習(xí)方法對(duì)波動(dòng)的預(yù)測(cè),需要建立科學(xué)的評(píng)價(jià)指標(biāo)。根據(jù)機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用情況,機(jī)器學(xué)習(xí)一般分為三類:監(jiān)督學(xué)習(xí)(Supervised Learning,SL),非監(jiān)督學(xué)習(xí)(Unsupervised learning,UL),和強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)。本文應(yīng)用監(jiān)督學(xué)習(xí)可判別預(yù)測(cè)的效果。監(jiān)督學(xué)習(xí)是在給定訓(xùn)練樣本,該樣本既有數(shù)據(jù),又有數(shù)據(jù)對(duì)應(yīng)結(jié)果,利用該樣本進(jìn)行訓(xùn)練得到模型,然后利用該模型,將所有的輸入映射為相應(yīng)的輸出,之后對(duì)輸出進(jìn)行簡(jiǎn)單的判斷,從而達(dá)到分類或回歸的過程。因而監(jiān)督學(xué)習(xí)是原始數(shù)據(jù)中既有特征值,也有標(biāo)簽值的機(jī)器學(xué)習(xí)。

因此,本文機(jī)器學(xué)習(xí)的主要評(píng)價(jià)指標(biāo)包括四個(gè)方面,如下圖1所示:(1)準(zhǔn)確率(Accuracy),指對(duì)于給定的測(cè)試數(shù)據(jù)集,分類器正確分類的樣本數(shù)和總樣本數(shù)之比;(2)精確率(Precision),每次預(yù)測(cè)成功的概率;(3)召回率(Recall),反映的是能夠識(shí)別風(fēng)險(xiǎn)的概率;(4)F1-Score,指精確率和召回率的調(diào)和均值。

圖1 期權(quán)波動(dòng)率預(yù)測(cè)的機(jī)器學(xué)習(xí)評(píng)價(jià)指標(biāo)

由圖1可知,本文在機(jī)器學(xué)習(xí)模型效果上,注重四個(gè)指標(biāo),分別是預(yù)測(cè)的準(zhǔn)確率、精確率、召回率和二者的調(diào)和均值。通過四方面的對(duì)比,尋找較優(yōu)的預(yù)測(cè)模型。

(二)期權(quán)波動(dòng)率預(yù)測(cè)特征(Feature)與標(biāo)簽(Label)選擇

在賣出類期權(quán)類策略中,期權(quán)的價(jià)值表示為:

由于Vega為負(fù),如果隱含波動(dòng)率大幅上漲,勢(shì)必帶來較大的投資損失。因此,我們把波動(dòng)率變化幅度予以分類,根據(jù)Scott Mixon(2007)的分類法,本文把波動(dòng)幅度在2%以內(nèi)定義為安全類,把超過2%定義為風(fēng)險(xiǎn)類。

對(duì)于隱含波動(dòng)率的標(biāo)的選擇,本文選擇中國波指,000188.SH,其特點(diǎn)是構(gòu)造較公允、波動(dòng)價(jià)格的跟蹤誤差較小、能夠較好反映期權(quán)的隱含波動(dòng)狀況,反映市場(chǎng)情緒。

對(duì)于訓(xùn)練和測(cè)試的時(shí)間段的選擇中,依據(jù)交易量較大的2015年2月9日至2017年10月18日,共655個(gè)交易日。

在隱含波動(dòng)率的因子選擇,由于隱含波動(dòng)率的上漲下跌與標(biāo)的資產(chǎn)實(shí)際的波動(dòng)狀況以及市場(chǎng)的情緒有關(guān),考慮到數(shù)據(jù)的可得性,本文選取實(shí)際波動(dòng)狀況、歷史波動(dòng)率、與波動(dòng)狀況相關(guān)的技術(shù)指標(biāo)、波動(dòng)率預(yù)測(cè)以及期權(quán)市場(chǎng)數(shù)據(jù)五大類數(shù)據(jù),共48個(gè)相關(guān)指標(biāo)作為隱含波動(dòng)率的影響因素。這些因子基本覆蓋了期權(quán)理論因素點(diǎn)或各大歷史文獻(xiàn)研究的主要指標(biāo),具體如下表1所示。

表1 期權(quán)隱含波動(dòng)率的影響因子選擇

由表1可知,期權(quán)隱含波動(dòng)率的影響因子中,包括實(shí)際波動(dòng)狀況,其可以細(xì)分為漲跌幅、成交量、振幅等指標(biāo),也包括歷史波動(dòng)率指標(biāo),不同日期的收盤價(jià)波動(dòng)率或Parkinson指標(biāo),以及各類call與put的比值等。

(三)期權(quán)波動(dòng)率機(jī)器學(xué)習(xí)算法模型構(gòu)建

基于前述算法,本文開始通過數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,優(yōu)化模型參數(shù)。在訓(xùn)練的過程中,依據(jù)較高的“精準(zhǔn)率”,提升“召回率”逐步優(yōu)化模型。機(jī)器學(xué)習(xí)的算法中,考慮到因子數(shù)據(jù)量大、維度較高,選擇先用降維映射的算法,因此首先選擇SVM算法。同時(shí),SVM可以克服因變量數(shù)據(jù)較小的不足。

1.SVM算法降維分類

SVM即支持向量機(jī),這是一種監(jiān)督學(xué)習(xí)方法,主要用于分析數(shù)據(jù)、識(shí)別模式,對(duì)數(shù)據(jù)的分類分析和回歸分析①。由于支持向量機(jī)可以將分類問題轉(zhuǎn)化為一個(gè)不等式約束下的二次規(guī)劃問題,并用核函數(shù)代替向高維空間的非線性映射,因而較好地解決了高維數(shù)問題,成為現(xiàn)階段統(tǒng)計(jì)理論發(fā)展最快的研究方向之一。鑒于我們的數(shù)據(jù)樣本數(shù)量只有655份,屬于小樣本數(shù)據(jù)集,而SVM在小樣本數(shù)據(jù)上有較為優(yōu)秀的表現(xiàn),因此先使用支持向量機(jī)對(duì)風(fēng)險(xiǎn)預(yù)警問題進(jìn)行處理。

由于我們的數(shù)據(jù)維度較高,因此需要用RBF核函數(shù)將樣本映射到高維空間,在參數(shù)的訓(xùn)練過程中我們主要訓(xùn)練兩個(gè)參數(shù),一個(gè)是gamma,是RBF函數(shù)自帶的一個(gè)參數(shù)。gamma越大,支持向量越少,gamma值越小,支持向量越多。我們調(diào)整gamma的值在0.01至1.5的范圍內(nèi),其精確率、召回率以及F1值有如下變化(圖2)。

圖2 gamma值變動(dòng)時(shí)指標(biāo)曲線圖

我們可以看到在gamma在0.8左右有著較好的性能,且魯棒性較好。另一個(gè)是懲罰系數(shù)C,即對(duì)誤差的寬容度。C越高,說明越不能容忍出現(xiàn)誤差,容易過擬合。C越小,容易欠擬合。C過大或過小,泛化能力變差。我們調(diào)整懲罰系數(shù)C的值在1至5的范圍內(nèi),其精確率、召回率以及F1值變化如圖3。

圖3 懲罰系數(shù)C變動(dòng)時(shí)指標(biāo)曲線圖

當(dāng)懲罰系數(shù)C小于1.5時(shí)預(yù)測(cè)的精準(zhǔn)度是很低的,在1.5到2之間有一個(gè)較高值,之后逐漸衰減,綜合考慮我們選擇C的值為1.8。通過調(diào)參后,支持向量機(jī)在測(cè)試集上的表現(xiàn)如下(圖4)。

圖4 SVM在測(cè)試集上的表現(xiàn)結(jié)果

由圖4可見,SVM具有較好效果,精準(zhǔn)率可以達(dá)到0.8,召回率也在0.8左右。但在實(shí)際交易中,考慮到我們更關(guān)心波動(dòng)率較大的突變,而不是每次均等變化,前文中的“風(fēng)險(xiǎn)類”樣本,是我們更關(guān)注的對(duì)象。因此我們用KNN進(jìn)行優(yōu)化。

2.KNN優(yōu)化樣本的不平衡

由于我們的數(shù)據(jù)存在樣本不平衡的現(xiàn)象,“風(fēng)險(xiǎn)類”的樣本明顯少于“安全類”。為有效解決樣本不平衡的問題,我們將訓(xùn)練KNN模型來對(duì)問題進(jìn)行處理。經(jīng)過數(shù)據(jù)處理后我們開始對(duì)模型進(jìn)行參數(shù)調(diào)節(jié),由于KNN算法是一種被動(dòng)的算法,沒有一個(gè)訓(xùn)練的過程,因此我們?cè)谟?xùn)練集內(nèi)部做十折交叉驗(yàn)證來選取一個(gè)合適的k值以及加權(quán)方式。其精準(zhǔn)率的展示如下圖5、圖6。

圖5 等權(quán)重時(shí)下精準(zhǔn)率與k值的關(guān)系圖

圖5表示當(dāng)取各個(gè)數(shù)據(jù)點(diǎn)權(quán)重相等時(shí),k的不同取值對(duì)精準(zhǔn)率的影響,圖6表示當(dāng)給各個(gè)數(shù)據(jù)點(diǎn)按距離分之加權(quán)時(shí),k的不同取值對(duì)精準(zhǔn)率的影響。通過兩幅圖的對(duì)比我們可以發(fā)現(xiàn),對(duì)各個(gè)數(shù)據(jù)點(diǎn)賦予相等權(quán)重的效果明顯要更好一些。同時(shí)發(fā)現(xiàn)當(dāng)k值在20到30之間有著較好的效果。通過調(diào)參后,KNN算法在測(cè)試集上的表現(xiàn)如下(圖7)。通過圖7可以看出,KNN算法在精準(zhǔn)率上的表現(xiàn)和隨機(jī)森林相同,但是在召回率上要更好一些。

圖6 加權(quán)后精準(zhǔn)率與k值的關(guān)系圖

圖7 KNN在測(cè)試集上的表現(xiàn)結(jié)果

由圖7可以看出,KNN算法在精準(zhǔn)率上的表現(xiàn)和SVM相近,但在召回率上更好一些。

3.在SVM和KNN上用RF優(yōu)化特征值權(quán)重

無論是支持向量機(jī)還是KNN算法都是同時(shí)對(duì)多組數(shù)據(jù)進(jìn)行分析處理,雖然我們提前會(huì)對(duì)特征做一些篩選工作,排除一些相關(guān)性較差的特征,但在留下的特征當(dāng)中仍是賦予了相同的權(quán)重,而實(shí)際上每個(gè)特征對(duì)隱含波動(dòng)率的影響不會(huì)是完全相同的。而樹模型是每次只對(duì)單個(gè)特征進(jìn)行處理,每次都會(huì)選擇信息增益最大的特征作為判斷模塊建立子結(jié)點(diǎn),當(dāng)節(jié)點(diǎn)內(nèi)的樣本全部歸為一類或是到達(dá)我們規(guī)定的深度便會(huì)停止繼續(xù)劃分,這樣可以使得我們根據(jù)特征的重要程度依次對(duì)特征進(jìn)行處理。基于這個(gè)特點(diǎn)我們進(jìn)一步使用隨機(jī)森林對(duì)問題進(jìn)行處理。

最大特征數(shù)(Max_Features)是指隨機(jī)森林允許單個(gè)決策樹使用特征的最大數(shù)量。增加最大特征數(shù)一般能提高模型的性能,因?yàn)樵诿總€(gè)節(jié)點(diǎn)上,我們有更多的選擇可以考慮。然而這未必完全是對(duì)的,因?yàn)樗档土藛蝹€(gè)樹的多樣性,而這正是隨機(jī)森林獨(dú)特的優(yōu)點(diǎn)。但是可以肯定的是,通過增加最大特征數(shù)會(huì)降低算法的速度。因此需要適當(dāng)?shù)钠胶夂瓦x擇最佳最大特征數(shù)。為此我們調(diào)節(jié)最大特征數(shù)的取值0到40,其精確率、召回率以及F1值有如下變化(圖8、圖9)。

圖8 最大特征數(shù)與評(píng)價(jià)指標(biāo)關(guān)系圖

圖9 最小葉子樣本數(shù)與評(píng)價(jià)指標(biāo)關(guān)系圖

從圖8可以看到,在最大特征數(shù)非常小的時(shí)候,模型基本沒有什么預(yù)測(cè)能力,三個(gè)值都非常的低,最大特征數(shù)取3到10的區(qū)間范圍時(shí),精確率較高,召回率及F1值較低且有逐漸上升的趨勢(shì),當(dāng)最大特征數(shù)大于10之后,精確率有稍微下降的趨勢(shì),且召回率和F1值逐漸趨于穩(wěn)定。綜合考慮,我們?nèi)∽畲筇卣鲾?shù)的值為10。

最小葉子樣本數(shù)(min_sample_leaf)控制著樹枝在分叉時(shí)的最小樣本數(shù),當(dāng)前節(jié)點(diǎn)樣本數(shù)小于這個(gè)值的時(shí)候,當(dāng)前節(jié)點(diǎn)停止構(gòu)建,作為決策樹的葉子節(jié)點(diǎn)。這個(gè)值決定著決策樹的深度,一般而言取值越小性能會(huì)越好,但如果葉子太小會(huì)使模型更容易捕捉訓(xùn)練數(shù)據(jù)中的噪聲,使得決策樹較為容易過擬合。我們調(diào)節(jié)最大特征數(shù)的取值0到40,其精確率,召回率以及F1值變化如圖9。

我們看到當(dāng)取值越小時(shí),召回率越高,取值越大,召回率越低,主要原因是我們的數(shù)據(jù)有一定的偏態(tài),歸為“安全類”的數(shù)據(jù)大約占到了77%,樹模型的深度越低,越容易被歸為“安全類”,當(dāng)取值為10到15時(shí),精準(zhǔn)率有一個(gè)較高的取值。綜合考慮,我們?nèi)∽钚∪~子樣本數(shù)的值為11。通過參數(shù)調(diào)節(jié)后隨機(jī)森林模型的性能如下(見圖10):

圖10 隨機(jī)森林在測(cè)試集上的表現(xiàn)結(jié)果

4.考慮樣本不平衡和權(quán)重差以后的GBDT梯度提升

在測(cè)試上述集中共有41個(gè)風(fēng)險(xiǎn)類,隨機(jī)森林模型可以識(shí)別出其中的15%,其預(yù)測(cè)的精準(zhǔn)率達(dá)到75%。但是召回率要略低于KNN算法。在隨機(jī)森林中使用的是Bagging的方法,每輪抽取的訓(xùn)練集的選擇是隨機(jī)的,各輪訓(xùn)練集之間相互獨(dú)立,各個(gè)預(yù)測(cè)函數(shù)沒有權(quán)重。相比于bagging,在集成樹模型中還有一種boosting方法,在開始時(shí)會(huì)給每個(gè)樣本相等的權(quán)重,然后用該算法對(duì)訓(xùn)練集訓(xùn)練n輪,每輪訓(xùn)練后,會(huì)對(duì)訓(xùn)練錯(cuò)的樣本加大權(quán)重,也就是讓學(xué)習(xí)算法在后續(xù)的學(xué)習(xí)中集中對(duì)比較難的訓(xùn)練例進(jìn)行學(xué)習(xí),從而得到一個(gè)預(yù)測(cè)函數(shù)序列,其中預(yù)測(cè)函數(shù)也有一定的權(quán)重,預(yù)測(cè)效果好的預(yù)測(cè)函數(shù)權(quán)重較大,反之較小。Bagging采用均勻取樣,而boosting根據(jù)錯(cuò)誤率來取樣,因此boosting的分類精度要優(yōu)于bagging,梯度提升決策樹是一種使用boosting的方法,在這一部分我們將使用梯度決策樹算法來對(duì)問題進(jìn)行處理。

與隨機(jī)森林類似,梯度提升決策樹也是以決策樹作為基礎(chǔ)分類器的一種集成模型,因此它也存在決策樹中的一些參數(shù),例如最小葉子樣本數(shù)、最大深度等,但它同時(shí)也包含了調(diào)節(jié)模型中boosting操作的參數(shù)以及調(diào)節(jié)模型總體各項(xiàng)運(yùn)作的參數(shù)。下面通過實(shí)證分析考察子樣本數(shù)、學(xué)習(xí)率、最大特征數(shù)以及最小葉子樣本數(shù)對(duì)模型性能的影響,并確定最佳模型參數(shù)。

實(shí)際中,子樣本數(shù)是指每棵決策樹中所包含的全體樣本的數(shù)量,一般這個(gè)值選取的越大,會(huì)使得單棵樹中獲取的信息量也越大,性能也越高,但同時(shí)也會(huì)造成樹與樹之間差異性的減小,容易造成過擬合。圖11反映了當(dāng)子樣本數(shù)變化時(shí)各指標(biāo)的狀況,從圖中我們可以看到當(dāng)子樣本數(shù)取30%到50%時(shí),精準(zhǔn)率與召回率都有著較好的表現(xiàn)。

設(shè)定了初始的權(quán)重值之后,每一次樹分類都會(huì)更新這個(gè)值,而learning rate控制著每次更新的幅度。一般來說這個(gè)值不應(yīng)該設(shè)得比較大,因?yàn)檩^小的learning rate使得模型對(duì)不同的樹更加穩(wěn)健,能更好地綜合它們的結(jié)果。當(dāng)然我們也需要考慮到運(yùn)算效率,學(xué)習(xí)率設(shè)置得越小,運(yùn)算量越大,在可接受的運(yùn)算量范圍內(nèi),我們可以盡量地設(shè)置較小的學(xué)習(xí)率。圖12反映了學(xué)習(xí)率變化時(shí)各指標(biāo)的狀況,從圖中我們可以看到較小的學(xué)習(xí)率確實(shí)有助于提高精準(zhǔn)率。

圖11 子樣本數(shù)與評(píng)價(jià)指標(biāo)關(guān)系圖

圖12 學(xué)習(xí)率與評(píng)價(jià)指標(biāo)關(guān)系圖

與隨機(jī)森林模型相同,我們同樣對(duì)最小葉子樣本數(shù)以及最大特征數(shù)進(jìn)行參數(shù)調(diào)整,各指標(biāo)表現(xiàn)如圖13、圖14。圖13表現(xiàn)的是不同最小葉子節(jié)點(diǎn)對(duì)指標(biāo)的影響,可以看到在取值為20左右的時(shí)候,精準(zhǔn)率有著將近80%的優(yōu)異表現(xiàn),同時(shí)召回率也不是特別的低,圖14展現(xiàn)的是不同的最大特征值對(duì)指標(biāo)的影響,可以看到在取值為10到20之間時(shí),精準(zhǔn)率有著較為優(yōu)異的表現(xiàn)。

圖13 最大特征數(shù)與評(píng)價(jià)指標(biāo)關(guān)系圖

圖14 最小葉子樣本數(shù)與評(píng)價(jià)指標(biāo)關(guān)系圖

通過參數(shù)調(diào)節(jié)后梯度提升決策樹模型的性能如下:

圖15 GBDT在測(cè)試集上的表現(xiàn)結(jié)果

在測(cè)試集中共有41個(gè)風(fēng)險(xiǎn)類,梯度提升決策樹模型可以識(shí)別出其中的22%,其預(yù)測(cè)的精準(zhǔn)率達(dá)到90%,整體表現(xiàn)繼續(xù)得到優(yōu)化和提升。

5.整體算法遞進(jìn)集成

上述SVM、KNN、RF、GBDT在期權(quán)波動(dòng)率上的四步預(yù)測(cè),我們簡(jiǎn)稱為SKRG算法縱向集成。從逐步算法結(jié)果來看,集成效果較好。除了這種縱向?qū)訉舆f進(jìn)式算法調(diào)倉,我們嘗試把四個(gè)預(yù)測(cè)模型的預(yù)測(cè)結(jié)果取“或”,也就是說只要有一個(gè)模型發(fā)出預(yù)警信號(hào)時(shí),我們即認(rèn)為第二天隱波會(huì)上漲2%,在測(cè)試集上的橫向集成表現(xiàn)如下(圖16)。

圖16 四個(gè)模型集成后在測(cè)試集上的表現(xiàn)結(jié)果

整體來看,相比于單個(gè)模型的表現(xiàn),橫向集成后提高了召回率,我們可以預(yù)測(cè)出將近三分之一的風(fēng)險(xiǎn),不過同樣也把預(yù)測(cè)的準(zhǔn)確度降到了80%。跟單個(gè)模型比起來只是會(huì)好于隨機(jī)森林,跟其他三個(gè)模型相比效果都要差一些。單從預(yù)測(cè)效果上來說,隨機(jī)森林方法表現(xiàn)最差,由于其把集成模型的精準(zhǔn)率拉低,我們排除掉它,只利用其他三個(gè)模型在測(cè)試集上進(jìn)行預(yù)測(cè),表現(xiàn)如下:

圖17 SVM、KNN與GBDT三個(gè)模型集成后在測(cè)試集上的表現(xiàn)結(jié)果

可以看到,在召回率沒有下降的情況下,精準(zhǔn)率得到了提升,說明隨機(jī)森林可以預(yù)測(cè)出來的風(fēng)險(xiǎn)都被其他三個(gè)模型覆蓋掉,因此我們?cè)诩夏P椭兄贿x擇支持向量機(jī)、KNN和梯度提升決策樹三個(gè)模型作為基礎(chǔ)模型。同樣我們把集成模型來預(yù)測(cè)樣本外的數(shù)據(jù),我們?nèi)?017年10月19日至2018年2月6日的數(shù)據(jù)進(jìn)行預(yù)測(cè),其表現(xiàn)如下(圖18):

圖18 SVM、KNN與GBDT三個(gè)模型集成后在樣本外數(shù)據(jù)集上的表現(xiàn)結(jié)果

我們可以看到在這段時(shí)間里,模型的精準(zhǔn)率達(dá)到了100%,也就是說在這段時(shí)間里每當(dāng)模型發(fā)出風(fēng)險(xiǎn)預(yù)警時(shí),都沒有發(fā)生誤報(bào)的狀況,相比而言召回率為18%,也就是說在發(fā)生風(fēng)險(xiǎn)的33天里,我們總共預(yù)測(cè)出了6次。相比于在測(cè)試集中的表現(xiàn),在樣本外有著更高的精準(zhǔn)率以及較低的召回率。

SKRG遞進(jìn)集成算法與傳統(tǒng)預(yù)測(cè)方法的比較

總體而言,期權(quán)波動(dòng)率預(yù)測(cè)的機(jī)器學(xué)習(xí)算法中,由于期權(quán)波動(dòng)率的因子數(shù)據(jù)量較大,維度較高,選擇先用降維映射的SVM算法,但SVM不會(huì)考慮“風(fēng)險(xiǎn)”樣本的特殊性,因此增加KNN的優(yōu)化。又由于SVM和KNN都隱含樣本權(quán)重相等,需要調(diào)整考慮特征值情況,因此引入RF,并精細(xì)化地提升梯度引入GBDT和縱向、橫向集成,這一過程我們稱為SKRG遞進(jìn)集成期權(quán)隱波機(jī)器學(xué)習(xí)算法。

在波動(dòng)率預(yù)測(cè)的問題上,較為流行的方法是利用GARCH模型來進(jìn)行預(yù)測(cè),GARCH模型是由Bollerslev在1986年提出的,他在原自回歸條件異方差模型進(jìn)行改進(jìn),提化了該模型,該模型在一定程度上解決了待估參數(shù)不斷增加從而増大求解難度,以及導(dǎo)致解釋變量容易引發(fā)多重共線性問題。運(yùn)用GARCH(1,1)來對(duì)隱含波動(dòng)率進(jìn)行預(yù)測(cè),在2015年2月9日至2017年10月18日的655個(gè)交易日里,其表現(xiàn)如下:

圖19 GARCH模型在樣本集與數(shù)據(jù)集上的表現(xiàn)結(jié)果

從圖19可以看到其精準(zhǔn)率只有22%,召回率只有8%,都遠(yuǎn)遠(yuǎn)低于我們利用機(jī)器學(xué)習(xí)的預(yù)測(cè)能力。原因在于:GARCH模型僅僅利用到了過去n個(gè)交易日的收益率、方差以及長期均方差這幾項(xiàng)歷史數(shù)據(jù),而隱含波動(dòng)率作為衡量期權(quán)價(jià)格的指標(biāo),反映了投資者對(duì)市場(chǎng)情緒的預(yù)期,絕不僅僅是這兩三個(gè)因子可以刻畫出來的。機(jī)器學(xué)習(xí)模型可以同時(shí)處理幾十個(gè)維度的數(shù)據(jù),更為全面的多角度的對(duì)隱波的漲跌去進(jìn)行思考判斷,同時(shí)利用了多個(gè)模型的差異性,相當(dāng)于讓多個(gè)專家來共同進(jìn)行抉擇判斷,相對(duì)而言會(huì)有更強(qiáng)的預(yù)測(cè)能力。

結(jié) 論

基于期權(quán)波動(dòng)率傳統(tǒng)預(yù)測(cè)方法的不足,我們將機(jī)器學(xué)習(xí)算法引入到預(yù)測(cè)模型中。考慮期權(quán)隱波預(yù)測(cè)的高維度數(shù)據(jù)難度與特征值情況,依次引入過SVM機(jī)器學(xué)習(xí)、KNN樣本不平衡機(jī)器學(xué)習(xí)、RF劃分、GBDT優(yōu)化、算法遞進(jìn)集成完成機(jī)器學(xué)習(xí)建模過程。結(jié)果顯示,SKRG的預(yù)測(cè)效果好于傳統(tǒng)的GARCH模型。SKRG豐富了期權(quán)隨機(jī)波動(dòng)率預(yù)測(cè)領(lǐng)域的相關(guān)文獻(xiàn),為期權(quán)風(fēng)險(xiǎn)預(yù)警提供了新的方法。

①原始的支持向量機(jī)算法由Vladimir Vapnik發(fā)明,而當(dāng)前的標(biāo)準(zhǔn)化由Corinna Cortes和Vladimir Vapnik提出。

猜你喜歡
樣本數(shù)期權(quán)波動(dòng)
勘 誤 聲 明
因時(shí)制宜發(fā)展外匯期權(quán)
中國外匯(2019年15期)2019-10-14 01:00:44
羊肉價(jià)回穩(wěn) 后期不會(huì)大幅波動(dòng)
人民幣外匯期權(quán)擇善而從
中國外匯(2019年23期)2019-05-25 07:06:32
微風(fēng)里優(yōu)美地波動(dòng)
2019年國內(nèi)外油價(jià)或?qū)⒉▌?dòng)加劇
干濕法SO2排放波動(dòng)對(duì)比及分析
初探原油二元期權(quán)
能源(2016年2期)2016-12-01 05:10:43
三時(shí)間間隔圓錐補(bǔ)償姿態(tài)更新算法性能分析
田間鑒定雜交棉品種純度的適宜時(shí)期和樣本數(shù)
灵山县| 沾化县| 吴旗县| 孝义市| 金平| 昭觉县| 浦江县| 甘孜县| 白朗县| 兰坪| 扬州市| 中卫市| 玉环县| 南康市| 衡阳市| 工布江达县| 辽宁省| 寻乌县| 兴城市| 屏东市| 承德市| 二连浩特市| 岗巴县| 崇左市| 会昌县| 博爱县| 霍邱县| 定结县| 上犹县| 岢岚县| 唐河县| 通海县| 鹤岗市| 新兴县| 杭锦旗| 贵南县| 交城县| 固镇县| 万年县| 闽清县| 杨浦区|