鄭雄輝 吳甜
摘 ?要:建立一個(gè)基于大數(shù)據(jù)的基金投資決策系統(tǒng),可以幫助投資者獲取樂觀穩(wěn)定的收益。對(duì)于投資者而言,知道基金接下來的走勢(shì)至關(guān)重要。而要預(yù)測(cè)基金將來的走勢(shì),可以通過對(duì)基金的歷史數(shù)據(jù)構(gòu)造多因子,對(duì)多因子進(jìn)行因子分析,建立多元回歸模型,構(gòu)建投資組合來實(shí)現(xiàn)。相對(duì)于選擇基金,擇時(shí)更為困難。震蕩市的存在很容易導(dǎo)致投資者虧損,因此選擇合適的時(shí)機(jī)至關(guān)重要。該系統(tǒng)有效地解決了數(shù)據(jù)提取、基金選擇和擇時(shí)交易的問題,并且可以程序化交易,極大地方便了投資者。
關(guān)鍵詞:基金投資;多元分析;擇時(shí);程序化交易
中圖分類號(hào):TP311.1 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)14-0020-04
Fund Investment Decision System Based on Big Data
ZHENG Xionghui,WU Tian
(School of Science,Tianjin University of Science & Technology,Tianjin ?300457,China)
Abstract:Establishing a fund investment decision-making system based on big data can help investors to obtain optimistic and stable returns. For investors,it is very important to know the future trend of the fund. To predict the future trend of the fund,we can construct multiple factors by constructing historical data of the fund,analyzing multiple factors,establishing multiple regression models and constructing investment portfolios. The timing is more difficult than choosing a fund. Due to the existence of a volatile market,it is easy to cause investors to lose,so it is very important to choose the right time. The system ?effectively solves the problems of data extraction,fund selection and timing trading,and can be programmed to trade,greatly facilitating investors.
Keywords:capital investment;multivariate analysis;timing;program trading
0 ?引 ?言
基金作為一種重要的投資工具,具有風(fēng)險(xiǎn)相對(duì)較小、購(gòu)買便利、手續(xù)費(fèi)較低等優(yōu)點(diǎn),成為各機(jī)構(gòu)和家庭理財(cái)?shù)闹饕渲?。但同時(shí)也存在品種多、收益良莠不齊等缺點(diǎn),造成了投資者在基金選擇上存在困難。本文建立了一個(gè)基于大數(shù)據(jù)的基金投資決策系統(tǒng),在盡可能地在降低風(fēng)險(xiǎn)的前提下為投資者謀取高收益,系統(tǒng)主要包括三個(gè)部分:爬蟲部分獲取基金的各種基本面和行情數(shù)據(jù)、多因子模型分析和選擇基金、擇時(shí)策略的開發(fā)和回測(cè)獲取超額收益。
1 ?爬蟲程序獲取基金數(shù)據(jù)
1.1 ?獲取基金列表
網(wǎng)絡(luò)爬蟲(Web crawler),是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本,它們被廣泛應(yīng)用于互聯(lián)網(wǎng)搜索引擎或其他類似網(wǎng)站,可以自動(dòng)采集所有其能夠訪問到的頁面內(nèi)容,以獲取或更新這些網(wǎng)站的內(nèi)容和檢索方式。
本文以東方財(cái)富網(wǎng)為數(shù)據(jù)來源,運(yùn)用MATLAB獲取所有基金列表,其中包括已經(jīng)退市的基金,表1是獲得的各種基金的名稱和類型。
1.2 ?獲取基金信息
作為建立模型的第一步,確保使用數(shù)據(jù)的全面性和合理性是很重要的。首先需要?dú)w納出不同風(fēng)格的因子種類,再在各個(gè)風(fēng)格大類下細(xì)分相關(guān)因子,并綜合經(jīng)濟(jì)含義以及相關(guān)參數(shù)來確定因子的計(jì)算方法。
通過爬蟲技術(shù)編譯函數(shù)獲取混合型基金的信息,構(gòu)造基本多因子,便于接下來對(duì)多因子進(jìn)行分析和對(duì)基金進(jìn)行選擇,表2是對(duì)基金構(gòu)造的多因子。
1.3 ?獲取基金歷史凈值
基金歷史凈值是用來計(jì)算基金收益的重要指標(biāo),同時(shí)基金歷史凈值也是基金市場(chǎng)用來進(jìn)行基金交易的依據(jù)?;饍糁挡煌诨鹄塾?jì)凈值不能作為評(píng)判該基金成長(zhǎng)態(tài)勢(shì)和業(yè)績(jī)的參考,但是卻可以用來構(gòu)造行情因子,在開發(fā)擇時(shí)策略時(shí)使用。表3是獲取的華安標(biāo)普全球石油指數(shù)(160416)的部分基金歷史凈值,其中包括日期、凈值、累計(jì)凈值、漲跌幅(%)。
2 ?多因子選擇基金
多因子模型是目前應(yīng)用比較普遍的一種選擇證券的模型,其基本原理是采用一系列的因子綜合評(píng)價(jià)后作為選擇證券標(biāo)準(zhǔn),根據(jù)這些因子買入表現(xiàn)較好的證券。多因子模型的優(yōu)點(diǎn)在于,它能通過有限共同因子來有效地篩選數(shù)量龐大的個(gè)股,在大幅度降低問題難度的同時(shí),也通過合理預(yù)測(cè)做出了判斷。
本文基于多因子模型選擇基金的方法是打分法、回歸法和機(jī)器學(xué)習(xí)與人工智能方法。
在構(gòu)建多因子模型之前,首先要準(zhǔn)備好待檢驗(yàn)的原始因子池以及它們的數(shù)據(jù);并根據(jù)要求進(jìn)行初步的整理,建立基金池;最后對(duì)因子進(jìn)行檢驗(yàn)并建立多因子模型以選取基金。
2.1 ?打分法
打分法的基本步驟:(1)對(duì)每類因子賦予不同的權(quán)重;(2)對(duì)因子標(biāo)準(zhǔn)化打分并篩選;(3)添加約束、二次規(guī)劃求解權(quán)重。
2.2 ?回歸法
假設(shè)因變量Y(預(yù)期收益率)是自變量X1,X2,…,Xk(候選因子)的線性函數(shù),用方程來表示就是:
Yi=β0+β1X1i+β2X2i+…+βkXxi+εi
其中Yi表示因變量的第i個(gè)觀測(cè)值,而Xki則是第k個(gè)自變量(解釋變量)的第i個(gè)觀測(cè)值,是自變量Xk的系數(shù),εi是第i組觀測(cè)值的殘差項(xiàng)。
通過因子分析來去掉與被因變量相關(guān)性差的因子;然后采用主成分分析法來對(duì)因子進(jìn)行降維,便于進(jìn)行構(gòu)造方程;而多元線性回歸通常采用普通最小二乘法(OLS)進(jìn)行估計(jì)。
2.3 ?支持向量機(jī)分類與神經(jīng)網(wǎng)絡(luò)
(1)支持向量機(jī)是一種經(jīng)典的二分類模型,本身也可以轉(zhuǎn)化為一個(gè)凸二次規(guī)劃求解的問題。其基本思想是假設(shè)數(shù)據(jù)線性可分,希望找到一個(gè)合適的超平面將不同類別的樣本分開,類似二維平面使用ax+by+c=0來表示;(2)神經(jīng)網(wǎng)絡(luò)是一種運(yùn)算模型,由大量的神經(jīng)元之間相互連接構(gòu)成。神經(jīng)網(wǎng)絡(luò)模型主要考慮神經(jīng)元模型、學(xué)習(xí)算法、網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。
2.4 ?機(jī)器學(xué)習(xí)多因子模型實(shí)例
實(shí)例主要運(yùn)用支持向量機(jī)分類的方法對(duì)基金數(shù)據(jù)進(jìn)行擇時(shí)回測(cè),并且從下面的所得數(shù)據(jù),可看出模型取得了較好的預(yù)測(cè)效果。
具體操作為:(1)獲取上市公司基本數(shù)據(jù);(2)基金指標(biāo)計(jì)算:各日漲幅、K線均值、乖離率、RSV、OBV量比等其他指標(biāo)作為待分析的因子;(3)數(shù)據(jù)標(biāo)準(zhǔn)化:將訓(xùn)練樣本和預(yù)測(cè)樣本歸一化(均值標(biāo)準(zhǔn)差法);(4)變量篩選:計(jì)算相關(guān)系數(shù)矩陣,選擇相關(guān)性較強(qiáng)的因子;(5)訓(xùn)練分類器并分類變量(MATLAB內(nèi)置的分類器);(6)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型并進(jìn)行模型評(píng)估(如圖1所示)。
3 ?擇時(shí)回測(cè)
對(duì)于選擇基金,擇時(shí)比較困難,同時(shí)基金交易手續(xù)費(fèi)高(持有不到7日征收1.5%的懲罰性贖回費(fèi)),而且短期投機(jī)交易不符合基金長(zhǎng)期價(jià)值投資理念,所以基金投資往往以中長(zhǎng)期擇時(shí)為主。
3.1 ?傳統(tǒng)技術(shù)指標(biāo)
3.1.1 ?雙均線(MA)指標(biāo)擇時(shí)
通過比較市場(chǎng)價(jià)格與均線指標(biāo)的大小來判斷市場(chǎng)所處的狀態(tài),可以構(gòu)建一種簡(jiǎn)單的擇時(shí)交易策略,如果采用較短的計(jì)算天數(shù),則可用于市場(chǎng)的短線擇時(shí)交易。均線擇時(shí)也是趨勢(shì)投資方法的典型體現(xiàn)。雙均線顧名思義就是兩條天數(shù)不同的移動(dòng)平均線,比如說,一條是5天的移動(dòng)平均線,另一條是10天的移動(dòng)平均線。
3.1.2 ?平滑移動(dòng)平均線(MACD)指標(biāo)的擇時(shí)
MACD是從雙指數(shù)移動(dòng)平均線發(fā)展而來的,由快的指數(shù)移動(dòng)平均線(EMA12)減去慢的指數(shù)移動(dòng)平均線(EMA26)得到快線DIF,再用快線DIF-DEA得到MACD柱。MACD的意義和雙移動(dòng)平均線相似,即由快、慢均線的離散、聚合來顯示當(dāng)前的多空狀態(tài)和股價(jià)可能的發(fā)展變化趨勢(shì)并對(duì)買進(jìn)、賣出時(shí)機(jī)做出研判。
MACD的計(jì)算:(1)EMA(12)=前一日EMA(12)×11/13+今日收盤價(jià)×2/13;(2)EMA(26)=前一日EMA(26)×25/27+今日收盤價(jià)×2/27;(3)DIFF=今日EMA(12)-今日EMA(26);(4)DEA(MACD)=前一日DEA×8/10+今日DIF×2/10;(5)BAR=2×(DIFF-DEA)。
MACD的擇時(shí)應(yīng)用:(1)當(dāng)MACD從負(fù)數(shù)轉(zhuǎn)向正數(shù),即買入信號(hào);(2)當(dāng)MACD從正數(shù)轉(zhuǎn)向負(fù)數(shù),即賣出信號(hào);(3)當(dāng)MACD以大角度變化,表示快的移動(dòng)平均線和慢的移動(dòng)平均線的差距非常迅速地拉開,代表了一個(gè)市場(chǎng)大趨勢(shì)的轉(zhuǎn)變。
3.2 ?幾何模型
如數(shù)學(xué)中的一階導(dǎo)數(shù)表征漲跌;二階導(dǎo)表征凹凸性,體現(xiàn)漲跌速率。模型策略的理論基礎(chǔ)是離散數(shù)據(jù)的多項(xiàng)式擬合。
對(duì)交易日內(nèi)某段時(shí)間的價(jià)格序列{px}進(jìn)行線性擬合(即一階多項(xiàng)式擬合),得到連續(xù)函數(shù)y1=a1x+b1,通過其一階導(dǎo)數(shù)判斷該段時(shí)間價(jià)格的趨勢(shì),當(dāng)>0時(shí),價(jià)格為上漲趨勢(shì);當(dāng)<0時(shí),為下跌趨勢(shì);當(dāng)=0時(shí),無趨勢(shì)。
通過一階多項(xiàng)式擬合,可以對(duì)價(jià)格的基本趨勢(shì)做出判斷,但更重要的是還要對(duì)趨勢(shì)的變化情況做出界定,即需要研究由于金融市場(chǎng)的信息不平衡特性所帶來的趨勢(shì)加速或減速的情況,這點(diǎn)可以通過二階多項(xiàng)式擬合完成。同樣是對(duì)該段時(shí)間的價(jià)格序列{px}進(jìn)行二次擬合,擬合的目標(biāo)函數(shù)形式為y2=a2x2+b2x+c2,當(dāng) >0時(shí),價(jià)格曲線為凹;反之當(dāng) <0時(shí),價(jià)格曲線為凸;結(jié)合一階多項(xiàng)式擬合的結(jié)果。
在第1種和第3種情況出現(xiàn)時(shí),對(duì)股指期貨進(jìn)行順勢(shì)建倉,獲得趨勢(shì)性價(jià)差收益;當(dāng)建倉后一段時(shí)間, 的正負(fù)號(hào)發(fā)生變化時(shí),價(jià)格趨勢(shì)改變,在趨勢(shì)交易中,該種情況需要進(jìn)行平倉。另一種情況是在建倉后 ?的正負(fù)號(hào)還沒有發(fā)生變化時(shí), 的正負(fù)號(hào)已經(jīng)發(fā)生了變化。這種情況對(duì)應(yīng)于上漲或下跌趨勢(shì)由加速變?yōu)闇p速,此時(shí)趨勢(shì)有結(jié)束的跡象,應(yīng)及時(shí)平倉出局。若正負(fù)號(hào)一直沒有發(fā)生改變,則表明趨勢(shì)持續(xù),最終將按收價(jià)平倉。利用幾何模型擇時(shí)所得到的結(jié)果如圖2、圖3所示。
4 ?結(jié) ?論
本系統(tǒng)提供了完整的基金分析框架,包括爬蟲獲取基金數(shù)據(jù)、多因子模型評(píng)價(jià)和選擇基金、擇時(shí)策略的開發(fā)和回測(cè),以及程序化交易。投資者可以在該系統(tǒng)中根據(jù)個(gè)人偏好選擇不同的策略進(jìn)行交易,銀行和一些金融機(jī)構(gòu)在投資和推薦基金時(shí),可以通過該系統(tǒng)對(duì)基金進(jìn)行多維度的評(píng)價(jià),在風(fēng)險(xiǎn)和收益之間取得較好的均衡,以期獲得穩(wěn)定收益。
參考文獻(xiàn):
[1] 羅軍.股指期貨專題系列報(bào)告 [R].廣州:廣發(fā)證券,2011:6-8.
[2] 李亞寧.基于多項(xiàng)式擬合法的空中目標(biāo)實(shí)時(shí)位置預(yù)測(cè)研究 [J].計(jì)算機(jī)與數(shù)字工程,2015,43(3):404-407+411.
[3] 魏妹金.支持向量機(jī)多因子選股模型 [D].廈門:華僑大學(xué),2015.
[4] Principe J C,Rathie A,Kuo J. Prediction of Chaotic Time Series with Neural Networks [J].International Journal of Bifurcation and Chaos,1992,2(4):1-9.
[5] 司曉彤.基于回歸法的多因子選股模型的投資組合分析 [D].青島:青島大學(xué),2017.
[6] 肖晞暉.基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)的量化選股模型研究 [D].武漢:華中師范大學(xué),2018.
[7] 武福利.基于多因子模型的FOF基金產(chǎn)品設(shè)計(jì) [D].武漢:華中科技大學(xué),2017.
作者簡(jiǎn)介:鄭雄輝(1998-),男,漢族,江西撫州人,本科在讀,研究方向:基金投資。