俞建群, 李雙宏
(東方證券股份有限公司,上海 200010)
場外配資是指場外證券資產(chǎn)融資業(yè)務(wù),其本質(zhì)是一種資金借貸關(guān)系。作為一種融資手段,場外配資存在諸多風(fēng)險[1]。中國證券業(yè)協(xié)會頒布的《場外證券業(yè)務(wù)備案管理辦法》中指出場外配資活動應(yīng)當(dāng)進(jìn)行備案,最高人民法院發(fā)布《全國法院民商事審判工作會議紀(jì)要》明確場外配資合同無效,說明該業(yè)務(wù)存在違反法律與政策的風(fēng)險;在場外配資過程中,股票賬戶由配資方監(jiān)控,存在違約和操作風(fēng)險;場外配資系統(tǒng)的自動平倉功能及較高的杠桿率,易引發(fā)市場下行時的系統(tǒng)性風(fēng)險;由于配資賬戶所持股票通常波動率和周轉(zhuǎn)率較大,在加強股票流動性的同時也增大了極端事件惡化的概率,加劇股票市場的異常波動。
對此,監(jiān)管部門已多次發(fā)聲表明,密切關(guān)注資本市場場外配資情況,嚴(yán)厲打擊違法違規(guī)的場外配資行為。對場外配資進(jìn)行監(jiān)管監(jiān)控,從微觀的資本市場參與者角度來說,有利于促進(jìn)投資者防范相應(yīng)的投資風(fēng)險,避免投資者受到非法配資公司非法經(jīng)營或詐騙行為的損害;從宏觀角度來說,有利于避免場外配資業(yè)務(wù)通過盲目擴(kuò)張資本市場信用交易規(guī)模,沖擊資本市場交易秩序,從而維護(hù)證券市場的穩(wěn)定。
目前對于場外配資賬戶的識別與篩查,不同的監(jiān)管部門均有一定的判別標(biāo)準(zhǔn)和認(rèn)定規(guī)則,這些標(biāo)準(zhǔn)主要是來源于工作經(jīng)驗[2]。通過對證監(jiān)會向四家證券公司和三家技術(shù)支持公司作出的監(jiān)管函進(jìn)行梳理,可以歸納出目前場外配資的主要監(jiān)管依據(jù)有軟件提供商非法經(jīng)營證券業(yè)務(wù)規(guī)定、證券公司違反賬戶實名制規(guī)定和交易軟件不符合期貨公司審慎經(jīng)營和風(fēng)險管理要求[3]。
此外,傳統(tǒng)的場外配資識別系統(tǒng)大多采用規(guī)則驅(qū)動的方法,根據(jù)設(shè)定的規(guī)則特征進(jìn)行篩選,比如賬戶總資產(chǎn)規(guī)模、賬戶成交量、交易頻次等,規(guī)則的制定較為主觀,需要不斷進(jìn)行規(guī)則的調(diào)整或增加。而隨著政策性或市場環(huán)境的變化,之前的監(jiān)管規(guī)則可能失效,出現(xiàn)誤報或漏報,并且賬戶的行為模式也在不斷發(fā)生變化,被動地制定規(guī)則存在滯后性與局限性,無法動態(tài)靈活地根據(jù)行情變化及實際交易行為進(jìn)行及時的場外配資監(jiān)控。
針對場外配資監(jiān)控系統(tǒng)現(xiàn)狀,本文創(chuàng)新性地采用人工智能的手段,通過機器學(xué)習(xí)算法進(jìn)行市場交易行為分析,從而準(zhǔn)確靈活地識別出賬戶是否為配資賬戶。本文提出了基于改進(jìn)的XGBoost場外配資監(jiān)控算法,并結(jié)合場外配資識別的業(yè)務(wù)需求,在現(xiàn)有的規(guī)則篩選方法基礎(chǔ)上,設(shè)計合理的業(yè)務(wù)特征,通過特征工程及重要性分析構(gòu)建特征指標(biāo)體系。根據(jù)場外配資行為特性對XGBoost模型進(jìn)行改進(jìn),更好地用于配資賬戶的識別。在效果評價方面,結(jié)合實際賬戶分布及識別需求,選取召回率作為關(guān)鍵評價指標(biāo)。實驗結(jié)果顯示,本文所提出的場外配資監(jiān)控算法得到了更高的準(zhǔn)確率,具有更優(yōu)的識別效果,并且通過市場交易行為分析能夠更加靈活快速地適應(yīng)市場環(huán)境變化,從而更好地用于證券市場的場外配資監(jiān)控。
場外配資是一種金融融資手段,逐漸形成了較明確的業(yè)務(wù)流程。首先,用戶向配資公司繳納服務(wù)費、手續(xù)費等,并繳納賬戶初始資金(保證金)。其次,配資公司提供無限制配資、按月配資、按周配資、按天配資等業(yè)務(wù),用戶選擇配資模式和配資比例后,配資公司向用戶提供合同規(guī)定賬戶金額的賬戶,之后用戶即可進(jìn)行買入或賣出操作。為了確保出借資金的安全,配資公司實時監(jiān)控客戶賬戶資金情況,設(shè)置平倉線和預(yù)警線。每日清算階段,配資公司會判斷用戶的賬戶資金是否達(dá)到相應(yīng)的臨界線。如果未觸及臨界線,用戶可正常交易;若低于補充保證金臨界線,則提醒用戶補充保證金;若低于強制平倉臨界線,用戶需補充保證金才可進(jìn)行后續(xù)操作,若不補充,則配資公司會對賬戶強制平倉,平倉后進(jìn)行保證金結(jié)算,用戶退出配資系統(tǒng)。具體配資流程圖如圖1所示。
圖1 配資流程圖
例如,某用戶初始資金為100萬元,按照5倍杠桿進(jìn)行配資,則可操作資金為600萬元。按照合同規(guī)定,警戒線(補充保證金臨界線)為杠桿操盤資金+本金×50%,即550×(500+100×50%),平倉線為杠桿操盤資金+本金×30%,即530×(500+100×30%)。某天清算后,用戶總資產(chǎn)為525萬元,則用戶至少補充5萬元的保證金才可進(jìn)行第二日的交易操作。若不補充保證金,則公司進(jìn)行強制平倉后用戶實得金額約為25萬元,虧損約75萬元。
在深入了解場外配資賬戶交易行為的基礎(chǔ)上,我們構(gòu)建了與場外配資識別強相關(guān)的特征指標(biāo)體系,并以市場交易行為分析為基礎(chǔ)進(jìn)行場外配資監(jiān)控算法設(shè)計。
場外配資監(jiān)控系統(tǒng)的流程如圖2所示。
圖2 場外配資賬戶識別流程
首先,結(jié)合實際場外配資背景,使用歷史行情數(shù)據(jù)生成配資和合規(guī)交易數(shù)據(jù),導(dǎo)入委托交易數(shù)據(jù)庫。隨后,進(jìn)行特征設(shè)計,抽取出具有場外配資行為特性的特征。最后,設(shè)計機器學(xué)習(xí)模型進(jìn)行訓(xùn)練預(yù)測,本文選取了兩種集成算法,隨機森林和XGBoost,相對于單一的弱學(xué)習(xí)器,集成算法的學(xué)習(xí)器更精確,魯棒性更好,并且結(jié)合業(yè)務(wù)實際,從3個角度對XGBoost模型進(jìn)行了改進(jìn)優(yōu)化。
由于賬戶交易數(shù)據(jù)涉及客戶隱私,在數(shù)據(jù)獲取途徑上,采用了數(shù)據(jù)生成的方法,即根據(jù)歷史行情數(shù)據(jù)并結(jié)合場外配資交易的行為特征,構(gòu)建了賬戶生成算法模型,生成相應(yīng)的交易數(shù)據(jù)。
根據(jù)配資流程,定義配資賬戶類,并按照不同的交易策略生成配資賬戶的交易數(shù)據(jù)。配資賬戶類的說明如表1所示。
表1 配資賬戶類屬性和方法
生成交易數(shù)據(jù)的偽代碼如表2所示。數(shù)據(jù)具有隨機性。
表2 交易數(shù)據(jù)生成偽代碼
通過不斷重復(fù)上述操作,最終得到的交易數(shù)據(jù)集中共有188個正常賬戶,56個配資賬戶,共158 370條交易記錄。配資賬戶占比小的原因是在真實情況中,配資賬戶占比較小,這樣設(shè)置類別比例更符合實際。
針對數(shù)據(jù)庫中的交易操作記錄,首先進(jìn)行交易數(shù)據(jù)的特征工程。結(jié)合場外配資的業(yè)務(wù)特點,抽取了交易頻率、總成交量等9個特征,具體說明如表3所示。
表3 特征設(shè)計
偏度(skewness)是統(tǒng)計數(shù)據(jù)分布偏斜方向和程度的度量,是統(tǒng)計數(shù)據(jù)分布非對稱程度的數(shù)字特征。其表征概率分布密度曲線相對于平均值不對稱程度的特征數(shù)。直觀看來就是密度函數(shù)曲線尾部的相對長度。偏度是樣本的三階標(biāo)準(zhǔn)化矩,其計算式為式(1)。
(1)
其中,k2、k3分別表示二階和三階中心距。在一般情形下,當(dāng)統(tǒng)計數(shù)據(jù)為右偏分布時,Skew>0,且Skew值越大,右偏程度越高;當(dāng)統(tǒng)計數(shù)據(jù)為左偏分布時,Skew<0,且Skew值越小,左偏程度越高。當(dāng)統(tǒng)計數(shù)據(jù)為對稱分布時,顯然有Skew=0。
峰度(kurtosis)表征概率密度分布曲線在平均值處峰值高低的特征數(shù)。直觀看來,峰度反映了峰部的尖度。如果峰度大于3,峰的形狀比較尖,比正態(tài)分布峰要陡峭。反之亦然。峰度的計算式為式(2)。
(2)
其中,μ4表示四階中心距,減3是為了方便和正態(tài)分布進(jìn)行對比。在實際計算中,常用的是樣本峰度的計算式,其表達(dá)式為式(3)。
(3)
1.5.1 基于隨機森林的特征重要性分析
隨機森林(Random Forest,RF)[4],指的是利用多棵樹對樣本進(jìn)行訓(xùn)練并預(yù)測的一種分類器。該分類器最早由Leo Breiman和Adele Cutler提出,由多棵CART(Classification And Regression Tree)構(gòu)成,每棵樹所使用的訓(xùn)練集是從總的訓(xùn)練集中有放回采樣出來的,這意味著,總訓(xùn)練集中的部分樣本可能多次出現(xiàn)在一棵樹的訓(xùn)練集中,也可能從未出現(xiàn)在任意樹的訓(xùn)練集中。在訓(xùn)練每棵樹的節(jié)點時,使用的特征是從所有特征中按照一定比例隨機地?zé)o放回抽取的。
經(jīng)特征工程處理后的交易記錄數(shù)據(jù)集,共有9個特征和1個類別。這里采用隨機森林進(jìn)行了特征重要性分析,進(jìn)一步優(yōu)化特征指標(biāo)體系,并驗證了所構(gòu)建特征對于場外配資賬戶識別的效果。接下來,基于隨機森林分類器進(jìn)行了建模識別。由于樣本存在比例不協(xié)調(diào)的問題,因此對模型的相關(guān)參數(shù)進(jìn)行了設(shè)定,使模型能夠更好地處理實際情況下的樣本分布不平衡問題。
1.5.2 基于改進(jìn)的XGBoost的場外配資監(jiān)控算法
考慮到隨機森林弱化預(yù)測偏差的局限性,本文進(jìn)一步使用了XGBoost算法對配資賬戶進(jìn)行識別。XGBoost是經(jīng)過優(yōu)化的分布式梯度提升庫,優(yōu)點在于在高效、靈活且可移植[5]。它是在Gradient Boosting框架下實現(xiàn)的一類集成樹的機器學(xué)習(xí)算法。XGBoost基于并行樹增強(GBDT,Gradient Boosting Decision Tree)的算法邏輯,可以快速準(zhǔn)確地解決許多數(shù)據(jù)科學(xué)問題。與隨機森林相比,XGBoost是一種提升算法,不僅學(xué)習(xí)效果較好,而且速度也很快,并且相較于隨機森林更加關(guān)注分類錯誤的樣本。
在算法效果分析評估過程中,結(jié)合場外配資行為特性,除準(zhǔn)確性指標(biāo)外,本文采用召回率(Recall)作為關(guān)鍵度量指標(biāo)。召回率的實際意義為真實的配資賬戶最終被算法正確識別出來的比例,在實際業(yè)務(wù)場景中,往往更希望盡可能全面地識別出配資賬戶,保證不遺漏,因此使用召回率更符合實際場外配資監(jiān)控場景。
為了提高識別的召回率,本文對所使用的XGBoost算法進(jìn)行了以下改進(jìn)。
1)加入新特征
在原有特征的基礎(chǔ)上,新加入了總交易金額。其結(jié)果為每個賬戶的每條交易信息中價格與交易量乘積的求和。對于某個賬戶,設(shè)Pi為其第i條交易記錄中的交易價格;Vi為其第i條交易記錄中的交易量,則總交易金額TOTAL_ACCOUNT定義為式(4)。
(4)
2)對部分原特征對數(shù)變換
由于某些特征的分布圖中呈現(xiàn)三峰或多峰現(xiàn)象,本問題為二分類問題,最理想的狀況為雙峰分布,因此對于部分特征進(jìn)行了對數(shù)特征變換。
3)自定義測評函數(shù)
在XGBoost模型中,自定義測評函數(shù)。由于本問題更關(guān)注召回率這一指標(biāo),因此將測評函數(shù)定義為1-召回率,即若測評函數(shù)越小,說明召回率越高,越符合實際要求。
采用隨機森林模型進(jìn)行特征重要性分析與初步識別算法構(gòu)建??紤]到樣本存在比例不協(xié)調(diào)的問題,因此對模型的相關(guān)參數(shù)進(jìn)行了設(shè)定。模型參數(shù)如下:n_estimators=200,max_depth=5,verbose=True,class_weight={"SMF":56,"NORMAL":188}。
特征重要度占比和排序如圖3所示。
從圖3可以看出,交易頻率(TRA_FRE)重要性最高,其次是交易總量(TRA_VOL),個股交易量偏度(VOL_SKEW)等。結(jié)合特征重要度的實際意義,上述的特征排名能夠較好地反映出場外配資行為的特點。交易頻率反映出場外配資賬戶交易頻繁的特點;交易總量特征說明與正常賬戶相比,交易總量存在顯著性差異;個股交易偏度則說明場外配資賬戶的歷史交易主體交易量變動范圍大,交易行為具有不一致性的特點。
圖3 特征重要度占比排序
將數(shù)據(jù)集按比例劃分為測試集和訓(xùn)練集。在測試集中,正常用戶(NORMAL)和配資賬戶(SMF)的比例為4:1以上,目的盡可能反映配資賬戶與合規(guī)賬戶分布不均衡的實際情況,同時保證實驗驗證結(jié)果的可靠性。
首先,采用基于隨機森林的場外配資識別模型進(jìn)行訓(xùn)練和預(yù)測。通過調(diào)整訓(xùn)練集中樣本比例,繪制出不同的訓(xùn)練集、測試集所對應(yīng)的預(yù)測準(zhǔn)確性和召回率結(jié)果,如圖4所示。
圖4 不同比例的測試集指標(biāo)圖
由圖4可以看出,最終經(jīng)過訓(xùn)練所得到的模型在測試集上的準(zhǔn)確性達(dá)到95%以上,召回率為96%。對比預(yù)測結(jié)果和真實值,發(fā)現(xiàn)預(yù)測錯誤的賬戶數(shù)為1,且為配資賬戶。召回率Recall=27/28=96%。召回率是評價模型較好的指標(biāo),因為它代表了模型從真實的配資樣本中識別出配資賬戶的比例。當(dāng)測試集比例為0.8時,模型識別效果最好。
本文進(jìn)一步使用改進(jìn)的XGBoost算法對配資賬戶進(jìn)行識別,并選取了Binary:logistic作為算法的目標(biāo)函數(shù)。詳細(xì)的參數(shù)設(shè)置如表4所示。
表4 Binnary:logistic關(guān)鍵參數(shù)
將XGBoost與隨機森林的預(yù)測結(jié)果匯總,在不同的測試集樣本比例下,預(yù)測召回率如圖5所示。
圖5 數(shù)據(jù)折線圖
從圖5可以看出,在測試集中樣本分布比例達(dá)到90%時,改進(jìn)的XGBoost算法相比隨機森林能夠得到更高的召回率,召回率達(dá)98%。在小樣本訓(xùn)練集上,XGBoost的識別效率較高,說明本文改進(jìn)的算法具有魯棒性。在實際業(yè)務(wù)中,配資賬戶在總賬戶中的比例非常小,改進(jìn)的XGBoost算法能夠更好地適應(yīng)實際的賬戶數(shù)據(jù)分布情況,因此改進(jìn)的XGBoost更加適用于真實的場外配資監(jiān)控場景。
場外配資是一種高風(fēng)險的金融融資行為,其監(jiān)管是否有效關(guān)系到證券市場的穩(wěn)定和發(fā)展。本文創(chuàng)新性地提出了基于改進(jìn)的XGBoost的場外配資監(jiān)控算法。對于場外配資賬戶的識別,首先對不同賬戶的歷史交易信息通過特征工程進(jìn)行了特征指標(biāo)體系構(gòu)建,構(gòu)建了10個關(guān)鍵特征。針對新特征,首先使用了隨機森林算法進(jìn)行特征重要性分析與解釋驗證,并初步進(jìn)行識別建模預(yù)測,結(jié)果顯示,該模型下的查全率(Recall)平均達(dá)到90%以上。然后,使用了XGBoost這一更加關(guān)注分類錯誤樣本的梯度提升集成樹算法,并結(jié)合實際數(shù)據(jù)特征,對測評函數(shù)、特征等進(jìn)行了改進(jìn),進(jìn)一步提升算法效果。最后,將改進(jìn)的XGBoost與隨機森林模型進(jìn)行了實驗分析比較,結(jié)果顯示,改進(jìn)后的XGBoost算法相對于隨機森林,其在評價指標(biāo)上表現(xiàn)更優(yōu),說明對場外配資的監(jiān)控效果表現(xiàn)優(yōu)異。本文通過機器學(xué)習(xí)算法對場外配資賬戶進(jìn)行識別,構(gòu)建場外配資監(jiān)控系統(tǒng),能夠有效落實監(jiān)管要求,清查場外配資,有助于維持股市的健康有序發(fā)展,引領(lǐng)正確的價值投資理念。