国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的公司特有風(fēng)險預(yù)測方法研究

2022-10-21 02:22王傳軍王鄭毅
中國資產(chǎn)評估 2022年6期
關(guān)鍵詞:特征選擇機(jī)器預(yù)測

■ 王傳軍 王鄭毅 周 越

(1. 坤元資產(chǎn)評估有限公司,浙江杭州310007;2. 湘財(cái)證券股份有限公司,上海200120)

一、項(xiàng)目背景

折現(xiàn)率在企業(yè)價值評估中發(fā)揮著至關(guān)重要的作用,其可能直接影響并購重組的定價,進(jìn)而影響交易的成敗。遺憾的是,對于折現(xiàn)率的重要組成部分——特有風(fēng)險,國內(nèi)實(shí)證研究成果不甚理想,未能形成被廣泛接受的測算方法?;诖耍疚膰L試多維度地提取樣本的有效屬性(特征),利用多種獨(dú)立的模型捕獲特征間關(guān)系,輔以網(wǎng)格搜索方法和遞歸特征消除特征法,以期生成一套較為高效、科學(xué)的特有風(fēng)險測算模型。

二、機(jī)器學(xué)習(xí)概述

(一)機(jī)器學(xué)習(xí)簡介

機(jī)器學(xué)習(xí)是一種利用計(jì)算機(jī)就已知數(shù)據(jù)構(gòu)建概率統(tǒng)計(jì)模型,再運(yùn)用該模型開展后續(xù)數(shù)據(jù)分析(學(xué)習(xí))進(jìn)而預(yù)測未知數(shù)據(jù)的數(shù)學(xué)建模方法。機(jī)器學(xué)習(xí)由模型、策略和算法構(gòu)成,即學(xué)習(xí)器=模型+策略+算法。

其中,模型指的是某種函數(shù)的集合;策略作為從函數(shù)的集合中選擇最優(yōu)函數(shù)的準(zhǔn)則;而算法則是根據(jù)策略從模型中選擇最優(yōu)函數(shù)的具體計(jì)算方法。①李航,統(tǒng)計(jì)學(xué)習(xí)方法. 清華大學(xué)出版社,2012.為了便于區(qū)分,我們將學(xué)習(xí)器從數(shù)據(jù)中學(xué)習(xí)得到的最優(yōu)函數(shù)稱為預(yù)測模型。

(二)機(jī)器學(xué)習(xí)的一般流程

機(jī)器學(xué)習(xí)一般包含以下5個步驟:數(shù)據(jù)收集、數(shù)據(jù)準(zhǔn)備、學(xué)習(xí)器選擇、特征選擇、預(yù)測模型評估,具體如圖1所示。

圖1 機(jī)器學(xué)習(xí)的一般流程

(三)機(jī)器學(xué)習(xí)的一般工具

基于Python等各類語言的數(shù)據(jù)分析和學(xué)習(xí)庫成為當(dāng)今機(jī)器學(xué)習(xí)的主流之一。其中,(簡單高效的學(xué)習(xí)工具)Scikit-Learn、(科學(xué)和工程領(lǐng)域較常用的)SciPy、(用于存儲和處理大量矩陣的)Numpy和(常用于金融分析的)Pandas較為常用。①https://blog.csdn.net/a673519020/article/details/112471996用于進(jìn)行深度學(xué)習(xí)的TensorFlow、PyTorch、Keras,用于處理自然語言的NLTK,用于機(jī)器視覺訓(xùn)練的OpenCV等學(xué)習(xí)庫亦不乏應(yīng)用場景。

通過將各種機(jī)器學(xué)習(xí)庫進(jìn)行整合和優(yōu)化,結(jié)合大數(shù)據(jù)技術(shù)和用于發(fā)布服務(wù)的API發(fā)布工具,諸如阿里PAI、星環(huán)Sophon、百度BML、4Paradigm Sage Studio等全流程、低門檻AI應(yīng)用開發(fā)與上線平臺應(yīng)運(yùn)而生。這些平臺通過可視化的開發(fā)界面,使用戶通過選擇并連接相應(yīng)組件的方式,實(shí)現(xiàn)導(dǎo)入數(shù)據(jù)、訓(xùn)練模型、發(fā)布服務(wù)全流程的低代碼開發(fā),大大降低了機(jī)器學(xué)習(xí)的應(yīng)用門檻。

本文基于Jupyter Notebook開發(fā)、展示窗口,以及Scikit-Learn開發(fā)工具開展研究。其中,開發(fā)工具可以通過安裝Anaconda3獲取,或在安裝Python程序后通過“Pip3 install scikit-learn”等命令進(jìn)行自定義安裝。

三、數(shù)據(jù)收集

本文以通過證監(jiān)會并購重組委審核的近年128宗案例數(shù)據(jù)為基礎(chǔ)開展研究。數(shù)據(jù)來源包括交易報(bào)告書、審計(jì)報(bào)告、評估報(bào)告及說明、反饋意見、其他公開數(shù)據(jù)等。通過文獻(xiàn)研究、財(cái)務(wù)評價體系參考、并購重組定價和風(fēng)險影響因素描述性分析,筆者建立了研究的指標(biāo)體系,由28項(xiàng)屬性構(gòu)成,涵蓋行業(yè)、標(biāo)的公司歷史、股權(quán)、經(jīng)營、技術(shù)、財(cái)務(wù)等風(fēng)險驅(qū)動的重要屬性。

在Jupyter NoteBook界面,通過“import pandas as;import numpy as;import matplotlib.pyplot as plt;unique_risk=pd.read_csv(‘unique_risk.cvs’);unique_risk[‘審核結(jié)果’]=unique_risk[‘審核結(jié)果’].map({‘發(fā)行股份購買資產(chǎn)獲無條件通過’比‘發(fā)行股份購買資產(chǎn)獲有條件通過’:0});unique_risk.head(5)”等代碼導(dǎo)入數(shù)據(jù),通過descrbie()函數(shù)對各屬性進(jìn)行了統(tǒng)計(jì)。結(jié)果顯示,實(shí)踐中特別風(fēng)險的最大取值為5%,最小為0.5%,主要集中于[1.5%,3%]區(qū)間內(nèi),數(shù)據(jù)集不存在缺失值,但部分屬性離散程度較大。

由于共選擇了28個屬性進(jìn)行研究,因此需通過降維的方法進(jìn)行數(shù)據(jù)可視化處理。考慮到常用的PCA(Principal Component Analysis)主成分分析算法為線性算法,難以解釋屬性間的復(fù)雜多項(xiàng)式關(guān)系,不能將相似數(shù)據(jù)點(diǎn)放置一起展示,因此筆者選取t-SNE算法進(jìn)行數(shù)據(jù)降維。

t-SNE(t-distributed stochastic neighbor embedding,T-分布鄰域嵌入算法)是一種用于挖掘高維數(shù)據(jù)的非線性降維算法,適用于將高維數(shù)據(jù)降維到二維或三維后進(jìn)行可視化處理。該算法核心思想是將歐幾里得距離轉(zhuǎn)換為服從t分布的條件概率來表達(dá)點(diǎn)與點(diǎn)間的相似度,能較好地描述點(diǎn)之間的相似度。

本次研究數(shù)據(jù)存在異常值,筆者將其定義為離群點(diǎn)(outlier),即遠(yuǎn)離具有相同分布的內(nèi)點(diǎn)(inlier)的樣本。由于離群點(diǎn)會影響模型擬合的效果,因此需要對其進(jìn)行檢測和剔除。常用的異常值檢測方法如表1所示。

表1 異常值檢測的常用方法

本次使用Local Outlier Factor和Isolation Forest方法對離群點(diǎn)進(jìn)行檢測。以前者為例,通過“from sklearn.neighbors import LocalOutlierFact or;clf=LocalOutlierFactor(n_neighbors=2);res=clf.fit_transform(unique_risk)”等代碼輸入,形成Local Outlier Factor及Isolation Forest離群點(diǎn)檢測圖。結(jié)果顯示,Local Outlier Factor在離群點(diǎn)的檢測上更敏感,可視化后也更符合直觀感受,因此,筆者選擇其結(jié)果作為后續(xù)訓(xùn)練的數(shù)據(jù)集。

四、數(shù)據(jù)準(zhǔn)備

由于原始數(shù)據(jù)集內(nèi)存在不可量化數(shù)據(jù),且各屬性口徑存在較大差異,因此需要對數(shù)據(jù)進(jìn)行編碼和標(biāo)準(zhǔn)化,以增強(qiáng)數(shù)據(jù)的可用性。此外,為便于對生成的預(yù)測模型進(jìn)行評估,本次將數(shù)據(jù)分為訓(xùn)練集和測試集兩部分。

(一)特征構(gòu)建

對于“審核結(jié)果”屬性,原始數(shù)據(jù)集內(nèi)表現(xiàn)為“發(fā)行股份購買資產(chǎn)獲無條件通過”和“發(fā)行股份購買資產(chǎn)獲有條件通過”兩個字符串,鑒于無法直接輸入到模型中,考慮到“發(fā)行股份購買資產(chǎn)獲無條件通過”比“發(fā)行股份購買資產(chǎn)獲有條件通過”更優(yōu),故分別將“發(fā)行股份購買資產(chǎn)獲有條件通過”“發(fā)行股份購買資產(chǎn)獲無條件通過”編碼為0和1。

(二)數(shù)據(jù)標(biāo)準(zhǔn)化處理

由于不同變量間的量級存在較大差異,學(xué)習(xí)器的算法往往會被數(shù)值大的屬性所主導(dǎo),因此需對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。考慮到原始數(shù)據(jù)不完全符合正態(tài)分布,本次選用Min-Max標(biāo)準(zhǔn)化方法進(jìn)行數(shù)據(jù)處理。Min-Max標(biāo)準(zhǔn)化公式如下:

式中:m是新值;x是單元格原始值;xmin及xmax分別是該列的最小和最大值。

標(biāo)準(zhǔn)化后各屬性取值位于[0,1]區(qū)間內(nèi),規(guī)避了算法受數(shù)據(jù)尺度影響的不利情形,結(jié)果更為精準(zhǔn)。

(三)分離訓(xùn)練集和測試集

由于機(jī)器學(xué)習(xí)的復(fù)雜性,預(yù)測模型有時會過于緊密或精確地匹配已知數(shù)據(jù)集,以致缺乏泛化能力,無法很好地預(yù)測未來的觀察結(jié)果,即出現(xiàn)過擬合。因此,筆者將數(shù)據(jù)集的90%部分用于生成預(yù)測模型,其余部分作為測試集,用于后續(xù)評估預(yù)測模型對于未知數(shù)據(jù)的預(yù)測能力。具體輸入代碼為“from sklearn.model_selection import train_test_split;train,test=train_test_split(unique_risk,test_size=0.1,random_state=22)”“train_X=train.drop(labels=[“Rc”],axis=1);train_y=train[‘Rc’];test_X=test.train.drop(labels=[“Rc”],axis=1);test_y=test[‘Rc’]”“ss=M inMaxScaler();train_X=ss.fit_transform(train_X);test_X=ss.transform(test_X)”。

五、學(xué)習(xí)器選擇

由于數(shù)據(jù)集輸出數(shù)據(jù)的連續(xù)性,因此特有風(fēng)險的預(yù)測屬于機(jī)器學(xué)習(xí)中的回歸問題。機(jī)器學(xué)習(xí)的回歸模型可以分為廣義線性、樹、支持向量機(jī)、K近鄰、Bagging集成、Boosting集成、多層感知機(jī)(神經(jīng)網(wǎng)絡(luò))回歸等七類模型。此次研究中,我們選擇最小化模型在訓(xùn)練集上的R2作為學(xué)習(xí)策略,使用Scikit-Learn中的算法選擇最優(yōu)模型。

(一)模型介紹

1.嶺回歸

嶺回歸在最小二乘法的基礎(chǔ)上,利用添加L2范數(shù)對系數(shù)進(jìn)行懲罰的方法,對屬性間具有完全共線性或高度相關(guān)性的情形進(jìn)行優(yōu)化。

2. K近鄰回歸

K近鄰回歸屬于懶惰模型,其并不從訓(xùn)練數(shù)據(jù)中生成判別函數(shù),而是基于某種距離度量找出訓(xùn)練集中最靠近待預(yù)測樣本的k個訓(xùn)練樣本,將這k個鄰居的輸出值的平均值標(biāo)記為待預(yù)測樣本的預(yù)測結(jié)果。

3.多層感知機(jī)回歸

多層感知機(jī)回歸即按照每層感知機(jī)與下一層感知機(jī)的全連接,感知機(jī)間以不存在同層或者跨層連接的方式構(gòu)建一個多層前饋神經(jīng)網(wǎng)絡(luò),通過誤差逆?zhèn)鞑ニ惴ú粩嗾{(diào)整感知機(jī)之間的權(quán)值,最終獲得一個復(fù)雜的非線性預(yù)測模型。

4. Boosting類回歸

Boosting類回歸的核心思想是通過增大錯誤樣本的權(quán)重,將多個弱預(yù)測模型組合成一個強(qiáng)預(yù)測模型進(jìn)而實(shí)現(xiàn)回歸。其中比較常用的模型有AdaBoost(Adaptive Boosting,自適應(yīng)增強(qiáng)模型)、XGBoost(eXtreme Gradient Boosting,極限梯度提升模型)、LGBM(Light Gradient Boosting Machine,輕量級的高效梯度提升模型),其主要區(qū)別在于如何識別模型和權(quán)重的調(diào)整方法上。

前述模型的優(yōu)劣勢可以通過表2進(jìn)行描述。

表2 各類回歸模型對比

(二) 模型超參數(shù)選擇

機(jī)器學(xué)習(xí)中,超參數(shù)系在學(xué)習(xí)開始之前需要為模型設(shè)置值的參數(shù)。與之對應(yīng),其他參數(shù)的值是通過訓(xùn)練得出的。實(shí)際應(yīng)用中,Scikit-Learn中各模型默認(rèn)的超參數(shù)組合(詳見表3)往往并不適合訓(xùn)練集的數(shù)據(jù)模式,需要進(jìn)行優(yōu)化。

表3 各模型普通參數(shù)和超參數(shù)對比

參數(shù)網(wǎng)格搜索是一項(xiàng)超參數(shù)優(yōu)化技術(shù),常用于三個及以下超參數(shù)的優(yōu)化,其本質(zhì)屬窮舉法范疇。對于每個超參數(shù),使用者創(chuàng)建一個較小的有限集合,作為該超參數(shù)的備選項(xiàng)。然后,從各項(xiàng)超參數(shù)備選項(xiàng)的笛卡爾乘積中得到若干組不同的超參數(shù)組合。網(wǎng)格搜索使用每組超參數(shù)訓(xùn)練模型,挑選驗(yàn)證集誤差最小的超參數(shù)組合作為模型最好的超參數(shù)組合。

由于樣本容量較小,按照常規(guī)70%的訓(xùn)練集,20%驗(yàn)證集和10%測試集的樣本劃分方法,從數(shù)據(jù)集中取出20%的驗(yàn)證集對超參數(shù)進(jìn)行選擇的話,會存在訓(xùn)練集樣本容量和驗(yàn)證集樣本容量都不夠大的問題。而通過交叉驗(yàn)證的方法對訓(xùn)練集上的數(shù)據(jù)進(jìn)行循環(huán)使用,可以使預(yù)測模型在訓(xùn)練集的多個而非單個子數(shù)據(jù)集上實(shí)現(xiàn)優(yōu)異表現(xiàn),增強(qiáng)預(yù)測模型的泛化能力。由此,筆者選擇了10折交叉驗(yàn)證后各預(yù)測模型在驗(yàn)證集上R2的平均值對模型進(jìn)行評價,并作為該模型的基礎(chǔ)性能。

K折交叉驗(yàn)證(K-fold cross validation)的核心思想是把訓(xùn)練數(shù)據(jù)D分為K份,其中(K-1)份用于訓(xùn)練模型,剩余1份用于評估預(yù)測模型的準(zhǔn)確率。前述過程在K份數(shù)據(jù)依次循環(huán),最終得到K個評估結(jié)果。①周志華,機(jī)器學(xué)習(xí). 清華大學(xué)出版社,2016.

通過“from sklearn import linear_model;model_LinearRegression=linear_model.LinearRegression()”等代碼構(gòu)建基礎(chǔ)的學(xué)習(xí)器。之后依據(jù)相關(guān)代碼(略)對每個學(xué)習(xí)器中模型的超參數(shù)予以調(diào)優(yōu),通過“from sklearn.model_selection import cross_val_score”進(jìn)行交叉驗(yàn)證。

多輪迭代后,各模型在超參數(shù)優(yōu)化前后驗(yàn)證集上的R2平均值如表4所示。

表4 模型在原始測試集上調(diào)參前后對比

六、特征選擇

(一)特征選擇概述

數(shù)據(jù)集內(nèi)的各屬性對預(yù)測結(jié)果提供的信息增益各異。鑒于此,往往需要通過特征選擇,于給定的所有屬性中選取相關(guān)屬性作為樣本的特征,去除掉無關(guān)和冗余屬性,從而達(dá)到降低擬合風(fēng)險,提高訓(xùn)練速度的目的。②Ozdemir, S. Susarla, D. Feature engineering made easy. Birmingham, UK: Packt Publishing. 2018.

特征選擇方法可分為過濾法、包裹法、嵌入法三類。

過濾法運(yùn)用統(tǒng)計(jì)指標(biāo)來為每個特征打分并篩選特征,其聚焦于數(shù)據(jù)本身的特點(diǎn)。其優(yōu)點(diǎn)是計(jì)算快,不依賴于具體的模型,缺點(diǎn)是選擇的統(tǒng)計(jì)指標(biāo)不是為特定模型定制的,因而最終準(zhǔn)確率可能不高。此外,由于采取的是單變量統(tǒng)計(jì)檢驗(yàn)手段,故未考慮特征間的相互關(guān)系。

包裹法使用模型來篩選特征,通過不斷地增加或刪除特征,在驗(yàn)證集上測試模型的準(zhǔn)確率,尋找最優(yōu)的特征子集。包裹法因?yàn)橛心P偷闹苯訁⑴c,因而準(zhǔn)確性較高,但是計(jì)算成本高,容易出現(xiàn)過擬合。

嵌入法利用了模型本身的特性,將特征選擇嵌入到模型構(gòu)建過程中。典型的如 Lasso 和樹模型等。其準(zhǔn)確率較高,計(jì)算復(fù)雜度介于過濾式和包裹式方法之間,但缺點(diǎn)是僅部分模型適用此方法。①A review of feature selection techniques in bioinformatics[J]. Bioinformatics(19):2507-2517.具體方法如表5列示。

表5 特征選擇方法列舉

(二)過濾法

過濾法最常用的方法是SelectKBest()。顧名思義,該方法就是根據(jù)傳入的評分函數(shù),從所有特征中挑選出最好的K個特征組成新的特征集。由于本次研究的問題屬于回歸問題范疇,因此選擇了f-regression方法對各屬性進(jìn)行線性相關(guān)分析,并根據(jù)得到的F值計(jì)算出相應(yīng)的p值。本次研究結(jié)果見表6。

表6 各屬性顯著性分析

表格顯示,前三年承諾覆蓋率、成立年限兩個指標(biāo)對特有風(fēng)險有非常顯著的影響;凈利潤增長率、固定資產(chǎn)周轉(zhuǎn)率、動態(tài)市盈率、總資產(chǎn)周轉(zhuǎn)率、歸母權(quán)益增長率對特有風(fēng)險有顯著影響。但是由于F檢驗(yàn)屬于線性回歸測試,因此存在部分和特有風(fēng)險呈非線性關(guān)系的特征未被選取的可能。

(三)遞歸式

遞歸特征消除法(RFE, Recursive feature elimination)是一種常用的包裝法特征選擇方法。其核心思想系通過不斷地迭代訓(xùn)練模型,每次刪除若干重要性較低的特征,直到最新刪除特征造成總體性能損失時結(jié)束。

通過代碼調(diào)用RFECV函數(shù),對每種模型進(jìn)行特征選擇,根據(jù)特征選擇結(jié)果重新訓(xùn)練模型。

(四)結(jié)果對比

對各模型通過10折交叉驗(yàn)證法,生成的預(yù)測模型在原始數(shù)據(jù)驗(yàn)證集及通過不同特征選擇方法生成的驗(yàn)證集上的R2的平均值如表7所示。

表7 預(yù)測模型在不同特征方法上的表現(xiàn)

由上表顯示,除了多層感知機(jī)回歸和K近鄰回歸沒有權(quán)值系數(shù)屬性(coef或feature_importances)而無法進(jìn)行迭代外,遞歸特征消除法相比過濾法在驗(yàn)證集上能有更好的表現(xiàn)。

七、預(yù)測模型評估與分析

(一)預(yù)測模型評估

根據(jù)上述特征選擇和超參數(shù)調(diào)優(yōu)的結(jié)果,筆者選出各模型在10折交叉驗(yàn)證中具有最高R2的特征及超參數(shù)組合,在之前分離的90%的訓(xùn)練集上根據(jù)選出的特征生成新的訓(xùn)練數(shù)據(jù),利用超參數(shù)組合輸入到模型中,得到最終的預(yù)測模型。

然后,將之前分離出的10%的數(shù)據(jù)集輸入到預(yù)測模型中,對預(yù)測值和實(shí)際值進(jìn)行對比,得到折線圖2-1至圖2-7。

圖2-1 線性回歸

圖2-2 嶺回歸

圖2-3 AdaBoost回歸

圖2-4 多層感知機(jī)回歸

圖2-5 XGBoost回歸

圖2-6 LGBM回歸

圖2-7 K近鄰回歸

對比預(yù)測模型在10折交叉驗(yàn)證及在測試集上的R2,具體見表8。

表8 預(yù)測模型在驗(yàn)證集和測試集表現(xiàn)

其中,每個模型選用的特征如表9所示:

表9 各模型選用的特征

續(xù)表

(二)模型結(jié)果與分析

從結(jié)果上看,模型在訓(xùn)練集和測試集上的多折交叉驗(yàn)證表現(xiàn)有一定差別。通過測試集確定模型的參數(shù),驗(yàn)證集確定模型的超參數(shù)后,筆者通過獨(dú)立的測試集來評估預(yù)測模型的最終性能,以決定預(yù)測模型的選擇結(jié)果。

通過配對樣本的t檢驗(yàn),筆者對不同預(yù)測模型的均方誤差(MSE)是否存在顯著差異進(jìn)行了檢驗(yàn)。通過檢驗(yàn)發(fā)現(xiàn),線性回歸預(yù)測模型和嶺回歸預(yù)測模型的MSE相比XGBoost預(yù)測模型有顯著差異;AdaBoost預(yù)測模型和LGBM預(yù)測模型的MSE相比XGBoost預(yù)測模型有一定差異,但并不顯著;K近鄰回歸預(yù)測模型和多層感知機(jī)預(yù)測模型MSE相比XGBoost預(yù)測模型幾乎不存在差異。

由于模型的復(fù)雜度差異,非線性模型預(yù)測準(zhǔn)確率相對更高。XGBoost回歸模型具有最好的表現(xiàn),但距離對特有風(fēng)險進(jìn)行精準(zhǔn)定量測算的初衷仍有差距。

此外,應(yīng)關(guān)注到,對于XGBoost回歸和多層感知機(jī)回歸模型而言,我們無法給出明確的解析解來說明預(yù)測值生成的原因。當(dāng)部分預(yù)測值存在偏差時,我們只能通過有傾向性地輸入新的訓(xùn)練集來糾正偏差。而K近鄰回歸模型則可以通過構(gòu)建KD樹來明確每個樣本的范圍,并輸出相應(yīng)用于預(yù)測的K個最近鄰居,使得模型具有更強(qiáng)的解釋性。因此,就實(shí)踐而言,K近鄰回歸具有更大的應(yīng)用價值,表現(xiàn)也更優(yōu)秀。

在特征選擇上,總體來看,各模型使用的頻度較高的特征為前三年承諾覆蓋率、成立年限、凈利潤增長率、動態(tài)市盈率、固定資產(chǎn)周轉(zhuǎn)率、歸母權(quán)益增長率等,且該等特征的影響程度逐項(xiàng)遞減。

筆者認(rèn)為,這些特征對于特有風(fēng)險的確定,確實(shí)存在很強(qiáng)的因果關(guān)聯(lián)。

一是,通常來說,前三年承諾覆蓋率、凈利潤增長率、動態(tài)市盈率、歸母權(quán)益增長率越高,則企業(yè)特有風(fēng)險越大。當(dāng)企業(yè)處于高速增長階段之時,表明其需要更多的資源予以支持,很可能在人員、技術(shù)、產(chǎn)能及營運(yùn)資金等方面存在大量缺口;高速增長期間,企業(yè)面臨的自身文化、組織結(jié)構(gòu)、外部認(rèn)同及管理者能力不足問題尤為突出,資金流、人力資源、營銷部門及管理能力等往往相對薄弱。另外,不排除部分企業(yè)為凸顯高速增長的市場形象,進(jìn)行不恰當(dāng)?shù)臅?jì)估計(jì)、會計(jì)政策改變甚至財(cái)務(wù)造假的可能,易造成后續(xù)風(fēng)險的集中爆發(fā)。凈利潤增長率、歸母權(quán)益增長率為歷史靜態(tài)性特征,而前三年承諾覆蓋率、動態(tài)市盈率屬于預(yù)測期動態(tài)性特征,均屬于增長率范疇,由前文可知,該等指標(biāo)與特別風(fēng)險成正比,且動態(tài)特征影響力大于靜態(tài)特征。

二是成立年限越長,企業(yè)特有風(fēng)險越小。企業(yè)成立年限越長,表明其極有可能占領(lǐng)市場先機(jī),掌握更為充足的原材料、技術(shù)、渠道等關(guān)鍵資源,通過多年的經(jīng)營和多輪優(yōu)勝劣汰,擁有更豐富的經(jīng)驗(yàn),具備一定的競爭優(yōu)勢,贏得長期的市場優(yōu)勢。另外,企業(yè)經(jīng)營多年,也表明其所處行業(yè)存續(xù)時間較久,產(chǎn)業(yè)普遍較為成熟,行業(yè)的不確定性較小。

三是固定資產(chǎn)周轉(zhuǎn)率越高,則企業(yè)特有風(fēng)險越大。這個結(jié)論與增長率結(jié)論相似。高周轉(zhuǎn)的企業(yè)往往處于某一個爆發(fā)式發(fā)展階段,但難以長期維持,就像一臺高速運(yùn)轉(zhuǎn)的機(jī)器、一根緊繃的弦,需要外部資源的不斷支持。而縱觀國內(nèi)外市場和企業(yè)發(fā)展歷程,從中、長期而言,良性的發(fā)展大部分是細(xì)火慢燉的,符合市場整體發(fā)展趨勢的周轉(zhuǎn)率更為適宜。

鑒于機(jī)器學(xué)習(xí)方法生成的預(yù)測模型往往具有“黑盒”特征,因此,本研究未能生成定量公式。但我們可以將相關(guān)數(shù)據(jù)輸入預(yù)測模型得出結(jié)論,隨著數(shù)據(jù)數(shù)量與質(zhì)量的不斷提升,預(yù)測數(shù)據(jù)將更為準(zhǔn)確。

八、總結(jié)與展望

本文通過回歸分析和遞歸特征消除法,建立了一套涵蓋6個主要指標(biāo)的特有風(fēng)險評價體系,并在體系基礎(chǔ)上利用機(jī)器學(xué)習(xí)方法對特有風(fēng)險進(jìn)行了預(yù)測。

幾種預(yù)測模型的表現(xiàn)總體差強(qiáng)人意,R2均不甚理想,筆者認(rèn)為原因有以下幾點(diǎn):一是本次研究的數(shù)據(jù)來源于過往實(shí)踐,鑒于實(shí)務(wù)中評估專業(yè)人員過度依賴主觀判斷致結(jié)果偏差,甚至根據(jù)結(jié)果導(dǎo)向確定特別風(fēng)險,因此實(shí)證數(shù)據(jù)質(zhì)量欠佳;二是樣本容量相對較小,無法完全滿足機(jī)器學(xué)習(xí)對數(shù)據(jù)規(guī)模的要求。

筆者曾采用傳統(tǒng)統(tǒng)計(jì)學(xué)路徑研究了同樣的樣本數(shù)據(jù),生成了回歸預(yù)測模型,認(rèn)為資產(chǎn)負(fù)債率、研發(fā)支出占比、歸母權(quán)益增長率、凈利潤增長率、總資產(chǎn)周轉(zhuǎn)率、應(yīng)收賬款周轉(zhuǎn)率及上一年歸母凈利潤與特有風(fēng)險呈正相關(guān)關(guān)系;經(jīng)營性現(xiàn)金流/收入、成立年限呈負(fù)相關(guān)關(guān)系。前次與本次研究結(jié)果有一定的共同點(diǎn),均認(rèn)為特別風(fēng)險與歸母權(quán)益增長率、凈利潤增長率呈正比,與成立年限成反比,且兩次研究分別提及的總資產(chǎn)周轉(zhuǎn)率與固定資產(chǎn)周轉(zhuǎn)率有共通之處。但筆者以為,本研究中多個模型都一致認(rèn)可了前三年承諾覆蓋率、動態(tài)市盈率的重要性,這與并購重組定價邏輯及博弈重點(diǎn)不謀而合,具有合理性。從定性角度來看,本次研究結(jié)果更具溫度。此外,前次研究的擬合優(yōu)度R2(分別為0.210和0.189)亦較低(略低于本次研究),兩次研究均表明自變量對因變量的解釋力度不足。

雖然在現(xiàn)有實(shí)證數(shù)據(jù)基礎(chǔ)上,特別風(fēng)險的準(zhǔn)確厘定較難實(shí)現(xiàn)。但對數(shù)據(jù)進(jìn)行特征工程并構(gòu)建非線性模型的思路,具有一定的借鑒價值。

首先,由于機(jī)器學(xué)習(xí)模型的復(fù)雜性,一方面其在處理海量、多屬性的數(shù)據(jù)集時具有不錯表現(xiàn),另一方面也會產(chǎn)生黑盒的可解釋性問題。因此,可以從獲取數(shù)據(jù)的數(shù)量與質(zhì)量,以及結(jié)論的可解釋性需求兩個角度綜合分析評估是否要引入機(jī)器學(xué)習(xí)。一般而言,當(dāng)可獲取的數(shù)據(jù)多且全面,能對預(yù)測結(jié)果給出充分反饋,且無需作出完整解時,則適合引入機(jī)器學(xué)習(xí)方法。

其次,在具體模型的選擇上,雖然機(jī)器學(xué)習(xí)構(gòu)建的非線性模型的預(yù)測準(zhǔn)確率往往好于線性模型,但沒有一個模型能在所有問題上都優(yōu)于其他模型。如果兩模型表現(xiàn)接近,那么選擇相對簡單的線性回歸模型,不失為明智的選擇。

再次,需要關(guān)注的是,機(jī)器學(xué)習(xí)方法的實(shí)質(zhì)是對變量和因變量的相關(guān)性進(jìn)行數(shù)理分析并得出答案。其分析結(jié)果只能說明因變量和變量間存在一定的相關(guān)性,并不能說明兩者間是否存在因果關(guān)系。因此,在機(jī)器學(xué)習(xí)的同時,不可忽視專業(yè)知識的重要性。

最后,對于本次研究,還可以在特征選擇方法上做進(jìn)一步探索。由于特征選擇不是具有貪心選擇性質(zhì)的組合最優(yōu)化問題,無法在多項(xiàng)式時間內(nèi)直接計(jì)算得到最優(yōu)解。因此除了通過用如遞歸特征消除法這種貪心算法得到近似解外,也可以考慮采取諸如模擬退火、遺傳算法、蟻群算法等啟發(fā)式算法予以優(yōu)化。

猜你喜歡
特征選擇機(jī)器預(yù)測
機(jī)器狗
選修2—2期中考試預(yù)測卷(B卷)
選修2—2期中考試預(yù)測卷(A卷)
機(jī)器狗
未來機(jī)器城
基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測
故障診斷中的數(shù)據(jù)建模與特征選擇
reliefF算法在數(shù)據(jù)發(fā)布隱私保護(hù)中的應(yīng)用研究
一種多特征融合的中文微博評價對象提取方法
《福彩3D中獎公式》:提前一月預(yù)測號碼的驚人技巧!
山西省| 阳东县| 闽侯县| 土默特左旗| 安国市| 南川市| 连南| 胶南市| 色达县| 彭水| 温州市| 忻城县| 天水市| 武城县| 平顶山市| 略阳县| 大埔区| 鹤庆县| 高台县| 饶平县| 滕州市| 新晃| 筠连县| 盐源县| 安远县| 阿克陶县| 滨州市| 土默特右旗| 永寿县| 济南市| 乌什县| 兴仁县| 和平区| 盱眙县| 广州市| 通江县| 伊金霍洛旗| 武平县| 广饶县| 永春县| 长乐市|