危明鑄 麥偉杰 袁峰
摘 ?要: 黨的十八大三中全會提出逐步簡政放權(quán),要求做到便捷、規(guī)范、寬進嚴管,這引起市場監(jiān)管主體職責(zé)發(fā)生變化,監(jiān)管對象呈現(xiàn)井噴式增長。傳統(tǒng)的監(jiān)管方法和手段已不能適應(yīng)改革后的監(jiān)管需要,監(jiān)管方法和手段必須由傳統(tǒng)向信息化、智能化等方式轉(zhuǎn)變。本文根據(jù)廣東省廣州市有關(guān)企業(yè)的真實數(shù)據(jù)對其展開運行風(fēng)險研究,首先運用隨機森林算法對原始數(shù)據(jù)進行變量選擇以便形成一個簡化、高效的數(shù)據(jù)集,然后分別應(yīng)用決策樹、集成法、人工神經(jīng)網(wǎng)絡(luò)分別對數(shù)據(jù)集進行建模及分析,最后比較各種模型的優(yōu)劣,并深入研究各性能指標的意義。通過模型可以有效地指導(dǎo)行政人員對異常企業(yè)進行重點監(jiān)管,實現(xiàn)市場監(jiān)管的智能化和精細化。
關(guān)鍵詞: 隨機森林;決策樹;集成法;人工神經(jīng)網(wǎng)絡(luò)
中圖分類號: TP181 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.08.007
本文著錄格式:危明鑄,麥偉杰,袁峰,等. 基于機器學(xué)習(xí)的企業(yè)運行風(fēng)險研究[J]. 軟件,2019,40(8):2937
【Abstract】: The Third Plenary Session of the 18th National Congress of the Communist Party of China proposed to gradually simplify administration and decentralization, and to ensure that it is convenient, standardized, lenient. This has caused changes in the responsibilities of market regulators, and the regulatory objects have shown a spurt of growth. Based on the real data of relevant enterprises in Foshan city, Guangdong Province, this paper conducts operational risk research. Firstly, random forest algorithm is used to select variables from the original data in order to form a simplified and efficient data set. Then, the decision tree, ensemble methods and artificial neural network are apply to model and analyze the dataset respectively. Finally compares the advantages and disadvantages of the various models, and in-depth study of the significance of each performance indexes. Through the model, it can effectively guide the administrative staff to focus on abnormal enterprises and realize the intellectualization and refinement of market supervision.
【Key words】: Random forest; Decision tree; Ensemble methods; Artificial neural network
0 ?引言
隨著市場主體“寬進嚴管”改革的不斷深入,國務(wù)院相繼頒發(fā)了《國務(wù)院辦公廳關(guān)于推廣隨機抽查規(guī)范事中事后監(jiān)管的通知》(國辦發(fā)〔2015〕58號)[1]、《國務(wù)院關(guān)于“先照后證”改革后加強事中事后監(jiān)管的意見》(國發(fā)〔2015〕62號)[2]和《國務(wù)院關(guān)于印發(fā)2016年推進簡政放權(quán)放管結(jié)合優(yōu)化服務(wù)改革工作要點的通知》(國發(fā)〔2016〕30號)[3]等相關(guān)文件,要求大力推廣“雙隨機—公開”抽查工作,市場監(jiān)管模式也由“巡查制”改為“抽查制”。但目前仍存在一些不足之處,具體表現(xiàn)在:
(1)市場主體規(guī)模龐大,難以把握重點監(jiān)管 ?對象。
(2)雙隨機抽查的靶向性不強。
(3)市場主體監(jiān)管風(fēng)險預(yù)判能力不強。
鑒于上述種種不足及企業(yè)監(jiān)管的必要性、迫切性,許多學(xué)者們把目光轉(zhuǎn)向到機器學(xué)習(xí)上。雖然政府不斷加強“事中事后”監(jiān)管,但諸如企業(yè)信息不透明、企業(yè)運行存在風(fēng)險等成為當(dāng)前整個社會經(jīng)濟發(fā)展過程中的突出問題,且目前仍缺乏對企業(yè)運行狀況科學(xué)的評估模型和預(yù)警方法。在有限的時間和人力資源等約束條件下,對不同企業(yè)進行具針對性的服務(wù)和監(jiān)管,必須充分發(fā)揮“機器學(xué)習(xí)+大數(shù)據(jù)”相關(guān)技術(shù)的作用。
國外,Odom等人[4]早在1990年把人工神經(jīng)網(wǎng)絡(luò)應(yīng)用到風(fēng)險評估上,并將其與傳統(tǒng)的多元回歸分析比較,實驗表明人工神經(jīng)網(wǎng)絡(luò)具有更優(yōu)越的性能;Fan運用支持向量機(SVM)甄選與企業(yè)破產(chǎn)有影響的財務(wù)變量[5];Prinzie等人把邏輯回歸(Logistic)引入隨機森林算法并對其進行優(yōu)化以及改進,提出一種新型的隨機森林算法,然后將改進的算法應(yīng)用于預(yù)測公司的信用風(fēng)險[6];Lin F等人研究隨機森林與KMV模型結(jié)合可能性,提出將違約距離作為隨機森林的輸入,模型對企業(yè)信用風(fēng)險預(yù)測性能更優(yōu)越[7];Traskin等人利用隨機森林具有篩選重要變量的特征,提出將其應(yīng)用在保險公司償付判別中[8];Tanaka、Kinkyo等人把隨機森林算法應(yīng)用在OECCD國家瀕臨破產(chǎn)的銀行對其進行危機風(fēng)險預(yù)測[9]。國內(nèi),張大斌、周志剛等人采取差分進化算法自動聚類模型對我國上市公司展開信用度評價,并與遺傳算法、決策樹、BP神經(jīng)網(wǎng)絡(luò)模型進行比較,結(jié)果表明該模型具有更高的準確性[10];方匡南,范新妍等人指出傳統(tǒng)的Logistic回歸建立企業(yè)運行風(fēng)險預(yù)警模型效果不夠好,提出了基于網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系的Logistic模型[11];閆炳琪等人選取我國深滬兩市共74家公司2013-2014年的財務(wù)報表數(shù)據(jù),通過主成分分析降維得到濃縮的5個主成分因子,然后將5個因子作為自變量建立Logistic回歸模型[12];胡賢德、曹蓉等人借助群智能螢火蟲(GSO)算法,提出一種基于改進離散型螢火蟲(IDGSO)算法,并將其引入到BP神經(jīng)網(wǎng)絡(luò)用于微企運行風(fēng)險評估[13];楊俊等人使用Gradient Boosting算法對中國建設(shè)銀行上海分行的企業(yè)貸款客戶數(shù)據(jù)建立模型,并和邏輯回歸以及專家規(guī)則進行橫向比較,結(jié)果表明Gradient Boosting算法的模型要優(yōu)于另外兩種模型[14];熊正得等人利用因子分析法對深滬A股上市的制造企業(yè)財務(wù)數(shù)據(jù)構(gòu)建風(fēng)險評價體系,并在違約 ? 測度階段應(yīng)用Logistic回歸對不同組樣本進行測 ?度[15];周戰(zhàn)超通過對企業(yè)的貸款數(shù)據(jù)進行實證分析,建立基于K-均值聚類的工業(yè)企業(yè)信用風(fēng)險評價模型[16]。此外,機器學(xué)習(xí)還在不同的領(lǐng)域中有廣泛的應(yīng)用和研究[17-21]。
根據(jù)上述關(guān)于企業(yè)運行風(fēng)險評價研究的總結(jié),本文運用隨機森林作為對涉企數(shù)據(jù)進行變量甄選,然后將決策樹、集成法以及神經(jīng)網(wǎng)絡(luò)分別應(yīng)用到企業(yè)運行風(fēng)險建模中,比較和分析三個模型的性能,并將其應(yīng)用到企業(yè)風(fēng)險預(yù)測。
1 ?相關(guān)技術(shù)
1.1 ?決策樹
決策樹是一種監(jiān)督學(xué)習(xí)算法(有一個預(yù)定義的目標變量)主要用于分類問題。如圖1,它適用于離散型(分類)和連續(xù)型(回歸)輸入和輸出變量,它會自動識別最重要的變量并且計算該變量的信息增益來劃分數(shù)據(jù)集,既可以做分類又可以做回歸。構(gòu)造決策樹的關(guān)鍵步驟是分裂屬性,即在某個節(jié)點處按照某一特征屬性的不同劃分構(gòu)造不同的分支,其目標是讓各個分裂子集盡可能“純”。所謂“純”,就是讓同一子集的數(shù)據(jù)擁有相同的屬性,用“信息增益”(Information Gain)衡量。信息熵定量信息的大小,當(dāng)節(jié)點的類別均勻分布時,熵值為1;當(dāng)只包含一類時,熵值為0。決策樹節(jié)點的“純”就是根據(jù)信息熵來定義。從信息論知識中我們直到,期望信息越小,信息增益越大,從而純度越高,不純越小。
根據(jù)式(4)的值,選擇信息增益(熵減)最大的屬性劃分集合S。
決策樹算法偽代碼如下:
輸入:訓(xùn)練集集合D={(x1,y1),(x2,y2)…,(xm,ym)},屬性集A={a1,a2,…,ak},函數(shù)TreeGenerate(D,A)
輸出:以node為根節(jié)點的一棵決策樹
生成節(jié)點node;
if D中樣本全屬于同一類別C then
將node標記為C類節(jié)點;return
end if
if A=Φ or D中樣本在A上取值相同 then
將node標記為葉節(jié)點,其它類別標記為D中樣本數(shù)最多的類;return
end if
從A中選擇最優(yōu)劃分屬性 ;
for ?的每個值 ?do
為node生成一個分支;令Dv表示D中在 上取值為 的樣本子集;
If Dv為空 then
將分支節(jié)點標記為葉節(jié)點,其它類別標記為D中樣本數(shù)最多的類;return
else
以TreeGenerate(Dv,A\{a*})為分支節(jié)點
end if
end for
1.2 ?隨機森林
隨機森林(Random Forest)[22-23]是以決策樹為基礎(chǔ)的一種集成學(xué)習(xí)(Ensemble Learning)方法,從直觀角度來解釋,每棵決策樹都是一個分類器(分類問題),對于一個輸入樣本,N棵樹會有N個分類結(jié)果。而隨機森林集成了所有的分類投票結(jié)果,將投票次數(shù)最多的類別指定為最終的輸出,是一種Bagging思想[24],如圖2所示。
本文將隨機森林用于特征選擇,其目標有兩個:
(1)找出與因變量高度相關(guān)的特征變量;
(2)選擇數(shù)目較少的特征變量并能夠充分預(yù)測目標變量結(jié)果。
假如每次選擇m個特征用于建模,步驟如下:
Step1: 初步估計和排序
a)對隨機森林中的特征變量按VI(variable importance)降序排序;
b)確定刪除的特征比例,從當(dāng)前的特征變量中剔除相應(yīng)比例不重要的特征,得到一個新的特征集;
c)用新的特征集建立新的隨機森林,并計算特征集中每個特征的VI,并排序;
d)重復(fù)以上步驟,直到剩下m個特征值。
Step2: 根據(jù)Step1中得到的每個特征集及其建立起來的隨機森林,計算對應(yīng)的袋外誤差率OOB(out-of-bag error)
Step3:把Step2中OOB最低的特征集作為選定為建模特征。
上述步驟中涉及特征值的重要性(VI)計算,在隨機森林中VI的計算方法如下:
(1)對于隨機森林中的每棵樹,使用相應(yīng)的袋外數(shù)據(jù)計算它的袋外誤差率,記為OOB1;
(2)隨機地對袋外數(shù)據(jù)的特征值(假如此時為X)假如噪音干擾(例如,隨機改變樣本在特征X出的值),再次計算它的袋外數(shù)據(jù)誤差,記為OOB2;
(3)假設(shè)隨機森林中有Ntree棵樹,那么對于特征X重要性為 。如果給某個特征隨機假如噪音之后,袋外的準確率大幅度降低,則說明該特征值對于樣本的分類影響大,也就是說該特征為重要的。
此外,將隨機森林用于特征選擇還涉及到OOB的計算。我們知道,在構(gòu)建每棵樹時,對訓(xùn)練集使用了不同的bootstrap sample(隨機且有放回地抽?。?。所以對于每棵樹而言(假設(shè)對于第k棵樹),大約有1/3的訓(xùn)練實例沒有參與第k棵樹的生成,它們稱為第k棵樹的OOB樣本,計算方法如下:
(1)對每個樣本,計算它作為OOB樣本的樹對它的分類情況(每個樣本都在所有的樹中進行分類);
(2)然后以簡單多數(shù)投票作為該樣本的分類 結(jié)果;
(3)最后用誤分個數(shù)占樣本總數(shù)的比率作為隨機森林的OOB誤分率。
1.3 ?集成方法
集成方法指有策略地建立多個模型并將其組合一起,解決特定計算智能問題的過程。在這種方法可以擴展至任意學(xué)習(xí)器以建立集成模型,它生產(chǎn)多個分類器,然后將這些分類器的類別預(yù)測概率作為另一個分類器的輸入特征,這樣會提高預(yù)測的準確率。如圖3所示。
圖3中建立了三種不同的分類器,并使用它們的預(yù)測概率作為第四個不同分類器的輸入,以對測試集作出預(yù)測。
1.4 ?人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(ANN)是由具有適應(yīng)性的簡單單元組成的廣泛并行互連網(wǎng)絡(luò),它的組織能夠模擬生物神經(jīng)系統(tǒng)對真實世界物體所作出的交互反應(yīng)。
神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的過程也是權(quán)重不斷調(diào)整過程,其步驟如下:
(1)標準化輸入變量在0和1之間;
(2)將網(wǎng)絡(luò)權(quán)重的初始值設(shè)定為0或隨機產(chǎn)生,通過各節(jié)點的函數(shù)來估計數(shù)據(jù)的目標變量值;
(3)比較實際值和估計值之間的誤差,并根據(jù)誤差值重新調(diào)整各權(quán)重的偏置;
(4)反復(fù)執(zhí)行步驟2,直到實際值和估計值之間的誤差最小,此時停止學(xué)習(xí)以獲得最佳權(quán)重。
2 ?準備工作
2.1 ?數(shù)據(jù)抽取
本文通過政務(wù)信息共享平臺歸集的數(shù)據(jù)中抽取相關(guān)的數(shù)據(jù)集進行清洗整合,整理歸集出可用于分析建模的有效數(shù)據(jù)。過程包括清洗轉(zhuǎn)換歷史檢查結(jié)果表,關(guān)聯(lián)融合企業(yè)基本信息與企業(yè)納稅信息表,從而得到企業(yè)特征值與檢查結(jié)果的關(guān)聯(lián)表,如圖5所示。
(1)檢查結(jié)果表清洗
從數(shù)據(jù)庫中抽取企業(yè)的歷史數(shù)據(jù),如表1所以。
其中,“檢查結(jié)果”是本次項目的預(yù)測目標,由于檢查結(jié)果的數(shù)據(jù)是不規(guī)范的,需要進一步整理,如表2所示。
(2)企業(yè)數(shù)據(jù)表關(guān)聯(lián)
本次項目建模中,我們把“檢查結(jié)果”表、“企業(yè)基本信息表”、“企業(yè)納稅金額”表進行關(guān)聯(lián),使其關(guān)聯(lián)后整合成一整表。
2.2 ?創(chuàng)建虛擬變量
神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)準備是非常重要的,因為所有的協(xié)變量和響應(yīng)變量都必須是數(shù)值型。為此,本文把數(shù)據(jù)集中變量為分類(factor)型的數(shù)據(jù)創(chuàng)建虛擬變量。
虛擬變量(Dummy Variables)又稱虛設(shè)變量或啞變量,用以反映質(zhì)的屬性的一個人工變量,是量化了的自變量,通常取值為0或1。引入虛擬變量會使模型變得更復(fù)雜,但對問題描述更簡明,提高模型的精度,相當(dāng)于將不同屬性的樣本合并,擴大了樣本容量(增加了誤差自由度,從而降低了誤差方差)。
在模型中引入多個虛擬變量時,原則如下:
(1)如果模型有截距項
有m種互斥的屬性類型,在模型中引入(m–1)個虛擬變量。
(2)如果模型無截距項
有m個特征,設(shè)置m個虛擬變量。
2.3 ?特征選擇
在機器學(xué)習(xí)中,我們經(jīng)常面臨這樣一個問題:我們手頭上擁有數(shù)據(jù)集往往含有很多的自變量,甚至有些數(shù)據(jù)集的自變量數(shù)(列)比觀察值數(shù)目(行)還要多。這種情況需要對特征進行選擇,即從原有的特征中刪除影響不大或共線變量,保留那些對目標變量(因變量)解釋好或者影響大的重要變量。這樣一方面可以提高建模過程中的運算速度;另一方面對模型的解釋性更直觀,減低擬合模糊性。
本文運用隨機森林(RF)對3.1小節(jié)中抽取的原始數(shù)據(jù)(共有18個特征)進行特征選擇,具體情況如下:
(1)改變隨機數(shù)種子,算法運行次數(shù)k=5,只選擇那些在k次運行中都標記為“Confirmed”的特征;
(2)將訓(xùn)練數(shù)據(jù)分為n=10折,在沒折數(shù)據(jù)上分別進行算法迭代,然后選擇那些在所有n折都標記為“Confirmed”的特征;
(3)迭代次數(shù)it=100。
運行結(jié)果如圖6所示。
從圖6可知,應(yīng)用RF對原始數(shù)據(jù)進行特征選擇后,特征由原來的18個縮減到12個(因變量除外)??梢杂眯碌奶卣鬟M行更深入、更有意義的數(shù)據(jù)探索,提高建模工作效率及運行速度。
3 ?建模及分析
本文基于廣州市工商行政等有關(guān)部門的真實數(shù)據(jù),分別應(yīng)用決策樹、集成方法(決策樹、梯度提升、元多自適應(yīng)回歸樣條)、人工神經(jīng)網(wǎng)絡(luò)對其建立預(yù)測模型(以變量“檢查結(jié)果”為因變量),并對模型的性能分析比較,深入研究企業(yè)運行風(fēng)險預(yù)測。
建模環(huán)境如下:
處理器為Intel(R) Core(TM) i5-4590 CPU@ 3.3 GHz;內(nèi)存為8 G;系統(tǒng)為64位Windows 7;運行環(huán)境為R x64 3.4.3以及RStudio。
數(shù)據(jù)集特征維度:
數(shù)據(jù)集FSH_data擁有7988行(觀察值);13個變量(含因變量)。后期添加數(shù)據(jù)行繼續(xù)進行研究。
3.1 ?基于決策樹建模
3.1.1 ?參數(shù)設(shè)置
參數(shù)cp表示樹的復(fù)雜度,每一步分裂,模型的擬合度都會提高,但復(fù)雜度也會增加,初始設(shè)置為0.01;參數(shù)method表示構(gòu)建樹過程中所選擇的方法,一般有“連續(xù)型-anova;離散型(分類)-class,設(shè)置為class;參數(shù)minsplit表示節(jié)點中的樣本數(shù)量小于某個給定界限,設(shè)置為20;參數(shù)maxdepth表示樹的深度,設(shè)置為30。
3.1.2 ?數(shù)據(jù)分配
將數(shù)據(jù)集按7∶3比例分成兩個子集,其中訓(xùn)練集占7成,測試集占3成,并采用十折交叉法對其驗證,如表8所示。
3.1.3 ?建模結(jié)果
模型tree.model的詳細性能如圖7所示。
圖7(a)為模型tree.model性能參數(shù)描述。其中,cp為樹的偏差參數(shù),也叫復(fù)雜度參數(shù),在樹的構(gòu)建過程中,如果偏差(復(fù)雜度)減少到某一個給定的臨界值,樹的構(gòu)建將結(jié)束,從(a)看到,cp從0.165到設(shè)置的0.01,cp越小,模型越復(fù)雜,可讀性越差,所以要適當(dāng)控制cp的值;nsplit為分裂屬性結(jié)點數(shù),從結(jié)果知道,樹分裂到3個節(jié)點結(jié)束;rel error為相對誤差(與根節(jié)點比較),此處值為0.77,對應(yīng)cp=0.01;xerror和xstd是應(yīng)用十折交叉驗證的估計誤差和標準差,這里分別是0.77、0.016。
圖7(b)為模型tree.model交叉檢驗(xerror)與復(fù)雜度(cp)的曲線圖,最優(yōu)的決策樹的交叉驗證誤差為0.77(紅色虛線),對應(yīng)的cp為0.01,分裂節(jié)點為3個,這與圖7(a)保持一致。
圖7(c)為模型tree.model的混淆矩陣,本文將混淆矩陣的各項指標作為評價模型性能。其中“Accuracy”表示模型分類的準確率,有一個95%的置信區(qū)間(0.7295,0.7899),其準確率為76%,從數(shù)值看表現(xiàn)不錯;“Kappa”是衡量模型分類一致性參數(shù),取值范圍為0~1,值越大表示模型的分類效果與數(shù)據(jù)的真實值越一致,當(dāng)0.4 其中,Sensitivity稱之為“靈敏度”,即“召回率”,用TPR=TP/(TP+FN)表示,指所有正例中被分對的比例,衡量分類器對正例的識別能力,此出正例為“不正?!保瑥膱D中看到模型tree.model識別“不正?!保ㄕ╊悇e能力為38.6%,表現(xiàn)欠佳;Specificity稱之為“特異度”,用TNR=TN/(FP+TN)表示,指所有負例中被分對的比例,衡量分類器對負例的識別能力,此處的負例為“正?!保覐膱D中看到,模型tree.model識別“正常”(負例)類別能力為93.6%,表現(xiàn)甚佳。 通過圖7各項數(shù)值指標看到,雖然模型tree.model的預(yù)測準確率為76%,正確識別負例的概率為93.6%,且P-Value=5.652e-07顯著,但其Kappa值及Sensitivity值表明模型的整體性能表現(xiàn)一般,有待提高。 3.2 ?基于集成方法 3.2.1 ?參數(shù)設(shè)置 本文將分類算法決策樹、梯度提升、多元自適應(yīng)回歸樣條組合形成一個MLR集成方法,建立一個強分類器ensemble.model?;A(chǔ)學(xué)習(xí)器base.learners設(shè)置為learns;超級學(xué)習(xí)器super.learner設(shè)置為classif.logreg;預(yù)測類型predict.type設(shè)置為prob;學(xué)習(xí)方式mothod設(shè)置為stack.cv。 3.2.2 ?數(shù)據(jù)分配 為了公平比較,數(shù)據(jù)集的劃分與表8一致,此外,要為劃分的訓(xùn)練集創(chuàng)建task對象及組合各個分類算法: FSH_data.task<-makeClassTask(id=廣州企業(yè), data=train,target=type) base<-c(‘classif.rpart,classif.boosting,classif.earth) 3.2.3 ?建模結(jié)果 模型ensemble.model的詳細性能如圖8所示。 圖8(a)為模型ensemble.model的混淆矩陣,與圖7(c)相比可以看到各項指標參數(shù)都有所提高。例如,準確率(Accuracy)從76%到78.7%提升,其置信區(qū)間為(0.7721,0.8015);Kappa值從0.386到0.57提升,一致性處于“可接受”水平;靈敏度(Sensitivity)、特異度(Specificity)也有所提升,分別為0.65、0.93,對比模型tree.model可知,模型ensemble.model在識別“不正常”(正例)類別能力提高明顯,而識別“正常”(負例)類別能力與模型tree.model相當(dāng),且P-Value=2.2e–16表明結(jié)果更加顯著。 圖8(b)為模型ensemble.model的ROC曲線,它是反映Sensitivity(靈敏度)和Specificity(特異性)連續(xù)變量的綜合指標。理想情況下,TPR(敏感度)應(yīng)該接近1,F(xiàn)PR(1-特異度)應(yīng)該接近0。對于一個分類器,ROC曲線上的每一個點對應(yīng)于一個threshold,比如threshold最大時,TP=FP=0,對應(yīng)于原點;threshold最小時,TN=FN=0。另外,ROC曲線下方圖形圍成面積為AUC=0.764,說明模型ensemble.model有預(yù)測價值(注:AUC值越大,表示模型分類性能越優(yōu))。 綜合上述可知,利用集成方法建立的模型極大地提升了分類器的預(yù)測。對于結(jié)果,我們可以從直觀理解為:如果把決策樹、提升法、多元自適應(yīng)回歸樣條各自看成專家,那么,集成方法即為專家們的智慧組合。 3.3 ?基于人工神經(jīng)網(wǎng)絡(luò) 3.3.1 ?參數(shù)設(shè)置 本小節(jié)應(yīng)用神經(jīng)網(wǎng)絡(luò)對FSH_data數(shù)據(jù)集建立預(yù)測模型,并通過調(diào)節(jié)一些參數(shù)逐步提高其性能。參數(shù)說明如下: 3.3.2 ?數(shù)據(jù)分配 為了公平比較,數(shù)據(jù)集的劃分與表8一致,此外,要為劃分的訓(xùn)練集創(chuàng)建task對象及組合各個分類算法,由于因變量(檢查結(jié)果)是字符串的factor型,需要把其轉(zhuǎn)換成1/0數(shù)字的factor型: FSH_data$檢查結(jié)果<- ifelse(FSH_data$檢查結(jié)果==不正常,1,0) 另外,還要按3.2小節(jié)的方法為數(shù)據(jù)集中非數(shù)值部分創(chuàng)建虛擬變量(因變量除外)。 3.3.3 ?建模結(jié)果