李永麗,王 浩,金喜子
(1. 東北師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院,長(zhǎng)春 130117;2. 吉林大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,長(zhǎng)春 130012)
在數(shù)據(jù)分析處理過程中,數(shù)據(jù)的影響因素?cái)?shù)目和維度會(huì)影響后期數(shù)據(jù)預(yù)測(cè)與分析的準(zhǔn)確性,它們之間存在正相關(guān)關(guān)系,因此在數(shù)據(jù)處理過程中應(yīng)盡可能多地考慮存在的影響因素. 但數(shù)據(jù)維度和影響因素的增加會(huì)導(dǎo)致數(shù)據(jù)處理過程復(fù)雜,提高時(shí)間和空間的復(fù)雜度,為保證數(shù)據(jù)的可處理性及可使用性,需在數(shù)據(jù)挖掘中降低問題的復(fù)雜度,因此可引入特征降維的分析方法(如主成分分析(PCA)方法). 在深度學(xué)習(xí)的數(shù)據(jù)處理過程中,也需進(jìn)行數(shù)據(jù)降維處理,以達(dá)到減少運(yùn)算量和數(shù)據(jù)降噪的目的. 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集一般具有多組特征,將這些特征作為輸入并進(jìn)行趨勢(shì)預(yù)測(cè)前,通常用降維特征向量算法. 如文獻(xiàn)[1]提出了一種主成分分析-多層感知器(PCA-MLP)模型;文獻(xiàn)[2]將多層感知器(MLP)等多種算法用于高速公路車流量預(yù)測(cè);文獻(xiàn)[3]提出了一種基于行為的信用卡詐騙預(yù)測(cè)模型. 雖然去除特征量中的冗余和干擾數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行降維處理,在某些應(yīng)用場(chǎng)景中能顯著提高預(yù)測(cè)準(zhǔn)確率[4],但當(dāng)數(shù)據(jù)集的多組特征與結(jié)果都具有較強(qiáng)的相關(guān)性時(shí),降維處理可能會(huì)導(dǎo)致預(yù)測(cè)準(zhǔn)確性降低. 針對(duì)該問題,本文提出一種基于隨機(jī)森林算法優(yōu)化的MLP回歸預(yù)測(cè)模型,該模型在數(shù)據(jù)預(yù)處理后將數(shù)據(jù)集按數(shù)據(jù)屬性進(jìn)行劃分,并在全連接神經(jīng)網(wǎng)絡(luò)的中間層與輸出層回歸分類器之間,使用隨機(jī)森林算法對(duì)MLP回歸模型的隱藏狀態(tài)進(jìn)行糾正,該過程主要糾正在降維時(shí)被忽略的部分要素.
隨機(jī)森林算法是利用多個(gè)樹型數(shù)據(jù)結(jié)構(gòu),對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種算法,它既可以應(yīng)用在分類問題中,也可以用于數(shù)據(jù)的回歸分析. 隨機(jī)森林與傳統(tǒng)決策樹算法不同,其具有不剪枝也能避免數(shù)據(jù)過擬合的特點(diǎn),同時(shí)具有較快的訓(xùn)練速度,且參數(shù)調(diào)整簡(jiǎn)單,在默認(rèn)參數(shù)下即具有較好的回歸預(yù)測(cè)效果[6-7]. 圖1為隨機(jī)森林模型. 其利用bootstrap方法從原始訓(xùn)練集中隨機(jī)抽取n個(gè)樣本(有放回),并構(gòu)建n個(gè)決策樹(圖1顯示了兩棵決策樹);在這些樣本中選擇最好的特征(圖1中Feature(f))進(jìn)行分裂,直至該節(jié)點(diǎn)的所有訓(xùn)練樣例都屬于同一類,然后使每棵決策樹在不做任何修剪的前提下最大限度生長(zhǎng),最后將生成的多棵分類樹組成隨機(jī)森林,并用其進(jìn)行分類和回歸. 隨機(jī)森林算法最終結(jié)果由多個(gè)分類器投票或取均值確定,即計(jì)算每棵樹條件概率Pn(c|f)的平均值[8].
圖1 隨機(jī)森林模型Fig.1 Model of random forest
圖2 MLP模型Fig.2 Model of MLP
一般的多層全連接神經(jīng)網(wǎng)絡(luò)(如MLP)是一種前向結(jié)構(gòu)的人工智能網(wǎng)絡(luò). 如圖2所示,典型的MLP包括三層:輸入層、隱藏層和輸出層,MLP神經(jīng)網(wǎng)絡(luò)不同層之間是全連接的. 多層全連接神經(jīng)網(wǎng)絡(luò)的每一層都由多個(gè)節(jié)點(diǎn)組成. 除輸入層的節(jié)點(diǎn)外,每個(gè)神經(jīng)元都帶有一個(gè)非線性激活函數(shù),通常用反向傳播的監(jiān)督學(xué)習(xí)方法訓(xùn)練網(wǎng)絡(luò)[9].
假設(shè)輸入層用向量X表示,則隱藏層的輸出為f(W1X+b1),其中W1是權(quán)重(也稱為連接系數(shù)),b1是偏置,函數(shù)f可以是常用的Sigmoid函數(shù)或tanh函數(shù),其公式為
(1)
MLP回歸模型的隱藏層到輸出層可視為一個(gè)多類別的邏輯回歸,即Softmax回歸,所以輸出層的輸出就是Softmax(W2X1+B2),其中X1表示隱藏層的輸出f(W1X+b1)[10-11]. Softmax公式為
(2)
當(dāng)在二分類問題上使用Softmax回歸時(shí),Softmax即特殊化成了Sigmoid.
本文提出的優(yōu)化MLP回歸模型流程包括:數(shù)據(jù)集預(yù)處理、數(shù)據(jù)集分組、建立神經(jīng)網(wǎng)絡(luò)模型、獲得不確定項(xiàng)以及完善預(yù)測(cè)結(jié)果.
1) 對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理. 由于在實(shí)際應(yīng)用中獲得的數(shù)據(jù)多數(shù)包含噪聲,所以不能將這種數(shù)據(jù)直接進(jìn)行數(shù)據(jù)分析. 為提高數(shù)據(jù)分析的效率,通常采用數(shù)據(jù)預(yù)處理技術(shù)進(jìn)行數(shù)據(jù)預(yù)處理. 數(shù)據(jù)預(yù)處理有多種方法:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換等,這些處理方法都可以在一定程度上降低數(shù)據(jù)分析的成本[12].
2) 根據(jù)數(shù)據(jù)的不同屬性,將處理后的數(shù)據(jù)集按數(shù)據(jù)屬性分為兩組數(shù)據(jù)子集S和Z. 將這兩組數(shù)據(jù)子集定義如下:
S={S1,S2,…,Sn},Si∈[0,1],i∈{1,2,…,n};
Z={Z1,Z2,…,Zn},Zi∈,i∈{1,2,…,n}.
3) 建立模型. 首先用MLP回歸模型分析數(shù)據(jù)集S,并進(jìn)行訓(xùn)練獲得MLP的輸出,用隨機(jī)森林算法預(yù)測(cè)數(shù)據(jù)集Z. 將MLP回歸模型以及隨機(jī)森林算法的輸出分別記為mlp_predict和forest_predict.
4) 提取不確定項(xiàng). 得到隨機(jī)森林的輸出后,即可通過對(duì)比它們之間的不同輸出獲得不確定項(xiàng)(當(dāng)它們對(duì)同一個(gè)數(shù)據(jù)項(xiàng)的預(yù)測(cè)有不同意見時(shí),稱該項(xiàng)為不確定項(xiàng)). 如果要得到更高的預(yù)測(cè)準(zhǔn)確率,則需使不確定項(xiàng)最大化. 不確定項(xiàng)提取算法描述如下:
算法1不確定項(xiàng)提取算法.
輸入: forest_predict(隨機(jī)森林算法的輸出結(jié)果),mlp_predict(MLP層獲得的輸出結(jié)果),y_test(結(jié)果集);
輸出: DataFrame類型的不確定項(xiàng)集合;
初始化f_m_index(隨機(jī)森林算法和MLP層的差異項(xiàng)索引)
fm_t_index(隨機(jī)森林算法或MLP層與y_test的差異項(xiàng)索引)
f_m_diff(隨機(jī)森林算法和MLP層的差異錯(cuò)誤項(xiàng)索引)=[ ],[ ],[ ]
for index∈[0: len(forest_predict[0])] do:
當(dāng)隨機(jī)森林算法和MLP層得到的結(jié)果不同時(shí)
將index記錄到f_m_index中
end for
for index∈[0: len(forest_predict或者mlp_predict [0])] do:
如果隨機(jī)森林算法或者M(jìn)LP層得到的是錯(cuò)誤結(jié)果
將index記錄到fm_t_index中
end for
for index∈[0: len(f_m_index)] do:
forf_m_index∈[0: len(fm_t_index)] do:
如果所針對(duì)的數(shù)據(jù)在差異項(xiàng)中并與實(shí)際不符
將index記錄到f_m_diff中
break
end for
returnx_test中索引值為f_m_diff中元素的DataFrame類型的對(duì)象.
其中forest_predict和mlp_predict分別表示隨機(jī)森林和MLP層的輸出結(jié)果,在算法運(yùn)行時(shí)選擇其中正確率較高的輸出.
5) 完善預(yù)測(cè)結(jié)果. 獲取不確定項(xiàng)集合后,可將其傳遞給邏輯回歸層,需要針對(duì)這些不確定項(xiàng)重新訓(xùn)練并更新MLP回歸模型中的邏輯回歸層參數(shù). 用訓(xùn)練集中的不確定項(xiàng)擬合邏輯回歸層,最后用該層預(yù)測(cè)測(cè)試集中的不確定項(xiàng),再根據(jù)之前得到的輸出結(jié)果得到最終的預(yù)測(cè)結(jié)果. 獲得邏輯回歸層的訓(xùn)練集過程與獲取差異項(xiàng)的過程基本相同. 該神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示.
圖3 隨機(jī)森林優(yōu)化的網(wǎng)絡(luò)模型Fig.3 Network model for random forest optimization
由圖3可見,本文提出的優(yōu)化算法是在原MLP回歸模型中的MLP層與邏輯回歸層之間加入了不確定項(xiàng)的析出算法,并使用邏輯回歸層處理這些不確定項(xiàng). 對(duì)于MLP層或隨機(jī)森林的隱藏層狀態(tài),用Sigmoid激活函數(shù)獲得其對(duì)應(yīng)的輸出結(jié)果,最后用邏輯回歸層的結(jié)果完善MLP層或隨機(jī)森林算法的輸出結(jié)果.
Sigmoid二分類算法本質(zhì)上是一個(gè)基于條件概率的判別模型,通常以0.5為閾值,大于0.5為正樣本,小于0.5為負(fù)樣本,是一個(gè)二分類方法. 將Sigmoid回歸函數(shù)擴(kuò)展到多維特征空間,即為多維特征空間中的二分類問題[13-14]. 在多維特征空間中的Sigmoid函數(shù)公式為
(3)
其中θ表示多維參數(shù),X為特征空間矩陣. 對(duì)于二分類問題,樣本和參數(shù)θ的條件概率函數(shù)公式為
P(y|X;θ)=(hθ(X))y(1-hθ(X))1-y,
(4)
其中y表示二分類問題輸出. 得到概率函數(shù)后,對(duì)其進(jìn)行最大似然估計(jì)并對(duì)數(shù)化,公式如下:
(5)
對(duì)式(5)求參數(shù)θ的導(dǎo)數(shù),得到參數(shù)梯度迭代公式為
(6)
通過在訓(xùn)練集上的不斷迭代,得到導(dǎo)數(shù)的近似極值,該過程稱為梯度上升,最后獲得最佳參數(shù)θ和可用模型.
表1為2013年和2017年貸款客戶數(shù)據(jù)集,其取自于lend club借貸網(wǎng)站(https://www.lendingclub.com/info/download-data.action)中的貸款客戶信息,其中包含客戶的靜態(tài)信息(如收入、工作、家庭條件等)和動(dòng)態(tài)信息(客戶的歷史信用等).
表1 2013年和2017年貸款客戶數(shù)據(jù)集
本文主要使用該數(shù)據(jù)集中的loan_amnt,funded_amnt等屬性進(jìn)行隨機(jī)森林的初次預(yù)測(cè),而home_own,desc等屬性作為多層感知機(jī)初次預(yù)測(cè)的屬性. 由于數(shù)據(jù)量過大,本文截取了2013年和2017年的數(shù)據(jù)進(jìn)行分析,其中LoanStats3a數(shù)據(jù)集樣本數(shù)量為42 540個(gè),屬性數(shù)量為135個(gè),LoanStats_2017Q1數(shù)據(jù)集樣本數(shù)量為42 536個(gè),屬性數(shù)量為66個(gè).
先用多種數(shù)據(jù)預(yù)處理算法,去除數(shù)據(jù)的冗余屬性,降低特征數(shù)量,然后分析數(shù)據(jù)集中各項(xiàng)屬性的相關(guān)性,去除分析結(jié)果中低的正相關(guān)性和負(fù)相關(guān)性特征(即移除冗余特征),填充與結(jié)果相關(guān)的殘缺屬性值. 獲得可用的數(shù)據(jù)集后,對(duì)該數(shù)據(jù)集進(jìn)行多種算法測(cè)試,考察其性能及進(jìn)行特征提取前后對(duì)測(cè)試結(jié)果的影響,獲得的數(shù)據(jù)結(jié)果將作為調(diào)整該模型結(jié)構(gòu)的理論依據(jù).
通過下列過程完成對(duì)初始數(shù)據(jù)的預(yù)處理:
1) 用統(tǒng)計(jì)屬性中相同項(xiàng)個(gè)數(shù)確定是否是唯一屬性,刪除數(shù)據(jù)集中的唯一屬性,如id,member_id和sub_grade等屬性;
2) 處理數(shù)據(jù)集中的非數(shù)值數(shù)據(jù),去除int_rate中的“%”,只保留其數(shù)值部分并轉(zhuǎn)換成float類型;將loan_status屬性中的“fully paid”全部用1代替,“charged off”全部用0代替,其他字段全部用Nan代替;將數(shù)據(jù)集中“n/a”全部使用Nan值替換,然后刪除loan_status屬性中為Nan的樣本,因?yàn)閘oan_status作為結(jié)果集,不允許其值為Nan;
3) 刪除數(shù)據(jù)集中為Nan的屬性或樣本;
4) 處理數(shù)據(jù)項(xiàng)中數(shù)據(jù)類型為object,int,float屬性的殘缺值,若數(shù)據(jù)項(xiàng)中的值為0,Nan為空即為缺失項(xiàng),缺失率(缺失項(xiàng)占總體的百分?jǐn)?shù))計(jì)算公式為
(7)
其中L表示目標(biāo)屬性的長(zhǎng)度,num表示目標(biāo)屬性為0的個(gè)數(shù);
5) 經(jīng)過上述對(duì)數(shù)據(jù)的清洗后,計(jì)算數(shù)據(jù)集屬性間的線性相關(guān)系數(shù),公式為
(8)
其中Cov(X,Y)表示X與Y的協(xié)方差,Var(X)表示X的方差,Var(Y)表示Y的方差,X和Y是輸入的屬性特征,最后只保留|r(X,Y)|>0.7,r(X,Y)∈[0,1]的屬性; 由式(8)得到一個(gè)n×n維的下三角相關(guān)性系數(shù)矩陣,其中n為數(shù)據(jù)集屬性個(gè)數(shù).
6) 填充缺失的數(shù)據(jù),數(shù)值型或自定義類型的屬性填充均值或1,object類型的屬性在本屬性的定義域中隨機(jī)選擇.
經(jīng)過處理后可得兩個(gè)數(shù)據(jù)集feature1.csv和feature2.csv,其信息列于表2.
表2 預(yù)處理后的數(shù)據(jù)集信息
該模型將數(shù)據(jù)集按屬性分為兩組(集合S和Z),實(shí)驗(yàn)觀察不同算法在數(shù)據(jù)集Z上的性能,統(tǒng)計(jì)其在該數(shù)據(jù)集中可獲得不確定項(xiàng)集合的大小,選擇其中最佳的搭配方案. 完成上述工作后,提取出之前在訓(xùn)練集上的不確定項(xiàng)進(jìn)行訓(xùn)練,更新MLP回歸模型的邏輯回歸層參數(shù).
構(gòu)建該模型前,先單獨(dú)分析了MLP、隨機(jī)森林、邏輯回歸交叉驗(yàn)證(CLF)和邏輯回歸(LR)算法在feature1數(shù)據(jù)集上的性能,因?yàn)檫@些結(jié)果有助于更好地調(diào)整該模型的結(jié)構(gòu)和參數(shù),最后選擇其中一個(gè)對(duì)MLP回歸模型進(jìn)行優(yōu)化. 在實(shí)驗(yàn)分析中會(huì)在數(shù)據(jù)預(yù)處理后加入PCA算法進(jìn)行對(duì)比. 數(shù)據(jù)統(tǒng)計(jì)結(jié)果表明,CLF算法和PCA算法對(duì)其他算法的最終預(yù)測(cè)結(jié)果具有反作用,所以可考慮在實(shí)驗(yàn)中去掉該流程. 上述各算法在訓(xùn)練集、測(cè)試集及帶有PCA過程的測(cè)試集上進(jìn)行10次預(yù)測(cè)結(jié)果的平均F1值列于表3. 由表3可見,各算法數(shù)據(jù)之間的差別不明顯,所以本文以圖的形式(圖4)顯示它們之間的區(qū)別,為增加數(shù)據(jù)之間的差距,圖4中只顯示F1值超過0.8的部分.
表3 不同算法在訓(xùn)練集和測(cè)試集上的預(yù)測(cè)平均F1值
圖4 不同算法的平均預(yù)測(cè)F1值Fig.4 Average prediction F1 value of different algorithms
優(yōu)化的MLP回歸模型進(jìn)行隱藏層狀態(tài)糾正要用兩種異構(gòu)算法,在MLP回歸模型中,MLP層是經(jīng)典的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其主要解決分類和預(yù)測(cè)相關(guān)的問題,在本文模型中仍使用MLP層處理數(shù)據(jù)集S,探索另外一個(gè)能與MLP層搭配的其他算法. 對(duì)數(shù)值型數(shù)據(jù)集的分析,按無特征提取算法的性能,應(yīng)采取性能較好的邏輯回歸算法. 但在測(cè)試中發(fā)現(xiàn),MLP層搭配邏輯回歸算法的結(jié)構(gòu)不能獲得足夠的不確定項(xiàng),導(dǎo)致無法析出更多的錯(cuò)誤以便于糾錯(cuò)(不確定項(xiàng)集合中幾乎都是錯(cuò)誤項(xiàng)),所以將對(duì)處理數(shù)據(jù)集Z的算法修改為隨機(jī)森林算法,以得到更大的不確定項(xiàng)集合,因此,MLP層搭配隨機(jī)森林算法的結(jié)構(gòu)得到的不確定項(xiàng)最多.
實(shí)驗(yàn)中發(fā)現(xiàn),使用邏輯回歸層的兩個(gè)條件概率都服從Laplace分布,所以penalty設(shè)為l1. 參數(shù)C為正則化系數(shù)的倒數(shù),表示正則化的程度,糾錯(cuò)模型使用的數(shù)據(jù)集,樣本規(guī)模小、隨機(jī)因素大,導(dǎo)致其正則化程度小,所以參數(shù)C應(yīng)設(shè)為1;參數(shù)fit_intercept表示是否存在截距或偏差,通常設(shè)為true;迭代次數(shù)max_iter設(shè)為100,其值越大,代價(jià)函數(shù)收斂程度越高. 模型中MLP層的參數(shù)設(shè)置如下:隱藏層設(shè)為100×200×100,激活函數(shù)為ReLU. 圖5為ReLU,Sigmoid和tanh函數(shù)的曲線. 優(yōu)化器使用L-BFGS,實(shí)驗(yàn)使用的數(shù)據(jù)集有較多的屬性數(shù)量,在每次迭代時(shí)都要存儲(chǔ)近似Hesse矩陣,占用了過多的存儲(chǔ)空間,降低了算法效率. L-BFGS算法是BFGS算法的一種改進(jìn)算法,其只保存最近的m次迭代信息,以降低數(shù)據(jù)的存儲(chǔ)空間,提高算法效率. 使用該優(yōu)化器訓(xùn)練輸入層和輸出層的權(quán)重和偏置.
經(jīng)過上述過程,對(duì)不確定項(xiàng)的預(yù)測(cè)即具備了實(shí)現(xiàn)的前提條件. 本文引入兩個(gè)對(duì)比模型: 模型1為使用原MLP回歸模型中已經(jīng)訓(xùn)練好的邏輯回歸層參數(shù)對(duì)其進(jìn)行預(yù)測(cè),試驗(yàn)結(jié)果表明,預(yù)測(cè)結(jié)果并不理想,準(zhǔn)確率多數(shù)達(dá)不到20%;模型2為將所有訓(xùn)練集中的不確定項(xiàng)作為邏輯回歸層的訓(xùn)練集訓(xùn)練并更新邏輯回歸層的參數(shù),實(shí)驗(yàn)結(jié)果表明,參數(shù)更新后的邏輯回歸層具有良好的預(yù)測(cè)結(jié)果. 圖6為上述兩個(gè)模型的糾錯(cuò)結(jié)果對(duì)比.
圖5 ReLU,Sigmoid和tanh函數(shù)曲線Fig.5 Function curves of ReLU,Sigmoid and tanh
圖6 模型1和模型2糾錯(cuò)結(jié)果對(duì)比Fig.6 Comparison of error correction results of model 1 and model 2
圖7為實(shí)驗(yàn)的最終結(jié)果. 選擇實(shí)驗(yàn)數(shù)據(jù)集feature2進(jìn)行預(yù)測(cè),與數(shù)據(jù)集feature1相比,該數(shù)據(jù)集有更少的數(shù)據(jù)屬性,對(duì)這兩個(gè)數(shù)據(jù)集相同部分的預(yù)處理使用對(duì)feature1數(shù)據(jù)集的處理方法,只保留feature1數(shù)據(jù)集實(shí)驗(yàn)中用到的屬性.
圖7 不同數(shù)據(jù)集上本文算法的實(shí)驗(yàn)結(jié)果Fig.7 Experimental results of proposed algorithm on different data sets
在使用feature2數(shù)據(jù)集的實(shí)驗(yàn)中發(fā)現(xiàn),如果只使用傳統(tǒng)預(yù)測(cè)方法將獲得比初次實(shí)驗(yàn)更低的預(yù)測(cè)率,這是因?yàn)閿?shù)據(jù)集維度的降低導(dǎo)致算法不能更大范圍地提取影響實(shí)驗(yàn)結(jié)果. 但在獲取不確定項(xiàng)過程中卻性能更好,每次測(cè)試都會(huì)得到很多不確定項(xiàng),從而有利于糾正大量的錯(cuò)誤,糾錯(cuò)率較好. 對(duì)于不在不確定項(xiàng)中的錯(cuò)誤預(yù)測(cè)結(jié)果,多是來源于采集數(shù)據(jù)的自身誤差或是數(shù)據(jù)集外的因素,其不屬于因?yàn)閿?shù)據(jù)集特征屬性殘缺帶來的預(yù)測(cè)誤差. 導(dǎo)致這些錯(cuò)誤的因素較復(fù)雜,對(duì)其糾正存在更高的難度,相對(duì)于整個(gè)算法的成本不再具有更高的預(yù)測(cè)價(jià)值.
經(jīng)過一系列的結(jié)構(gòu)調(diào)整和局部算法的參數(shù)修改,得到最終的模型結(jié)構(gòu). 該模型總體的實(shí)驗(yàn)結(jié)果表明,在多種實(shí)驗(yàn)數(shù)據(jù)集中,該算法總能較好地提高最終預(yù)測(cè)效率. 一般情況下,特征完整的數(shù)據(jù)集與非特征完整的數(shù)據(jù)集相比,獲得的不確定項(xiàng)數(shù)目較少. 在實(shí)際數(shù)據(jù)挖掘中,采集的數(shù)據(jù)總會(huì)存在或多或少的殘缺和誤差,從而給不確定項(xiàng)的獲取提供了條件,所以可證明析出不確定項(xiàng)并對(duì)其進(jìn)行改進(jìn)的思路可行(在不同的應(yīng)用領(lǐng)域或數(shù)據(jù)集表現(xiàn)有差別). 圖7是對(duì)該模型在feature1和feature2數(shù)據(jù)集上進(jìn)行15次測(cè)試得到的最終結(jié)果(包括預(yù)處理后使用PCA重要特征提取算法),在產(chǎn)生不確定項(xiàng)前對(duì)MLP層和隨機(jī)森林算法的初次分類結(jié)果在圖7中分別用初次預(yù)測(cè)1和初次預(yù)測(cè)2表示.
綜上所述,相對(duì)基于特征降維的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,本文優(yōu)化模型能更全面地分析實(shí)際問題,獲得更合理的預(yù)測(cè)結(jié)果. 本文模型的改進(jìn)之處是MLP回歸模型的邏輯回歸層不再用于處理全連接層的輸出狀態(tài),而是用于獲取不確定項(xiàng)的預(yù)測(cè)結(jié)果,這些不確定項(xiàng)中包含了一般神經(jīng)網(wǎng)絡(luò)可能忽略的數(shù)據(jù)特征. 對(duì)于數(shù)據(jù)中顯然的特征,都可被MLP回歸模型的全連接層或隨機(jī)森林算分析和處理,只需在輸出位置連接一個(gè)Softmax或Sigmoid分類器即可獲得分類結(jié)果. 在很多較復(fù)雜的分類問題中,因?yàn)榇罅康膶傩蕴卣骶哂绣e(cuò)綜復(fù)雜的相關(guān)關(guān)系,很多神經(jīng)網(wǎng)絡(luò)模型未對(duì)其進(jìn)行完整分析,因此通過某種方式劃分?jǐn)?shù)據(jù)集并獨(dú)立分析是一種較好的方法.