国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于梯度提升決策樹的氣體傳感器陣列識別模型研究

2020-10-14 08:34:40董曉睿
中國石油大學勝利學院學報 2020年3期
關(guān)鍵詞:決策樹分類器梯度

董曉睿

(中國石油大學勝利學院 基礎(chǔ)科學學院,山東 東營 257000)

電子鼻系統(tǒng)是近年來工程領(lǐng)域的研究熱點之一,涉及化學、材料、傳感器、模式識別、電子技術(shù)、計算機和應用數(shù)學等多個學科,它包括一組化學傳感器、一個信號處理系統(tǒng)和一個模式識別系統(tǒng),可以對混合氣體中的各種氣體成分進行定性或定量分析。電子鼻系統(tǒng)克服傳統(tǒng)單氣體傳感器在檢測交叉靈敏度等方面的缺點,被廣泛應用于化工、環(huán)保、能源、食品、醫(yī)療、交通運輸?shù)戎T多應用工程領(lǐng)域[1]。傳感器陣列是電子鼻系統(tǒng)的關(guān)鍵,它用于采集氣體類型和濃度的信息,其參數(shù)選擇主要選擇有:傳感器類型、陣列大小和選擇性、穩(wěn)定性、噪聲水平等。傳感器陣列通常由若干離散元件組成,能夠?qū)χ辽僖环N待測氣體的作出反應,響應范圍廣,但對不同種類氣體的響應程度有所不同。傳感器陣列對氣體的檢測過程是可逆的,響應時間和恢復時間要保證盡可能的短,性能要保持穩(wěn)定可靠。如何提高氣體傳感器陣列的穩(wěn)定性、靈敏度和選擇性是重要的研究方向之一。

1 相關(guān)理論技術(shù)

氣體傳感器陣列的性能直接決定電子鼻系統(tǒng)的識別能力、識別距離和使用壽命。Prajapati[2]提出了用于監(jiān)測空氣污染物CO、CO2、NO2和SO2的四元氣體傳感器陣列的設(shè)計方法。Akamatsu[3]提出了一種利用主成分分析(Principal Component Analysis,PCA)對傳感器信號進行分析,增加兩個批量響應傳感器來提高識別能力的方法。Ziyatdinov[4]提出了一種新的基于公共主成分分析的漂移補償方法,該方法在最佳擬合參考氣體的情況下與傳統(tǒng)方法具有相同的性能。Padilla[5]提出了一種正交信號校正(Orthogonal Signal Correction,OSC)算法用于漂移補償,以對抗傳感器老化、記憶效應和環(huán)境干擾。Zhen[6]嘗試使用帶有兩層隱層和決策樹學習的反向傳播神經(jīng)網(wǎng)絡(luò)(Back-Propagation Neural Network,BPNN)來估計揮發(fā)性有機物(VOCs)的濃度??梢?,傳感器陣列性能的提升主要從兩個方面進行:一是提高傳感器本身的性能;二是優(yōu)化模式識別算法。然而這兩種方法都以強規(guī)則的形式對傳感器數(shù)據(jù)進行補償或分析,過分依賴于歷史數(shù)據(jù)和經(jīng)驗,存在較大程度的主觀性。針對這一問題,本次研究提出了一種基于梯度提升樹和信息熵權(quán)特征法的氣體傳感器陣列識別模型,決策旨在自適應補償時間漂移和剔除識別異常信息,同時采用集成學習方法整合多個基分類器以提高氣體傳感器識別精度,該模型在UCI氣體傳感器陣列漂移數(shù)據(jù)集(Gas Sensor Array Drift Dataset,GSAD)上進行了試驗,取得了良好的試驗結(jié)果。

梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)[7]是一種迭代的決策樹算法,可被用來處理分類或回歸任務。GBDT由若干決策樹組成,運用加法模型和前向分布算法,對模型擬合殘差進行修復而逐步趨近最優(yōu)模型。GBDT方法可以減少多種因素之間的冗余程度,對異常值擁有較強的魯棒性。本研究充分利用GBDT魯棒性強、去除異常值和精度高等優(yōu)勢,彌補傳感器的脆弱性引發(fā)的異常信號和時間漂移問題,以提高最終的氣體識別準確度。

熵權(quán)特征法[8]是一種基于信息熵理論的可用于多對象、多指標的綜合評價方法。熵作為度量不確定性信息的一個準則,采用離散的概率分布進行表示,分布越廣表示系統(tǒng)越不穩(wěn)定,越集中表示系統(tǒng)越穩(wěn)定。采用熵權(quán)特征法動態(tài)調(diào)整各傳感器權(quán)值,克服在常規(guī)均權(quán)評價過程中不穩(wěn)定傳感器和異常信號對最終評估結(jié)果的影響。

集成學習[9]是通過構(gòu)建并結(jié)合多個學習器來完成學習任務,可獲得比單一學習器更加顯著的泛化性能,對弱學習器尤為明顯。結(jié)合策略主要有平均法、投票法和學習法等。本研究對不同批次的數(shù)據(jù)訓練得到若干基分類器,在預測環(huán)節(jié)對不同基分類器采用Bagging法[10]進行集成,以增強整體分類器的泛化能力。

2 算法設(shè)計

假設(shè)傳感器陣列S有I個傳感器,每個傳感器有J個檢測項(即特征屬性),si,{j=1,2,…,J}為第i個傳感器檢測項,X為隨機森林模型的輸入向量,Y為模型的理想輸出向量,則

X={x1,x2,…,xj,…,xJ},

(1)

(2)

式中,wij為第i個傳感器第j個檢測項的權(quán)重,其計算公式為:

(3)

式中,ej為第j個檢測項根據(jù)信息論的輸出熵,其計算公式為:

(4)

傳感器數(shù)據(jù)采用Z-score規(guī)范化,如下式所示:

(5)

式中,μ是區(qū)間數(shù)據(jù)均值,σ是區(qū)間數(shù)據(jù)標準差。

采用梯度提升決策樹方法,融合多個CART決策樹模型,通過比較每次迭代的損失函數(shù)梯度,逐步建立高精度模型。選擇交叉熵作為損失函數(shù),可表示為:

(6)

式中,pk是第k類的預測概率。將損失函數(shù)轉(zhuǎn)換到odds,可表示為:

L(yk,F(X))=-yk*log(odds)+log(1+elog(odds)).

(7)

第t輪的第i個樣本對應類別l的負梯度誤差可由下式計算得出:

(8)

進而對樹進行累加,隨著對模型擬合殘差進行修復而逐步趨近最優(yōu)。

最后通過準確率Accuracy、精確度Precision、召回率Recall和F1得分來評價模型的性能,定義為:

Accuracy=(TP+TN)/(TP+FP+FN+TN),

(9)

Precision=TP/(TP+FP),

(10)

Recall=TP/(TP+FN),

(11)

(12)

式中,TP為被判定為正樣本的正樣本數(shù),TN為被判定為負樣本的負樣本數(shù),FP為被判定為正樣本的負樣本數(shù),FN為被判定為負樣本的正樣本數(shù)。

3 試驗與分析

使用UCI氣體傳感器陣列漂移(GSAD)數(shù)據(jù)集[11]作為試驗研究對象。GSAD數(shù)據(jù)集由亞歷山大·維加拉(Alexander Vergara)在2012年創(chuàng)建并捐贈,共包含10批次13910條傳感器化學氣體數(shù)據(jù),數(shù)據(jù)來自于16個化學氣體傳感器,用于識別6種不同濃度的氣體。GSAD數(shù)據(jù)集無缺失值,除batch10數(shù)據(jù)外,batch1到batch9均存在一定程度的數(shù)據(jù)集偏斜,其中batch3、batch4、batch5甚至不包括甲苯數(shù)據(jù)。GSAD數(shù)據(jù)集各批次數(shù)據(jù)的數(shù)據(jù)分布如圖1所示。

圖1 GSAD數(shù)據(jù)集數(shù)據(jù)分布

采用Anaconda(Python 3.7)為開發(fā)環(huán)境,試驗環(huán)境CPU為Intel Xeon W-2145 3.70GHz、內(nèi)存為32GB RAM。試驗首先根據(jù)公式(1)~(4)完成數(shù)據(jù)集的預處理,適當縮減數(shù)據(jù)集的規(guī)模;其次,采用公式(5)完成數(shù)據(jù)標準化,使得處理后數(shù)據(jù)符合均值為0和標準差為1的標準正態(tài)分布;然后,如公式(6)~(8)所示,建立基于梯度提升樹的識別模型,學習率設(shè)為0.01,梯度提升迭代次數(shù)為100,個體回歸估計器最大深度為3;最后,根據(jù)公式(9)~(12)完成模型評價與結(jié)果分析。該模型對GSAD數(shù)據(jù)集的10批次數(shù)據(jù)進行識別分類,試驗結(jié)果如圖2所示。

由圖2可見,該模型對10批數(shù)據(jù)的識別分類任務取得了良好的效果。在處理batch4時,模型的準確率和召回率達到1.0,在處理batch2、batch3、batch6和batch9時,準確率和召回率接近1.0。由圖1可知,batch7和batch10是10個批次數(shù)據(jù)中最具代表性和最大的兩個數(shù)據(jù)集,區(qū)別在于batch10數(shù)據(jù)分布均勻,而batch7數(shù)據(jù)分布不均勻。模型在處理這兩個數(shù)據(jù)集時性能表現(xiàn)也較為穩(wěn)定,幾乎所有指標都在0.9以上。同時,發(fā)現(xiàn)存在某些批次試驗效果不佳,例如在對batch2的識別中,由于數(shù)據(jù)集存在嚴重的偏斜情形,導致模型未能成功識別出甲苯類型的數(shù)據(jù);由于batch1和batch8的數(shù)據(jù)集規(guī)模較小,同時存在一定程度的數(shù)據(jù)集偏斜,導致batch1中的氨和甲苯的識別準確度較低,而對乙烯的識別召回率較低,batch8中的丙酮的識別準確度較低,而對甲苯的識別召回率較低。整體上看本次研究提出的氣體傳感器陣列模型對復雜氣體的識別精度取得較好效果,尤其是在提高氣體數(shù)據(jù)充足的情況下,模型的各指標均較為優(yōu)秀。

4 結(jié)束語

氣體傳感器的使用易受到設(shè)備老化、記憶效應和環(huán)境干擾等因素影響。傳統(tǒng)的傳感器陣列優(yōu)化方法,通常是以強規(guī)則的形式對傳感器數(shù)據(jù)進行補償或分析,過分依賴于歷史數(shù)據(jù)和經(jīng)驗,存在較大程度的主觀性。針對這一問題,本次研究提出一種基于梯度提升樹分類器和信息熵權(quán)的氣體傳感器陣列識別模型,采用熵權(quán)來降低異常信號對最終結(jié)果的影響,以梯度提升決策樹作為主體算法,挖掘數(shù)據(jù)間的潛在規(guī)則,同時輔以集成學習思想來整合多批次傳感器數(shù)據(jù),旨在自適應補償時間漂移和剔除識別異常信息,提高氣體傳感器識別精度,該模型在UCI氣體傳感器陣列漂移數(shù)據(jù)集(Gas Sensor Array Drift Dataset,GSAD)上進行了試驗,取得良好試驗結(jié)果。本次研究所提出的識別模型的設(shè)計與實現(xiàn)方法對相關(guān)領(lǐng)域的研究具有一定的參考價值。

猜你喜歡
決策樹分類器梯度
一個改進的WYL型三項共軛梯度法
一種自適應Dai-Liao共軛梯度法
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
一類扭積形式的梯度近Ricci孤立子
決策樹和隨機森林方法在管理決策中的應用
電子制作(2018年16期)2018-09-26 03:27:06
BP-GA光照分類器在車道線識別中的應用
電子測試(2018年1期)2018-04-18 11:52:35
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
基于決策樹的出租車乘客出行目的識別
基于肺癌CT的決策樹模型在肺癌診斷中的應用
古丈县| 日照市| 景宁| 沧源| 天全县| 虎林市| 瓦房店市| 喀什市| 清流县| 万盛区| 民乐县| 永嘉县| 鄄城县| 孟津县| 隆昌县| 留坝县| 沙坪坝区| 瑞丽市| 江达县| 江安县| 天门市| 那坡县| 永泰县| 房产| 东方市| 松溪县| 社会| 兴文县| 凤凰县| 正镶白旗| 禄丰县| 日照市| 云南省| 巍山| 云霄县| 固原市| 克东县| 光泽县| 宁晋县| 大洼县| 河西区|