国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于中風(fēng)數(shù)據(jù)的不平衡樣本最優(yōu)化預(yù)測模型

2023-07-04 07:42韓朝怡連高社
關(guān)鍵詞:特征選擇分類器中風(fēng)

韓朝怡,連高社

(太原工業(yè)學(xué)院理學(xué)系,山西太原 030008)

在醫(yī)療診斷、金融欺詐、信息安全、工業(yè)生產(chǎn)異常檢測領(lǐng)域,存在著大量的不平衡數(shù)據(jù),即分類樣本中某一類的樣本數(shù)量遠(yuǎn)小于另一類樣本數(shù)量。面對(duì)不平衡數(shù)據(jù),在應(yīng)用中經(jīng)常需要預(yù)測數(shù)據(jù)的分類問題,機(jī)器學(xué)習(xí)中的分類和預(yù)測算法是主要技術(shù)之一。然而傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法的假設(shè)是訓(xùn)練數(shù)據(jù)集中的各類樣本數(shù)均衡,且錯(cuò)分代價(jià)均等。但是機(jī)器學(xué)習(xí)分類算法在訓(xùn)練不平衡數(shù)據(jù)時(shí),更集中于訓(xùn)練多數(shù)類的樣本,從而降低了少數(shù)類樣本的精度,然而少數(shù)類樣本比例錯(cuò)分的代價(jià)更高。因此,對(duì)現(xiàn)有的不平衡數(shù)據(jù)分類算法進(jìn)行改進(jìn),以提高對(duì)少數(shù)類樣本的分類精度是非常有必要的。

學(xué)者解決不平衡分類問題從以下方面展開,一是數(shù)據(jù)預(yù)處理層面,通過抽樣技術(shù)平衡少數(shù)類與多數(shù)類樣本,LIN W C et al[1]在欠采樣的基礎(chǔ)上融入了K 近鄰規(guī)則,提出了基于聚類的欠采樣算法;NG W W Υ et al[2]將欠采樣方法與靈敏度測度結(jié)合,以保持原數(shù)據(jù)集的分布;Batista G et al[3]融合了SMOTE 與Tome Link 兩種算法,以減弱傳統(tǒng)的混合采樣中存在的樣本噪聲;陶新民等[4]對(duì)多數(shù)類樣本優(yōu)化欠采樣,然后將邊界樣本過采樣,以消除樣本噪聲和重復(fù)信息,提高數(shù)據(jù)的有效性。二是改進(jìn)分類算法,以提高對(duì)少數(shù)類樣本的識(shí)別準(zhǔn)確率,應(yīng)用較為廣泛的分類算法是集成學(xué)習(xí)方法Bagging、Boosting 等[5-7],通過集成多個(gè)基分類器,根據(jù)基分類器地分類結(jié)果按某種規(guī)則投票得到最終的分類結(jié)果。

然而,不平衡的樣本分布也會(huì)造成數(shù)據(jù)集中某些特征分布的不平衡,增加少數(shù)類識(shí)別的誤差,因此,在數(shù)據(jù)預(yù)處理層、分類算法層的基礎(chǔ)上,增加了特征選擇層,通過特征選擇算法,找到影響分類的關(guān)鍵因素,去掉冗余因素,以期提高少數(shù)類的分類準(zhǔn)確度和模型構(gòu)建效率。

以中風(fēng)數(shù)據(jù)集為例進(jìn)行探究,利用傳統(tǒng)的機(jī)器學(xué)習(xí)算法發(fā)現(xiàn)對(duì)于少數(shù)類樣本的預(yù)測精度較低,誤診的代價(jià)很高,因此從數(shù)據(jù)層、特征層、算法層三個(gè)層面構(gòu)建模型,以提高中風(fēng)風(fēng)險(xiǎn)預(yù)測精度。

1 模型架構(gòu)

模型架構(gòu)如圖1:中風(fēng)數(shù)據(jù)集中,中風(fēng)患者比例明顯低于正常人比例,屬于典型的不平衡數(shù)據(jù)集,為對(duì)就診人進(jìn)行中風(fēng)患病風(fēng)險(xiǎn)預(yù)測,從數(shù)據(jù)層、特征層、算法層三個(gè)層面構(gòu)建分類預(yù)測模型。

圖1 模型架構(gòu)圖

1.1 數(shù)據(jù)層

在數(shù)據(jù)層面,由于中風(fēng)數(shù)據(jù)屬于不平衡數(shù)據(jù),最常用的方法為通過采樣技術(shù)平衡樣本數(shù)據(jù)。目前主流的采樣技術(shù)為混合采樣技術(shù),其中少數(shù)類樣本合成技術(shù)(SMOTE)應(yīng)用最為廣泛,其原理為少數(shù)類樣本周圍找到K 個(gè)近鄰樣本,通過線性插值運(yùn)算合成新樣本。然而,SMOTE 采樣容易產(chǎn)生新生成的少數(shù)類與多數(shù)類樣本重疊難以區(qū)分的問題,因而衍生了基于SMTOTE的改進(jìn)采樣方法。

采樣方法為少數(shù)類樣本合成技術(shù)(SMOTE)與聚類算法(KNN)結(jié)合的SMOTEENN 采樣方法。首先基于SMOTE 算法生成少數(shù)類樣本,得到新生成樣本,然后利用聚類算法(KNN)對(duì)新生成樣本進(jìn)行聚類,如在某點(diǎn)的分類結(jié)果與其K 近鄰樣本的聚類結(jié)果相同則保留,否則刪除該新生成樣本,直到得到的少數(shù)類數(shù)據(jù)樣本與多數(shù)類樣本達(dá)到平衡。

1.2 特征層

在特征層面,由于樣本的不平衡會(huì)造成數(shù)據(jù)集中特征分布的不平衡,進(jìn)而影響少數(shù)類識(shí)別的誤差,此外,模型特征太多會(huì)影響模型構(gòu)建和預(yù)測速度,因此,需通過特征選擇算法,去掉冗余特征,找到關(guān)鍵特征。采用的特征選擇算法為基于隨機(jī)森林的遞歸特征消除方法(RFRFE),其基本思想是基于多棵隨機(jī)數(shù)建模,使用袋外數(shù)據(jù)預(yù)測,然后隨機(jī)置換特征的值進(jìn)行重復(fù)建樹,根據(jù)預(yù)測準(zhǔn)確率的平均減少量對(duì)每個(gè)特征進(jìn)行評(píng)分,在遞歸消除特征的過程中,置換重要性低的特征會(huì)被移除,便可找到影響分類的關(guān)鍵特征子集。

1.3 算法層

在算法層面,目前機(jī)器學(xué)習(xí)領(lǐng)域的主流建模方法是集成學(xué)習(xí)算法,其基本思想是通過組合多個(gè)弱分類器,形成強(qiáng)分類器,進(jìn)而提高分類準(zhǔn)確率,而集成算法的主流是Boosting 算法,采用Boosting 算法的分支CatBoost和XGBoost算法。

CatBoost 算法[8]是一種基于梯度提升的集成算法,特點(diǎn)在于,一是可以直接訓(xùn)練類別型特征,二是通過排序提升策略解決梯度提升樹存在的梯度偏移和預(yù)測偏移,以減少過擬合,三是采用對(duì)稱樹為基學(xué)習(xí)器,使用參數(shù)少。XGBoost 算法采用Boosting 思想,通過串行方式產(chǎn)生子樹,使用二階泰勒方法逼近目標(biāo),以加權(quán)方法得到結(jié)果,準(zhǔn)確率更高。

2 模型評(píng)價(jià)指標(biāo)

通過數(shù)據(jù)層、特征層、算法層的訓(xùn)練,可分別得到Catboost和XGBoost的組合模型,需對(duì)兩種分類模型進(jìn)行性能評(píng)價(jià),以找到最優(yōu)化模型。目前,針對(duì)針對(duì)不平衡數(shù)據(jù)的分類模型的典型評(píng)價(jià)指標(biāo)是,基于混淆矩陣計(jì)算的F 值(F-measure)、幾何平均準(zhǔn)則(Gmeans)和接收者操作特征曲線(ROC)。

在不平衡分類建模中,為便于混淆矩陣的表示,將關(guān)注度更高的少數(shù)類定義為正類,多數(shù)類定義為負(fù)類,混淆矩陣如表1:

表1 混淆矩陣

對(duì)于不平衡分類模型的評(píng)價(jià)指標(biāo)包括幾何平均值(Gmeans)、F值(F-measure)、操作者接收曲線(ROC值)。

2.1 幾何平均值(G-means)

G-means 綜合考慮了少數(shù)類和多數(shù)類樣本的分類準(zhǔn)確率,計(jì)算方法為:

2.2 F值(F-measure)

F值計(jì)算公式為:

2.3 接收者操作特征曲線(ROC)

ROC 曲線如圖2,橫坐標(biāo)為假正率FPR=縱坐標(biāo)為真正率ROC曲線越靠近左上角表明分類器效能越好,但是不同分類器ROC 曲線如何比較,就需要用到ROC 曲線下方面積(AUC值),AUC值越大表明分類器分類效果越好。

圖2 ROC曲線示意圖

3 數(shù)據(jù)來源

數(shù)據(jù)源來自公開數(shù)據(jù)集Kaggle 網(wǎng)站中的中風(fēng)數(shù)據(jù)集,共有5110 條數(shù)據(jù),特征信息如表2。其中有249 條中風(fēng)患者,類別標(biāo)簽為1,剩余的4861 條為未中風(fēng)患者,類別標(biāo)簽為0,可見該數(shù)據(jù)集為典型的類別不平衡數(shù)據(jù)集,這與現(xiàn)實(shí)也相符,中風(fēng)事件相對(duì)于正常人群而言是“小概率事件”。數(shù)據(jù)整體質(zhì)量較高,無異常值,存在201條缺失數(shù)據(jù),刪除缺失值后樣本集共剩余4909條有效數(shù)據(jù)。

表2 中風(fēng)數(shù)據(jù)集特征

表3 SMOTEENN算法平衡數(shù)據(jù)集

4 模型構(gòu)建

4.1 數(shù)據(jù)層

由于數(shù)據(jù)集中中風(fēng)患者(Stroke類別為1)與非中風(fēng)人群(Stroke類別為0)樣本不平衡比例高達(dá)22.49,首先需在數(shù)據(jù)層利用混合采用技術(shù),基于Ρython3.7軟件,利用SMOTEENN 抽樣技術(shù),最終生成少數(shù)類樣本——中風(fēng)患者(Stroke 類別為1)的樣本量4389個(gè),將多數(shù)類樣本——非中風(fēng)(Stroke 類別為0)按照KNN聚類算法刪減至3573個(gè),比例為0.81,分類數(shù)據(jù)整體達(dá)到平衡。經(jīng)過采樣處理后得到的平衡數(shù)據(jù)集,再進(jìn)行模型訓(xùn)練,可克服由于數(shù)據(jù)不平衡所造成的分類誤差。

4.2 特征層

在特征層,為找到影響數(shù)據(jù)分類的關(guān)鍵特征,采用隨機(jī)森林遞歸消除法(RFRFE)對(duì)特征的重要性進(jìn)行排序,特征結(jié)果如表4。

表4 隨機(jī)森林遞歸特征消除法

在進(jìn)行遞歸消除的過程中,置換重要性低的特征會(huì)被移除,因此,消除了是否患有高血壓(hypertension)、是否患有心臟?。╤eart_disease)兩個(gè)特征,其余8個(gè)特征進(jìn)入分類算法的模型訓(xùn)練。

4.3 算法層

中風(fēng)數(shù)據(jù)在經(jīng)過數(shù)據(jù)層、特征層處理后,在算法層分別采用CatBoost、XGBoost兩種算法進(jìn)行模型訓(xùn)練,最終選擇模型分類性能最優(yōu)的分類算法進(jìn)行推廣應(yīng)用。進(jìn)一步,為了對(duì)比數(shù)據(jù)層、特征層的處理效果,將“中風(fēng)原始數(shù)據(jù)”作為對(duì)照組,“只進(jìn)行SMOTEENN 采樣”、“SMOTEENN 采樣后進(jìn)行特征選擇”作為實(shí)驗(yàn)組,分別訓(xùn)練CatBoost、XGBoost模型,通過模型性能評(píng)價(jià)指標(biāo),評(píng)估模型的預(yù)測能力和泛化能力,結(jié)果如表5和圖3。

表5 分類算法模型性能評(píng)估表

圖3 各模型的ROC曲線圖

從表5可知,原始數(shù)據(jù)構(gòu)建的CatBoost、XGBoost分類模型在少數(shù)類(即患有中風(fēng))的分類正確率僅為0.11,F(xiàn) 值和G-mean 也很低。如果只在數(shù)據(jù)層SMOTEENN 采樣,不經(jīng)過特征層,CatBoost、XGBoost 分類模型的性能大幅提高。但在經(jīng)過SMOTEENN 采樣和特征選擇后,少數(shù)類分類正確率G-mean、F 值、AUC 值又能有所提高。進(jìn)一步比較分類算法發(fā)現(xiàn),XGBoost 算法比CatBoost 算法的分類性能表現(xiàn)上更好。從圖3 的ROC 曲線可以看到,“SMOTEENN 采樣+特征選擇(RFRFE)+XGBoost”模型的ROC 曲線明顯更陡峭,AUC的值最大。

因此,最終選擇“SMOTEENN 采樣平衡數(shù)據(jù)+隨機(jī)森林遞歸特征選擇法(RFREE)+XGBoost 集成算法”模型作為中風(fēng)風(fēng)險(xiǎn)的最優(yōu)化預(yù)測模型。

4 結(jié)語

基于中風(fēng)不平衡數(shù)據(jù),從數(shù)據(jù)層、特征層、算法層構(gòu)建最優(yōu)化預(yù)測模型,首先,在數(shù)據(jù)層利用SMOTEENN 采樣技術(shù)平衡樣本;其次,在特征層,利用隨機(jī)森林法遞歸特征消除法,找到影響分類的關(guān)鍵特征;最后,在算法層利用CatBoost、XGBoost分類集成算法訓(xùn)練模型,通過模型性能比較,最終得到了“SMOTEENN 采樣+隨機(jī)森林的特征遞歸消除法(RFREE)+XGBoost 分類算法”的最優(yōu)化預(yù)測模型。該模型可根據(jù)就診人的身體狀況進(jìn)行患病風(fēng)險(xiǎn)預(yù)估,為就診人提供身體預(yù)警,同時(shí)也能為醫(yī)生決策提供參考。類似地,可以將中風(fēng)風(fēng)險(xiǎn)最優(yōu)化預(yù)測模型,推廣到疾病類不平衡數(shù)據(jù)集的風(fēng)險(xiǎn)預(yù)測中。

猜你喜歡
特征選擇分類器中風(fēng)
預(yù)防中風(fēng)應(yīng)做到八要八不要
血壓偏低也要警惕中風(fēng)
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
Kmeans 應(yīng)用與特征選擇
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
回藥失荅剌知丸治療中風(fēng)后癡呆的療效觀察
聯(lián)合互信息水下目標(biāo)特征選擇算法
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
中西醫(yī)結(jié)合治療中風(fēng)后偏癱25例