国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

分類提升樹(shù)模型結(jié)合SMOTE技術(shù)在天津浴池MSM人群中的應(yīng)用*

2021-10-09 08:20:00天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系300700宋德勝張?zhí)鹛?/span>姚婷婷張洪璐劉媛媛李長(zhǎng)平
關(guān)鍵詞:原始數(shù)據(jù)集上決策樹(shù)

天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系(300700)宋德勝 張?zhí)鹛?陳 陽(yáng) 姚婷婷 張洪璐 劉媛媛 李長(zhǎng)平 崔 壯 馬 駿

【提 要】 目的 采用logistic、隨機(jī)森林和CatBoost結(jié)合過(guò)采樣技術(shù)(synthetic minority over-sampling technique,SMOTE)技術(shù)對(duì)天津市某浴池MSM人群數(shù)據(jù)構(gòu)建模型以預(yù)測(cè)HIV的感染風(fēng)險(xiǎn),并評(píng)價(jià)三個(gè)模型的分類效果。方法 利用10×10折交叉驗(yàn)證對(duì)模型進(jìn)行訓(xùn)練和預(yù)測(cè),使用網(wǎng)格搜索確定各模型的超參數(shù)。然后使用AUC、accuracy、brier score和F1值對(duì)上述三種模型進(jìn)行評(píng)價(jià)。結(jié)果 在原始數(shù)據(jù)上,三種模型的表現(xiàn)基本一致,但在對(duì)類別比例不敏感的AUC和Brier score上,CatBoost的表現(xiàn)略優(yōu)于其他兩個(gè)模型。CatBoost、logistic和隨機(jī)森林的AUC分別為0.798±0.026,0.792±0.037,0.934±0.040;Brier score分別為0.056±0.001、0.091±0.004和0.054±0.003。使用SMOTE后,CatBoost的性能明顯優(yōu)于其他兩個(gè)模型。在測(cè)試集上,其AUC、accuracy、brier score和F1值分別為0.984±0.003、0.950±0.007、0.040±0.004和0.950±0.007。結(jié)論 可使用Catboost模型預(yù)測(cè)MSM人群中的潛在HIV感染者。

男男同性性行為人群(men who have sex with men,MSM)是目前HIV感染的高發(fā)人群,更是被聯(lián)合國(guó)艾滋病規(guī)劃署(UNAIDS)列為關(guān)鍵人群之一。據(jù)2019年UNAIDS的數(shù)據(jù)顯示,MSM人群及其性伴的HIV感染風(fēng)險(xiǎn)是其他成年男性的22倍。全球范圍內(nèi),每年HIV新發(fā)感染者中約17%是MSM。在我國(guó),艾滋病傳播形式以性傳播為主。在2016年新發(fā)HIV感染者中,MSM人群的比例已超過(guò)26%[1]。多個(gè)省市的調(diào)查數(shù)據(jù)顯示[2-4],MSM人群的HIV感染形式不容樂(lè)觀,且部分?jǐn)?shù)據(jù)顯示,學(xué)生群體中HIV感染人數(shù)有上升趨勢(shì)[5]。當(dāng)前的研究已經(jīng)表明,文化程度、性病、高危性行為、商業(yè)性行為和多性伴是HIV感染的危險(xiǎn)因素[6]。針對(duì)這些因素采取相應(yīng)的措施可以減少HIV在MSM人群中的傳播。出于MSM人群的特殊性,盡管目前已有可靠的檢測(cè)和治療措施,但每年MSM人群的新發(fā)HIV感染患者人數(shù)仍高居不下[7]。因此開(kāi)發(fā)一種可靠的模型來(lái)識(shí)別MSM人群早期感染者以減少病毒在該人群中的傳播迫在眉睫,這可在一定程度上彌補(bǔ)HIV檢測(cè)覆蓋不全的缺陷。

機(jī)器學(xué)習(xí)是近幾年興起一門(mén)新技術(shù)。經(jīng)過(guò)近些年的發(fā)展,它已經(jīng)廣泛應(yīng)用于各個(gè)領(lǐng)域。它的主要任務(wù)是分類和回歸。在進(jìn)行分類任務(wù)學(xué)習(xí)時(shí),經(jīng)常遇到類別不平衡的問(wèn)題,過(guò)采樣技術(shù)(synthetic minority over-sampling technique,SMOTE)是目前解決這類問(wèn)題的常用方法。分類問(wèn)題常用的模型包括logistic模型、決策樹(shù)模型以及后續(xù)伴隨著計(jì)算機(jī)的發(fā)展而興起的bagging算法和boosting算法。bagging算法的典型代表是隨機(jī)森林(random forest,RF);boosting算法的典型代表則是梯度提升決策樹(shù)(gradient boosting decision tree,GBDT)?;谀P偷脑恚疚闹饕x取了線性模型分類器logistic模型、基于bagging的隨機(jī)森林以及基于boosting算法的CatBoost模型來(lái)構(gòu)建分類器,并進(jìn)行了分類效果的比較。

資料和方法

1.研究對(duì)象

本研究收集了2011-2018年天津市浴池浴客的調(diào)查數(shù)據(jù)。選擇每人第一次調(diào)查以及檢測(cè)數(shù)據(jù)。主要收集的數(shù)據(jù)包括浴客的人口學(xué)信息、性行為信息、檢測(cè)信息、藥物使用信息等。

2.研究方法

(1)基本原理

logistic基本原理:二元logistic模型是一種常見(jiàn)的機(jī)器學(xué)習(xí)分類模型[8],由條件概率分布P(Y|X)表示,它是如下的條件概率分布:

隨機(jī)森林基本原理:隨機(jī)森林是一類典型的bagging算法的實(shí)現(xiàn)。它由Breiman于2001年提出[9]。隨機(jī)森林以決策樹(shù)為基礎(chǔ),在訓(xùn)練過(guò)程中利用bootstrap抽樣,從訓(xùn)練集中有放回地抽取一部分樣本用于建立決策樹(shù)。對(duì)于決策樹(shù)的每個(gè)結(jié)點(diǎn),可先從結(jié)點(diǎn)的特征集合中隨機(jī)選取若干特征的子集,然后再?gòu)脑撟蛹羞x擇最優(yōu)的特征用于劃分結(jié)點(diǎn)。通過(guò)樣本的隨機(jī)和特征的隨機(jī)來(lái)減少模型的過(guò)擬合。在分類時(shí),利用“投票”的方式?jīng)Q定觀測(cè)類別。

CatBoost基本原理:CatBoost是俄羅斯搜索巨頭Yandex于2007年提出的提升算法模型[10]。相較于GBDT[11]、XGBoost[12]和LightGBM[13],它在訓(xùn)練之前不需要提前對(duì)類別特征進(jìn)行處理,比如one-hot編碼。在訓(xùn)練過(guò)程中,它使用獨(dú)特的技術(shù)來(lái)處理類別特征,即首先將所有樣本進(jìn)行隨機(jī)排序,然后針對(duì)類別特征中的某個(gè)取值,每個(gè)樣本的該特征轉(zhuǎn)為數(shù)值型時(shí)都是基于排在該樣本之前的特別特征標(biāo)簽取均值,同時(shí)加入了優(yōu)先級(jí)和優(yōu)先級(jí)的權(quán)重系數(shù)以防止過(guò)擬合。計(jì)算公式如下:

在計(jì)算梯度時(shí),與傳統(tǒng)的GBDT不同,CatBoost針對(duì)每個(gè)樣本,都單獨(dú)構(gòu)建一個(gè)利用該樣本之前的樣本點(diǎn)的梯度估計(jì)得到的模型,針對(duì)這些模型,估計(jì)該樣本的梯度,然后利用新樣本重新對(duì)樣本打分。由于上述算法依賴于樣本排序,因此利用多種樣本排序可訓(xùn)練得到多種模型,這樣可以減少過(guò)擬合。

SMOTE基本原理:Japkowicz等針對(duì)不平衡數(shù)據(jù)提出了一種少數(shù)類的過(guò)采樣技術(shù),然而這種技術(shù)并沒(méi)有提供給模型更多信息[14]。為了解決過(guò)采樣的局限性,Chawla等在2002提出一種合成少數(shù)類的過(guò)采樣技術(shù)[15]。SMOTE會(huì)隨機(jī)選擇一個(gè)少數(shù)類實(shí)例A,并找到它最近的k個(gè)少數(shù)類。然后隨機(jī)選擇k個(gè)最鄰近A的少數(shù)類B,連接A與B,從而在特征空間中形成一條線段,進(jìn)而創(chuàng)建若干個(gè)合成的實(shí)例。在含有分類特征時(shí),新合成的樣本實(shí)例來(lái)自于其周圍頻數(shù)最多的類別。

(2)模型訓(xùn)練

針對(duì)原始數(shù)據(jù),使用分層10×10折交叉驗(yàn)證的方式分別訓(xùn)練三個(gè)模型。超參數(shù)則使用網(wǎng)格搜索的方法進(jìn)行確定。logistic模型的超參數(shù)為正則化系數(shù)C;隨機(jī)森林的超參數(shù)為森林包含的決策樹(shù)數(shù)目n_estimators,樹(shù)的最大深度max_depth以及每次bootstrap時(shí),用于訓(xùn)練基學(xué)習(xí)器的最大樣本比例max_samples;Catboost的超參數(shù)為L(zhǎng)2正則化系數(shù)l2_leaf_reg,可構(gòu)建的最大決策樹(shù)數(shù)目iterations,樹(shù)的最大深度depth,貝葉斯bootstrap隨機(jī)權(quán)重bagging_temperature,每次樹(shù)劃分時(shí)使用的特征比例rsm,bagging的抽樣率subsample,使用one-hot編碼最大類別數(shù)one-hot-max。對(duì)原始數(shù)據(jù)進(jìn)行SMOTE后,使用10×10折交叉驗(yàn)證的方式分別訓(xùn)練三個(gè)模型。超參數(shù)與SMOTE之前保持一致。SMOTE前后各模型超參數(shù)設(shè)置搜索范圍如表1所示。

表1 各模型SMOTE前后超參數(shù)搜索范圍

(3)模型評(píng)價(jià)

本研究使用了準(zhǔn)確度(accuracy)、ROC曲線下面積(ROC),F(xiàn)1值和Brier score進(jìn)行評(píng)價(jià)模型在測(cè)試集上的表現(xiàn)。各指標(biāo)的意義如表2所示。計(jì)算公式中,TP表示真陽(yáng)性例數(shù),F(xiàn)P表示假陽(yáng)性例數(shù),TN表示真陰性例數(shù),F(xiàn)N表示假陰性例數(shù),ft表示模型預(yù)測(cè)概率,ot表示觀測(cè)實(shí)際類別。

表2 模型評(píng)價(jià)指標(biāo)說(shuō)明

以上模型的構(gòu)建使用的軟件為Python 3.7.4,圖形繪制使用的軟件為microsoft excel 2019。

結(jié) 果

1.變量說(shuō)明

排除缺失值較多的觀測(cè)后,最終入選浴客5091名,其中新發(fā)HIV感染者346名。模型構(gòu)建過(guò)程中使用的變量如表3所示。

表3 研究中納入的變量

2.模型構(gòu)建

(1)原始數(shù)據(jù)模型構(gòu)建

經(jīng)過(guò)網(wǎng)格搜索后,各模型確定的超參數(shù)如下:

logistic模型:C=0.1;

random forest模型:max_depth=6,max_samples=0.5 ,n_estimators=180;

CatBoost模型:bagging_temperature=9,depth=7,one_hot_max_size=5,iterations=60,rsm=0.5,subsample=0.4,l2_leaf_reg=1

各模型經(jīng)過(guò)10×10折交叉驗(yàn)證以后,模型的構(gòu)建結(jié)果如表4所示。

表4 原始數(shù)據(jù)各模型建模結(jié)果

(2)原始數(shù)據(jù)SMOTE后模型構(gòu)建結(jié)果

經(jīng)過(guò)網(wǎng)格搜索后,各模型確定的超參數(shù)如下:

logistic模型:C=0.7;

random forest模型:max_depth=9,max_samples=0.5 ,n_estimators=30;

CatBoost模型:bagging_temperature=1,depth=10,one_hot_max_size=5,iterations=1250,rsm=0.5,subsample=0.5,l2_leaf_reg=0.03。

各模型經(jīng)過(guò)10×10折交叉驗(yàn)證以后,模型的構(gòu)建結(jié)果如表5所示。

表5 SMOTE后建模結(jié)果

上述各模型在測(cè)試集上的表現(xiàn)如圖1和圖2所示:

圖1 利用原始數(shù)據(jù)構(gòu)建的3個(gè)模型在測(cè)試集上的表現(xiàn)

圖2 SMOTE后三個(gè)模型在測(cè)試集上的表現(xiàn)

3.模型重要性

圖3列出了利用原始數(shù)據(jù)和利用SMOTE技術(shù)后,各模型的變量重要性前8位的變量。

圖3 各模型的變量重要性

討 論

艾滋病目前仍是危害全球公共衛(wèi)生健康的重要疾病。在目前,MSM是HIV感染風(fēng)險(xiǎn)較高的幾類關(guān)鍵人群之一。他們常由于歧視、污名化等原因無(wú)法享受到應(yīng)有的健康服務(wù)[16]。因此,建立一種可靠的模型以識(shí)別MSM人群中HIV感染者十分必要。

此前,已有一些研究利用機(jī)器學(xué)習(xí)技術(shù)來(lái)預(yù)測(cè)在MSM人群中HIV感染的情況[17-18],但其應(yīng)用的算法在訓(xùn)練之前都需要將分類特征進(jìn)行預(yù)處理,比如one-hot編碼等,這在一定程度上增加了訓(xùn)練所需時(shí)間并且損失了分類變量的一些信息。而MSM的問(wèn)卷調(diào)查中分類變量較為常見(jiàn)。因此,為了彌補(bǔ)上述缺點(diǎn),我們使用了Catboost來(lái)預(yù)測(cè)MSM人群中HIV的感染情況。它在訓(xùn)練之前不需要對(duì)分類變量進(jìn)行預(yù)處理。在模型訓(xùn)練過(guò)程中,Catboost直接利用了target statistic的思想來(lái)對(duì)分類變量進(jìn)行處理,以減少分類變量的信息損失。

由于HIV是一種患病率較低的疾病,因此在運(yùn)用機(jī)器學(xué)習(xí)技術(shù)時(shí)會(huì)經(jīng)常遇到類不平衡的問(wèn)題。本研究中,在5091名調(diào)查對(duì)象中,存在346名HIV陽(yáng)性患者,陽(yáng)性人數(shù)與陰性人數(shù)之比達(dá)到1∶13.7。在利用原始數(shù)據(jù)訓(xùn)練時(shí),三個(gè)模型的準(zhǔn)確度都達(dá)到了90%以上,但F1值都小于0.2,這說(shuō)明這種類不平衡的問(wèn)題對(duì)于模型評(píng)價(jià)產(chǎn)生了嚴(yán)重的影響。因此,我們使用SMOTE方法來(lái)解決類不平衡問(wèn)題對(duì)于模型評(píng)價(jià)的影響。在使用SMOTE以后,各個(gè)模型的F1值達(dá)到了80%以上,說(shuō)明該方法有效地解決了類不平衡對(duì)于模型評(píng)價(jià)的影響。

本研究發(fā)現(xiàn),在原始數(shù)據(jù)集上,三個(gè)模型在測(cè)試集上的表現(xiàn)基本一致,但CatBoost在AUC、Brier score這兩個(gè)對(duì)不平衡數(shù)據(jù)不敏感的指標(biāo)上略優(yōu)于其他兩個(gè)模型;而在accuracy和F1值上,其他兩個(gè)模型的表現(xiàn)略優(yōu)于CatBoost模型;在使用SMOTE技術(shù)后,三個(gè)模型的在測(cè)試集上的表現(xiàn)如表5和圖2所示,可注意到,Catboost的表現(xiàn)都明顯優(yōu)于logistic和隨機(jī)森林,且隨機(jī)森林的表現(xiàn)在這三個(gè)模型中最差。這可能是因?yàn)镃atboost充分利用了分類變量的信息,其他兩個(gè)模型都在訓(xùn)練過(guò)程中損失了信息,而logistic的表現(xiàn)優(yōu)于隨機(jī)森林,則可能是因?yàn)槟P蜆?gòu)建所使用的特征與HIV感染存在較強(qiáng)的線性關(guān)系。

本研究中關(guān)于變量重要性的分析結(jié)果顯示,不論是否進(jìn)行SMOTE的敏感性分析,戶籍、婚姻、年齡、文化程度等基本人口學(xué)信息,肛交性行為、異性性行為等性行為信息以及性病、男性性工作者等在模型中較為穩(wěn)定,說(shuō)明上述特征是預(yù)測(cè)浴池MSM人群的HIV感染的重要預(yù)測(cè)因子。這與之前的研究結(jié)果基本一致[6]。因此,研究結(jié)果對(duì)于制定有針對(duì)性的干預(yù)措施,開(kāi)展降低HIV感染風(fēng)險(xiǎn)的健康促進(jìn),減少HIV在MSM人群中的傳播提供科學(xué)依據(jù)。

綜上所述,本研究利用三種理論依據(jù)不同的模型分別對(duì)浴池MSM人群的HIV感染進(jìn)行預(yù)測(cè)建模,針對(duì)其中的類別不平衡問(wèn)題進(jìn)行SMOTE處理,CatBoost的預(yù)測(cè)性能均優(yōu)于其他兩個(gè)模型,通過(guò)實(shí)例數(shù)據(jù)初步論證了CatBoost等機(jī)器學(xué)習(xí)模型結(jié)合SMOTE技術(shù)對(duì)于預(yù)測(cè)和篩選MSM人群中的潛在感染者的適用性,最終促進(jìn)MSM高危人群的早發(fā)現(xiàn)、早診斷、早治療。本研究的局限性在于單中心的抽樣,還需天津市以外的外部數(shù)據(jù)進(jìn)一步驗(yàn)證預(yù)測(cè)模型的泛化能力。

猜你喜歡
原始數(shù)據(jù)集上決策樹(shù)
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
受特定變化趨勢(shì)限制的傳感器數(shù)據(jù)處理方法研究
Cookie-Cutter集上的Gibbs測(cè)度
鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
復(fù)扇形指標(biāo)集上的分布混沌
全新Mentor DRS360 平臺(tái)借助集中式原始數(shù)據(jù)融合及直接實(shí)時(shí)傳感技術(shù)實(shí)現(xiàn)5 級(jí)自動(dòng)駕駛
汽車零部件(2017年4期)2017-07-12 17:05:53
基于決策樹(shù)的出租車乘客出行目的識(shí)別
基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
忻城县| 伊通| 通山县| 临武县| 鄱阳县| 西贡区| 平度市| 东宁县| 英吉沙县| 井研县| 昭觉县| 会昌县| 邮箱| 华容县| 安康市| 永新县| 衡南县| 博兴县| 浠水县| 阿图什市| 青龙| 阿拉善右旗| 云梦县| 徐州市| 措勤县| 海安县| 山阳县| 乐都县| 黎城县| 交口县| 宿松县| 青神县| 偏关县| 荃湾区| 汝南县| 华阴市| 砀山县| 无锡市| 阿荣旗| 吉木萨尔县| 丽水市|