張凡,齊平
1.銅陵市疾病預(yù)防控制中心,安徽 銅陵 244000;2.銅陵學(xué)院數(shù)學(xué)與計(jì)算機(jī)學(xué)院
新型冠狀病毒感染(coronavirus disease 2019,COVID-19)是由新型冠狀病毒引起的一種急性呼吸道傳染性疾病,人群普遍易感[1]。COVID-19 病例密切接觸者是指COVID-19 疑似病例或確診病例癥狀出現(xiàn)前2 天開始,或無癥狀感染者標(biāo)本采集前2 天開始,與其有近距離接觸,但未采取有效防護(hù)的人員。由于新型冠狀病毒具有較強(qiáng)的傳染性,密切接觸者感染風(fēng)險(xiǎn)較高,因此及時(shí)發(fā)現(xiàn)和管理密切接觸者是有效控制疾病傳播的重要舉措[2-3]。COVID-19 全球大流行以來,密切接觸者感染影響因素分析受到學(xué)者們的廣泛關(guān)注,然而現(xiàn)有研究中對COVID-19 病例密切接觸者的感染因素分析主要集中于單一因素[4-7],并未考慮多因素之間的交互效應(yīng),難以發(fā)現(xiàn)各因素之間的內(nèi)在聯(lián)系。為此,本研究以銅陵市為例,將隨機(jī)森林算法與多因素交互logistic 回歸模型相結(jié)合,挖掘各因素之間的二次交互效應(yīng),為COVID-19防控提供參考依據(jù)。
1.1 資料來源 通過中國疾病預(yù)防控制信息系統(tǒng)收集銅陵市2022 年3 月14 日—30 日報(bào)告的COVID-19 病例信息,通過流行病學(xué)調(diào)查獲取其密切接觸者資料,收集密切接觸者的人口學(xué)特征、體格特征,與指示病例的接觸地點(diǎn)、接觸方式、末次接觸時(shí)間以及隔離狀態(tài)等信息。通過數(shù)據(jù)整理、清洗,剔除有缺失值、異常值的樣本后,將數(shù)據(jù)集分別按照60%、20%和20%劃分為訓(xùn)練集、測試集和驗(yàn)證集。
1.2 研究變量 對COVID-19 病例及其密切接觸者的調(diào)查信息進(jìn)行預(yù)處理和重新分組,主要研究變量包括:①密切接觸者與其關(guān)聯(lián)病例的密接關(guān)系。包括親屬、同事朋友、師生同學(xué)、醫(yī)患和陌生人。②接觸時(shí)間。指病例發(fā)病后其密切接觸者與該病例接觸的總天數(shù)。③接觸方式。包括共同生活、醫(yī)療護(hù)理、聚餐、日常交談、同乘交通工具和同空間但無直接接觸。④接觸地點(diǎn)。包括家庭、工作場所、娛樂場所、公共場所和交通工具。⑤接觸頻率。包括經(jīng)常(≥3 d/周)、一般(1~2 d/周)和偶爾(<4 d/月)。
1.3 分析方法
1.3.1 分析思路 使用anaconda 3-5.3.1(含python 3.7.0)建立數(shù)據(jù)集,經(jīng)數(shù)據(jù)清洗和預(yù)處理后,保留屬性17 項(xiàng)(年齡、性別、職業(yè)、文化、身高、體重、BMI指數(shù)、鍛煉頻率、核酸檢測結(jié)果、疫苗接種情況、是否服用新冠防治中藥,與關(guān)聯(lián)病例的關(guān)系、接觸地點(diǎn)、接觸頻率、接觸方式、首次接觸時(shí)間、末次接觸時(shí)間),分別進(jìn)行One-Hot 編碼。考慮各影響因素之間的交互效應(yīng),本研究首先采用隨機(jī)森林算法篩選強(qiáng)相關(guān)影響因素,再使用多因素二次交互logistic回歸模型對密切接觸者感染影響因素進(jìn)行分析。
1.3.2 隨機(jī)森林算法 隨機(jī)森林算法是由多個(gè)決策樹構(gòu)成的集成學(xué)習(xí)算法,算法將數(shù)據(jù)集沿著信息熵減小的方向進(jìn)行劃分,選擇信息增益最大的特征作為決策節(jié)點(diǎn),直至數(shù)據(jù)子集不可再分時(shí),將對應(yīng)的分支節(jié)點(diǎn)設(shè)置為葉子節(jié)點(diǎn),從而通過隨機(jī)森林算法篩選出強(qiáng)相關(guān)影響因素[8]。
假設(shè)N為樣本數(shù),M為待選特征數(shù),本研究構(gòu)造決策樹的方法為:①在數(shù)據(jù)集中有放回隨機(jī)選取n個(gè)樣本(n<N)、m個(gè)特征(m<M)構(gòu)造訓(xùn)練集;②根據(jù)OOB(out of bag)評分法[9],從特征子集中選出最優(yōu)特征進(jìn)行分裂,遞歸構(gòu)造k棵決策樹(DT1,DT2,……,DTk);③根據(jù)多棵決策樹共同組成隨機(jī)森林以投票法返回結(jié)果。隨機(jī)森林參數(shù)通過網(wǎng)格搜索進(jìn)行調(diào)整[10],決策樹深度設(shè)置為5,決策樹數(shù)量設(shè)置為500。
1.3.3 多因素交互logistic 回歸模型 在使用隨機(jī)森林算法對初選特征進(jìn)行重要性評分后,按評分排名篩選強(qiáng)相關(guān)特征作為輸入特征代入多因素交互logistic 回歸模型,以更好地挖掘新型冠狀病毒感染的影響因素及因素間的交互效應(yīng),分析數(shù)據(jù)集中COVID-19 病例密切接觸者各屬性與病毒感染情況的關(guān)聯(lián)強(qiáng)度和感染風(fēng)險(xiǎn)。以Y=1表示感染,P(Y=1)表示感染概率,考慮影響因素交互效應(yīng),構(gòu)建多因素交互logistic回歸模型如下:
其中,Xij表示特征Xi和特征Xj相乘得到的交互特征,βij為交互特征Xij的權(quán)重。將隨機(jī)森林模型篩選結(jié)果編碼后,代入多因素交互logistic 回歸模型,采用逐步回歸法篩選變量并計(jì)算結(jié)果。
1.4 統(tǒng)計(jì)分析 使用Excel 2010 進(jìn)行數(shù)據(jù)整理和匯總,計(jì)數(shù)資料的描述使用頻數(shù)或率,計(jì)量資料的描述使用M(Q1,Q3);率的比較采用χ2檢驗(yàn)。使用anaconda 3-5.3.1(含python 3.7.0)對密切接觸者及關(guān)聯(lián)病例數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析和建模;使用scikitlearn 隨機(jī)森林Random Forest Classifier 模塊與logistic 完全二次回歸模型挖掘各因素之間的二次交互效應(yīng)。檢驗(yàn)水準(zhǔn)α=0.05。
2.1 密切接觸者基本情況 本研究共納入COVID-19 病例密切接觸者5 168 例,其中男性2 558 例(占49.50%),女性2 610 例(占50.50%),性別比為1∶1.02;密切接觸者年齡范圍為4~97歲,年齡中位數(shù)為41.0(33.5,53.0)歲。密切接觸者中共有101例轉(zhuǎn)歸為COVID-19病例,其中確診病例4例,無癥狀感染者97例,總感染率為1.95%。見表1。
2.2 隨機(jī)森林法篩選情況 通過隨機(jī)森林特征重要性評估算法[11]得出各影響因素重要性,結(jié)果表明,密切接觸者的接觸方式、接觸頻率、關(guān)聯(lián)病例關(guān)系、接觸地點(diǎn)、關(guān)聯(lián)病例臨床情況、年齡、性別、職業(yè)與密切接觸者是否感染關(guān)聯(lián)較大。見圖1。
圖1 隨機(jī)森林模型對密切接觸者感染影響因素的篩選結(jié)果Figure 1 The results of infection factors in close contacts screened by random forest model
2.3 不同特征密切接觸者感染情況分析 對隨機(jī)森林算法篩選出的8 個(gè)重要性評分較高的影響因素進(jìn)行單因素分析,結(jié)果表明,不同性別、職業(yè)和關(guān)聯(lián)病例臨床情況的密切接觸者感染率差異無統(tǒng)計(jì)學(xué)意義(χ2=0.92、0.47、0.90,P均>0.05),不同年齡、關(guān)聯(lián)病例關(guān)系、接觸方式、接觸地點(diǎn)、接觸頻率的密切接觸者感染率差異均有統(tǒng)計(jì)學(xué)意義(χ2=19.34、26.34、43.55、32.41、49.72,P均<0.05),性別為“女”、年齡為“≤10 歲”、與關(guān)聯(lián)病例關(guān)系為“親屬”、接觸方式為“共同生活”、接觸地點(diǎn)為“家庭”、接觸頻率為“經(jīng)?!钡母腥韭氏鄬^高。見表1。
2.4 多因素交互logistic回歸分析 對單因素分析中有統(tǒng)計(jì)學(xué)意義的因素使用傳統(tǒng)logistic 回歸模型進(jìn)行分析,同時(shí)對篩選的8 個(gè)主效應(yīng)進(jìn)行兩兩交互得到56 項(xiàng)二次交互效應(yīng)并進(jìn)行多因素交互logistic回歸分析。傳統(tǒng)logistic 回歸結(jié)果表明,接觸方式、關(guān)聯(lián)病例關(guān)系和接觸頻率均與感染情況存在正相關(guān)。多因素交互logistic 回歸結(jié)果表明有2 項(xiàng)主效應(yīng)和5 項(xiàng)交互效應(yīng)與感染情況的關(guān)聯(lián)有統(tǒng)計(jì)學(xué)意義。見表2。
2 種模型的準(zhǔn)確率、精確率、召回率和F1 分?jǐn)?shù)分別為76.22%、70.19%、78.89%、73.33%和82.35%、79.48%、82.39%、78.79%,多因素交互logistics 回歸模型的上述指標(biāo)分別提高了8.04%、13.24%、4.44%和7.45%。
將隨機(jī)森林算法與多因素交互logistic回歸模型相結(jié)合,通過隨機(jī)森林算法篩選出與新型冠狀病毒感染相關(guān)的主要影響因素,具有訓(xùn)練速度快的優(yōu)點(diǎn),不僅克服了隨機(jī)森林算法不易進(jìn)行參數(shù)估計(jì)的缺陷,還能夠處理高維數(shù)據(jù),解決了傳統(tǒng)logistic 回歸模型在遍歷交互效應(yīng)時(shí)算法復(fù)雜度較高的問題[12]。
從特征篩選結(jié)果看,性別和職業(yè)重要性評分較低,該結(jié)果和單因素分析中不同性別和職業(yè)密切接觸者的感染率差異無統(tǒng)計(jì)學(xué)意義的結(jié)果一致。在感染情況影響因素的回歸分析方面,傳統(tǒng)logistic回歸的結(jié)果較為宏觀,難以計(jì)算二次交互效應(yīng),而通過多因素交互logistic 回歸,本研究發(fā)現(xiàn)接觸方式為“共同生活”以及接觸頻率為“經(jīng)?!迸c感染情況存在正相關(guān),該研究結(jié)果與遼寧省[5]和廣州市[7]的研究結(jié)果一致;接觸方式為“共同生活”且接觸地點(diǎn)為“家庭”、年齡為“≤10 歲”且關(guān)聯(lián)病例關(guān)系為“親屬”以及關(guān)聯(lián)病例關(guān)系為“同事朋友”且接觸頻率為“經(jīng)?!钡? 項(xiàng)交互效應(yīng)與感染情況呈正相關(guān),接觸方式為“同空間但無直接接觸”且接觸頻率為“偶爾”以及年齡為“>60 歲”且接觸頻率為“偶爾”與感染情況呈負(fù)相關(guān),上述交互效應(yīng)影響因素在國內(nèi)同類研究中尚無報(bào)道,說明多因素交互logistic回歸模型可能在影響因素發(fā)現(xiàn)方面具有全面性和精確性更高的優(yōu)勢。
從模型性能方面進(jìn)行對比,相較傳統(tǒng)logistic回歸模型,多因素交互logistic 回歸模型在準(zhǔn)確率、精確率、召回率和F1 分?jǐn)?shù)等方面均有所提升,說明該模型通過挖掘潛在的交互效應(yīng),能夠較好地捕捉可能存在的低階或高階交互因素,使分析結(jié)果更為準(zhǔn)確。
綜上所述,在疾病防控工作中,應(yīng)用多因素交互logistic 回歸模型能夠深度挖掘疾病相關(guān)影響因素和其交互效應(yīng),從而為精準(zhǔn)定位防控重點(diǎn)人群、提升疾病防控工作效率提供有力支撐。
利益沖突聲明全部作者聲明無利益沖突
作者貢獻(xiàn)聲明張凡負(fù)責(zé)論項(xiàng)目設(shè)計(jì)、資料收集和論文撰寫;齊平負(fù)責(zé)數(shù)據(jù)分析和論文修改