国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

利用衍生特征預(yù)測(cè)新冠疫情的隨機(jī)森林方法

2023-08-15 07:55:32付宇笙王文達(dá)
關(guān)鍵詞:特征值森林新冠

龍 鐵,付宇笙,王文達(dá),費(fèi) 寧

(南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210003)

0 引 言

隨機(jī)森林[1-2]是一種機(jī)器學(xué)習(xí)算法,相較于決策樹(shù),能很好地防止過(guò)擬合;在面對(duì)高維復(fù)雜的數(shù)據(jù)時(shí),能較好地容忍噪聲值和離群值[3];同時(shí)由于它實(shí)現(xiàn)簡(jiǎn)單,學(xué)習(xí)速度快,在天氣預(yù)報(bào)、疾病分析、圖像識(shí)別等眾多領(lǐng)域都得到了應(yīng)用。當(dāng)下新冠肺炎病毒具有高傳染性和高隱蔽性的傳播特性,產(chǎn)生的疫情數(shù)據(jù)繁多復(fù)雜。在分析原始新冠疫情數(shù)據(jù)的基礎(chǔ)上,該文通過(guò)衍生出新的關(guān)鍵特征值,對(duì)原本不均衡的數(shù)據(jù)集分組使用隨機(jī)森林進(jìn)行新冠疫情發(fā)展趨勢(shì)的預(yù)測(cè),從而有效提高整體的預(yù)測(cè)準(zhǔn)確率。

1 相關(guān)研究

當(dāng)前已經(jīng)有許多方法用于新冠疫情的預(yù)測(cè)。常用的預(yù)測(cè)方法概括為兩大類(lèi):(1)基于傳統(tǒng)模型的預(yù)測(cè);(2)基于機(jī)器學(xué)習(xí)的預(yù)測(cè)。

基于傳統(tǒng)模型的預(yù)測(cè)方法主要包括:倉(cāng)室模型[4](SIR和SEIR等)、時(shí)滯動(dòng)力學(xué)模型[5](TDD-NCP等)。在通常的傳染模型中,通過(guò)人群間相互轉(zhuǎn)移的傳播學(xué)機(jī)制建立常微分方程組來(lái)描述疫情的發(fā)展,建立倉(cāng)室模型。時(shí)滯動(dòng)力學(xué)模型在構(gòu)建時(shí)考慮潛伏期對(duì)于傳播時(shí)間的滯后效應(yīng),實(shí)際數(shù)據(jù)的擬合值與預(yù)測(cè)值在傳播初期較容易吻合。此類(lèi)模型對(duì)于特定地區(qū)有著很好的擬合效果,但不同國(guó)家疫情環(huán)境不同,比如人口密度、隔離措施、醫(yī)療條件等,換一個(gè)地區(qū)往往既有模型難以適應(yīng),需要重新調(diào)整,工作較為復(fù)雜。

基于機(jī)器學(xué)習(xí)的預(yù)測(cè)方法主要包括[6]:線性回歸(Linear Regression,LR)、回歸模型(Least Absolute Shrinkage and Selection Operator,LASSO)、支持向量機(jī)(Support Vector Machine,SVM)、指數(shù)平滑法(Exponential Smoothing,ES)以及隨機(jī)森林(Random Forest,RF)等。其中隨機(jī)森林能夠比較好地適應(yīng)高維度數(shù)據(jù),具備較好的抗噪音能力以及免特征選擇等優(yōu)點(diǎn),更適合預(yù)測(cè)新冠疫情發(fā)展趨勢(shì)。在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),隨機(jī)森林雖然能夠?qū)λx新冠疫情數(shù)據(jù)集合做出較好的擬合和預(yù)測(cè),但由于疫情數(shù)據(jù)各地區(qū)差異較大,回歸樹(shù)進(jìn)行判決時(shí)無(wú)法選擇最優(yōu)閾值,從而犧牲了判決的準(zhǔn)確率。

在對(duì)現(xiàn)有傳統(tǒng)模型和機(jī)器學(xué)習(xí)方法研究比較后發(fā)現(xiàn),大多數(shù)研究更重視算法本身的應(yīng)用和性能比較,卻忽視了對(duì)現(xiàn)有數(shù)據(jù)的預(yù)處理。不同數(shù)據(jù)樣本個(gè)數(shù)和特征差異巨大,其中不乏重復(fù)甚至錯(cuò)誤的特征存在。對(duì)于這樣的數(shù)據(jù),進(jìn)行適當(dāng)?shù)念A(yù)處理比如降維或者增加衍生特征會(huì)明顯提高預(yù)測(cè)的準(zhǔn)確性。這正是本研究的切入點(diǎn)和主要貢獻(xiàn)所在。該文使用一種在原有樣本的特征值上進(jìn)行變換和組合的方法,增加了新的特征值。對(duì)于差異較大的特性,通過(guò)篩選出異常數(shù)據(jù)并單獨(dú)進(jìn)行訓(xùn)練,從而更好地處理了異常數(shù)據(jù)干擾的問(wèn)題,得到了較好的泛化性能。

2 設(shè)計(jì)思路

2.1 CART回歸樹(shù)和性能指標(biāo)

(1)

使用均方誤差(Mean Square Error,MSE)最小化得到的最佳參數(shù):

(2)

給每個(gè)葉子節(jié)點(diǎn)賦予相應(yīng)的預(yù)測(cè)值:

(3)

其中,

(4)

式(4)中的∏為布爾類(lèi)型,若樣本落入?yún)^(qū)域則取值為1,若樣本沒(méi)有落入?yún)^(qū)域則取值為0。

遍歷樣本中所有的特征值和不同分割點(diǎn),使得式(3)中平方誤差最小時(shí),則回歸樹(shù)訓(xùn)練完成。

回歸樹(shù)的評(píng)價(jià)指標(biāo)包括平均絕對(duì)誤差MAE1(Mean Absolute Error)和最大絕對(duì)誤差MAE2(Max Absolute Error)[8]:

(5)

(6)

2.2 隨機(jī)森林集成學(xué)習(xí)模型

隨機(jī)森林是采用2.1節(jié)所示的CART回歸樹(shù)作為基本分類(lèi)器的一個(gè)集成學(xué)習(xí)模型,包含多個(gè)由Bagging集成訓(xùn)練得到的決策樹(shù)。預(yù)測(cè)過(guò)程如圖1所示。

輸入樣本數(shù)據(jù)后,根據(jù)閾值訪問(wèn)下一個(gè)子節(jié)點(diǎn),到葉子節(jié)點(diǎn)處結(jié)束,將所有葉子節(jié)點(diǎn)返回的決策樹(shù)預(yù)測(cè)值求平均得到該樣本的預(yù)測(cè)值。

CART回歸樹(shù)訓(xùn)練子集的方式是有放回的抽樣,并且每個(gè)子集的樣本數(shù)量必須和原始樣本數(shù)量一致,但是子集中允許存在重復(fù)數(shù)據(jù)。CART樹(shù)還對(duì)原始數(shù)據(jù)集上的特征屬性進(jìn)行隨機(jī)采樣,但采樣的屬性集是原始特征集的子集。

2.3 數(shù)據(jù)預(yù)處理和特征值選取

該文采用源于GitHub上的Johns Hopkins大學(xué)系統(tǒng)科學(xué)與工程中心提供的美國(guó)疫情相關(guān)數(shù)據(jù)[9-10],并從中人為選取了部分特征,去掉了一些冗余信息。表1列出了該數(shù)據(jù)集的數(shù)據(jù)類(lèi)型和特征。

表1 Johns Hopkins新冠數(shù)據(jù)集特性

其中,Province_State是美國(guó)的州名,Last_Update是前一天數(shù)據(jù)更新的時(shí)間,Confirmed是累計(jì)確診人數(shù),Recovered是累計(jì)治愈人數(shù),Active是現(xiàn)階段的確診人數(shù),Incident_Rate是傳染率,Population是州人口數(shù),Deaths是累計(jì)死亡人數(shù),Dtype表明數(shù)據(jù)類(lèi)型。實(shí)驗(yàn)時(shí)間范圍是2020年9月2日至2020年10月27日,共56天。樣本共有2 708例。

原始數(shù)據(jù)中的Province_State和Last_Update對(duì)預(yù)測(cè)沒(méi)有實(shí)際意義,Deaths也可以從Confirmed和Recovered中推算出來(lái),不是一個(gè)獨(dú)立變量?;诖?從清洗后的數(shù)據(jù)集中選取以下五個(gè)特征,如表2所示。

表2 隨機(jī)森林實(shí)驗(yàn)特征值集

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集的劃分

數(shù)據(jù)集一般劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練集用于訓(xùn)練模型,測(cè)試集用于檢驗(yàn)?zāi)P偷男ЧT谀P徒⒌倪^(guò)程中,由于采用的數(shù)據(jù)跟時(shí)間有明顯的相關(guān)性,因此以數(shù)據(jù)更新時(shí)間(Last_Update)作為組別,對(duì)數(shù)據(jù)按照留一組(leave-one-group-out)的方法來(lái)劃分訓(xùn)練集和測(cè)試集[11],劃分過(guò)程如圖2所示。

圖2 數(shù)據(jù)劃分

其中,D是原始數(shù)據(jù)集,D1是劃分出來(lái)的第一個(gè)訓(xùn)練集,T1是劃分出來(lái)的第一個(gè)測(cè)試集,D1中包含了除T1所在日期外的所有樣本,T1中僅有一天的樣本。如此反復(fù),對(duì)原始的數(shù)據(jù)集進(jìn)行多次劃分,直到所有可能的訓(xùn)練集和測(cè)試集劃分完畢。劃分出來(lái)的訓(xùn)練集和測(cè)試集用于調(diào)整參數(shù)的交叉驗(yàn)證。

模型建立之后,需驗(yàn)證機(jī)器學(xué)習(xí)的效果,在此過(guò)程中,訓(xùn)練集則采用56天中的前49天進(jìn)行訓(xùn)練,選取最后7天作為測(cè)試集進(jìn)行驗(yàn)證。

3.2 模型的建立

表3列出了初始構(gòu)建隨機(jī)森林模型使用的參數(shù)。

表3 隨機(jī)森林部分參數(shù)

依據(jù)表3的隨機(jī)森林參數(shù),獲得的擬合結(jié)果如圖3所示。其中橫坐標(biāo)代表天數(shù),縱坐標(biāo)代表美國(guó)的總死亡人數(shù),可以明顯地觀察到訓(xùn)練集前49天實(shí)際值和擬合值基本吻合,有著較高準(zhǔn)確度。49天以后的實(shí)際值和預(yù)測(cè)值偏差較大,呈下降趨勢(shì)。

圖3 模型未調(diào)參的結(jié)果

常用的超參數(shù)優(yōu)化方法有Grid Search[12](網(wǎng)格搜尋)和Random Search[13](隨機(jī)搜索)。由于隨機(jī)搜尋的優(yōu)化效果不穩(wěn)定,該文采用Grid Search進(jìn)行調(diào)參,對(duì)每一組的數(shù)據(jù)進(jìn)行嘗試,確保得到最佳超參數(shù)組合。

通過(guò)總結(jié)天津職業(yè)技術(shù)師范大學(xué)漢語(yǔ)國(guó)際教育專業(yè)極參與人文社科類(lèi)學(xué)科競(jìng)賽的經(jīng)驗(yàn)教訓(xùn),成敗利鈍,可以看出,人文社科類(lèi)學(xué)科競(jìng)賽對(duì)衡量文科專業(yè)的教學(xué)質(zhì)量而言是非常重要的量化標(biāo)準(zhǔn),對(duì)于提升學(xué)生思想道德水平和人文素養(yǎng)、實(shí)施社會(huì)主義核心價(jià)值觀教育更具有潛移默化的涵養(yǎng)作用。積極組織、引導(dǎo)、培訓(xùn)文科學(xué)生參與到各層次的學(xué)科競(jìng)賽活動(dòng)之中,有利于以教學(xué)相長(zhǎng)的方式推動(dòng)教學(xué)改革工作,提升教學(xué)質(zhì)量,也能有效促進(jìn)高校的思想政治教育的改革與發(fā)展。如何繼續(xù)長(zhǎng)效推進(jìn)思想政治教育與人文社科類(lèi)學(xué)科競(jìng)賽的緊密結(jié)合,完善工作和激勵(lì)機(jī)制,發(fā)揮其更大的平臺(tái)輻射作用,是目前我們繼續(xù)思考和探索的重要課題。

從調(diào)參之后的結(jié)果圖可以看出,調(diào)參的效果不明顯,在49天之后的擬合效果偏差仍然較大。這表明隨機(jī)森林模型對(duì)訓(xùn)練集匹配良好但與驗(yàn)證集差距明顯且參數(shù)調(diào)優(yōu)效果不佳。該預(yù)測(cè)結(jié)果表明,訓(xùn)練過(guò)程可能出現(xiàn)了過(guò)擬合或者現(xiàn)有的數(shù)據(jù)集并沒(méi)有遵循特定趨勢(shì)。

為了驗(yàn)證是否出現(xiàn)了過(guò)擬合的情況,將原訓(xùn)練集進(jìn)一步劃分為訓(xùn)練集和測(cè)試集,測(cè)試集為訓(xùn)練集的子集,并且子集中的樣本為原訓(xùn)練集中隨機(jī)抽取的樣本。對(duì)新的訓(xùn)練集和測(cè)試集用隨機(jī)森林進(jìn)行學(xué)習(xí)和驗(yàn)證,學(xué)習(xí)曲線如圖4所示。

圖4 隨機(jī)森林學(xué)習(xí)曲線

圖中,橫坐標(biāo)代表學(xué)習(xí)的樣本數(shù),縱坐標(biāo)代表驗(yàn)證時(shí)的準(zhǔn)確率。在樣本數(shù)達(dá)到1 200時(shí),測(cè)試曲線基本擬合訓(xùn)練曲線,并且無(wú)論是測(cè)試集或者是訓(xùn)練集都與實(shí)際數(shù)據(jù)有著比較好的吻合效果,這表明模型學(xué)習(xí)效果良好,因此在該樣本集合上的過(guò)擬合的可能性較低。

3.3 差異化處理

針對(duì)圖3建模后49天擬合效果偏差較大這個(gè)問(wèn)題,進(jìn)一步從數(shù)據(jù)樣本分析原因。數(shù)據(jù)分布如圖5所示,從樣本特征值分布圖看出,少部分樣本集中在高人口,高死亡和高確診分布,部分樣本呈現(xiàn)相近確診,相近人口,但死亡人數(shù)差距大的復(fù)雜情況。由此該研究提出差異化處理。

圖5 樣本特征值分布

根據(jù)隨機(jī)森林得到的特征重要性[14-15]如表4所示。

表4 特征重要性

可以發(fā)現(xiàn),累計(jì)確診患者數(shù)(Confirmed)和州人口數(shù)(Population)的重要性最為顯著。表明回歸樹(shù)在劃分子節(jié)點(diǎn)的過(guò)程中,較多使用這兩個(gè)特征進(jìn)行劃分,因此隨機(jī)森林對(duì)這兩個(gè)特征的依賴性強(qiáng)。能夠判斷若兩個(gè)州在累計(jì)確診患者數(shù)(Confirmed)和州人口數(shù)(Population)兩個(gè)特征相似的情況下,擁有差異顯著的死亡人數(shù)d1和d2,回歸樹(shù)在訓(xùn)練過(guò)程中,會(huì)將這兩個(gè)州劃分到一個(gè)葉節(jié)點(diǎn)中,從而輸出平均預(yù)測(cè)值r,r在d1和d2的影響下,只能折中為d1和d2的平均值。因此,r無(wú)論是對(duì)于d1或者是d2而言都具有很高的偏差,從而造成測(cè)試集中出現(xiàn)高偏差的情況。

出現(xiàn)以上情況的原因可以歸為美國(guó)各州的醫(yī)療能力不同,地區(qū)環(huán)境不同,每一天的防控情況不同,因此,部分確診人數(shù)和州人口數(shù)近似的地區(qū)之間在死亡人數(shù)上有巨大差異。此時(shí),需要一個(gè)衡量醫(yī)療能力的指標(biāo),來(lái)體現(xiàn)出差異性,并作為特征值供隨機(jī)森林模型學(xué)習(xí)訓(xùn)練,從而降低誤差,最后達(dá)到泛化處理誤差的效果。

該文將死亡率作為衡量每個(gè)樣本醫(yī)療能力的指標(biāo),死亡率(Death Rate)定義如式(7)所示:

(7)

其中,Rd代表死亡率,D代表死亡人數(shù),C代表確診人數(shù)。根據(jù)每一個(gè)樣本的死亡率劃分醫(yī)療能力等級(jí),不同死亡率的樣本對(duì)應(yīng)醫(yī)療能力等級(jí)范圍為1到n。為了確定最佳劃分的等級(jí)個(gè)數(shù)n以及使最佳等級(jí)劃分閾值t1,t2,…,tn誤差最小,采用迭代劃分的方法遍歷每種組合,尋找最優(yōu)解。等級(jí)個(gè)數(shù)n取值范圍為1到k,k為樣本總個(gè)數(shù)。當(dāng)n=k時(shí),表明每個(gè)樣本的醫(yī)療能力等級(jí)都不同,可以直接使用每個(gè)樣本的死亡率作為衡量防控能力的指標(biāo)進(jìn)行劃分。

圖6是部分不同的n值(2~49)對(duì)應(yīng)平均絕對(duì)誤差MAE1以及最大絕對(duì)誤差MAE2的取值。在圖6中,為了使MAE1的變化更加直觀,將MAE1放大了10倍??梢园l(fā)現(xiàn),在等級(jí)個(gè)數(shù)為39時(shí),得到的MAE1和MAE2最小,因此確定最優(yōu)劃分等級(jí)個(gè)數(shù)為39。

圖6 取不同n值時(shí)MAE1*10和MAE2的取值

根據(jù)劃分出來(lái)的最優(yōu)等級(jí)個(gè)數(shù)39,將數(shù)據(jù)集劃分成39份D1,D2,…,D39,每一個(gè)子數(shù)據(jù)集對(duì)應(yīng)一個(gè)防控等級(jí),對(duì)每一個(gè)子數(shù)據(jù)集建立相應(yīng)的隨機(jī)森林,將建好的隨機(jī)森林進(jìn)行訓(xùn)練。對(duì)于新輸入的測(cè)試數(shù)據(jù)M采取以下步驟方法進(jìn)行預(yù)測(cè):

(1)取最接近M時(shí)間的訓(xùn)練集中的k個(gè)樣本(在本例中k為州的個(gè)數(shù)),作為一天的各個(gè)州的數(shù)據(jù)。

(2)將M的州和k個(gè)樣本中的州進(jìn)行逐一比對(duì),找出和M的州匹配的樣本S。在實(shí)驗(yàn)中州匹配可以由州名直接確定或者由人口數(shù)據(jù)直接匹配,所以步驟1可以忽略。

(3)確定M的醫(yī)療防控能力等級(jí)和S的醫(yī)療防控能力等級(jí)相同,并將該等級(jí)作為M的醫(yī)療防控能力等級(jí)。

(4)用對(duì)應(yīng)的隨機(jī)森林來(lái)對(duì)M進(jìn)行預(yù)測(cè)得到死亡人數(shù)。

采用n=39的情況對(duì)模型進(jìn)行誤差處理,最終的擬合結(jié)果如圖7所示。

圖7 引入衍生特征處理后的擬合結(jié)果

對(duì)比圖3和圖7可以發(fā)現(xiàn),在引入衍生特征差異化處理調(diào)整參數(shù)后,該預(yù)測(cè)方法兼顧了樣本的地區(qū)差異性和時(shí)間差異性,因此能夠起到大幅減小誤差的效果。直觀地表明樣本地區(qū)差異和時(shí)間差異的問(wèn)題得到了較好解決。

4 結(jié)束語(yǔ)

運(yùn)用隨機(jī)森林對(duì)疫情數(shù)據(jù)進(jìn)行了擬合預(yù)測(cè),通過(guò)對(duì)原始數(shù)據(jù)樣本進(jìn)行變換衍生出新的特征值來(lái)更好地區(qū)分樣本,起到縮小隨機(jī)森林預(yù)測(cè)泛化誤差的效果。在對(duì)新冠疫情趨勢(shì)的訓(xùn)練過(guò)程中發(fā)現(xiàn),由于各個(gè)州之間發(fā)展不均衡,醫(yī)療條件相差巨大,無(wú)法作為一個(gè)整體進(jìn)行預(yù)測(cè)。在對(duì)原始數(shù)據(jù)分析的基礎(chǔ)上,衍生出死亡率作為州醫(yī)療條件和防控能力的評(píng)價(jià)標(biāo)準(zhǔn),并以此對(duì)數(shù)據(jù)進(jìn)行分類(lèi)并單獨(dú)建立隨機(jī)森林分類(lèi)學(xué)習(xí)。在預(yù)測(cè)新樣本的死亡數(shù)時(shí),選用訓(xùn)練地區(qū)相近和時(shí)間相近的隨機(jī)森林對(duì)新樣本進(jìn)行預(yù)測(cè),兼顧了各州原有醫(yī)療能力的差異和采取不同防控措施引起的疫情發(fā)展的差異,對(duì)于其他類(lèi)似的疫情預(yù)測(cè)和相近數(shù)據(jù)的差異化預(yù)測(cè)具有一定的參考意義。

猜你喜歡
特征值森林新冠
新冠疫苗怎么打?
一類(lèi)帶強(qiáng)制位勢(shì)的p-Laplace特征值問(wèn)題
單圈圖關(guān)聯(lián)矩陣的特征值
您想知道的新冠疫苗那些事
寧愿死于新冠,也要自由?
珍愛(ài)生命,遠(yuǎn)離“新冠”
哈Q森林
哈Q森林
哈Q森林
哈Q森林
达拉特旗| 闻喜县| 壤塘县| 儋州市| 安西县| 邹城市| 阿荣旗| 荥阳市| 马龙县| 来安县| 盐津县| 阿勒泰市| 永善县| 无极县| 乌兰察布市| 白玉县| 越西县| 全南县| 绵阳市| 建始县| 桐乡市| 广丰县| 西乌珠穆沁旗| 广饶县| 苏尼特左旗| 东丽区| 绵竹市| 崇文区| 子长县| 辉县市| 白朗县| 桐庐县| 科技| 分宜县| 黄梅县| 韩城市| 拜城县| 萨迦县| 简阳市| 宁德市| 新平|