国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的區(qū)域救護(hù)車需求量預(yù)測(cè)模型的比較

2022-10-18 08:45江慧琳伍卓文李雙明羅一洲黃海銓茅海峰伍寶玲陳曉輝
中國(guó)急救醫(yī)學(xué) 2022年10期
關(guān)鍵詞:平均溫度時(shí)間段需求量

劉 佳, 江慧琳, 王 靜, 伍卓文, 李雙明, 曾 睿, 羅一洲, 黃海銓, 茅海峰, 程 琦,伍寶玲, 陳曉輝

院前急救是急診醫(yī)療服務(wù)的第一道防線。當(dāng)前公共衛(wèi)生醫(yī)療服務(wù)面臨著人口老齡化、各種急危重癥發(fā)病率的逐年增長(zhǎng)以及各種突發(fā)自然災(zāi)害、事故災(zāi)害、公共衛(wèi)生事件頻發(fā)的情況,導(dǎo)致院前急救服務(wù)需求不斷增加[1]。在救護(hù)車服務(wù)需求增加和衛(wèi)生資源有限的背景下,及時(shí)預(yù)測(cè)救護(hù)車需求有助于戰(zhàn)略性規(guī)劃配置衛(wèi)生服務(wù)資源以滿足群眾的需求,還可作為管理居民救護(hù)車需求溢出的預(yù)警。在臨床領(lǐng)域中已有許多研究成功地運(yùn)用不同的統(tǒng)計(jì)方法預(yù)測(cè)特定的疾病事件或疾病總例數(shù)等[2-4],主要是運(yùn)用機(jī)器學(xué)習(xí)和傳統(tǒng)統(tǒng)計(jì)方法進(jìn)行預(yù)測(cè),大部分研究結(jié)果都展示出機(jī)器學(xué)習(xí)的預(yù)測(cè)效能要優(yōu)于傳統(tǒng)統(tǒng)計(jì)方法[5-6]。

有許多研究表明,天氣因素對(duì)院前急救需求量有影響,比如溫度[7-8]和PM2.5[9],因此研究所用數(shù)據(jù)有時(shí)間、天氣兩類數(shù)據(jù),時(shí)間數(shù)據(jù)是時(shí)間段數(shù)據(jù),適合用于時(shí)間序列算法模型,所以考慮使用比較成熟穩(wěn)定且使用頻率較多的長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM),同時(shí)選用研究頻率同樣較多的極限梯度提升(eXtreme gradient boosting, XGBoost)分析數(shù)據(jù)進(jìn)行對(duì)比,并進(jìn)行預(yù)測(cè)模型性能評(píng)價(jià),為救護(hù)車需求預(yù)測(cè)預(yù)警提供參考。

1 資料與方法

1.1研究設(shè)計(jì)和地點(diǎn)

本研究是一項(xiàng)回顧性研究,數(shù)據(jù)來源是2009~2018年某大學(xué)附屬醫(yī)院出車急救任務(wù)的120呼叫數(shù)據(jù),呼叫數(shù)據(jù)均從廣州市急救醫(yī)療指揮中心信息系統(tǒng)獲取。本院位于廣州市老城區(qū)之一海珠區(qū),該區(qū)的常住人口106.73萬(wàn)人,60歲以上人口27.48萬(wàn)人。

本研究根據(jù)2009~2018年急救出車數(shù)據(jù)和天氣數(shù)據(jù)數(shù)據(jù)集使用XGBoost和LSTM對(duì)每日救護(hù)車需求進(jìn)行預(yù)測(cè),并進(jìn)行預(yù)測(cè)模型性能評(píng)價(jià)。

1.2數(shù)據(jù)類型

出車數(shù)據(jù):從廣州市急救醫(yī)療指揮中心院前急救調(diào)度系統(tǒng)收集到變量有六轄區(qū)每日院前急救呼叫量;氣溫?cái)?shù)據(jù):從國(guó)家氣象局收集到變量有日最低溫度(℃)、日最高溫度(℃)、日平均溫度(℃)、日平均濕度(%)、日平均風(fēng)速(m/s)、日平均氣壓(hpa)、日平均能見度(km)、日總降水量(mm)、日平均總云量(%)。

納入預(yù)測(cè)模型的自變量包含四個(gè)維度,分別是時(shí)間序列數(shù)據(jù)(星期、休息日)、天氣維度(每日最低溫度(℃)、日最高溫度(℃)、日平均溫度(℃)、日平均濕度(%)、日平均風(fēng)速(m/s)、日平均氣壓(hpa)、日平均能見度(km)、日總降水量(mm)、日平均總云量(%)、救護(hù)車需求量滯后項(xiàng)(當(dāng)前時(shí)間段的前一個(gè)時(shí)間段的需求量、當(dāng)前時(shí)間段的前第二個(gè)時(shí)間段的需求量)、救護(hù)車需求變化量(前兩個(gè)時(shí)間段救護(hù)車呼叫量做差值)。因變量是廣州市六轄區(qū)每日院前急救需求量。將連續(xù)2天及以上沒有救護(hù)車呼叫的數(shù)據(jù)作為缺失數(shù)據(jù),做缺失處理。

1.3研究方法 納入訓(xùn)練和測(cè)試的數(shù)據(jù)包括時(shí)間特征、天氣特征和救護(hù)車需求量滯后特征。在XGBoost中,時(shí)間分解為月、日2個(gè)獨(dú)立的變量,代表其時(shí)間背后的節(jié)假日、氣候等其他因素。在LSTM中,把每日的出車數(shù)據(jù)與天氣數(shù)據(jù)按照日期合并,將合并后的數(shù)據(jù)經(jīng)過數(shù)據(jù)預(yù)處理操作后,搭建LSTM模型訓(xùn)練數(shù)據(jù)并預(yù)測(cè)救護(hù)車需求量結(jié)果。

1.4數(shù)據(jù)預(yù)處理

1.4.1 歸一化處理 將救護(hù)車呼叫數(shù)據(jù)和天氣數(shù)據(jù)按時(shí)間先后順序排列,將呼叫量數(shù)據(jù),進(jìn)行歸一化處理,即呼叫量數(shù)據(jù)統(tǒng)一轉(zhuǎn)化為0~1之間的數(shù)。將數(shù)據(jù)進(jìn)行歸一化處理是模型預(yù)測(cè)過程中的基礎(chǔ),目的是讓不同特征在數(shù)值上有一定比較性,便于比較不同特征[10]。數(shù)據(jù)歸一化處理可以加快運(yùn)算速度并防止迭代運(yùn)算時(shí)的可能溢出,也可在一定程度上提升模型的精度。數(shù)據(jù)歸一化公式:

1.4.2 滯后變量 考慮到疾病發(fā)生具有窗口期,因而救護(hù)車需求會(huì)隨天氣的變化有滯后效應(yīng),而院前急救需求量的數(shù)據(jù)是與時(shí)間序列相關(guān)的,所以有可能上一個(gè)時(shí)間段或更之前的時(shí)間段會(huì)影響到該時(shí)間段,因此考慮生成滯后項(xiàng),讓模型學(xué)習(xí)其中的規(guī)律,生成滯后項(xiàng)的步驟和計(jì)算方法如下。

(1)對(duì)數(shù)據(jù)按時(shí)間序列先后進(jìn)行排序。

(2)生成2個(gè)滯后項(xiàng)(回溯2個(gè)時(shí)間段的需求量),①一階滯后項(xiàng):當(dāng)前時(shí)間段的前一個(gè)時(shí)間段的需求量;②二階滯后項(xiàng):當(dāng)前時(shí)間段的前第二個(gè)時(shí)間段的需求量。

(3)生成1個(gè)需求量變化量 二階滯后差分:一階滯后項(xiàng)與二階滯后項(xiàng)做差值。

本研究所有數(shù)據(jù)均使用Python3.6.7進(jìn)行分析。

1.5模型選擇 將可用數(shù)據(jù)的前70%數(shù)據(jù)作為訓(xùn)練集,后30%數(shù)據(jù)作為驗(yàn)證集,訓(xùn)練集通過使用訓(xùn)練機(jī)制訓(xùn)練模型。考慮到時(shí)間數(shù)據(jù)對(duì)救護(hù)車需求的影響較大,同時(shí)需要加入天氣數(shù)據(jù),因此選擇使用時(shí)間系列模型和回歸模型。

1.5.1 XGBoost XGBoost是一種集成決策樹算法,可以將所有數(shù)據(jù)和特征納入模型且保留記憶,即對(duì)大數(shù)據(jù)的處理能力強(qiáng)且能夠儲(chǔ)存重要的歷史事件并加以標(biāo)記。本研究中XGBoost模型做了如下幾個(gè)優(yōu)化:①XGBoost模型對(duì)損失函數(shù)同時(shí)使用了一階導(dǎo)數(shù)和二階導(dǎo)數(shù),對(duì)損失函數(shù)進(jìn)行二階泰勒公式展開。②XGBoost模型不僅支持以CART決策樹為基礎(chǔ)的分類器,還支持線性分類器。③采用了列抽樣(column subsampling)的方式。④XGBoost模型在特征層面上使用了并行運(yùn)行操作。⑤XGBoost模型對(duì)目標(biāo)函數(shù)添加了正則項(xiàng)。

1.5.2 LSTM LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)算法,通常有3個(gè)階段:忘記階段、選擇記憶階段、輸出階段[11]。本研究中LSTM采用交叉熵作為損失函數(shù),在反向傳播中為降低損失,會(huì)不斷地用學(xué)習(xí)數(shù)據(jù)進(jìn)行迭代更新每個(gè)門以及計(jì)算步驟的權(quán)重系數(shù)W、U、b,從而引起每個(gè)細(xì)胞的細(xì)胞狀態(tài)值進(jìn)行更新變化。在反向傳播的機(jī)制下,依然采用類似神經(jīng)網(wǎng)絡(luò)的梯度下降法來更新各個(gè)參數(shù)的權(quán)重系數(shù)。

1.6模型評(píng)價(jià)指標(biāo)

利用測(cè)試集數(shù)據(jù)進(jìn)行模型的性能評(píng)價(jià),實(shí)際上是對(duì)模型預(yù)測(cè)需求量的準(zhǔn)確性評(píng)價(jià),模型性能通過平均絕對(duì)誤差(mean absolute error, MAE)和平均絕對(duì)百分比誤差(mean absolute percentage error, MAPE)指標(biāo)評(píng)價(jià)。

MAE計(jì)算公式:

MAPE計(jì)算公式:

當(dāng)MAPE<10%時(shí),預(yù)測(cè)具有較高準(zhǔn)確度;當(dāng)MAPE 10%~20%時(shí),預(yù)測(cè)具有良好的準(zhǔn)確度;當(dāng)MAPE 20%~50%時(shí),預(yù)測(cè)是合理的;當(dāng)MAPE>50%時(shí),預(yù)測(cè)是不準(zhǔn)確的[12]。而MAE的值越小則說明預(yù)測(cè)越準(zhǔn)確。

2 結(jié)果

2.1院前急救需求情況

2009~2018年10年救護(hù)車呼叫數(shù)據(jù)共有40 014條,平均每個(gè)月的救護(hù)車需求量在330次左右,日最高呼叫量為42次,日最低呼叫量為0次。10年1月到12月平均救護(hù)車需求量的總體趨勢(shì)是遞增的,見圖1。

圖1 廣州市某大學(xué)附屬醫(yī)院每月平均救護(hù)車需求量

通過用移動(dòng)平均法擬合曲線觀察數(shù)據(jù)變化趨勢(shì),對(duì)比擬合正弦方法的紅色曲線差異,擬合出的藍(lán)線跟紅線差距較大,沒有明顯的規(guī)律性,數(shù)據(jù)集并無(wú)季節(jié)性趨勢(shì)。見圖2。

圖2 廣州市某大學(xué)附屬醫(yī)院救護(hù)車需求量曲線擬合季節(jié)模型

救護(hù)車呼叫時(shí)間段統(tǒng)計(jì)顯示,救護(hù)車需求高峰期在早上8:00~11:00和晚上18:00~21:00,凌晨4:00~5:00的需求量最少。每小時(shí)平均救護(hù)車需求量分布見圖3。

圖3 廣州市某大學(xué)附屬醫(yī)院每小時(shí)平均救護(hù)車需求量分布時(shí)間

2.2氣候變化情況 氣候數(shù)據(jù)共有3968條。廣州市2009~2018年10年的日最低溫度、日平均溫度、日平均總云量和日平均濕度的總體變化趨勢(shì)是一致的。日最低溫度月均值是7月最高,1月最低;平均溫度月均值是7月最高,1月最低;平均總云量月均值最高是4月,最低是10月;平均濕度月均值最高是6月,最低是12月。見圖4。

圖4 廣州市2009~2018年天氣特征每日變化圖

2.3天氣數(shù)據(jù)與救護(hù)車需求量的滯后關(guān)系

為了研究最高溫度、最低溫度和平均溫度對(duì)每日救護(hù)車需求量的滯后影響,采用了阿爾蒙多項(xiàng)式方法,用最小二乘法做的格蘭杰因果檢驗(yàn)來檢驗(yàn)?zāi)P蛢?yōu)劣。具體公式如下:

yt=α+β0Xt+β1Xt-1+β2Xt-2+……+βkXt-k+μt

最高溫度、最低溫度和平均溫度對(duì)每日救護(hù)車需求量的滯后分析都沒有對(duì)出車有明顯影響,見表1~6。

做y關(guān)于Z0、Z1、Z2的OLS回歸,根據(jù)圖1所示的輸出結(jié)果,可計(jì)算出原分布滯后模型的參數(shù)估計(jì)值:α=14.3753,β0=0.05085,β1=0.009255。由R2=0.0052和可決系數(shù)R2=0.0042,可知最高溫度對(duì)每日救護(hù)車出車數(shù)量并無(wú)顯著影響,擬合優(yōu)度較低,說明模型對(duì)樣本的擬合效果不好。

表1 最高溫度對(duì)每日救護(hù)車需求量的滯后分析

根據(jù)表2所示,當(dāng)取滯后階數(shù)為2期時(shí),格蘭杰因果關(guān)系檢驗(yàn)既拒絕了x不是y的格蘭杰原因的假設(shè),也拒絕了y不是x的格蘭杰因果關(guān)系檢測(cè)結(jié)果。

表2 檢驗(yàn)結(jié)果

做y關(guān)于Z0、Z1、Z2的OLS回歸,根據(jù)圖1所示的輸出結(jié)果,由此可計(jì)算出原分布滯后模型的參數(shù)估計(jì)值:α=14.4718,β0=0.0863,β1=0.0036。由R2=0.0060和可決系數(shù)R2=0.0049,可知日平均溫度對(duì)每日救護(hù)車出車數(shù)量并無(wú)顯著影響,擬合優(yōu)度較低,說明模型對(duì)樣本的擬合效果不好。

表3 日平均溫度對(duì)每日救護(hù)車需求量的滯后分析

根據(jù)表4所示,當(dāng)取滯后階數(shù)為2期時(shí),格蘭杰因果關(guān)系檢驗(yàn)既拒絕了x不是y的格蘭杰原因的假設(shè),也拒絕了y不是x的格蘭杰因果關(guān)系檢測(cè)結(jié)果。

表4 檢驗(yàn)結(jié)果

做y關(guān)于Z0、Z1、Z2的OLS的回歸,根據(jù)圖1所示的輸出結(jié)果,由此可計(jì)算出原分布滯后模型的參數(shù)估計(jì)值:α=14.3794,β0=0.0664,β1=0.0052。由R2=0.0051和可決系數(shù)R2=0.0040,可知最低溫度對(duì)每日救護(hù)車出車數(shù)量并無(wú)顯著的影響,擬合優(yōu)度較低,說明模型對(duì)樣本的擬合效果不好。

表5 最低溫度對(duì)每日救護(hù)車需求量的滯后分析

表6 檢驗(yàn)結(jié)果

2.4XGBoost和LSTM模型的預(yù)測(cè)結(jié)果 測(cè)試集中從XGBoost和LSTM模型的每日救護(hù)車需求量預(yù)測(cè)值和真實(shí)值對(duì)比見圖5、6。從表7可得使用XGBoost模型預(yù)測(cè)每日救護(hù)車需求量的MAE值為2.692,MAPE值為24.29%;LSTM模型預(yù)測(cè)每日救護(hù)車需求量的MAE值為2.462,MAPE值為17.47%,因此LSTM預(yù)測(cè)每日救護(hù)車需求的準(zhǔn)確性更高,且MAPE值<20%,說明LSTM模型預(yù)測(cè)具有良好的準(zhǔn)確度。

圖5 極限梯度提升模型測(cè)試集中每日救護(hù)車預(yù)測(cè)值與真實(shí)值對(duì)比

圖6 長(zhǎng)短期記憶網(wǎng)絡(luò)模型測(cè)試集中每日救護(hù)車預(yù)測(cè)值與真實(shí)值對(duì)比

表7 XGBoost和LSTM每日救護(hù)車需求量預(yù)測(cè)性能比較

2.5院前急救需求量模型特征重要性分析 將天氣和滯后項(xiàng)等影響救護(hù)車需求的特征通過XGBoost算法來計(jì)算特征重要性排序。特征重要性是一個(gè)縮放度量,其中日最低溫度對(duì)救護(hù)車需求量影響最大,其余依次為日平均溫度、出車量滯后項(xiàng)2天、出車量滯后項(xiàng)1天等,日總降水量對(duì)救護(hù)車需求量影響最小。見圖7。

圖7 極限梯度提升模型中特征重要性排序

3 討論

本研究揭示了天氣和日期與救護(hù)車需求的相關(guān)性,且日最高溫度、日最低溫度和日平均溫度對(duì)救護(hù)車需求量無(wú)滯后影響,對(duì)模型的預(yù)測(cè)性能影響較大的前三個(gè)變量是日平均溫度、出車量滯后項(xiàng)2天、出車量滯后項(xiàng)1天,提出了基于天氣和日期特征的預(yù)測(cè)救護(hù)車需求模型,研究結(jié)果證明LSTM預(yù)測(cè)模型能較好預(yù)測(cè)區(qū)域救護(hù)車日均需求量。

國(guó)內(nèi)外已有許多研究表明院前急救需求量的影響因素有天氣因素、空氣質(zhì)量因素、社會(huì)經(jīng)濟(jì)因素等等,比如Miyatake等[13]選用各種氣溫參數(shù),即氣溫平均值、最高氣溫平均值、最低氣溫平均值、最高氣溫值,并得出這些氣溫參數(shù)均與救護(hù)車的運(yùn)輸顯著正相關(guān)。Sangkharat等[14]得出,救護(hù)車調(diào)度可以與極端溫度相關(guān),建議將氣象因素納入救護(hù)車預(yù)測(cè)模型。Chen等[15]選用O3、SO2、NO2、CO等污染物指標(biāo),結(jié)果顯示,SO2和NO2、CO與哮喘急救車派遣呈正相關(guān)。對(duì)救護(hù)車需求量預(yù)測(cè)模型研究比較多的是時(shí)間序列模型,如Baker等[16]使用由Winters最初開發(fā)的指數(shù)平滑模型預(yù)測(cè)救護(hù)車需求。而最常用的模型為時(shí)間序列模型,Tandberg等[17]采用時(shí)間序列的方法(移動(dòng)平均線、平滑移動(dòng)平均線和自回歸綜合移動(dòng)平均線)對(duì)連續(xù)兩年救護(hù)車的每小時(shí)運(yùn)行量、總運(yùn)行時(shí)間、日期等數(shù)據(jù)構(gòu)建預(yù)測(cè)模型,預(yù)測(cè)每小時(shí)救護(hù)車的運(yùn)行量,結(jié)果顯示,平滑移動(dòng)平均線模型得出的預(yù)測(cè)是所納入研究的模型中最準(zhǔn)確的。還有研究使用多種預(yù)測(cè)模型進(jìn)行對(duì)比,如Channouf等[18]通過消除趨勢(shì)、季節(jié)性和特殊日子影響后獲得的數(shù)據(jù)自回歸模型和季節(jié)性ARIMA模型預(yù)測(cè)每日的救護(hù)車呼叫量,通過每小時(shí)呼叫量向量的多項(xiàng)式分布和將時(shí)間序列擬合到每小時(shí)級(jí)別的數(shù)據(jù)進(jìn)行對(duì)比預(yù)測(cè)每小時(shí)救護(hù)車呼叫量,結(jié)果顯示,每日呼叫量預(yù)測(cè)模型較好的是自回歸模型,每小時(shí)呼叫量預(yù)測(cè)模型較好的是多項(xiàng)式分布模型。

本研究中使用的LSTM模型對(duì)某大學(xué)附屬醫(yī)院每日救護(hù)車需求量的預(yù)測(cè)價(jià)值優(yōu),因?yàn)長(zhǎng)STM為時(shí)間序列算法模型,相比于XGBoost對(duì)時(shí)間數(shù)據(jù)的學(xué)習(xí)效果更好,而XGBoost作為決策樹模型更難學(xué)習(xí)到時(shí)間序列中的信息,因此LSTM模型更適合預(yù)測(cè)救護(hù)車需求量,且預(yù)測(cè)準(zhǔn)確性也更高。準(zhǔn)確性高的救護(hù)車需求量預(yù)測(cè)模型可以根據(jù)預(yù)測(cè)情況開通合理的調(diào)度席位數(shù),避免出現(xiàn)急救電話呼叫擁擠、等候調(diào)度時(shí)間長(zhǎng)等情況導(dǎo)致急救不及時(shí),并可根據(jù)預(yù)測(cè)量提前制定應(yīng)急方案,此外,還可以根據(jù)預(yù)測(cè)結(jié)果和院前急救資源分布的特征,合理配置院前急救資源,最小化臨床風(fēng)險(xiǎn)。對(duì)急救網(wǎng)絡(luò)醫(yī)院來說可以根據(jù)預(yù)測(cè)情況在需求量高峰期安排充足的急救醫(yī)護(hù)人員和急救藥品等資源,保障患者及時(shí)獲得院前急救服務(wù)。本研究也為日后救護(hù)車需求量預(yù)測(cè)的深入研究提供參考,后期研究可以進(jìn)行特征工程或者增加多中心的研究樣本量以進(jìn)一步提高模型預(yù)測(cè)準(zhǔn)確度。

猜你喜歡
平均溫度時(shí)間段需求量
從數(shù)學(xué)角度看“彈性”
一天中發(fā)胖最快的時(shí)間段 如果能避開,或許不用節(jié)食也能瘦下來
機(jī)組運(yùn)行期間稀釋量淺析
杭州電網(wǎng)最大負(fù)荷與平均溫度的相關(guān)性研究
發(fā)朋友圈沒人看是一種怎樣的體驗(yàn)
“三天后”是啥時(shí)候?
基于非線性規(guī)劃的農(nóng)產(chǎn)品的定價(jià)
氣溫變化對(duì)哈爾濱市呼蘭區(qū)玉米生長(zhǎng)發(fā)育的影響
雨點(diǎn)
寧夏灌區(qū)春小麥葉面積變化的氣象條件分析