面向時變需求的多等級急診患者入院控制

2022-08-25 08:57王子翔劉玉欣楊之濤

上海交通大學(xué)學(xué)報 2022年8期

急診部擁擠、病床資源緊張的現(xiàn)象在大型三甲醫(yī)院經(jīng)常出現(xiàn)，其原因十分復(fù)雜.首先，急診不能采用預(yù)約機制，在一天的不同時段患者到達速率高度時變且不確定.同時，急診患者的病情繁雜且有輕重緩急區(qū)別.進一步，每個患者占用醫(yī)療資源的時間具有不確定性，例如使用病床等醫(yī)療資源的時間不確定.這些復(fù)雜因素給急診部服務(wù)管理和調(diào)度造成困難.

搶救室是急診部的核心科室，而床位是搶救室最關(guān)鍵的資源，其使用的科學(xué)性與否直接影響對患者的救治是否及時、是否能做到對患者“應(yīng)收盡收”的醫(yī)療原則.因此，急診部需要在預(yù)診時對患者病情進行分級，對病情嚴(yán)重的患者優(yōu)先接收；對病情相對不緊急的患者根據(jù)資源占用情況選擇性接收，即進行科學(xué)的入院控制.本文稱前者為“危重患者”，后者為“非危重患者”.搶救室床位資源有限，如何通過合理的手段，對不同等級的患者加以控制，以提高患者健康回報和醫(yī)院收益，是搶救室面臨的重要問題.由于搶救室患者一般允許的等待時間很有限，所以當(dāng)患者到達時需要實時決定是否接收.但是現(xiàn)實中做出科學(xué)實時的入院控制決策具有很大的難度，這是由于后續(xù)患者的到達、患者占用資源的時間都是高度不確定的，接收過多非危重患者導(dǎo)致床位不足，將可能影響后續(xù)危重患者的接收；接收過少則可能造成床位資源利用率不高，影響整體的醫(yī)療服務(wù)質(zhì)量和收益.因此，搶救室需要科學(xué)的患者入院控制方法和策略，以提升整體運行和服務(wù)水平.

搶救室入院控制是醫(yī)療服務(wù)準(zhǔn)入控制問題的典型場景之一.醫(yī)療服務(wù)準(zhǔn)入控制是指針對待服務(wù)患者，對醫(yī)療資源(床位、檢查設(shè)備等)進行動態(tài)分配調(diào)度，確定何種患者在什么時間可以獲得醫(yī)療資源和服務(wù)，其主要研究方法包括Markov決策過程(MDP)、隨機規(guī)劃和近似動態(tài)規(guī)劃等，其主要對象分為對非預(yù)約患者和預(yù)約患者的準(zhǔn)入控制.首先，很多文獻對非預(yù)約患者進行了服務(wù)準(zhǔn)入控制研究.文獻[1]針對突發(fā)事件后的入院控制問題，考慮時變的到達率和獎勵函數(shù)，建立連續(xù)時間MDP模型，并通過狀態(tài)離散化的方式進行求解.文獻[3]考慮質(zhì)子治療場景下治療組合的比例約束，通過聚合MDP模型，求解獲得近似最優(yōu)的患者入院策略.文獻[5]為提高資源利用率和降低服務(wù)成本兩方面的目標(biāo)，提出了雙目標(biāo)隨機優(yōu)化模型，在不確定的需求和能力下取得資源利用率和服務(wù)成本之間的最優(yōu)均衡.文獻[4]針對不同緊急程度患者的入院控制問題，提出了一種配額策略，在獲得需求信息之前決定最大日接納量，并證明在特定條件下該策略等價于已知需求信息的最優(yōu)策略.文獻[8]考慮緊急患者和預(yù)約患者競爭的入院控制問題，證明了最優(yōu)配額策略呈現(xiàn)單調(diào)性.文獻[2]則研究患者到達及病情演變均不確定條件下的入院控制問題，建立資源動態(tài)分配的MDP模型，并通過粒子群算法進行求解.文獻[9-11]進一步考慮了重癥監(jiān)護室場景，在拒絕新來患者和讓患者提前出院之間取得平衡.

除了隨機非預(yù)約到達患者，目前對預(yù)約患者的準(zhǔn)入控制也有較廣泛研究，主要包括對患者的預(yù)約調(diào)度和手術(shù)擇期等研究.對于醫(yī)療檢查資源的預(yù)約調(diào)度問題，文獻[12]考慮爽約率和到達率不同的多類患者，利用分層算法框架求解.文獻[7]針對擇期手術(shù)決策問題，通過近似動態(tài)規(guī)劃求解，仿真顯示算法結(jié)果使得醫(yī)療系統(tǒng)運行效果得到改善.文獻[13]針對擇期患者入院控制問題，建立混合整數(shù)規(guī)劃模型，求解多種資源、多個時間段和多類患者的準(zhǔn)入控制問題.文獻[14] 針對多臺設(shè)備多類患者場景的檢查資源預(yù)約調(diào)度問題建立MDP模型，求解使得收益最大化.

凈壓力決定裂縫的寬度，長度、高度，壓裂施工中裂縫的凈壓力隨地應(yīng)力差的增加而增大，理想的裂縫高度是壓裂目的層的厚度，實際上裂縫高度完全取決于壓裂目的層的凈壓力與其上下隔層的應(yīng)力差。一般認為，如果該壓差大于5 MPa會對裂縫的垂向延伸起遮擋作用，凈壓力與隔層應(yīng)力差小于5 MPa壓竄頂板的風(fēng)險加大，壓竄頂板后裂縫沿著頂板水平延伸影響鄰井產(chǎn)氣量。

本文主要采用MDP方法進行患者準(zhǔn)入研究.雖然如上所述的MDP方法已經(jīng)在相關(guān)問題得到了運用，但本研究的搶救室準(zhǔn)入控制問題和以上文獻有顯著區(qū)別，針對搶救室這個具體場景下的準(zhǔn)入控制問題，本文的研究對象和基本假設(shè)都有別與已有研究.

(1) 傳統(tǒng)基于MDP的患者準(zhǔn)入研究假設(shè)提前設(shè)定了決策時刻或時間槽長度，如每隔10 min決策一次，兩個決策時刻之間(10 min長度內(nèi))不做任何決策，以簡化模型和求解.而本文突破以上設(shè)定，允許時段內(nèi)發(fā)生多個事件且進行多次決策，即患者到達時立即根據(jù)系統(tǒng)狀態(tài)做出相應(yīng)的決策，更加符合搶救室的實際運行需要.

(2) 傳統(tǒng)MDP患者準(zhǔn)入控制模型設(shè)定系統(tǒng)只有在決策時刻才會發(fā)生狀態(tài)變化.因此需要對系統(tǒng)的隨機特征加以近似和限定，例如一般假設(shè)服務(wù)時間雖然是隨機量，但是離散為時間槽的整數(shù)倍.本文的MDP模型中突破此約束，允許各個隨機量具有連續(xù)隨機性，更加符合實際的隨機特點.

(3) 傳統(tǒng)MDP模型由于設(shè)定了特定的決策時刻，為了獲得好的效果必然要求決策時刻密集，且對每個決策時刻均求解出一個決策策略，因此最終得到很多決策策略.本文突破此模式，針對一個較長時段求解得到統(tǒng)一策略且不限制決策時間，如此更好滿足了急診搶救室運作管理的需要，提高了研究成果實施可行性.

1 問題與模型描述

若危重患者出院，轉(zhuǎn)移后狀態(tài)為′=(,, 2)，轉(zhuǎn)移概率為(+1)；若非危重患者出院，′=(+1,-1, 2)，轉(zhuǎn)移概率為

這里的A和B是為了方便表示,分別指信標(biāo)節(jié)點和普通接收節(jié)點.令A(yù)在t2n-1時刻的坐標(biāo)為PA(t2n-1),B收到廣播信號的時刻是T2n,相對于A的實際時刻是t2n,這里dAB(t2n-1-t2n)= ‖PA(t2n-1)-PB(t2n)‖.

(1) 急診室床位總數(shù)為，每個床位可視為此服務(wù)系統(tǒng)中的“服務(wù)臺”.

(5) 根據(jù)合作醫(yī)院提供的數(shù)據(jù)統(tǒng)計擬合，設(shè)定兩類患者的醫(yī)療服務(wù)時間，即其占用床位的時間，分別服從給定參數(shù)為和的指數(shù)分布.

(3) 兩類患者到達速率的時變性質(zhì)，參考現(xiàn)有文獻[16]，將一個較長決策期等分為個時段，每個時段長度為.例如合作醫(yī)院的數(shù)據(jù)中=24，為1 h.

(2) 患者實際病情復(fù)雜多變，根據(jù)我國衛(wèi)生部2011年發(fā)布的急診病人病情分級指導(dǎo)原則，急診患者可分為4個等級，其中需進入搶救室搶救的患者可分為兩個嚴(yán)重等級，本文稱為危重患者和非危重患者.

(6) 采用合作醫(yī)院的基本收治規(guī)則，即當(dāng)系統(tǒng)有床位空閑時，若危重患者到達，則必須本著“應(yīng)收盡收”的原則加以接收，分配床位；若非危重患者到達，則可以接收，也可以拒絕接收.當(dāng)床位已滿時，就不再接收任何患者.

(7) 假設(shè)接收患者會產(chǎn)生確定的正收益，拒絕患者則會產(chǎn)生相應(yīng)的負收益.接收一位危重患者和非危重患者的收益分別為和；拒絕一位危重患者和非危重患者的損失分別為和注意此處的收益并非僅指經(jīng)濟收益，而是考慮了患者救治難度、患者轉(zhuǎn)院風(fēng)險、醫(yī)院經(jīng)濟收益以及社會責(zé)任等因素的綜合性指標(biāo).

本研究尋找科學(xué)的策略集合，使得時變需求下患者的入院控制問題最優(yōu)，即求解每個時段的患者入院控制策略，在每個時段內(nèi)使用對應(yīng)的最優(yōu)策略，以實現(xiàn)一個較長時域內(nèi)(例如24 h)總收益最大化.在一個時段內(nèi)患者隨機連續(xù)到達，患者每次到達需要實時決策，這造成本問題中一個時段內(nèi)雖然策略是確定的，但是決策的時間點和次數(shù)不確定.同時，本文放棄了類似研究常用的“時間槽”概念，設(shè)定患者的到達是隨機且速率時變的，每次到達實時決策，這樣的設(shè)定更加符合實際情況，同時也更加具有挑戰(zhàn)性.

以上決策問題可以通過有限期無折扣的MDP模型來描述.本文建立的MDP模型主要包括4個元素，即系統(tǒng)狀態(tài)、決策集合、狀態(tài)轉(zhuǎn)移概率和收益評估.

◎沒超過39℃可以不用退熱藥，自己在家觀察、物理降溫就可以了。超過39℃要就醫(yī)，預(yù)防高熱驚厥，一定要使用退熱藥。一般用布洛芬（美林）。對乙酰氨基酚（百服嚀、泰諾林），別名撲熱息痛，也是可以用的，WHO也是推薦使用，但中國乙肝高發(fā)，所以在中國建議1歲以下慎用。

1.1 系統(tǒng)狀態(tài)

定義系統(tǒng)狀態(tài)為=(,,)，、分別為當(dāng)前系統(tǒng)中危重患者和非危重患者數(shù)量；為系統(tǒng)當(dāng)前事件性質(zhì)，取值0，1，2分別表示“危重患者到達”“非危重患者到達”和“無患者到達”，其中“無患者到達”包括“患者出院”和“系統(tǒng)自轉(zhuǎn)移”(系統(tǒng)自轉(zhuǎn)移見下文13節(jié)定義)兩類事件考慮到系統(tǒng)人數(shù)不超過，因此狀態(tài)總數(shù)為

(1)

1.2 決策集合

考慮患者到達時的決策包括“接收”和“拒絕”.根據(jù)本文假設(shè)，在某些狀態(tài)下，其對應(yīng)決策集只有一個決策，如床位占滿時，只能拒絕患者；有空床且危重患者到達時，只能接收.需要指出，無患者到達時，無需進行決策，即定義為 “空決策”，不產(chǎn)生收益或損失.綜上，定義決策集為={0, 1, 2}，其中0表示拒絕患者，1表示接收患者，2表示空決策若一個時段內(nèi)各個狀態(tài)對應(yīng)的決策均確定，則稱該時段策略確定，任意狀態(tài)對應(yīng)決策()可由該策略給出，即對任意有() =()

1.3 狀態(tài)轉(zhuǎn)移概率

相關(guān)MDP文獻一般是將決策期劃分為多個等長的時間槽，假設(shè)事件發(fā)生的時間間隔是離散隨機，即為時間槽的整倍數(shù)，從而將模型簡化為決策時刻和系統(tǒng)狀態(tài)轉(zhuǎn)移均只發(fā)生在每個時間槽端點.但由于本研究中患者到達時間和服務(wù)時間均為連續(xù)隨機變量且需要實時決策，所以，使用均勻化方法將系統(tǒng)事件發(fā)生時間離散化.對于一個連續(xù)時間馬爾科夫鏈，令表示其最大轉(zhuǎn)移速率，則系統(tǒng)在時段內(nèi)發(fā)生事件數(shù)量()服從參數(shù)為的泊松分布，例如，發(fā)生事件數(shù)量為的概率為

(2)

那么，若系統(tǒng)當(dāng)前狀態(tài)為，發(fā)生一次事件后轉(zhuǎn)移到的概率為

(3)

式中：為系統(tǒng)從狀態(tài)到狀態(tài)的轉(zhuǎn)移速率當(dāng)=時，表示狀態(tài)不發(fā)生改變，即系統(tǒng)自轉(zhuǎn)移.

針對本文研究的系統(tǒng)，其最大轉(zhuǎn)移速率可定義為

(4)

危重患者到達且接收，即=0，=1

本文則在對企業(yè)戰(zhàn)略管理、企業(yè)總體經(jīng)營戰(zhàn)略、企業(yè)生命周期等相關(guān)理論進行總體簡單概述的基礎(chǔ)上，結(jié)合河南省許昌市胖東來商貿(mào)集團由創(chuàng)業(yè)期轉(zhuǎn)向企業(yè)成長期以及企業(yè)成長后期這兩次經(jīng)營戰(zhàn)略調(diào)整的經(jīng)驗教訓(xùn)，提出了企業(yè)的首要發(fā)展目標(biāo)是成為一個長壽企業(yè)，而非把企業(yè)做大做強，即企業(yè)首先要致力于成為一個500年的企業(yè)，而非成為世界500強。文章在此觀點上，進一步提出了企業(yè)實現(xiàn)長期可持續(xù)發(fā)展的一些對策和建議。

黏土磚必須在砌筑前1 d澆水濕潤，一般以水浸入磚四邊1.5 cm為宜，含水率為10%～15%。常溫下施工不得干磚上墻，雨季不得使用含水率達飽和狀態(tài)的磚砌墻。

該決策的條件為+<接收患者后，=(+1,, 2)接收后，可能發(fā)生的隨機事件如下.

首先考慮單步收益，即在某一狀態(tài)下做一次決策所能獲得的收益.對于同類型患者，接收或拒絕的收益是確定而唯一的.若時段狀態(tài)=(,,)采取的決策為，則一次決策后的單步收益可以記為

(2) 患者出院.

本文聚焦急診搶救室床位資源，研究如何通過科學(xué)的手段，將有限的床位分配給不同等級的患者，即當(dāng)患者到達搶救室時，按照何種策略決定是否接收該患者，以提高對患者的服務(wù)水平并提升醫(yī)院的綜合收益.針對急診搶救室入院控制問題，本文根據(jù)合作醫(yī)院的調(diào)研情況和實際數(shù)據(jù)做出以下幾點假設(shè).

(3) 自轉(zhuǎn)移.

綜上，該場景下狀態(tài)轉(zhuǎn)移概率可由下式表示：

(′|,)=

(5)

非危重患者到達且接收，即=1，=1

該決策的條件為+<接收患者后，=(,+1, 2)接收后，同上分析可得該條件下的狀態(tài)轉(zhuǎn)移概率為

(′|,)=

(6)

患者到達，決策為拒絕或無患者到達，即=0或= 2

對于危重患者到達，該決策的條件為+=；對非危重患者，決策條件為+≤；無患者到達時，采取空決策決策后狀態(tài)均為=(,, 2)拒絕后，同上分析可得該條件下的狀態(tài)轉(zhuǎn)移概率為

(′|,)=

(7)

對其他未討論情況，有(′|,)=0.

以上為發(fā)生一次事件時的單步狀態(tài)轉(zhuǎn)移，而當(dāng)時段內(nèi)策略確定，即每個狀態(tài)對應(yīng)的決策隨之確定，場景1～4的單步狀態(tài)轉(zhuǎn)移可表示為二維狀態(tài)轉(zhuǎn)移矩陣；給定時段初狀態(tài)分布(即處于各狀態(tài)的概率)= [,1,2…,]后，若該時段發(fā)生事件數(shù)為，則時段末狀態(tài)分布為()，而根據(jù)均勻化方法，發(fā)生事件數(shù)服從泊松分布，由此可利用函數(shù)(,)計算時段末的系統(tǒng)狀態(tài)如下：

(8)

在系統(tǒng)狀態(tài)+1中，狀態(tài)對應(yīng)的概率+1, 記為(|,)，即時段狀態(tài)轉(zhuǎn)移概率，表示時段初系統(tǒng)狀態(tài)分布為，采用策略，+1時段初處于狀態(tài)的概率由于當(dāng)事件數(shù)較大時，其發(fā)生概率e-()!接近于0，在數(shù)值實驗中將其截斷，給定事件數(shù)上限，從而只對∈[0,]求和即可，下文類似.

此處引入狀態(tài)分布是必要的，一方面是均勻化方法的需要，另一方面，本文目標(biāo)為求解每個時段的患者入院控制策略，即該時段每個狀態(tài)的最優(yōu)行動.經(jīng)典的MDP僅需要分別確定每個狀態(tài)的最優(yōu)行動，不需要同時考慮其他狀態(tài).然而本文場景下，時段內(nèi)決策次數(shù)不確定，在時段內(nèi)可能轉(zhuǎn)移到其他任何狀態(tài).如果分別從每個狀態(tài)出發(fā)計算策略，則可能在不同的狀態(tài)下得到不同的策略，這與本文要求沖突.因此，需要在時段開始設(shè)定狀態(tài)的分布，利用分布計算并得到時段的唯一最優(yōu)策略.

1.4 收益評估

經(jīng)典MDP模型為每個決策時刻確定最優(yōu)策略，不同決策時刻策略往往不同.本文是為每個時段確定最優(yōu)策略，即本時段內(nèi)每當(dāng)患者到達搶救室，均采用此策略決策，最終實現(xiàn)決策期(個時段)內(nèi)總的收益最大化.由于每個時段內(nèi)的決策時刻和決策次數(shù)是不確定的，因此，本文在決策時所考慮的收益也區(qū)別于經(jīng)典MDP，經(jīng)典MDP考慮一次決策后獲得的“單步收益”，而本文需要考慮一個時段內(nèi)“多次決策的總收益”.本文通過均勻化方法進行收益評估.

(1) 患者到達.

(9)

文獻中一般是將決策期劃分為多個固定長度的時間槽，假設(shè)事件的決策時刻均在時間槽端點，進而最大化逐點的收益之和.在本文研究的場景下，系統(tǒng)事件發(fā)生的時間間隔是連續(xù)隨機的，不一定為時間槽的倍數(shù)，因此需要對收益評估做出調(diào)整.給定時段初狀態(tài)分布，當(dāng)該時段策略確定，單步狀態(tài)轉(zhuǎn)移矩陣確定，由式(9)可知，每個狀態(tài)在決策后能夠獲得的單步收益也隨之確定，記為向量= [,1,2…,]若時段內(nèi)系統(tǒng)未發(fā)生轉(zhuǎn)移，則收益為0；否則，系統(tǒng)發(fā)生第(>0)次轉(zhuǎn)移后的收益可表示為()-1，則根據(jù)均勻化，時段內(nèi)的總收益可通過函數(shù)(,)計算如下：

=(,)=

(10)

1.5 經(jīng)典有限期MDP模型對比分析

以上構(gòu)建的MDP模型與經(jīng)典有限期MDP患者準(zhǔn)入控制模型存在著顯著區(qū)別.① 經(jīng)典MDP模型存在確定的決策時刻，而本模型的決策時刻為患者隨機的到達時刻，更加滿足實時決策的需要；② 經(jīng)典MDP考慮相鄰決策時刻之間的單步狀態(tài)轉(zhuǎn)移，本模型考慮逐時段之間的狀態(tài)轉(zhuǎn)移，且是基于均勻化計算狀態(tài)分布之間的轉(zhuǎn)移；③ 經(jīng)典MDP通過對每個決策時刻收益累加計算總收益，本模型則通過均勻化累加每個時段收益來計算總收益；④ 經(jīng)典MDP 模型通過確定每個決策時刻的策略來最優(yōu)化目標(biāo)，而本模型通過確定每個時段的統(tǒng)一策略來優(yōu)化系統(tǒng).

2 算法設(shè)計

首先從經(jīng)典有限期MDP的Bellman最優(yōu)性方程引入本文計算方法：

(11)

式中：()為決策時刻狀態(tài)的最優(yōu)價值，即在時刻從狀態(tài)出發(fā)，按最優(yōu)策略決策，直到?jīng)Q策期結(jié)束時所能獲得的總收益由式(11)可知，為了最大化狀態(tài)價值，需要綜合考慮當(dāng)前單步收益(,)和未來期望收益，當(dāng)前狀態(tài)和未來狀態(tài)通過狀態(tài)轉(zhuǎn)移概率(′|,)聯(lián)系.

(12)

大學(xué)生旅游消費具有以下特征：①在價格上，給予學(xué)生足夠的優(yōu)惠，旅行社所負擔(dān)的飲食住行等方面以中檔為主，在降低成本的基礎(chǔ)上注重學(xué)生的消費體驗。②在學(xué)生專線的選取上符合學(xué)生的心理：路線短，時間短，名氣大。③嚴(yán)格保證旅行的安全。

根據(jù)狀態(tài)價值定義以及式(12)，本文提出Bellman最優(yōu)性方程如下式所示：

(13)

需要注意的是，經(jīng)典Bellman方程式(11)中是分別對每個狀態(tài)做出最優(yōu)決策.但是本文Bellman方程式(13)考慮逐時段的遞推關(guān)系，一個時段內(nèi)可能會發(fā)生多次狀態(tài)轉(zhuǎn)移.根據(jù)式(10)，要得到整個時段的總收益，須確定該時段完整的策略，因此不能分別求每個狀態(tài)的最優(yōu)決策，而是針對時段初狀態(tài)分布，直接確定時段內(nèi)最優(yōu)策略.

為最大化決策期的總收益，本文基于Bellman最優(yōu)性方程式(13)設(shè)計了雙向迭代算法，確定每個時段的最優(yōu)策略，即得到包含個策略的策略集合.由于該算法復(fù)雜度較高，無法應(yīng)對大規(guī)模問題，所以進一步提出逐時段策略迭代算法.另外，為便于實際應(yīng)用，設(shè)計了雙向閾值迭代算法來求解最優(yōu)閾值策略.

對各種地理水紋記號進行匯總、劃分、歸類后，引入視覺傳達藝術(shù)的設(shè)計方法，并融入我國傳統(tǒng)水文化中的創(chuàng)意元素，進行圖形設(shè)計，填補地理水紋記號的空缺；然后依據(jù)我國水利信息化的要求，進行數(shù)字化處理；最后再對整理后的結(jié)果進行處理，向水利信息化靠攏，最終形成一套完整的系統(tǒng)。

1)從模擬施工過程的變形數(shù)據(jù)和現(xiàn)場監(jiān)測數(shù)據(jù)相比較而言，模型變形規(guī)律還是比較接近于現(xiàn)場數(shù)據(jù)，擬合度較好，三維模擬可以為施工提供參考.

2.1 雙向迭代算法

由式(8)可知，給定決策期初始狀態(tài)分布，若各個時段策略確定，則之后各個時段初的狀態(tài)分布(=2, 3, …,)均可確定；再由式(13)結(jié)合()定義，可從時段向時段1方向依次計算各時段各個狀態(tài)的價值() (=,-1, …, 1)經(jīng)典有限期MDP采用基于Bellman方程的逆向迭代求解，但基于本文的Bellman方程式(13)無法實現(xiàn)這樣的求解過程，其原因在于未知上一時段初的狀態(tài)分布，從而無法評估時段內(nèi)的收益和時段狀態(tài)轉(zhuǎn)移概率(|,)；同時，若采用正向求解，也會遇到未知下一時段初狀態(tài)價值的困難.因此，本文設(shè)計雙向迭代算法求解每個時段的最優(yōu)策略，其中，正向?qū)?yōu)以時段1為起點，基于逆向?qū)?yōu)得到的各時段狀態(tài)價值向后逐時段尋找最優(yōu)策略，并更新各時段的狀態(tài)分布，如圖1所示；逆向?qū)?yōu)以時段為起點，基于正向?qū)?yōu)得到的各時段的狀態(tài)分布向前逐時段尋找最優(yōu)策略，并更新各時段的狀態(tài)價值，如圖2所示；這個完整的過程稱為一輪雙向迭代.當(dāng)相鄰迭代中正向?qū)?yōu)所得策略不變時，算法收斂.

(2)()=0，?,

初始狀態(tài)分布

各時段策略

(1)雙向迭代()

《實用心電學(xué)雜志》是由江蘇大學(xué)主辦，中國醫(yī)師協(xié)會、中國心電學(xué)會等單位協(xié)辦的心電學(xué)專業(yè)期刊。雙月刊，大16開，雙月28日出版，每期10元，2019年全年60元。2013—2018年過刊任選兩年現(xiàn)僅需100元，快遞包郵。

雙向迭代算法

(3) 迭代編號=0

亳文化悠久豐富，特色鮮明，風(fēng)格獨具，這正是其走向世界的立足之本。亳文化以什么樣的路徑走出去一直是亳州市政府、企業(yè)等關(guān)注的焦點，研究表明，亳文化“走出去”必須改變單一路徑，突出文化個性，培育地域特色品牌，推動彰顯亳文化的產(chǎn)品走出去。

(5)=+1

(6)=1 to

?正向?qū)?yōu)

(9)

(10)=to 1

吳玉梅不得已，只得如實告訴他們：說楊力生和楊秋香是已談過戀愛的。老兩口一邊仍然表示不同意，一邊暗暗埋怨自己兒子眼光低下。

?逆向?qū)?yōu)

廠里正在落實公司精準(zhǔn)培訓(xùn)工作要求，積極為青年人搭建成長鍛煉的平臺，通過導(dǎo)師帶徒的方式，為每個人量身定制培養(yǎng)計劃。倆人一拍即合，師徒關(guān)系就此結(jié)下。

由于會計信息化在一定程度上增強了財務(wù)風(fēng)險概率。為此，企業(yè)要提高風(fēng)險管理意識，全面地掌握住會計信息化特點，綜合分析企業(yè)可能存在的潛在的風(fēng)險，并且制定完善的風(fēng)險管理機制。首先企業(yè)需知，信息系統(tǒng)具有很大的開放性，企業(yè)的信息數(shù)據(jù)會出現(xiàn)被不法分子所盜取或者更改，對此，企業(yè)需要建立專門的網(wǎng)絡(luò)安全維護部門，安排專業(yè)的計算機人員，承擔(dān)財務(wù)信息系統(tǒng)的運行工作，從而保障企業(yè)信息數(shù)據(jù)的安全，降低企業(yè)的財務(wù)風(fēng)險與經(jīng)營風(fēng)險。

(13)

(14)

(16)

數(shù)值實驗驗證了該算法在小規(guī)模數(shù)據(jù)上的最優(yōu)性，需要注意的是，在所有狀態(tài)中，危重患者到達或無患者到達時，決策是確定的.只有當(dāng)非危重患者到達時，可能的決策有兩種，可得到每個時段內(nèi)不同的策略共有2/3種，與狀態(tài)總數(shù)呈指數(shù)關(guān)系.由于在算法1步驟7和11中直接遍歷所有策略，顯然該算法難以應(yīng)用到大規(guī)模搶救室入院控制問題.

2.2 逐時段策略迭代算法

為求解大規(guī)模問題進一步提出“逐時段策略迭代算法”，求解近似最優(yōu)策略.該算法從時段向時段1依次尋優(yōu)，對每個時段，采取策略迭代算法，先隨機選取一個策略，如先到先服務(wù)(FCFS)策略，再逐狀態(tài)改進當(dāng)前策略，直到相鄰迭代所得策略不變，則該時段迭代過程結(jié)束，然后繼續(xù)對前一個時段進行策略迭代，直到所有時段策略確定.數(shù)值實驗顯示，每個時段一般不超過4輪迭代策略即確定，而每輪迭代需評估的策略數(shù)僅為2/3，求解效率大幅提升.

逐時段策略迭代算法

初始策略(如FCFS)

各時段策略

(1)逐時段策略迭代()

(2)+1()=0， ?

(3)=to 1

(4) 迭代編號=0

(8)=+1

(9)

(12)

(14)

2.3 雙向閾值迭代算法

考慮到搶救室入院控制實際應(yīng)用時的便利性，本文設(shè)計閾值策略.閾值策略即為每個時段提供一個閾值，基于該閾值可確定該時段內(nèi)的唯一策略.考慮兩種閾值策略，空閑床位閾值策略和非危重患者閾值策略.

(1) 空閑床位閾值策略.

該策略基于系統(tǒng)中空閑床位的數(shù)量來決定是否接收非危重患者：當(dāng)空閑床位數(shù)量大于某一閾值時，接收非危重患者；否則不接收非危重患者.

(2) 非危重患者閾值策略.

該策略基于系統(tǒng)中已有非危重患者的數(shù)量來決定是否接收非危重患者：當(dāng)已有非危重患者的數(shù)量小于某一閾值時，接收非危重患者；否則不接收非危重患者.

閾值策略可采用上文雙向迭代框架求解，本文稱為雙向閾值迭代算法.相比于雙向迭代算法，只需將對策略的搜索調(diào)整為對閾值的遍歷.雙向迭代算法每個時段要遍歷23個策略，而由于閾值范圍有限([0,])，每個時段只需要遍歷+1個策略，因此決策空間大大縮小，可應(yīng)用于較大規(guī)模場景.

雙向閾值迭代算法具體步驟如算法3所示.其中：為時段的閾值；(′|,)為給定閾值策略后，由狀態(tài)分布轉(zhuǎn)移到狀態(tài)′的概率；(,)為從狀態(tài)分布出發(fā)，根據(jù)閾值策略得到時段內(nèi)的總期望收益；(,)為從狀態(tài)分布出發(fā)，根據(jù)閾值策略得到+1時段初的狀態(tài)分布+1

雙向閾值迭代算法

初始狀態(tài)分布

各時段閾值

(1)雙向閾值迭代()

(2)()=0， ?,

(3) 迭代編號=0

(5)=+1

(6)=1 to

?正向?qū)?yōu)

(9)

(10)=to 1

?逆向?qū)?yōu)

(13)

(14)

(16)

3 數(shù)值實驗

使用上海某大型三甲醫(yī)院急診部的實際運行數(shù)據(jù)，首先利用處理后的小規(guī)模數(shù)據(jù)對雙向迭代算法的最優(yōu)性加以驗證，再基于醫(yī)院真實數(shù)據(jù)對比分析各個算法的實際性能，最后對床位數(shù)量進行靈敏度分析，為搶救室入院提供易于執(zhí)行的控制策略和床位數(shù)量安排指導(dǎo)意見.為使用均勻化方法，截斷了式(8)和(10)中無限事件數(shù)，設(shè)每個時段內(nèi)最多發(fā)生事件數(shù)為=50，且通過實驗驗證了此設(shè)定可保證均勻化精度.數(shù)值實驗采用的數(shù)據(jù)見網(wǎng)絡(luò)材料 https:∥pan.baidu.com/s/1UaRkX-iXta2o4NBCgwthRw (提取碼：jl48).

3.1 雙向迭代算法最優(yōu)性驗證

理論證明雙向迭代算法最優(yōu)性非常困難.但針對小規(guī)模問題可通過枚舉法枚舉出所有時段策略的組合，確定最優(yōu)策略以及最大收益.因此，本文將雙向迭代算法與枚舉法在多組實驗參數(shù)下的收益結(jié)果加以對比，進行最優(yōu)性驗證.由于醫(yī)院原始數(shù)據(jù)規(guī)模較大，考慮縮短決策期和縮小狀態(tài)空間來降低求解時間，使用醫(yī)院采集數(shù)據(jù)中連續(xù)6 h且設(shè)置3個可用床位，在此基礎(chǔ)上設(shè)置不同參數(shù)共計得到8個算例.算例中統(tǒng)一的參數(shù)設(shè)定如表1所示，算例間參數(shù)區(qū)別包括各時段到達率和單步收益(或損失)，具體參數(shù)數(shù)值見網(wǎng)絡(luò)材料SM-1節(jié).求解結(jié)果如表2所示，由表2可見，雙向迭代算法和枚舉法的求解結(jié)果完全一致，數(shù)值結(jié)果支持雙向迭代算法的最優(yōu)性假設(shè).

3.2 逐時段策略迭代和雙向閾值迭代算法對比實驗

由于雙向迭代算法復(fù)雜度很高，難以應(yīng)對實際場景帶來的大規(guī)模準(zhǔn)入控制問題，利用逐時段策略迭代算法求解近似最優(yōu)策略，并從易于實施的角度，采用雙向閾值迭代算法求解兩種閾值策略.本節(jié)以先到先服務(wù)策略為基準(zhǔn)策略，記為K0，分別與近似最優(yōu)策略(記為K1)以及兩種閾值策略(記空閑床位閾值策略為K2，非危重患者閾值策略為K3)進行對比，每種策略均由仿真進行系統(tǒng)的性能評估，得到總收益和患者接收率指標(biāo).采用急診部提供的實際運行數(shù)據(jù)，考慮長度為一天24 h的決策期，床位數(shù)目、服務(wù)速率等參數(shù)如表3所示(完整參數(shù)見網(wǎng)絡(luò)材料SM-2節(jié)).

4種策略收益及效率的對比結(jié)果如表4所示，表中顯示均勻化評估所得收益、仿真評估所得收益(仿真10d)、算法求得的策略相比K0的收益提升(“收益提升”列)以及算法運行時間(取算法運行5次的平均時間).由表4可知，在各個策略下，均勻化評估結(jié)果與仿真結(jié)果都十分接近，誤差不超過0.03%，驗證了均勻化方法的評估精度.不同的策略下收益表現(xiàn)有顯著差異，K1取得了最高收益，相比K0提升6.96%；K2與K1表現(xiàn)非常接近，差距不足0.1%；K3相比K0提升了3.3%，表現(xiàn)不如K2策略.但從效率上看，K2和K3策略由于搜索空間較小，其求解效率遠優(yōu)于K1策略.綜合來看，K2的求解結(jié)果和效率更具優(yōu)越性.

除了總收益外，患者接收率也是搶救室關(guān)注的重點指標(biāo)，尤其是危重患者的接收率.本文通過仿真統(tǒng)計3項患者接收率，分別為總接收率(即不區(qū)分患者類型的接收率，記為)、危重患者接收率(記為)和非危重患者接收率(記為).各時段平均接收率結(jié)果如表5所示，分時段接收率見網(wǎng)絡(luò)材料SM-3節(jié).相比于基準(zhǔn)策略，本文優(yōu)化后的3種策略表現(xiàn)有所差異，雖然均提高了平均危重患者接收率，但導(dǎo)致平均非危重患者接收率有不同程度的降低.K1和K2的平均危重患者接收率由95.6%提升到99.1%，提高了對危重患者的服務(wù)水平，且平均非危重患者接收率保持在84%以上.K3的平均危重患者接收率盡管也提高到98.1%，但平均非危重患者接收率降低較多不足80%.由此可見，即使在相同的參數(shù)下，采取不同的策略，對患者接收率仍有較大影響，本文提出的K1、K2策略在保證總體接收率合理的情況下，更大程度上提高了危重患者的接收率而具有優(yōu)勢.

由于搶救室重點關(guān)注危重患者，重點針對每個時段的危重接收率進行分析，如圖3所示.基準(zhǔn)策略K0在不同時段波動很大，整體接收率低，難以實現(xiàn)應(yīng)收盡收原則.K1有19個時段的接收率在98%以上，K2也有17個時段的接收率在98%以上，驗證了K2閾值策略的性能優(yōu)勢.且注意到K1和K2策略在24個時段中接收率波動較小，服務(wù)水平穩(wěn)定.K3策略相比K0有所提升，但有13個時段的接收率在98%以下，難以達到醫(yī)院要求.整體來看，本文求解所得3種策略相比基準(zhǔn)策略都有較大提升，其中K3提升較少，而K1和K2提升顯著，尤其是K2閾值策略，既有性能優(yōu)勢又易于實施，優(yōu)勢明顯.

3.3 床位數(shù)量靈敏度分析

顯然，床位數(shù)量越多，醫(yī)院就可以接收更多的患者，達到更高的接收率.但是搶救室床位資源成本高昂，醫(yī)護資源也有限，并不能無限擴增床位.因此本文對床位數(shù)量進行敏感度分析，討論不同數(shù)量的床位對危重患者接收率及總收益的影響.

除床位數(shù)量外，本節(jié)采用參數(shù)均與3.2節(jié)相同.因K2策略結(jié)果與K1策略接近，且更具實際應(yīng)用意義，本節(jié)采用K2策略進行分析，討論在該策略下床位數(shù)量的影響.考慮∈[25, 35]的變化區(qū)間，總收益變化如表6所示.由表6可以看出，床位增加帶來收益增加，但增長速度越來越慢，即增加床位的邊際收益越來越少.

除了總收益外，搶救室還關(guān)注一天內(nèi)危重患者的平均接收率隨床位數(shù)量的變化.不同床位數(shù)量下接收率變化如圖4所示.由圖4可知，隨著床位數(shù)量增長，平均危重接收率持續(xù)增長，但增長率逐漸放緩，直到增加到30張床位時，平均危重接收率達到搶救室目標(biāo)值=0.99.基于在合作醫(yī)院調(diào)研得到的床位成本，當(dāng)床位數(shù)超過30時，增加的總收益低于床位增加成本.因此，在保證平均危重接收率達到目標(biāo)危重接收率的條件下，較為合理的床位數(shù)量為30，此時既能滿足危重患者服務(wù)水平的要求，又控制了總投入成本.

4 結(jié)語

針對急診搶救室床位資源緊張的問題，提出根據(jù)患者病情嚴(yán)重及緊急程度選擇性收治患者.建立了MDP模型，考慮到到達率的高度時變特性，使用均勻化方法逐時段進行離散化并求解每個時段內(nèi)的最優(yōu)策略.提出了求解最優(yōu)策略的雙向迭代算法和求解近似最優(yōu)策略的逐時段策略迭代算法，實現(xiàn)了在較大規(guī)模數(shù)據(jù)和較長決策期場景下的應(yīng)用.為了易于在實際場景中實施，進一步設(shè)計了雙向閾值迭代算法，高效地為大規(guī)模實際場景求解得到簡單且有效的閾值策略.數(shù)值實驗驗證了雙向迭代算法在小規(guī)模數(shù)據(jù)上的最優(yōu)性，驗證了近似最優(yōu)策略以及兩種閾值策略的效果，所提出的閾值策略性能與近似最優(yōu)策略接近且易于實施，可以為搶救室床位管理提供有效指導(dǎo).本研究方法雖可以對時變且隨機患者需求等復(fù)雜條件的準(zhǔn)入問題進行決策，但也存在一些局限.首先受限于迭代算法復(fù)雜度較高，難以應(yīng)用于大規(guī)模問題，擬進一步采用深度強化學(xué)習(xí)等方法來提高求解效率.另一方面可拓展考慮對允許加床等更復(fù)雜的場景進行準(zhǔn)入決策研究.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

面向時變需求的多等級急診患者入院控制

1 問題與模型描述

1.1 系統(tǒng)狀態(tài)

1.2 決策集合

1.3 狀態(tài)轉(zhuǎn)移概率

1.4 收益評估

1.5 經(jīng)典有限期MDP模型對比分析

2 算法設(shè)計

2.1 雙向迭代算法

2.2 逐時段策略迭代算法

2.3 雙向閾值迭代算法

3 數(shù)值實驗

3.1 雙向迭代算法最優(yōu)性驗證

3.2 逐時段策略迭代和雙向閾值迭代算法對比實驗

3.3 床位數(shù)量靈敏度分析

4 結(jié)語