□張 倩 李天皓 白春光
[電子科技大學 成都 611731]
決策是指決策主體選擇其行為的過程,決策過程的任一環(huán)節(jié)出現偏差都有可能導致失誤,決策輔助支持系統(tǒng)對提高決策科學性和正確性具有重要作用[1~2]。隨著機器學習(Machine Learning, ML)、深度學習(Deep Learning, DL)和大數據等技術的發(fā)展和成熟,人工智能技術在輔助決策方面也表現出良好的應用前景,可通過挖掘在線醫(yī)療評論等為醫(yī)療決策提供參考,為政府智能決策提供優(yōu)化方案等[3~4]。
傳統(tǒng)的決策優(yōu)化方法主要建立數值模型求最優(yōu)解[5~6],方法的計算成本高,且模型泛化能力較差,尤其在長周期連續(xù)決策問題中往往效果不佳。作為一種智能決策框架,強化學習(Reinforcement Learning, RL)以馬爾可夫決策過程(Markov Decision Process, MDP)為理論基礎,采用“試錯”的方式進行學習,在連續(xù)決策過程中尋找解決問題的最佳策略。智能體通過與環(huán)境的交互學習經驗,并利用過去的經驗來改善未來行動的預期結果,在探索與利用的平衡之間實現獎勵的最大化,是一種適應性的學習過程。利用強化學習優(yōu)化決策問題的研究在圍棋、電子游戲、醫(yī)療決策、軍事戰(zhàn)略等領域都取得了顯著優(yōu)于人類決策的效果[7~12]。
強化學習被證實在優(yōu)化重癥監(jiān)護臨床決策、電力系統(tǒng)決策控制、職業(yè)道路選擇推薦等方面發(fā)揮出巨大的作用[13~15]。針對自動駕駛汽車在交通中的決策問題,強化學習可以根據道路情況自主決定駕駛行為,進行車道變更的決策[16~17]。在農業(yè)方面,強化學習借助天氣預報優(yōu)化水稻灌溉決策,為農作物疾病的最佳治療方案提供決策支持[18~19]。在商業(yè)領域,智能決策支持系統(tǒng)采用強化學習預測物流網絡的變化,也可以為金融市場的股票交易策略提供支持[20~21]。在教育方面,強化學習可基于學習者的個人信息和社交資料推薦最佳的學習方式和適合的學習課程[22],以提高學習質量。在醫(yī)療領域,強化學習在支持臨床疾病診斷輔助[23]和個性化用藥治療[24]方面展現出明顯的優(yōu)勢,可為智慧醫(yī)療建設發(fā)揮作用??梢?,強化學習已經被應用于社會活動的各個方面,在為決策優(yōu)化提供輔助和支持方面顯示出較強的應用潛力。
在社會決策過程中,決策的結果往往由多個參與者共同決定,強化學習使用多智能體建模多主體決策行為[11]。決策者可以應用多智能體強化學習(Multi-Agent Reinforcement Learning, MARL)算法輔助決策,智能體之間通過競爭與合作方式以最大化團隊行動的價值,從而改善決策結果[25]。由于現實中多數決策過程的參與者之間存在明顯的等級關系,本文應用具有層級關系的多智能體進行建模,即多智能體分層強化學習(Hierarchical Reinforcement Learning, HRL)[26]。作為多智能體合作強化學習的一種特殊結構,分層強化學習采用層次結構克服多智能體強化學習環(huán)境的不穩(wěn)定性,具有解決稀疏獎勵和延遲獎勵問題的能力[27]。隨著多智能體分層強化學習技術的日益成熟,HRL應用于MOOCs課程推薦、自動駕駛輔助決策、機器人控制等多方面都取得了良好的效果[16,28~30]。
本文基于多智能體強化學習提出了分層深度Q網絡(Hierarchical Deep Q-network, HDQ)模型,該模型引入兩個智能體相互合作進行學習,在分層模型的基礎上,引入目標分解的思想,并結合DL模型,通過神經網絡對智能體進行建模,讓上層智能體學習最佳的目標分解策略,并將分解的最佳目標傳遞給下層智能體,指導下層智能體采取行動,通過智能體之間的相互合作,實現團隊整體的最終決策目標。
強化學習是以馬爾可夫決策過程為基礎的理論框架,闡述了在解決動態(tài)決策問題中智能體與環(huán)境的交互過程。強化學習可通過其5個主要要素表示成為5元組 < S,A,P,R,γ>,其中S表示狀態(tài)集合,A定義智能體可采取的動作集合,P為狀態(tài)轉移矩陣,刻畫環(huán)境狀態(tài)的動態(tài)變化方式,R是智能體采取動作后獲得的獎勵集合, γ (0≤γ≤1)表示未來獎勵對當前累計獎勵的折扣率。強化學習將決策主體建模成能與環(huán)境進行動態(tài)交互和學習的智能體。在時刻 t =1,2,···,T 時,當智能體采取動作 at∈A,環(huán)境會以概率 p (st+1|st,at)∈P 從當前狀態(tài) st∈S轉移到下一個狀態(tài) st+1∈S ,此時智能體獲得獎勵 rt∈R。RL將決策問題形式化為尋找使預期累計獎勵最大化的最優(yōu)策略[31],其中預期累計獎勵可計算如下:
由于傳統(tǒng)的RL模型在處理高維數據中具有局限性,DL可以與RL相結合實現更好的決策效果。深度Q網絡(Deep Q Network, DQN)利用神經網絡在高維空間學習中的優(yōu)勢,引入神經網絡作為值函數逼近器,計算最大化累計獎勵的最優(yōu)解。DQN采用帶參數的神經網絡估計動作價值 Q (s,a),并基于經驗回放機制進行學習,通過最小化誤差損失不斷逼近最優(yōu)解:
但是傳統(tǒng)的DQN模型存在高估Q值的問題,容易跳過最優(yōu)解學習到次優(yōu)解,導致模型效果不佳。為了緩解這一問題,Dueling DQN[32]在DQN的基礎上引入優(yōu)勢函數衡量動作的相對價值,優(yōu)勢函數計算如下:
從而將智能體的目標轉化為最大化:
強化學習因其特有的馬爾可夫特性而在順序決策中具有較大優(yōu)勢,但在應用于長周期決策優(yōu)化問題中,短期內無法衡量動作對最終目標G的影響,智能體在多數時間步內的獎勵為0,從而造成獎勵的稀疏性,且沒有獎勵引導容易使智能體陷入困境,影響智能體的學習效率。分層強化學習應用具有層級結構的智能體能夠解決稀疏獎勵問題,智能體通過決策引導其他智能體采取動作。
在復雜任務的解決過程中,決策周期T通常很長,需要在多個決策時間步 (t =0,1,2,···,T)依次決策,且決策的有效性和準確性在短期內無法得到驗證。本文的做法是采用分解的思想對目標進行細分,化繁為簡,分而治之,通過小目標的實現逐步達成最終目標。分解的思想也被用于解決復雜數據集下的機器學習和數據分析問題[33],表現出優(yōu)于基線方法的良好效果。如圖1所示,智能體的任務是在決策周期T內實現目標G,在目標分解方法下,智能體學習如何將整體目標G分解為各個子目標gt(t=0,1,2,···,T),并通過計算狀態(tài)st(t=0,1,2,···,T)與子目標之間的距離 d is(gt,st)判斷子目標是否完成,此時,智能體的動作定義為在不同的狀態(tài)下選擇子目標,即at:=gt。
圖1 目標分解過程
圖2 模型結構
其中 αi(i=1,2)為梯度下降的步長,即神經網絡的學習率,智能體和智能體交替迭代進行學習和參數更新,直至整體策略收斂。
膿毒癥是由感染引起的危及生命的器官功能障礙,是導致危重患者死亡的主要原因[34]。不同膿毒癥患者對治療措施的個體反應不同[35],反復住院率高[36]。膿毒癥患者的治療過程是一個長期的、動態(tài)的、連續(xù)的臨床決策過程,對決策質量的要求高,傳統(tǒng)的技術方法難以對其進行優(yōu)化。本文提出的方法一方面可以克服強化學習延遲的獎勵和復雜的狀態(tài)空間容易導致策略的次優(yōu)性,通過將任務分解為子目標,可以減少探索空間。另一方面,本文方法可以模擬不同等級的醫(yī)生之間層級指導和合作行為,協同做出治療決策。我們將結合目前廣泛用于研究的醫(yī)學數據集的MIMIC-IV提取膿毒癥患者序列和特征,對患者的治療決策過程進行優(yōu)化。
1. 數據提取
本文的實驗對象為MIMIC-IV數據庫中符合Sepsis-3條件[37]的4 800名膿毒癥患者。表1顯示了原始數據集的匯總,包括存活和死亡患者的比例、平均年齡、男性比例、再入院情況和SOFA評分,其中SOFA評分是膿毒癥的順序器官衰竭評分,根據患者的呼吸系統(tǒng)、血液系統(tǒng)、肝臟系統(tǒng)、心血管系統(tǒng)、神經系統(tǒng)和腎臟系統(tǒng)等六大人體系統(tǒng)相關指標計算而得的分數[37],是判斷膿毒癥嚴重程度的關鍵指標,與患者死亡有著密切關系[38]。
表1 患者信息表
隨后,本文提取了患者住院前4小時到住院后72小時的特征,如性別、年齡、體重、SOFA評分、心率、血壓、呼吸頻率、血氧飽和度、體溫、血紅蛋白、鉀含量、鈉含量、凝血酶原時間和血小板數量等在內的45個特征。然后,對每個特征進行一次4小時窗口匯總,使用均值插值方法處理其中的缺失值。其次,使用最大最小歸一化方法消除特征之間的量綱,以確保數值在[0,1]區(qū)間內。最后,得到了包括45個特征的91 200條可用數據記錄,每個患者對應19個歷史治療軌跡。
2. 實驗變量與參數選擇
(1)狀態(tài)
狀態(tài)空間由動態(tài)變量和靜態(tài)變量組成[11]。靜態(tài)變量包括性別、年齡、體重等信息,動態(tài)變量包括患者的生命體征、實驗室檢查指標和尿液量等數據。由于變量過多容易造成模型的過擬合,影響模型的效果。同時,過多的狀態(tài)變量容易導致強化學習中的轉移矩陣過于稀疏,導致狀態(tài)轉移困難。因此,為了降低數據特征的維數,本文采用了K-means算法對狀態(tài)進行聚類,以達到降維的目的,避免轉移矩陣的稀疏性。經過聚類處理后,得到了700個不同的狀態(tài)類別來表示患者的身體狀態(tài)[39]。
(2)子目標
SOFA評分是衡量膿毒癥患者的關鍵指標,與患者的死亡率密切相關,對于治療決策的結果有著較大影響。上層智能體學習子目標的分解策略,其動作空間定義為患者的SOFA評分。因此,本文根據數據集中患者的SOFA評分的取值范圍對上層智能體的動作進行離散化處理,將其動作空間定義為一維向量,元素取值為[0,18]區(qū)間內的整數。因此,在每一個決策的時間步中,上層智能體根據患者狀態(tài)選擇最佳的目標SOFA評分,并將其傳遞給下層智能體作為子目標。
(3)動作
臨床實踐中,醫(yī)生普遍采用血管升壓藥和靜脈輸液治療膿毒癥患者。下層智能體在不同的時間步根據狀態(tài)和子目標選擇最優(yōu)的動作,以學習實現目標的用藥策略。動作空間定義為兩種藥物組成的二維矩陣,分別由血管升壓藥的最大劑量和靜脈注射的總劑量組成,其中血管升壓藥包括血管升壓素、多巴胺、腎上腺素和去甲腎上腺素,靜脈注射液包含晶體、膠體和血液制品以及靜脈注射抗生素等。藥物劑量通過四分位數進行離散化,沒有使用藥物的患者對應劑量為0。
(4)獎勵
實驗環(huán)境基于Python 3.6和TensorFlow 1.15,兩個智能體均由神經網絡進行建模,網絡的學習率α設置為0.01。算法基于強化學習建模,強化學習模型的獎勵衰減折扣γ設置為0.9,下層智能體的目標閾值η設置為2,模型基于以上參數進行訓練。
根據實驗設計,本文對照臨床醫(yī)生的用藥決策、無層次結構的單智能體Dueling DQN以及DQN作為基準模型,基準模型的所有參數設置和訓練迭代次數均相同。通過與基準模型進行對比,評估HDQ模型在決策優(yōu)化問題中的效果。
在強化學習中,Q值的大小用于衡量模型所選動作的價值高低,圖3顯示了本文的HDQ模型與Dueling DQN和DQN兩個基準模型在訓練過程中的Q值比較情況,其中橫軸表示模型訓練的迭代次數,縱軸表示模型的Q值大小。在模型迭代訓練10 000輪后,三個模型的都達到了收斂,學習到了有效的穩(wěn)定策略。根據圖3可見,在訓練前期,模型都傾向于選擇具有較高Q值的動作。隨著訓練過程的進行,模型學習調整動作的選擇,導致Q值不斷減小并最終收斂。同時,根據Q值比較結果也可以發(fā)現,Dueling DQN模型的效果優(yōu)于傳統(tǒng)的DQN算法,但與本文的HDQ模型相比還有一定的差距。與基準模型相比,本文的HDQ模型在動作的選擇上具有明顯優(yōu)勢,在收斂條件下,Q值顯著高于基準模型。
圖3 不同模型Q值比較
死亡率是衡量醫(yī)療用藥決策策略有效性的重要指標,對患者的治療結果有著決定性作用,表2列出了不同策略下患者住院死亡率的比較。整體而言,臨床醫(yī)師治療策略下的患者死亡率是最高的,高達23.5%。對于無分層結構的模型來說,不論是Dueling DQN還是DQN算法,都能夠在臨床醫(yī)師的基礎上通過優(yōu)化決策策略,達到降低患者死亡率的目標,但改進后的Dueling DQN算法在策略優(yōu)化方面的效果會比DQN更加顯著。
表2 模型死亡率
顯然,本文提出的HDQ模型在降低患者死亡率方面比臨床醫(yī)師和無分層結構的模型更有優(yōu)勢。雖然其他算法也可以通過推薦藥物劑量達到降低患者死亡率的目的,但通過HDQ模型學習的用藥策略的死亡率是最低的,比DQN算法低4.5%,比沒有層次結構的Dueling DQN結構低3.4%,相比于臨床醫(yī)生的死亡率降低了10.3%。
由此可見,HDQ模型在臨床決策優(yōu)化方面具有顯著的優(yōu)勢,這也證明臨床醫(yī)師的決策還有較大的優(yōu)化空間,無論是本文的分層模型,還是現有的非分層模型,都能實現臨床醫(yī)師策略的優(yōu)化。
針對社會中面臨的長期決策優(yōu)化問題,本文提出了一種基于多智能體強化學習的分層決策優(yōu)化(HDQ)算法,以目標分解和層級合作的方式實現長周期順序決策優(yōu)化。在所提的HDQ算法模型中,具有層級關系的多智能體基于強化學習理論相互合作,上層智能體學習最佳的目標分解,下層智能體學習在子目標指導與約束下完成目標的行動策略,從而共同構建團隊任務的最佳策略、實現決策優(yōu)化。為了檢驗該模型的決策效率,本文提取MIMIC-IV數據集對膿毒癥患者的臨床診療決策問題進行了分析驗證,發(fā)現該算法既能避免強化學習延遲獎勵和復雜狀態(tài)空間導致的策略次優(yōu)性,還能模擬出不同等級醫(yī)生之間的層級指導和合作行為,進而協同做出優(yōu)于人類臨床醫(yī)師的治療決策。
與傳統(tǒng)的智能決策算法相比,HDQ算法具有明顯的優(yōu)越性,彌補了傳統(tǒng)決策方法模型泛化能力較差、長周期連續(xù)決策效率低下的不足,適用于具有連續(xù)決策過程的策略優(yōu)化問題。盡管如此,本文的決策方法在實際運用過程中仍可能存在一定局限性;這是由于該方法作為一種獨立學習的方式,采用兩個智能體交替學習和更新,下層智能體完成目標的行動策略將高度依賴于上層智能體對子目標分解的合理性。因此,未來可進一步探索消除上層智能體學習訓練結果對模型性能產生負面影響的方法,并針對模糊環(huán)境下多層次、多目標的決策問題開展研究。