朱光 鄧弘林
摘要:目的? 了解目前醫(yī)院預(yù)約診療服務(wù)中患者爽約行為的現(xiàn)狀,探討和鑒別患者爽約的關(guān)鍵特征,運(yùn)用這些特征建立機(jī)器學(xué)習(xí)算法模型預(yù)測(cè)未來患者爽約行為。方法? 挖掘2018年河北省某大型三甲醫(yī)院預(yù)約大數(shù)據(jù),首先用Stata采取傳統(tǒng)Logistic回歸找出患者爽約的顯著因子,再將數(shù)據(jù)劃分為訓(xùn)練集和預(yù)測(cè)集,采用SVM、決策樹、隨機(jī)森林和BP神經(jīng)網(wǎng)絡(luò)等不同模型學(xué)習(xí)訓(xùn)練患者爽約行為和特征,檢驗(yàn)每種算法對(duì)患者爽約預(yù)測(cè)的準(zhǔn)確率。結(jié)果? 目前醫(yī)院患者預(yù)約爽約率為16.16%,Logistic回歸分析顯示年齡、性別、預(yù)約時(shí)間和預(yù)約科室是爽約行為的關(guān)鍵性特征;使用這些特征進(jìn)行機(jī)器學(xué)習(xí)和預(yù)測(cè)能取得較好效果,SVM、決策樹、隨機(jī)森林和BP神經(jīng)網(wǎng)絡(luò)各個(gè)算法準(zhǔn)確率均超過75%,其中SVM和BP神經(jīng)網(wǎng)絡(luò)準(zhǔn)確率最高,是該特定情境下的最優(yōu)算法。結(jié)論? 我國(guó)大型三甲醫(yī)院預(yù)約診療服務(wù)有待進(jìn)一步加強(qiáng),在大數(shù)據(jù)時(shí)代的背景下,機(jī)器學(xué)習(xí)方法可為醫(yī)院預(yù)測(cè)并降低爽約率提供強(qiáng)有力支持。
關(guān)鍵詞:預(yù)約診療;爽約率;機(jī)器學(xué)習(xí);大數(shù)據(jù)
中圖分類號(hào):R197.3? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:B? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? DOI:10.3969/j.issn.1006-1959.2020.22.004
文章編號(hào):1006-1959(2020)22-0013-04
An Investigation of Predicting Patient Missing Appointment Behavior Under the Big Data Background
ZHU Guang1,DENG Hong-lin2
(1.Department of Publicity and Planning,Cangzhou Central Hospital, Cangzhou 061000,Hebei,China;
2.School of Business,Sun Yat-sen University,Guangzhou 510000,Guangdong,China)
Abstract:Objectives? To understand the current situation of patients'missing-appointment behavior in the appointment service of hospitals; to explore and identify the key features of patients'missing appointment.Use these features to build a machine learning algorithm model to predict future patient missing-appointment behavior. Methods? Mining the big data of appointments in a large tertiary hospital in Hebei Province in 2018. First, Stata adopts traditional Logistic regression to find the significant factors of patients' appointments, and then divides the data into training sets and prediction sets, using SVM, decision tree, random forest and BP Different models, such as neural networks, learn and train patients' absentee behavior and characteristics, and test the accuracy of each algorithm in predicting patient absenteeism. Results? The current appointment rate of hospital patients is 16.16%. Logistic regression analysis shows that age, gender, appointment time and appointment department are the key features of appointment cancellation behavior; using these features for machine learning and prediction can achieve better results, SVM, decision tree accuracy of each algorithm of random forest and BP neural network exceeds 75%. Among them, SVM and BP neural network have the highest accuracy, which is the best algorithm in this specific situation. Conclusion? The appointment diagnosis and treatment services of my country's large tertiary hospitals need to be further strengthened. In the context of the era of big data, machine learning methods can provide strong support for hospitals to predict and reduce the rate of missing-appointment.
Key words:Appointment of diagnosis and treatment;Missing-appointmentrate;Machine learning;Big data
國(guó)家提出的互聯(lián)網(wǎng)+等戰(zhàn)略,表明以互聯(lián)網(wǎng)和大數(shù)據(jù)為核心的科技和社會(huì)變革已形成了推動(dòng)國(guó)家醫(yī)療發(fā)展的新浪潮。在此環(huán)境下,全國(guó)范圍內(nèi)推廣電子渠道預(yù)約掛號(hào)(如微信平臺(tái))的醫(yī)院越來越多。然而,許多醫(yī)院反映預(yù)約掛號(hào)存在著爽約率較高的局面,造成了醫(yī)療資源的浪費(fèi),更在一定程度上擾亂了醫(yī)院的診療秩序[1]。因此,如果可以從患者預(yù)約時(shí)輸入的多維信息(如性別、年齡、預(yù)約時(shí)間、預(yù)約科室等多個(gè)變量)鑒別其中的關(guān)鍵因素,并利用這些因素對(duì)該預(yù)約的爽約概率進(jìn)行預(yù)測(cè),可大大提高預(yù)約診療服務(wù)的管理效率[2]。以往研究大多從現(xiàn)象表面出發(fā),以單一維度對(duì)爽約行為進(jìn)行定性探討,無法準(zhǔn)確地預(yù)測(cè)每個(gè)預(yù)約的爽約概率。本研究從大數(shù)據(jù)驅(qū)動(dòng)的角度出發(fā),構(gòu)建不同的機(jī)器學(xué)習(xí)算法模型對(duì)爽約行為進(jìn)行預(yù)測(cè)和識(shí)別,通過比較預(yù)測(cè)準(zhǔn)確率選擇最優(yōu)算法,為醫(yī)療資源配置優(yōu)化提供可行性建議。
1資料與方法
1.1資料來源? 本研究選取華北地區(qū)某大型三甲醫(yī)院2018年全年通過電子渠道(包括微信平臺(tái)、醫(yī)院官網(wǎng))共94651例預(yù)約。
1.2研究變量和測(cè)量工具? 本研究的因變量為二元變量,即患者赴約(標(biāo)記為1)或爽約(標(biāo)記為0),自變量包括患者年齡、性別(類別變量,男性=1,女性=0)、預(yù)約就診時(shí)間與訂單時(shí)間差、預(yù)約科室(類別變量,共41個(gè)科室類別)、醫(yī)生預(yù)約名額上限(即預(yù)約醫(yī)生每天可供預(yù)約名額)。
1.3機(jī)器學(xué)習(xí)算法? 采用Stata進(jìn)行邏輯回歸分析,考察和篩選患者爽約行為的關(guān)鍵性特征。然后運(yùn)用Python中的sklearn庫對(duì)篩選后的關(guān)鍵性特征進(jìn)行建模、分析和預(yù)測(cè)。運(yùn)用支持向量機(jī)(SVM,RBF核函數(shù))、決策樹(C4.5算法)、隨機(jī)森林和BP神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)模型對(duì)患者爽約行為的特征進(jìn)行學(xué)習(xí)和預(yù)測(cè),比較不同算法的準(zhǔn)確率,探討當(dāng)前情境下的最優(yōu)算法[3]。
在大數(shù)據(jù)分析的算法中,SVM是目前最為廣泛應(yīng)用的為二進(jìn)制分類而設(shè)計(jì)的算法。本文的實(shí)證場(chǎng)景為患者“是”或“否”爽約,符合SVM的研究情境。利用核函數(shù)(最常用的為RBF核函數(shù))機(jī)制構(gòu)造一個(gè)最優(yōu)的超平面,從而使負(fù)數(shù)據(jù)集和正數(shù)據(jù)集之間的間隔最大 [4]。
決策樹是(DT)一個(gè)有監(jiān)督分類與回歸算法,其中每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的判斷,每個(gè)分支代表一個(gè)判斷結(jié)果的輸出,最后每個(gè)葉節(jié)點(diǎn)代表一種分類結(jié)果[5]。在機(jī)器學(xué)習(xí)里的決策樹主要優(yōu)點(diǎn)是在克服傳統(tǒng)方法的缺點(diǎn)的同時(shí),利用邏輯模型對(duì)數(shù)據(jù)進(jìn)行分類,具有更高的精度。最常見的決策樹類型為C4.5算法(以信息增益率為分枝方式)。然而,決策樹容易過度擬合,此時(shí)隨機(jī)森林(random forest)很好地緩解了這個(gè)問題。隨機(jī)森林是決策樹的集合,其結(jié)果被聚合為一個(gè)最終結(jié)果。隨機(jī)森林算法能限制過擬合的問題并且不會(huì)因?yàn)槠疃蟠笤黾诱`差。
BP神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò),其主要利用鏈?zhǔn)揭?guī)則的梯度來優(yōu)化算法,特點(diǎn)是其迭代、遞歸和有效的計(jì)算權(quán)值更新的方法,以改進(jìn)網(wǎng)絡(luò),直到能夠執(zhí)行訓(xùn)練任務(wù)為止[6]。
1.4統(tǒng)計(jì)學(xué)方法? 采用Stata進(jìn)行邏輯回歸分析,考察和篩選患者爽約行為的關(guān)鍵性特征。然后運(yùn)用Python中的sklearn庫對(duì)篩選后的關(guān)鍵性特征進(jìn)行建模、分析和預(yù)測(cè)。
2結(jié)果
2.1患者預(yù)約爽約行為分析? 進(jìn)行預(yù)約的94,651例患者的平均年齡為37.04歲,以女性較多,通?;颊咛崆耙惶彀脒M(jìn)行預(yù)約,該醫(yī)院共有41個(gè)可供預(yù)約的科室類別,每個(gè)醫(yī)生平均可接受預(yù)約的名額約為23個(gè),較為充足,在預(yù)約實(shí)例中,爽約率達(dá)到16.16%,有15,300例,見表1。
2.2患者爽約行為的關(guān)鍵性特征分析? 構(gòu)建方程:Logit(患者是否爽約)=α + β1年齡+ β2性別+ β3預(yù)約就診時(shí)間與訂單時(shí)間差+ β4預(yù)約科室+ β5醫(yī)生預(yù)約名額上限 + μiLogistic回歸模型用以預(yù)測(cè)事件發(fā)生或不發(fā)生概率。預(yù)測(cè)值最大時(shí)趨向1,最小時(shí)趨向0,即如果通過模型計(jì)算出來的概率大于0.5,則預(yù)測(cè)該患者會(huì)爽約。在上式中,βi(i = 1, 2, 3, 4, 5)為自變量的相關(guān)系數(shù),α為常數(shù)項(xiàng),μ為殘差。通過Stata軟件進(jìn)行Logistic回歸分析的結(jié)果顯示,①患者的爽約行為與年齡呈正相關(guān),患者年齡每增加1歲,其爽約的可能性便上升約0.22%;②患者的爽約行為與性別顯著相關(guān),其中女性更容易爽約;③患者的爽約行為與預(yù)約時(shí)間顯著負(fù)相關(guān),越提早預(yù)約的患者越不容易爽約;④不同科室的爽約概率也不同,其中外科的爽約率最高,達(dá)到55.56%,皮膚科的爽約率也超過33%,爽約率最低的為產(chǎn)科,約11.28%;⑤醫(yī)生的預(yù)約名額與患者是否爽約沒有顯著關(guān)系,見表2。
2.3基于機(jī)器學(xué)習(xí)的患者爽約行為預(yù)測(cè)? 針對(duì)數(shù)據(jù)驅(qū)動(dòng)的患者爽約行為預(yù)測(cè),本研究采用SVM、C4.5決策樹、隨機(jī)森林和BP神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行分析。主要使用Python語言的進(jìn)行建模、訓(xùn)練和預(yù)測(cè)。首先指定機(jī)器將118627條數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集占70%原始數(shù)據(jù)。在SVM分析中,首先驗(yàn)證RBF核函數(shù)下的預(yù)測(cè)準(zhǔn)確率,gamma值設(shè)置為1/4(即0.25),懲罰系數(shù)C設(shè)置為1。在決策樹模型中采用C4.5算法,不指定最大深度和最大子葉節(jié)點(diǎn)以提高準(zhǔn)確率,而隨機(jī)森林算法的最大迭代次數(shù)設(shè)置為100。BP神經(jīng)網(wǎng)絡(luò)模型則設(shè)置3層隱藏層,每層50個(gè)神經(jīng)元,即hidden_layer_sizes=(50,50,50),最大迭代次數(shù)為200次。各項(xiàng)測(cè)試結(jié)果顯示,機(jī)器學(xué)習(xí)的方法能獲得較高的預(yù)測(cè)準(zhǔn)確率(均超過70%);在各種大數(shù)據(jù)建模分析方法中,最適合預(yù)測(cè)患者爽約行為的算法是BP神經(jīng)網(wǎng)絡(luò)算法和采用RBF核函數(shù)的SVM算法,預(yù)測(cè)患者是否爽約的準(zhǔn)確率均達(dá)到83.80%,其次是隨機(jī)森林算法,準(zhǔn)確率為79.80%。見表3。
3討論
預(yù)約診療能合理、有效、公平地分配和利用醫(yī)療資源。對(duì)改進(jìn)患者就醫(yī)秩序,縮短患者等待時(shí)間,提高診療效率發(fā)揮了重要作用[7]。因此我國(guó)各醫(yī)療機(jī)構(gòu)充分發(fā)揮多種手段和渠道開展預(yù)約診療。本文的實(shí)證研究和分析有以下三點(diǎn)發(fā)現(xiàn)。①患者預(yù)約爽約率總體上比較高,預(yù)約就診服務(wù)仍需改善:預(yù)約就診服務(wù)能為醫(yī)院管理高效地、有計(jì)劃地分配資源,當(dāng)中最常見也最難以解決的問題就是患者爽約,過高的爽約率使得預(yù)約就診服務(wù)失去其促進(jìn)資源分配的意義[8]。本研究發(fā)現(xiàn),目前醫(yī)院一年內(nèi)預(yù)約次數(shù)已達(dá)將近10萬人次,大部分科室也已經(jīng)開始推廣預(yù)約就診服務(wù),但是預(yù)約爽約率較為偏高,與以往研究的爽約率相仿,證明就降低患者爽約行為而言,目前預(yù)約就診服務(wù)尚未得到明顯改善。因此,本文的研究,先從患者預(yù)約的多維信息中檢測(cè)其中的關(guān)鍵因素,再通過機(jī)器學(xué)習(xí)預(yù)測(cè)患者是否爽約的策略,可為醫(yī)院改善預(yù)約診療服務(wù)提供思路。②患者的社會(huì)人口學(xué)特征、預(yù)約時(shí)間和預(yù)約科室對(duì)爽約行為的影響較大:本研究結(jié)果表明,決定患者是否爽約的關(guān)鍵因素包括了患者本身的特征、提前多久預(yù)約以及預(yù)約的科室。其中,在預(yù)約的患者當(dāng)中,女性患者占了大多數(shù),不過,女性患者相比男性患者而言也更容易出現(xiàn)爽約行為,同時(shí)高齡患者也比年輕患者爽約的概率高,而越早進(jìn)行預(yù)約的患者更不容易爽約,提早預(yù)約說明患者對(duì)該次診療更為重視,因此赴約的可能性更高??剖抑g的爽約率也相差甚遠(yuǎn),這可通過科室診療特點(diǎn)進(jìn)行解釋[9]。例如,婦產(chǎn)科的患者爽約的比例最低,主要因?yàn)閶D產(chǎn)科患者的復(fù)診率較高而且有相對(duì)固定醫(yī)生,接診醫(yī)生會(huì)給予明確的復(fù)診時(shí)間,因此患者通常會(huì)依照醫(yī)生指引預(yù)約特定的時(shí)間復(fù)診。③在大數(shù)據(jù)背景下通過機(jī)器學(xué)習(xí)預(yù)測(cè)患者爽約行為:盡管大數(shù)據(jù)機(jī)器學(xué)習(xí)的方法越來越流行,但能否以及如何應(yīng)用到醫(yī)院預(yù)約診療服務(wù)管理尚未有定論,本文立足于預(yù)測(cè)患者爽約行為的特定情境,發(fā)現(xiàn)總體而言機(jī)器學(xué)習(xí)的方法在大數(shù)據(jù)環(huán)境下能有效地預(yù)測(cè)患者該次預(yù)約爽約的可能性(多個(gè)算法的預(yù)測(cè)準(zhǔn)確率均超過70%),然而同時(shí),本文發(fā)現(xiàn)了選擇合適的算法才是最關(guān)鍵的,不同算法得出的準(zhǔn)預(yù)測(cè)確率也有區(qū)別。
4對(duì)策建議
各醫(yī)療機(jī)構(gòu)要高度重視預(yù)約爽約問題,根據(jù)本研究,提出改進(jìn)和提高醫(yī)院預(yù)約診療服務(wù)管理具體建議:①將日常預(yù)警和跟蹤作為預(yù)約診療服務(wù)的中心工作??筛鶕?jù)爽約率高的人群進(jìn)行VIP管理,如事前提醒,事后服務(wù)跟蹤,就醫(yī)過程無障礙化等。②需對(duì)預(yù)約診療的人群進(jìn)行現(xiàn)場(chǎng)滿意度測(cè)評(píng)和定期回訪,根據(jù)患者的意見和建議改善醫(yī)療服務(wù)。③對(duì)爽約率較高的科室和人群進(jìn)行個(gè)案分析,找出具體原因,提出對(duì)應(yīng)策略,提高患者的認(rèn)同感。④患者就醫(yī)過程是對(duì)醫(yī)院多項(xiàng)服務(wù)的綜合體驗(yàn),醫(yī)院需根據(jù)跟蹤的意見,改善全院服務(wù),因此研究患者爽約行為也是發(fā)現(xiàn)醫(yī)院服務(wù)缺陷的一個(gè)重要途徑。
總之,患者爽約率高是目前醫(yī)院推行預(yù)約診療服務(wù)的亟待解決的一個(gè)瓶頸,深入研究患者爽約行為的特征和要素,結(jié)合大數(shù)據(jù)時(shí)代下的先進(jìn)技術(shù),從而采取相應(yīng)的管理措施降低爽約率,提高管理質(zhì)量,是進(jìn)一步推行預(yù)約診療服務(wù)和提高醫(yī)院工作效率的關(guān)鍵所在。
參考文獻(xiàn):
[1]喻锎.探索精準(zhǔn)預(yù)約服務(wù)建立通暢就醫(yī)流程--武漢市第一醫(yī)院預(yù)約診療服務(wù)實(shí)踐和探索[J].中國(guó)醫(yī)院管理,2019,459(10):2-3.
[2]Kogan S,Moskowitz TJ,Niessner M.Fake News:Evidence from Financial Markets[D].SSRN Electronic Journal,2018.
[3]黃洛.醫(yī)院門診預(yù)約掛號(hào)爽約的現(xiàn)狀及對(duì)策[J].現(xiàn)代醫(yī)院,2019,19(4):63-66.
[4]陳默,蔡苗,黃阿紅,等.基于K-means聚類與支持向量機(jī)的大病患者住院費(fèi)用影響因素與控制策略研究[J].中國(guó)醫(yī)院管理,2019,39(5):45-47.
[5]吳越,徐叢劍,程子桐,等.二值響應(yīng)模型與決策樹在門診失約行為研究中的應(yīng)用[J].中國(guó)醫(yī)院管理,2018,38(10):36-38.
[6]易焱琪,鞠水,家曉艷,等.淺析BP神經(jīng)網(wǎng)絡(luò)技術(shù)在醫(yī)院信息系統(tǒng)中的應(yīng)用[J].科技創(chuàng)新與生產(chǎn)力,2017(2):107-109.
[7]周奇.醫(yī)院門診預(yù)約系統(tǒng)的優(yōu)化分析:基于國(guó)內(nèi)某大型醫(yī)院的研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2017.
[8]周萍,馮笑,趙嶺,等.醫(yī)院預(yù)約掛號(hào)爽約現(xiàn)象的調(diào)查分析[J].中醫(yī)藥管理雜志,2018,26(18):29-31.
[9]劉玉琦,郝曉剛,馬亞飛.某三級(jí)醫(yī)院預(yù)約掛號(hào)爽約情況及其原因調(diào)查[J].武警醫(yī)學(xué),2018,29(2):117-119.
收稿日期:2020-07-10;修回日期:2020-08-19
編輯/成森
作者簡(jiǎn)介:朱光(1991.10-),女,黑龍江大慶人,本科,經(jīng)濟(jì)師,主要從事醫(yī)院人力資源、醫(yī)療管理及市場(chǎng)營(yíng)銷
通訊作者:鄧弘林(1987.7-),男,廣東湛江人,博士,助理教授,主要從事電子商務(wù)、醫(yī)療大數(shù)據(jù)分析及機(jī)器學(xué)習(xí)研究