王妮,陳婕卿,劉文艷,陳卉
首都醫(yī)科大學(xué) 生物醫(yī)學(xué)工程學(xué)院,北京 100069
基于Access的大規(guī)模住院病案首頁數(shù)據(jù)挖掘
王妮,陳婕卿,劉文艷,陳卉
首都醫(yī)科大學(xué) 生物醫(yī)學(xué)工程學(xué)院,北京 100069
目的探索基于Access數(shù)據(jù)庫進(jìn)行大規(guī)模住院病案首頁數(shù)據(jù)挖掘的方法.方法收集某市2002~2013年的住院病案首頁,經(jīng)過數(shù)據(jù)清理和疾病編碼轉(zhuǎn)換,利用Access數(shù)據(jù)庫的窗體和VBA技術(shù)編程,按年度對住院病案首頁數(shù)據(jù)進(jìn)行匯總分析.以慢性阻塞性肺疾病(簡稱慢阻肺)為例匯總分析相關(guān)住院指標(biāo).結(jié)果對近600萬條住院病案首頁記錄進(jìn)行匯總分析總耗時267 s.2002~2013年,該市因慢阻肺住院的患者逐年增加,平均住院天數(shù)下降,平均住院費用上升,30 d再住院率尚無明顯變化趨勢.60歲以上慢阻肺患者的住院天數(shù)、費用均高于其他年齡段患者.結(jié)論時間連續(xù)的住院病案首頁數(shù)據(jù)提供了對單病種患者住院指標(biāo)進(jìn)行時間趨勢分析的可能性,其結(jié)果可為衛(wèi)生和醫(yī)院主管部門在醫(yī)院管理決策、流行病學(xué)監(jiān)測、衛(wèi)生經(jīng)濟(jì)學(xué)等方面提供重要信息.
住院病案首頁;慢性阻塞性肺疾病;醫(yī)院管理;數(shù)據(jù)挖掘
如今是一個數(shù)據(jù)共享化、智能化的時代,因此出現(xiàn)了爆炸性增長的quot;大數(shù)據(jù)quot;.大數(shù)據(jù)的應(yīng)用首當(dāng)其沖的就是智慧醫(yī)療,具體可應(yīng)用在臨床診斷、遠(yuǎn)程監(jiān)控、藥品研發(fā)、防止醫(yī)療詐騙等方面[1].研究表明,大數(shù)據(jù)即將到達(dá)期望膨脹期,能夠在5~10年的時間里達(dá)到一個成熟的階段進(jìn)而穩(wěn)步發(fā)展直至變?yōu)閷嶋H生產(chǎn)力[2].在醫(yī)療衛(wèi)生領(lǐng)域,目前國內(nèi)醫(yī)院信息化建設(shè)不斷完善,經(jīng)過不斷積累,各種形式的電子化醫(yī)療系統(tǒng)產(chǎn)生了體量龐大的醫(yī)療大數(shù)據(jù),它們成為生成醫(yī)學(xué)證據(jù)的巨大來源.
住院病案首頁是目前標(biāo)準(zhǔn)化程度最高、最易于挖掘、具有很高價值的一類醫(yī)療大數(shù)據(jù)[3-5].對連續(xù)多年、覆蓋某一地區(qū)所有醫(yī)院的住院病案首頁數(shù)據(jù)進(jìn)行分析,可以了解該地區(qū)某一病種患者住院天數(shù)、住院費用、再住院率等的變化趨勢,為衛(wèi)生和醫(yī)院主管部門在醫(yī)療衛(wèi)生資源分配、醫(yī)院管理決策、流行病學(xué)監(jiān)測、衛(wèi)生經(jīng)濟(jì)學(xué)等方面提供重要信息.但是,由于存在數(shù)據(jù)量巨大、疾病編碼復(fù)雜且不一致、數(shù)據(jù)質(zhì)量參差不齊等問題,在對海量住院病案首頁進(jìn)行分析時仍然存在很多困難.針對這些問題,我們在Access數(shù)據(jù)庫中編程實現(xiàn)了數(shù)據(jù)清理、疾病編碼轉(zhuǎn)換、住院指標(biāo)統(tǒng)計,并以慢性阻塞性肺疾病為例進(jìn)行了統(tǒng)計分析,取得了滿意的效果.
收集某市2002~2013年所有二級及以上醫(yī)院的住院病案首頁數(shù)據(jù),共約600萬條記錄,按年度存儲在Access數(shù)據(jù)庫中.提取病案首頁中患者的病案號、性別、出生日期、入院時間、出院時間、住院天數(shù)、出院主要診斷、出院其他診斷、住院費用等信息用于本研究.
數(shù)據(jù)預(yù)處理分為數(shù)據(jù)清理和疾病編碼轉(zhuǎn)換兩部分.
(1) 數(shù)據(jù)清理.通過對字段排序,發(fā)現(xiàn)異常的年齡值(如gt;150歲)、出生日期(如1878年3月15日)、住院費用(如lt;10元),并剔除相應(yīng)記錄;利用入院時間和出生日期得到住院時的年齡,利用出院時間和入院時間得到住院天數(shù),如果計算結(jié)果與記錄中保存的數(shù)據(jù)相差較大,則認(rèn)為該條記錄可靠性差,予以剔除.對由于首位為數(shù)字0造成的同一患者病案號不同的情況,補(bǔ)足所有病案號的前置0,減少由此造成的無法識別多次入院的同一患者的問題.
(2)疾病編碼轉(zhuǎn)換.現(xiàn)在通用的疾病編碼為國際疾病分類(International Classification of Diseases,ICD)編碼,是WHO制定的國際統(tǒng)一的疾病分類方法,它根據(jù)疾病的病因、病理、臨床表現(xiàn)和解剖位置等特性,將疾病分門別類,使其成為一個有序的組合,并用編碼的方法來表示的系統(tǒng),現(xiàn)通用ICD-10疾病編碼[6].由于ICD-10編碼龐大、過于細(xì)致,不利于進(jìn)行病種統(tǒng)計,因此我們采用了目前在國外已有較多應(yīng)用的臨床分類軟件(Clinical Classifications Software,CCS)編碼體系[7-9].它根據(jù)ICD-10編碼將疾病歸為259種,為診斷和手術(shù)分類提供了便利.我們在Access中編程實現(xiàn)了ICD-10編碼到CCS編碼的轉(zhuǎn)換.
在Access中,利用窗體和VBA技術(shù),按年度對住院病案首頁數(shù)據(jù)進(jìn)行匯總分析.匯總指標(biāo)包括因以CCS編碼表示的指定病種D(在本文D表示本研究所選取的示例慢性阻塞性肺疾病)住院的患者人數(shù)、平均住院天數(shù)、平均住院費用、出院后30 d再住院率.所有指標(biāo)均按照性別(男和女)、年齡段(0~17、18~35、36~60以及60歲以上)分層計算.計算30 d再住院率時,還區(qū)分以病種D為出院主要診斷的再住院、病種D為出院其他診斷的再住院,以及出院主要及其他診斷中均無病種D的再住院這3種情況.
計算30 d再住院率是此次軟件編制過程中的難點.需要提取以病種D為出院主要診斷的患者的病案號,并根據(jù)病案號回溯這些患者所有的再住院情況,并判斷與上次因病種D住院的時間間隔是否在30 d以內(nèi).
在聯(lián)想服務(wù)器ThinkServer上運行程序,服務(wù)器的基本配置為兩顆Intel? Xeon E5六核(主頻2.4 GHz)CPU、64 GB內(nèi)存、4塊2 TB硬盤,Windows 8操作系統(tǒng),Microsoft? Access 2016.
慢阻肺的CCS編碼為127,對應(yīng)的ICD-10編碼為J40-J44以及J47.以2004年為例,共有316105條記錄,程序運行用時7 s,結(jié)果見圖1.
圖1 2004年慢性阻塞性肺病的住院指標(biāo)統(tǒng)計結(jié)果
從2004年的統(tǒng)計結(jié)果可以看出,在所有出院主要診斷為慢阻肺的患者中,男性患者明顯多于女性患者(3262:2273),60歲以上患者為4201人次,所占比例最大(76%);平均住院天數(shù)為12.8 d,平均住院費用為4761元,出院后30 d內(nèi)因慢阻肺再次住院的發(fā)生率為4.28%.
圖2~5展示了2002~2013年出院主要診斷為慢阻肺的患者的住院人次、平均住院費用、平均住院天數(shù)及30 d再住院率的變化趨勢.
圖2 慢性阻塞性肺疾病住院人次的變化趨勢
圖3 慢性阻塞性肺疾病平均住院費用的變化趨勢
圖4 慢性阻塞性肺疾病平均住院天數(shù)的變化趨勢
圖5 慢性阻塞性肺疾病30天再住院率的變化趨勢
目前,慢阻肺每年導(dǎo)致死亡的人數(shù)超過100萬,已成為我國城市人口的第四大殺手[10].中國慢阻肺患者達(dá)4300萬,40歲以上人群的發(fā)病率已上升為8.2%,其中男性患病率達(dá)12.4%[11-12].隨著人口總數(shù)的增加、吸煙人群的擴(kuò)大以及空氣污染的加重,因慢阻肺住院的患者數(shù)逐年增加[13-14].平均住院費用總體呈上升趨勢,從2002年的4096元逐年上升到2013年的9384元,與何權(quán)瀛等[15]調(diào)查723例慢阻肺患者后報告的8755元(2006年)基本一致.隨著醫(yī)療水平的提高,平均住院天數(shù)總體呈下降趨勢,從2002年14 d的逐年遞減到2013年的11 d,與關(guān)麗嬋等[16]報告的12.04 d(2008~2014年)基本一致.60歲以上患者的平均住院天數(shù)與平均住院費用總體來說普遍高于其他年齡段.出院后30 d內(nèi)因慢阻肺再次住院的患者比例總體呈上升趨勢,特別是在36歲以上的中老年患者中.這些基于大規(guī)模住院病案首頁數(shù)據(jù)的分析結(jié)果,既與多數(shù)小規(guī)模臨床調(diào)查結(jié)果相一致,又提供了10多年間的變化趨勢,為今后的臨床診療和醫(yī)院管理提供了有益的參考.
本研究編制的住院指標(biāo)統(tǒng)計分析軟件,界面簡潔,結(jié)果顯示清晰明了,運行情況良好.對近593萬條記錄進(jìn)行分析累計運行267 s,基本滿足海量數(shù)據(jù)分析的速度要求,說明了進(jìn)行大規(guī)模住院病案首頁數(shù)據(jù)分析的可行性和可操作性.我們將在今后的研究中增加更多的統(tǒng)計分析功能,如提供中文病種名稱下拉列表供用戶選擇,可以保存年度分析結(jié)果,直接得到各種分析曲線圖,對時間趨勢進(jìn)行統(tǒng)計分析等.此外,利用住院病案首頁所能提供的信息(患者基本信息、住院醫(yī)療與診斷信息、住院費用信息),對病案首頁數(shù)據(jù)進(jìn)行更深入的挖掘,以獲得更多、更有價值的知識,充分發(fā)揮住院病案首頁數(shù)據(jù)在臨床決策、管理決策中的作用.
[1] 高漢松,肖凌,許德瑋,等.基于云計算的醫(yī)療大數(shù)據(jù)挖掘平臺[J].醫(yī)學(xué)信息學(xué)雜志,2013,34(5):7-12.
[2] 張振,周毅,杜守洪,等.醫(yī)療大數(shù)據(jù)及其面臨的機(jī)遇與挑戰(zhàn)[J].醫(yī)學(xué)信息學(xué)雜志,2014,35(6):2-8.
[3] 吳良湘.信息化建設(shè)對病案首頁數(shù)據(jù)質(zhì)量的影響[J].中國病案,2016,17(3):47-49.
[4] 徐寧.病案首頁數(shù)據(jù)的挖掘與利用[J].醫(yī)療裝備,2016,29(5):49-50.
[5] 熊志剛,姚剛.基于病案首頁的醫(yī)療大數(shù)據(jù)挖掘研究[J].中國數(shù)字醫(yī)學(xué),2016,11(9):11-14.
[6] 董景五.疾病和有關(guān)健康問題的國際統(tǒng)計分類(第10次修訂本)(第1卷))[M].第2版.北京:人民衛(wèi)生出版社,2008.
[7] (AHRQ)Bata Clinical Classifications Software (CCS) for ICD-10-CM/PCS[EB/OL].[2016-11-21].http://www.hcup-us.ahrq.gov/toolssoftware/ccs10/ccs10.jsp.
[8] Alshekhlee A,Horn C,Jung R,et al.In-hospital mortality in acute ischemic stroke treated with hemicraniectomy in US hospitals[J].J Stroke cerebrovasc Dis,2011,20(3):196-201.
[9] Bynum JP,Rabins PV,Weller W,et al.The relationship between a dementia diagnosis,chronic illness,medicare expenditures,and hospital use[J].J Am Geriatr Soc,2004,52(2):187-194.
[10] 慢性阻塞性肺疾病診治指南(2013年修訂版)(一)[J].全科醫(yī)學(xué)臨床與教育,2013,11(5):484-491.
[11] Zhong N,Wang C,Yai W, et al.Prevalence of chronic obstructive pulmonary disease in China: a large,population-based survey[J].Am J Respir crit care Med,2007,176(8):753-760.
[12] Lopez AD,Mathers CD,Ezzati M,et al.Global Burden of Disease and Risk Factors[M].England:Oxford University Press and the World Bank,2013:70.
[13] 楊柯君.吸煙是quot;慢阻肺quot;最重要的危險因素[J].上海醫(yī)藥,2013,34(18):59.
[14] 王情,王蛟男,李湉湉.空氣污染與慢性阻塞性肺疾病的關(guān)系研究進(jìn)展[J].中國醫(yī)學(xué)前沿雜志(電子版),2016,8(9):9-13.
[15] 何權(quán)瀛,周新,謝燦茂,等.慢性阻塞性肺疾病對中國部分城市患者生命質(zhì)量和經(jīng)濟(jì)負(fù)擔(dān)的影響[J].中華結(jié)核和呼吸雜志,2009,32(4):253-257.
[16] 關(guān)麗嬋,金叢凱,陳美珠,等.慢性阻塞性肺疾病患者住院狀況分析[J].現(xiàn)代臨床護(hù)理,2015,14(6):4-6.
本文編輯 劉峰
Access-Based Data Mining of Large-Scale Database of Hospital Discharge Data
WANG Ni, CHEN Jieqing, LIU Wenyan, CHEN Hui
School of Biomedical Engineering, Capital Medical University, Beijing 100069, China
ObjectiveTo investigate how to mine a large scale dataset of inpatient discharge data based on Access.MethodsInpatient discharge data in one city from 2002 to 2013 was collected. After the data cleaning and disease recoding, hospitalization measures were analyzed by year using the form and VBA programming in Access. Hospitalizations of chronic obstructive pulmonary disease(COPD) were analyzed as an example.ResultsIt took totally 267 s to analyze the whole dataset with almost 6 million records. From 2002 to 2013, the number of hospitalized patients with COPD increased, and the length of stay decreased with the increment of the charge per stay, while the readmission rate within 30 days had no significant change trend. The hospitalization days and costs of COPD patients aged over 60 years were higher than those of other age groups.ConclusionIt is feasible to analyze the time trends of hospitalization based on inpatient discharge data during a long period of time. The results can provide valuable information for health care and hospital authorities on hospital management decisions, epidemiological surveillance and health economics, etc.
hospital discharge data; chronic obstructive pulmonary disease; hospital management; data mining
TP31;R197
C
10.3969/j.issn.1674-1633.2017.10.033
1674-1633(2017)10-0126-03
2016-11-21
2016-12-08
陳卉,副教授,碩士生導(dǎo)師,主要研究方向為醫(yī)療大數(shù)據(jù)挖掘.
通訊作者郵箱:chenhui@ccmu.edu.cn