楊雨
摘要:監(jiān)管并控制糖尿病患者的血糖水平對(duì)降低糖尿病的發(fā)病率具有重要作用,而現(xiàn)醫(yī)院的管理比較隨意,因此十分有必要對(duì)現(xiàn)有的醫(yī)院收治的病人的糖尿病治療模式進(jìn)行分析評(píng)估。在該文中,我們首先對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理,深處無用屬性、去除缺失數(shù)據(jù)等,將剩余的數(shù)據(jù)作為最終的分析數(shù)據(jù)集。其次,根據(jù)ICD對(duì)疾病進(jìn)行分類,劃分為循環(huán)系統(tǒng)疾病、呼吸系統(tǒng)疾病、糖尿病等9類。然后,我們對(duì)所有的特征變量與再次入院進(jìn)行相關(guān)性分析,發(fā)現(xiàn)與再次入院率較為相關(guān)的特征有:得病之前的住院次數(shù)、診斷次數(shù)、得病之前的急診次數(shù)、A1Cresult等。最后我們根據(jù)所做的研究對(duì)于醫(yī)院如何降低患者的再次入院率給出了合理的建議。
關(guān)鍵詞:再次入院率 ;相關(guān)性分析;糖尿??;數(shù)據(jù)預(yù)處理
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)20-0014-02
1 引言
控制住院病人的血糖水平對(duì)降低發(fā)病率和死亡率具有重要作用,許多醫(yī)療機(jī)構(gòu)把嚴(yán)格的血糖指標(biāo)納入重癥監(jiān)護(hù)室ICU級(jí)別的正式協(xié)議。但是,對(duì)于大多數(shù)非ICU住院病人的接收卻沒有這樣做。事實(shí)上,按傳統(tǒng)的方式,住院病人的管理比較隨意,為了提高患者的安全性,有必要對(duì)現(xiàn)有的醫(yī)院收治的病人的糖尿病治療模式進(jìn)行分析評(píng)估。
數(shù)據(jù)來自Center for Machine Learning and Intelligent Systems,名為Diabetes 130-US hospitals for years 1999-2008 Data Set的數(shù)據(jù)。該數(shù)據(jù)集為美國130家醫(yī)院臨床護(hù)理10年(1999-2008年)的數(shù)據(jù),包含了50個(gè)患者的特征,如就診病人的HbA1C檢測(cè)、性別、年齡、種族、出院去處、入院來源、住院天數(shù)、診療醫(yī)師的專業(yè)、初次診斷結(jié)果、葡萄糖血清檢測(cè)等。
根據(jù)這些數(shù)據(jù),我們將進(jìn)行數(shù)據(jù)預(yù)處理,對(duì)各種疾病類型進(jìn)行分組,探究再次入院率對(duì)各特征變量之間的關(guān)系,并討論如何降低患者的再次入院率。
2 數(shù)據(jù)預(yù)處理與疾病分類
2.1 數(shù)據(jù)預(yù)處理
題目中所給的數(shù)據(jù)集合有較大的數(shù)據(jù)量,對(duì)此我們進(jìn)行了以下幾個(gè)方面的篩選:
1)部分屬性缺失率很高
如體重的缺失率高達(dá)96.86%,支付方式、診療醫(yī)師的專業(yè)的缺失率也都達(dá)到了39.56%、49.08%。較高的缺失率也從側(cè)面表示了這些屬性的重要性較低,在進(jìn)一步的分析中沒有存在的必要,因此我們選擇對(duì)這三列屬性進(jìn)行刪除。
2) 只保留病人第一次來醫(yī)院看病的記錄
通過對(duì)數(shù)據(jù)的整體觀察,發(fā)現(xiàn)在病人編號(hào)部分有重復(fù)。由于每個(gè)病人都對(duì)應(yīng)唯一一個(gè)id編號(hào),重復(fù)的id表明該病人不止一次在醫(yī)院進(jìn)行就診。為了確保我們所分析的病人都是第一次住院,非首次住院將對(duì)再次入院率產(chǎn)生影響,所以對(duì)于同一個(gè)id編號(hào),我們只保留第一條數(shù)據(jù)記錄,對(duì)另外的記錄進(jìn)行刪除。
3) 刪去臨終前的病人記錄
在患者出院去處中,我們發(fā)現(xiàn)有部分病人有hospice,即“臨終關(guān)懷”(即將去世)。對(duì)于即將去世的病人而言,在出院之后及時(shí)病情再次惡化,他們也不會(huì)再次入院進(jìn)行治療。因此對(duì)這部分?jǐn)?shù)據(jù)記錄進(jìn)行刪除。
4) 去除diag_1為“?”的記錄
diag_1是主要的診斷,所以以此為主要的分類依據(jù),對(duì)于該屬性為空的記錄,進(jìn)行刪除。
經(jīng)過以上的預(yù)處理,我們最終剩下了71054條數(shù)據(jù)記錄構(gòu)成了最終的分析數(shù)據(jù)集。
2.2 疾病類型的分組
我們查詢了國際疾病與相關(guān)健康問題統(tǒng)計(jì)分類(ICD)編碼列表,作為我們的分類依據(jù),結(jié)合國際ICD-9編碼與數(shù)據(jù)集中ICD-9編碼的范圍,我們將數(shù)據(jù)集中的疾病按表1方式進(jìn)行分組。其中根據(jù)國際ICD-9編碼,780-799代表癥候、征候及不明情況,對(duì)于數(shù)據(jù)集中出現(xiàn)的該范圍的特定數(shù)值進(jìn)行了查找,并將其歸入相應(yīng)的類型。
在數(shù)據(jù)集中給出了3次診斷,其中“diag_1”為主要診斷,因此我們只根據(jù)主要診斷給出的診斷值數(shù)據(jù)按照表1進(jìn)行分組,于是每個(gè)數(shù)據(jù)點(diǎn)添加了其主要診斷所屬的疾病類型。
3 特征變量與再次入院率的關(guān)系探究
在本節(jié)中,我們要分析再次入院率與各特征變量之間的關(guān)系,首先我們需要從眾多的特征變量中篩選出幾個(gè)和再次入院率相關(guān)性較大的特征變量,再對(duì)它們進(jìn)行更深入的分析。
我們用概率論中的協(xié)方差和相關(guān)系數(shù)的計(jì)算方法,來計(jì)算這些特征變量和再次入院率之間的相關(guān)性,相關(guān)系數(shù)越大,說明該特征變量與再次入院率的相關(guān)性越大。根據(jù)計(jì)算,我們發(fā)現(xiàn)患者的年齡、住院時(shí)長、得病之前的門診次數(shù)、得病之前的急診次數(shù)、得病之前的住院次數(shù)、診斷次數(shù)以及HbA1C值都與再次入院率有較大的關(guān)系。
其中,得病之前的門診次數(shù)、得病之前的急診次數(shù)、得病之前的住院次數(shù)、診斷次數(shù)和再次入院率都呈正相關(guān),即得病前門診次數(shù)、急診次數(shù)、住院次數(shù)及診斷次數(shù)越多,再次入院率也越高。從實(shí)際情況可以很好地解釋這一現(xiàn)象,經(jīng)常看病或住院的人自身身體素質(zhì)相較正常人而言自然會(huì)差一些。而看病次數(shù)越多,一定程度上也能表示這個(gè)人自身所得過病的數(shù)量或者種類越多。而在得了糖尿病之后,這類人在自身機(jī)能較弱的情況下,很有可能因?yàn)樘悄虿《l(fā)的并發(fā)癥再次入院治療。
患者住院的時(shí)間越長再次入院的概率越高,在住院時(shí)長大于8天之后,入院率就穩(wěn)定在44%左右??梢娀颊叩淖≡簳r(shí)長可以側(cè)面體現(xiàn)患者的患病程度,但當(dāng)時(shí)長久到一定天數(shù)之后,對(duì)患者的治療效果相差不大。
年齡與再次入院率也呈明顯的正相關(guān),年齡越大,再次入院率越高。隨著人們年齡的增長,身體免疫力逐漸下降,伴隨著一些疾病的出現(xiàn),再伴隨著糖尿病的并發(fā)癥,于是再次入院。
另外,我們還發(fā)現(xiàn)HbA1C與再次入院率也有較大關(guān)系。我們按照患者的患病類型進(jìn)行探究。對(duì)糖尿病患者而言,HbA1C測(cè)定結(jié)果量高的,反而再次入院率較低。但呼吸系統(tǒng)疾病患者和消化系統(tǒng)疾病患者卻呈現(xiàn)測(cè)定結(jié)果量越高,再次入院率越高??梢詮膫?cè)面說明醫(yī)院的醫(yī)生對(duì)于糖尿病患者的HbA1C值關(guān)注度很高,但對(duì)于呼吸系統(tǒng)疾病患者和消化系統(tǒng)疾病患者卻并未過多關(guān)注。因而醫(yī)生根據(jù)HbA1C值對(duì)糖尿病患者進(jìn)行了相應(yīng)的治療,使這類糖尿病患者的再次入院率減少。但對(duì)于另外兩類疾病,雖然HbA1C值同樣很高,卻未進(jìn)行相關(guān)治療,導(dǎo)致這兩類患者的再次入院率隨著測(cè)定結(jié)果量的增多而升高。
因此無論是這三類中的哪種疾病,HbA1C的值對(duì)于再次入院率都有一定的影響。醫(yī)生應(yīng)提高對(duì)HbA1C測(cè)試及其測(cè)試結(jié)果的重視,而非僅限于糖尿病患者。
4 降低再次入院率的探究
根據(jù)以上對(duì)各特征變量與再次入院率的研究,我們對(duì)于如何降低再次入院率提出了以下建議:
1) HbA1C的檢測(cè)應(yīng)當(dāng)普及,對(duì)糖尿病患者而言,測(cè)量結(jié)果越高反而入院率較低,可以作為再次入院率的另一預(yù)測(cè)指標(biāo)。
2) 對(duì)不同年齡段的患者給予不同的治療策略,對(duì)中老年人提高重視。
3) 對(duì)與治療糖尿病相關(guān)的主要藥物進(jìn)行深入的研究,明確每種藥物的作用,以及不同的服藥量對(duì)患者會(huì)產(chǎn)生怎樣的效果。明確區(qū)分對(duì)患者治療效果產(chǎn)生正影響和負(fù)影響的藥物,以提高對(duì)患者的治療效果。
4) 對(duì)于看病經(jīng)歷較為豐富的患者,可以給予適當(dāng)提醒,注意日常的身體素質(zhì)提升,提早預(yù)防糖尿病及其并發(fā)癥的產(chǎn)生。
參考文獻(xiàn):
[1] 謝式千,潘承毅.概率論與數(shù)理統(tǒng)計(jì)[M]. 北京:高等教育出版社,2008(6):119,168.
[2] 曹叔彥.CLIQUE 網(wǎng)格聚類算法在醫(yī)學(xué)空間數(shù)據(jù)中的應(yīng)用[D].山西:山西醫(yī)科大學(xué),2015(5).
[3] 陳瀲.面向糖尿病的臨床大數(shù)據(jù)分析研究與應(yīng)用[D].上海:東華大學(xué),2018(4).
[4] 趙曉華.基于大數(shù)據(jù)下 2 型糖尿病及并發(fā)癥患者就診信息的挖掘研究[D].廣州:廣州中醫(yī)藥大學(xué),2016(4).
[5] 何禹德.基于數(shù)據(jù)挖掘技術(shù)的糖尿病臨床數(shù)據(jù)分析[D].長春:長春工業(yè)大學(xué),2016(4).