文/劉源 馮洪海
醫(yī)療糾紛文獻(xiàn)的數(shù)據(jù)挖掘
文/劉源 馮洪海
因?yàn)獒t(yī)療糾紛導(dǎo)致的慘劇近年來頻繁發(fā)生,為了避免此類傷害再次發(fā)生,應(yīng)該從醫(yī)患雙方分析原因。本文中從網(wǎng)上獲取了大量醫(yī)療糾紛案例,通過分析數(shù)據(jù),總結(jié)普遍性規(guī)律,建立模型,編寫相關(guān)的程序,針對文章內(nèi)容準(zhǔn)確提取出醫(yī)療過錯以及損害結(jié)果等。
醫(yī)療糾紛 醫(yī)療過錯 損害結(jié)果
近幾年以來,數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域有廣泛的應(yīng)用,并逐漸形成了一個重要的研究分支。據(jù)統(tǒng)計2016年,通過各方共同努力,全國法院全年共審結(jié)醫(yī)療損害賠償案件20833件。互聯(lián)網(wǎng)中積累了大量關(guān)于醫(yī)療糾紛的案例,為數(shù)據(jù)分析提取提供了資源。當(dāng)前,已經(jīng)有一些學(xué)者對互聯(lián)網(wǎng)醫(yī)療數(shù)據(jù)進(jìn)行了研究和分析,馮洪海[1]等統(tǒng)計分析了現(xiàn)階段互聯(lián)網(wǎng)醫(yī)療用戶癥狀和疾病的分布情況,魏強(qiáng)[2]通過研究醫(yī)療數(shù)據(jù)存儲與分析系統(tǒng),分析了疾病間的相互聯(lián)系,但尚沒有文獻(xiàn)關(guān)于醫(yī)療糾紛的挖掘分析。
本文中之前已通過爬蟲軟件獲取了截至2017年各主要相關(guān)網(wǎng)站大量案例數(shù)據(jù),針對這些數(shù)據(jù)進(jìn)行分析,總結(jié)普遍性規(guī)律,建立模型,編寫相應(yīng)的程序,對文章內(nèi)容分析準(zhǔn)確提取出醫(yī)療過錯(如漏診,錯診),損害結(jié)果等內(nèi)容。本文將著重從程序設(shè)計過程來分析。
本文中設(shè)計的程序用JAVA語言編寫,通過字符串的查找功能來實(shí)現(xiàn)各關(guān)鍵詞的定位,對文章內(nèi)容進(jìn)行有效提取。其中,標(biāo)志詞根據(jù)關(guān)鍵詞數(shù)量主要分為單個和多個(例如“漏診,過失行為”為單個標(biāo)志詞,“系....所致”為多個標(biāo)志詞)。單個標(biāo)志詞匹配較為容易,多個標(biāo)志詞匹配主要是通過第一個關(guān)鍵詞之前的標(biāo)點(diǎn)符號和最后一個關(guān)鍵詞之后的標(biāo)點(diǎn)符號的位置來確定提取內(nèi)容。
文章案例均來源于網(wǎng)上,所以編碼格式主要為“UTF-8”和“GBK”。本文中提取案例均為完整的一個字符串,不含有“ ”,“ ”等換行符,所以先對文章進(jìn)行分解。案例標(biāo)題中主要包含一些日期信息,作者信息等,故將該部分舍去。接下來對文章進(jìn)行分解,分割為獨(dú)立的提取單元。提取單元過大,使得每個單元中多個提取結(jié)果,不利于結(jié)果的處理,提取單元過小,每個單元中無法提取到完整的信息。經(jīng)過反復(fù)試驗(yàn),最終將提取單元設(shè)定為兩個句號,即兩句話,通??梢员磉_(dá)一個完整的意思。完整程序流程圖見圖1。
圖1:程序流程圖
通過閱讀大量案例,對文章中常見的過錯表述進(jìn)行總結(jié),建立標(biāo)志詞表,例如,“系.....所致”,“為.....所致”等。接下來,對每個提取單元進(jìn)行標(biāo)志詞匹配。匹配范圍大小是該部分的一個難點(diǎn)之一,為了避免因?yàn)槠ヅ浞秶斐山Y(jié)果偶然性,導(dǎo)致實(shí)際內(nèi)容與目標(biāo)不符。所以,本文將匹配范圍確定到兩個逗號之間的內(nèi)容,提取范圍結(jié)果所在的一句話,以此來應(yīng)對該問題。
對于過錯行為引發(fā)的傷害結(jié)果,由兩部分組成,第一部分用來連接傷害后果的連詞,例如“致使”,“導(dǎo)致”等,或者是用來表示時間的關(guān)系的連詞,例如“手術(shù)后”,“就醫(yī)后”,“治療后”等,該部分各標(biāo)志詞之間邏輯關(guān)系為或。第二部分是損害結(jié)果。標(biāo)志詞如“死亡”,“殘疾”,“喪失生活能力”等。提取范圍與上部分一致。
每個提取單元中可能存在多個標(biāo)志詞,會造成同一部分內(nèi)容多次提取,需要對提取結(jié)果進(jìn)行去重和合并。去重相對容易解決,JAVA中的HashSet類,屬于集合類,容器中只能用來存儲不重復(fù)的對象,將提取結(jié)果加入到該集合中,來解決該問題。合并對集合中的提取結(jié)果尋找公共字符串,對于有公共字符串的提取結(jié)果分到同一組,對于每一組都可以合并為一個完整的句子,避免重復(fù)合并,出現(xiàn)多種結(jié)果。
如果過錯和傷害結(jié)果在同一個提取單元中出現(xiàn),可以作為最終結(jié)果之一。對于一些文檔,過錯和傷害結(jié)果不在同一提取單元中,將提取范圍擴(kuò)充到上一提取單元,保存上一提取單元中的提取狀態(tài),若當(dāng)前提取單元中僅存在傷害結(jié)果,而上一單元的提取狀態(tài)中存在過錯,可作為最終結(jié)果。
本文通過建立模型,標(biāo)志詞表,對提取結(jié)果進(jìn)行去重合并,獲取了幾個相關(guān)網(wǎng)站中所涉及案例中出現(xiàn)的過錯,傷害結(jié)果。未來的研究可以對該詞表和程序進(jìn)一步完善,對每個標(biāo)志詞建立相應(yīng)的排除表,對一些語境識別,提高提取結(jié)果的準(zhǔn)確性。針對這些數(shù)據(jù)應(yīng)用統(tǒng)計學(xué)方法進(jìn)行分析,統(tǒng)計當(dāng)前階段醫(yī)療事故中醫(yī)療過失的分布情況,可以有效避免再次發(fā)生。
(通訊作者:馮洪海)
[1]馮洪海,孫遠(yuǎn)燦,李利敏,宋舒晗,黃俊輝.基于Web醫(yī)療數(shù)據(jù)的互聯(lián)網(wǎng)醫(yī)療用戶研究[J].計算機(jī)時代,2014(04):41-46.
[2]魏強(qiáng).基于云計算的醫(yī)療數(shù)據(jù)處理技術(shù)研究[D].貴州大學(xué),2015.
作者單位河南大學(xué)計算機(jī)與信息工程學(xué)院 河南省開封市 475000
劉源 (1996-),女,山西省呂梁市人。在讀本科。