国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

醫(yī)療糾紛文獻(xiàn)的數(shù)據(jù)挖掘

2017-11-07 12:52:32劉源馮洪海
電子技術(shù)與軟件工程 2017年17期
關(guān)鍵詞:詞表標(biāo)志數(shù)據(jù)挖掘

文/劉源 馮洪海

醫(yī)療糾紛文獻(xiàn)的數(shù)據(jù)挖掘

文/劉源 馮洪海

因?yàn)獒t(yī)療糾紛導(dǎo)致的慘劇近年來頻繁發(fā)生,為了避免此類傷害再次發(fā)生,應(yīng)該從醫(yī)患雙方分析原因。本文中從網(wǎng)上獲取了大量醫(yī)療糾紛案例,通過分析數(shù)據(jù),總結(jié)普遍性規(guī)律,建立模型,編寫相關(guān)的程序,針對文章內(nèi)容準(zhǔn)確提取出醫(yī)療過錯以及損害結(jié)果等。

醫(yī)療糾紛 醫(yī)療過錯 損害結(jié)果

1 引言

近幾年以來,數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域有廣泛的應(yīng)用,并逐漸形成了一個重要的研究分支。據(jù)統(tǒng)計2016年,通過各方共同努力,全國法院全年共審結(jié)醫(yī)療損害賠償案件20833件。互聯(lián)網(wǎng)中積累了大量關(guān)于醫(yī)療糾紛的案例,為數(shù)據(jù)分析提取提供了資源。當(dāng)前,已經(jīng)有一些學(xué)者對互聯(lián)網(wǎng)醫(yī)療數(shù)據(jù)進(jìn)行了研究和分析,馮洪海[1]等統(tǒng)計分析了現(xiàn)階段互聯(lián)網(wǎng)醫(yī)療用戶癥狀和疾病的分布情況,魏強(qiáng)[2]通過研究醫(yī)療數(shù)據(jù)存儲與分析系統(tǒng),分析了疾病間的相互聯(lián)系,但尚沒有文獻(xiàn)關(guān)于醫(yī)療糾紛的挖掘分析。

本文中之前已通過爬蟲軟件獲取了截至2017年各主要相關(guān)網(wǎng)站大量案例數(shù)據(jù),針對這些數(shù)據(jù)進(jìn)行分析,總結(jié)普遍性規(guī)律,建立模型,編寫相應(yīng)的程序,對文章內(nèi)容分析準(zhǔn)確提取出醫(yī)療過錯(如漏診,錯診),損害結(jié)果等內(nèi)容。本文將著重從程序設(shè)計過程來分析。

2 程序設(shè)計過程

本文中設(shè)計的程序用JAVA語言編寫,通過字符串的查找功能來實(shí)現(xiàn)各關(guān)鍵詞的定位,對文章內(nèi)容進(jìn)行有效提取。其中,標(biāo)志詞根據(jù)關(guān)鍵詞數(shù)量主要分為單個和多個(例如“漏診,過失行為”為單個標(biāo)志詞,“系....所致”為多個標(biāo)志詞)。單個標(biāo)志詞匹配較為容易,多個標(biāo)志詞匹配主要是通過第一個關(guān)鍵詞之前的標(biāo)點(diǎn)符號和最后一個關(guān)鍵詞之后的標(biāo)點(diǎn)符號的位置來確定提取內(nèi)容。

2.1 分割提取單元

文章案例均來源于網(wǎng)上,所以編碼格式主要為“UTF-8”和“GBK”。本文中提取案例均為完整的一個字符串,不含有“ ”,“ ”等換行符,所以先對文章進(jìn)行分解。案例標(biāo)題中主要包含一些日期信息,作者信息等,故將該部分舍去。接下來對文章進(jìn)行分解,分割為獨(dú)立的提取單元。提取單元過大,使得每個單元中多個提取結(jié)果,不利于結(jié)果的處理,提取單元過小,每個單元中無法提取到完整的信息。經(jīng)過反復(fù)試驗(yàn),最終將提取單元設(shè)定為兩個句號,即兩句話,通??梢员磉_(dá)一個完整的意思。完整程序流程圖見圖1。

圖1:程序流程圖

2.2 建立過錯標(biāo)志詞表

通過閱讀大量案例,對文章中常見的過錯表述進(jìn)行總結(jié),建立標(biāo)志詞表,例如,“系.....所致”,“為.....所致”等。接下來,對每個提取單元進(jìn)行標(biāo)志詞匹配。匹配范圍大小是該部分的一個難點(diǎn)之一,為了避免因?yàn)槠ヅ浞秶斐山Y(jié)果偶然性,導(dǎo)致實(shí)際內(nèi)容與目標(biāo)不符。所以,本文將匹配范圍確定到兩個逗號之間的內(nèi)容,提取范圍結(jié)果所在的一句話,以此來應(yīng)對該問題。

2.3 建立傷害結(jié)果標(biāo)志詞表

對于過錯行為引發(fā)的傷害結(jié)果,由兩部分組成,第一部分用來連接傷害后果的連詞,例如“致使”,“導(dǎo)致”等,或者是用來表示時間的關(guān)系的連詞,例如“手術(shù)后”,“就醫(yī)后”,“治療后”等,該部分各標(biāo)志詞之間邏輯關(guān)系為或。第二部分是損害結(jié)果。標(biāo)志詞如“死亡”,“殘疾”,“喪失生活能力”等。提取范圍與上部分一致。

2.4 提取結(jié)果處理

每個提取單元中可能存在多個標(biāo)志詞,會造成同一部分內(nèi)容多次提取,需要對提取結(jié)果進(jìn)行去重和合并。去重相對容易解決,JAVA中的HashSet類,屬于集合類,容器中只能用來存儲不重復(fù)的對象,將提取結(jié)果加入到該集合中,來解決該問題。合并對集合中的提取結(jié)果尋找公共字符串,對于有公共字符串的提取結(jié)果分到同一組,對于每一組都可以合并為一個完整的句子,避免重復(fù)合并,出現(xiàn)多種結(jié)果。

如果過錯和傷害結(jié)果在同一個提取單元中出現(xiàn),可以作為最終結(jié)果之一。對于一些文檔,過錯和傷害結(jié)果不在同一提取單元中,將提取范圍擴(kuò)充到上一提取單元,保存上一提取單元中的提取狀態(tài),若當(dāng)前提取單元中僅存在傷害結(jié)果,而上一單元的提取狀態(tài)中存在過錯,可作為最終結(jié)果。

3 結(jié)束語

本文通過建立模型,標(biāo)志詞表,對提取結(jié)果進(jìn)行去重合并,獲取了幾個相關(guān)網(wǎng)站中所涉及案例中出現(xiàn)的過錯,傷害結(jié)果。未來的研究可以對該詞表和程序進(jìn)一步完善,對每個標(biāo)志詞建立相應(yīng)的排除表,對一些語境識別,提高提取結(jié)果的準(zhǔn)確性。針對這些數(shù)據(jù)應(yīng)用統(tǒng)計學(xué)方法進(jìn)行分析,統(tǒng)計當(dāng)前階段醫(yī)療事故中醫(yī)療過失的分布情況,可以有效避免再次發(fā)生。

(通訊作者:馮洪海)

[1]馮洪海,孫遠(yuǎn)燦,李利敏,宋舒晗,黃俊輝.基于Web醫(yī)療數(shù)據(jù)的互聯(lián)網(wǎng)醫(yī)療用戶研究[J].計算機(jī)時代,2014(04):41-46.

[2]魏強(qiáng).基于云計算的醫(yī)療數(shù)據(jù)處理技術(shù)研究[D].貴州大學(xué),2015.

作者單位河南大學(xué)計算機(jī)與信息工程學(xué)院 河南省開封市 475000

劉源 (1996-),女,山西省呂梁市人。在讀本科。

猜你喜歡
詞表標(biāo)志數(shù)據(jù)挖掘
多功能標(biāo)志桿的使用
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項(xiàng)目名稱漢英對照詞表
英語世界(2021年13期)2021-01-12 05:47:51
認(rèn)標(biāo)志
啟蒙(3-7歲)(2019年5期)2019-06-27 07:24:50
首都的標(biāo)志是只熊
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
醫(yī)改進(jìn)入新階段的重要標(biāo)志
基于GPGPU的離散數(shù)據(jù)挖掘研究
洛浦县| 巩留县| 土默特右旗| 紫金县| 山东省| 醴陵市| 湾仔区| 京山县| 祁连县| 扬州市| 长宁县| 精河县| 辽阳县| 东光县| 涿鹿县| 高安市| 湛江市| 青浦区| 乌拉特中旗| 高淳县| 青铜峡市| 荃湾区| 綦江县| 绩溪县| 沁水县| 彭州市| 克东县| 伽师县| 崇左市| 滦平县| 西平县| 阿合奇县| 增城市| 工布江达县| 闸北区| 平舆县| 获嘉县| 同江市| 大宁县| 新源县| 甘洛县|