国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CNN-SVM的護理不良事件文本分類研究*

2020-03-04 08:15:28葛曉偉李凱霞
計算機工程與科學 2020年1期
關鍵詞:字符結(jié)構(gòu)化卷積

葛曉偉,李凱霞,程 銘

(鄭州大學第一附屬醫(yī)院,河南 鄭州 450052)

1 引言

隨著信息化技術(shù)的快速發(fā)展,醫(yī)院信息化系統(tǒng)的不斷更新,當前護理數(shù)據(jù)呈現(xiàn)爆炸性增長,醫(yī)院護理不良事件記錄,數(shù)據(jù)類型復雜、結(jié)構(gòu)化數(shù)據(jù)以及文本等非結(jié)構(gòu)化數(shù)據(jù)大量并存,如何利用大數(shù)據(jù)技術(shù)整合護理不良事件數(shù)據(jù)并進行處理,獲得全面、高效、精確的分析或預測結(jié)果,成為現(xiàn)在護理不良事件研究迫切的需求[1 - 3]。

近些年來,醫(yī)療及護理安全越來越受到廣泛關注,不良事件發(fā)生率高、影響大、后果嚴重,不僅可能導致患者傷殘或死亡,也可能影響醫(yī)務及護理人員人身安全,延長患者住院時間,增加醫(yī)療成本及社會經(jīng)濟負擔[4]。在臨床工作中,護理人員與患者接觸機會多、時間長,且護理工作繁重、繁瑣,容易出現(xiàn)差錯[5]。目前護理不良事件發(fā)生數(shù)量已接近全部醫(yī)療不良事件的一半[6,7],因此,注重護理安全的管理和預防,控制護理不良事件發(fā)生至關重要。

當前大部分醫(yī)院已經(jīng)引入護理不良事件上報系統(tǒng),能夠?qū)崿F(xiàn)護理不良事件的上報、審核與簡單統(tǒng)計功能,然而在上報階段,護理不良事件上報的內(nèi)容未形成規(guī)范,不能統(tǒng)一化和制度化。各家醫(yī)療機構(gòu)的上報標準不統(tǒng)一,導致上報的內(nèi)容多以敘述和描述事件發(fā)生的流程等非結(jié)構(gòu)化文本信息為主,缺乏合理明確的分類特征,出現(xiàn)人工分析難度大、人為因素多等問題[8,9]。另外,護理不良事件側(cè)重于找出并分析問題,護理人員因多種因素,可能存在漏報、瞞報、人為降低不良事件級別等問題。

針對如何智能化地對護理不良事件中的非結(jié)構(gòu)化文本進行有效分析,降低人為因素影響的問題,Cao等人[10]基于系統(tǒng)開發(fā)的生命周期,開發(fā)并實施了醫(yī)院護理不良事件上報系統(tǒng),但系統(tǒng)中的護理不良事件分析主要針對結(jié)構(gòu)化數(shù)據(jù);Clark[11]利用貝葉斯算法分析非臨床不良事件觀察與臨床試驗中對大量批準藥物的相同事件的觀察之間的關聯(lián)性。Tomita等人[12]利用Text Mining Studio工具對護理服務中電子健康檔案等相關醫(yī)療文本數(shù)據(jù)進行不良事件分析;Roy等人[13]提出了一種機器學習模型,來改進目前用于評估和預測多種慢性病相關的不良事件風險的技術(shù)。Dev等人[14]通過將傳統(tǒng)的機器學習與深度學習方法進行對比,來對藥物警戒中不良事件進行自動分類;宋杰等人[15]通過驗證自然語言處理對于分析護理不良事件非結(jié)構(gòu)化文本的可行性,證實自然語言處理技術(shù)可以對護理不良事件非結(jié)構(gòu)化文本進行有效識別;Kim[16]通過設計TEXTCNN模型,將CNN(Convolutional Neural Network)用在文本分類上,簡單高效;Yin等人[17]經(jīng)過對比實驗發(fā)現(xiàn)CNN在文本分類上與RNN(Recurrent Neural Network)相比,訓練時間比較短,文本分類效果良好。

根據(jù)上述研究,目前基于護理不良事件的研究仍然在于實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)計分析,而非結(jié)構(gòu)化文本信息描述了不良事件發(fā)生的起因、經(jīng)過與結(jié)果,信息非常重要,對于護理不良事件中非結(jié)構(gòu)化文本信息的研究目前還比較少[18]。為充分利用護理不良事件中非結(jié)構(gòu)化文本中的有效信息,避免對特征的依賴,提高不良事件級別預測的準確性,考慮利用深度學習的方法來處理自然語言任務。因此,本文提出一種基于字符級的CNN-SVM中文文本分類模型,該模型不需要使用預先訓練好的詞向量和語法結(jié)構(gòu)等信息,并在解決非線性問題時能夠避免維度災難的問題,且容易實現(xiàn)對多種語言的快速分類,有更好的分類效果。

2 基于CNN-SVM的中文文本分類

首先,通過訓練集構(gòu)建字符級文本詞匯表,并對分類的類別以及文本數(shù)據(jù)進行向量化,利用卷積神經(jīng)網(wǎng)絡CNN[19]提取文本的抽象特征,然后通過1對1(One-against-One)的支持向量機SVM(Support Vector Machine)[20]多分類器對提取的文本特征進行分類。

2.1 構(gòu)建文本詞匯表

由于中文文本復雜度較高,采用傳統(tǒng)的向量空間模型表示文本信息時會出現(xiàn)特征向量維度過高和數(shù)據(jù)稀疏的問題,因此造成計算復雜度的增加,從而導致計算時長急劇上升;同時,傳統(tǒng)文本向量化方法忽略了詞在文本中的位置信息和相關語義信息,從而導致分類精度下降。因此,本文采用文本字符來構(gòu)造詞匯表。

若設置詞匯表W的大小為n,按照訓練集(Train Set)文本中各中文字符出現(xiàn)的次數(shù)排序,選擇出現(xiàn)較多的前n-1個中文字符構(gòu)造詞匯表W,并設置1個特殊值來表示不在詞匯表W出現(xiàn)的字符。

W={c1:0,c2:1,…,cn:n}

(1)

詞匯表中的字符用ci(i=0,1,2,…,1 999)表示,其中,0為特殊數(shù)值,表示不在該詞匯表中的字符,然后根據(jù)字符在詞匯表W中的位置信息來表示該字符。

2.2 文本向量化

(1)分類類別向量化。

假設F表示分類目錄,選擇k個類別來進行分類,則k個類別文本的標簽和對應的序號用字典形式表示如下。

F={K1:0,K2:1,…,Kk:k-1}

(2)

(2)文本數(shù)據(jù)向量化。

根據(jù)詞匯表W中生成的中文字符在文本中出現(xiàn)的頻次、位置等信息對文本數(shù)據(jù)集中的文本數(shù)據(jù)進行向量化。

將每條數(shù)據(jù)的序列長度統(tǒng)一設置為j,即每個詞袋中詞的最大個數(shù)為j,分類的類別個數(shù)為k,訓練集、校驗集、測試集大小分別為m1,m2,m3,則向量化后的數(shù)據(jù)格式如表1所示。

Table 1 Text data vectorization表1 文本數(shù)據(jù)向量化

2.3 CNN-SVM模型的構(gòu)建

基于CNN-SVM的中文護理不良事件文本分類模型主要由2部分組成:基于字符級CNN的特征提取和利用SVM進行文本分類。通過利用字符級CNN對中文護理不良事件文本數(shù)據(jù)向量化后的內(nèi)容提取深層次特征,并用提取的特征來表示一段中文護理不良事件文本信息,最后通過SVM分類器對文本進行分類,如圖1所示。

Figure 1 CNN-SVM model圖1 CNN-SVM模型

(1)卷積層。

中文護理不良事件文本處理使用一維卷積,矩陣的每1行代表1個分詞,截斷分詞沒有數(shù)學意義,故卷積filter的長度恒等于n,一維卷積需要多個寬度的濾波器(filter)來獲得不同的感受。

文本數(shù)據(jù)向量化之后的矩陣S作為輸入,卷積層有不同種類的filter(F),在卷積時,取與filter寬度相同的句子片段作為輸入,則一個句子的第i個特征向量計算公式為:

ci=(S*F)i=∑ki(S[i-m+1:i,:]?F)ki

(3)

其中,k表示卷積層數(shù),?表示卷積運算符,S[i-m+1:i,:]是寬度為m的矩陣塊,每個句子的輸入矩陣S與卷積核運算之后輸出特征向量ci,為形成更為豐富的特征,每一個filter都有p個卷積核。

(2)池化層。

通過卷積獲得文本特征后,為簡化網(wǎng)絡的計算復雜度,采用Max-Pooling,選取卷積結(jié)果計算后的最強特征,池化可自適應輸入寬度,從而將不同長度的輸入轉(zhuǎn)換為統(tǒng)一長度的輸出。最大池化結(jié)果cpool為:

cpool=max{ci,i=1,2,…,n-h+1}

(4)

其中,ci=1,2,…,n-h+1為卷積計算后的結(jié)果。n為一個由詞組成的句子的長度,h表示窗口大小。

(3)全連接層。

經(jīng)過池化后的數(shù)據(jù)按深度方向拼接成1個向量后提供給全連接層,經(jīng)softmax比較預測的標簽值和真實值來調(diào)整參數(shù),當在訓練集上表現(xiàn)穩(wěn)定時,將池化層得到的高維特征表示提取出來。

如采用CNN-softmax的方式,即可將池化層的輸出與softmax全連接,計算句子的標簽:

(5)

其中,W為權(quán)值矩陣,B為偏移矩陣。wk和bk是第k層的權(quán)重向量和偏移向量。

(4)SVM多分類器。

本文基于CNN-SVM的中文護理不良事件分類模型,采用SVM中1對1的方式把任意的2類構(gòu)造為1個分類器,因此k個類別需要(k-1)*k/2個分類器,通常這種分類方法比1對多的方式所用時間更少,效果更好。

將池化層得到的測試集的高維特征表示提取出來后,放到SVM多分類器中,訓練SVM模型直到準確率最高,使用訓練時的參數(shù),將測試集數(shù)據(jù)送到模型中進行分類。

3 實驗與結(jié)果分析

3.1 實驗數(shù)據(jù)及度量標準

護理不良事件非結(jié)構(gòu)化文本數(shù)據(jù)來源于國內(nèi)某大型三甲醫(yī)院護理不良事件上報登記系統(tǒng),該系統(tǒng)上線于2014年。

取系統(tǒng)中2014到2018年共5年的數(shù)據(jù)11 751條,設置數(shù)據(jù)整理小組(由2名主管護師、3名護師、若干名護士組成)對數(shù)據(jù)進行整理,設置數(shù)據(jù)整理規(guī)則,去掉部分不完整數(shù)據(jù)(缺乏護理不良事件級別或事件經(jīng)過的數(shù)據(jù)),并對數(shù)據(jù)中已登記的事件級別進行審查,按照經(jīng)驗商定后進行修正,最終形成11 237條正確無誤數(shù)據(jù)進行實驗。

數(shù)據(jù)分布使用了其中4個候選分類類別,數(shù)據(jù)集分布如表2所示。

Table 2 Dataset level classification表2 數(shù)據(jù)集級別分類

為驗證本文提出的分類模型性能,分別將不同的算法在相同的數(shù)據(jù)集上進行測試,將原始數(shù)據(jù)進行預處理后,隨機分為3個數(shù)據(jù)集,其中,訓練集hl_train含有9 737條數(shù)據(jù),測試集hl_test含有1 000條數(shù)據(jù),驗證集hl_val含有500條數(shù)據(jù)。

本文選擇召回率R(Recall)、F-值和準確率A(Accuracy)來評價護理不良事件中文本分類效果。召回率R計算公式如式(6)所示:

(6)

其中,TP是將2段相似的護理不良事件文本歸為1類,F(xiàn)P是將2段不相似的護理不良事件文本歸為1類。同理,根據(jù)不相似的護理不良事件文本歸為不同類及相似的歸為不同類來計算精確率P(Precision)。

F-值是精確率P和召回率R的調(diào)和平均值,計算公式如下所示:

(7)

本文取β=1,使得F-值中的精確率和召回率權(quán)重相同,則根據(jù)相似不良事件的歸類與總的文本數(shù)量計算準確率A。

3.2 結(jié)果分析

基于字符級CNN-SVM分類模型通過設置不同的參數(shù)對數(shù)據(jù)集進行多次訓練與測試,得到字符級CNN特征提取最優(yōu)參數(shù)配置如表3所示,根據(jù)得出的參數(shù)配置可知,基于字符級CNN特征提取的方式,能夠有效解決傳統(tǒng)基于TF-IDF(Term Frequency-Inverse Document Frequency)提取特征時出現(xiàn)的特征向量維度過高和數(shù)據(jù)稀疏的問題。

Table 3 Character level CNN feature extraction parameter configuration list表3 字符級CNN特征提取參數(shù)配置列表

為防止網(wǎng)絡學習過程中出現(xiàn)過擬合現(xiàn)象,利用交叉驗證(Cross-validation)[21]的方法,對訓練集每執(zhí)行1次訓練過程,在驗證集上評估1次模型的性能;根據(jù)網(wǎng)絡模型在驗證集上性能的狀態(tài)來判斷,該方法簡單有效,并且訓練時間短,在實驗中經(jīng)常會產(chǎn)生很好的效果。

學習率的正確選擇有利于網(wǎng)絡模型快速收斂到最優(yōu)權(quán)重,本文采用內(nèi)存需求小、適應于大數(shù)據(jù)集和高維空間的AdaMax自適應學習率算法[22]來選擇合適的學習率,在構(gòu)建的網(wǎng)絡模型上對不同的學習率進行實驗,最終選出合適的學習率。

為驗證基于字符級CNN-SVM的中文護理不良事件文本分類模型的準確性,本文設計多組實驗進行對比:

實驗1傳統(tǒng)基于TF-IDF的中文分類。

針對傳統(tǒng)的基于TF-IDF特征提取,并進行中文分類的方法,實驗基于jieba中文分詞模塊對文本進行分詞、刪去停用詞之后,利用TF-IDF實現(xiàn)文本向量化等預處理操作,然后用邏輯回歸、隨機森林、SVM等分類器進行分類,結(jié)果如表4所示。

Table 4 Comparison of traditional Chinese classification models based on TF-IDF表4 傳統(tǒng)基于TF-IDF的中文分類模型對比 %

不良事件數(shù)據(jù)上的實驗結(jié)果表明,SVM進行分類的效果更好,但這3種方法準確率與F-值均在70%以下,效果普遍不理想,可能跟TF-IDF提取文本特征層次以及護理不良事件非結(jié)構(gòu)化文本的特性有關。

實驗2基于字符級CNN的中文分類。

實驗基于Tensorflow框架,利用字符級CNN實現(xiàn)中文護理不良事件文本特征提取,并根據(jù)CNN自身的softmax分類器或者1對1的SVM分類器實現(xiàn)中文護理不良事件文本的級別分類,實驗結(jié)果如表5所示。

Table 5 Comparison of Chinese classification using CNN models 表5 利用CNN的中文分類模型對比 %

利用相同的數(shù)據(jù)集對比實驗1與實驗2的結(jié)果,算法的平均召回率、平均F-值和平均準確率的對比折線圖如圖2所示。

Figure 2 Comparison of various classification models圖2 各分類模型比較

本文構(gòu)建的基于字符級CNN-SVM的中文護理不良事件分類模型和文獻[15]提出的利用字符級CNN-softmax實現(xiàn)文本分類的模型,在測試集上的F-值和準確率均好于傳統(tǒng)基于TF-IDF特征提取方式的分類模型,原因在于CNN卷積神經(jīng)網(wǎng)絡能夠提取出中文護理不良事件文本中更深層次的特征?;谧址塁NN-SVM分類模型的準確率最高,平均準確率達到78%。顯然本文構(gòu)建的基于字符級CNN-SVM的分類模型在中文護理不良事件文本分類中的性能優(yōu)于傳統(tǒng)的基于TF-IDF的分類模型及基于字符級CNN-softmax的分類模型。

4 結(jié)束語

通過自然語言處理技術(shù)對非結(jié)構(gòu)化信息進行自動分析,是醫(yī)院護理不良事件大數(shù)據(jù)分析的基礎,由于醫(yī)院護理不良事件發(fā)生時,需要記錄事件發(fā)生的全部細節(jié),非結(jié)構(gòu)化文本信息在闡述醫(yī)院護理不良事件上,有著結(jié)構(gòu)化數(shù)據(jù)不可替代的重要作用。因此,自然語言處理技術(shù)能夠成為醫(yī)院護理不良事件非結(jié)構(gòu)化文本數(shù)據(jù)因素識別的輔助工具。本文提出的基于字符級CNN-SVM醫(yī)院中文護理不良事件文本分類模型與傳統(tǒng)的基于TF-IDF的分類模型及基于字符級CNN-softmax的分類模型相比,準確性有較大提高,能夠?qū)崿F(xiàn)對護理不良事件中非結(jié)構(gòu)化信息的有效分類。

另外,進一步形成護理不良事件智能分析預警系統(tǒng),輔助臨床護士進行決策是下一步研究內(nèi)容。

猜你喜歡
字符結(jié)構(gòu)化卷積
尋找更強的字符映射管理器
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
促進知識結(jié)構(gòu)化的主題式復習初探
結(jié)構(gòu)化面試方法在研究生復試中的應用
計算機教育(2020年5期)2020-07-24 08:53:00
字符代表幾
一種USB接口字符液晶控制器設計
電子制作(2019年19期)2019-11-23 08:41:50
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
消失的殖民村莊和神秘字符
基于傅里葉域卷積表示的目標跟蹤算法
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
計算機工程(2015年8期)2015-07-03 12:20:35
宝清县| 新邵县| 韶山市| 鹰潭市| 金阳县| 乌拉特前旗| 镇坪县| 突泉县| 玉林市| 富蕴县| 太原市| 保德县| 宝坻区| 环江| 霍城县| 商洛市| 贞丰县| 磐安县| 和顺县| 太白县| 海阳市| 昌图县| 谢通门县| 公安县| 教育| 云霄县| 安多县| 齐齐哈尔市| 大埔区| 樟树市| 洱源县| 三亚市| 五原县| 明溪县| 梧州市| 米脂县| 页游| 三都| 浦县| 调兵山市| 孝义市|