国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于規(guī)則的臨床病歷感染癥狀的檢測

2013-08-15 00:54:11王錦
科技視界 2013年10期
關(guān)鍵詞:術(shù)語短語規(guī)則

王錦

(安徽電子信息職業(yè)技術(shù)學(xué)院,安徽 蚌埠233030)

0 引言

大多數(shù)病歷中的臨床信息存儲在自由文本中。然而,以這種方式存儲信息很難在決策支持系統(tǒng)或自動監(jiān)護系統(tǒng)中應(yīng)用。提取計算機可讀信息的方式各不相同,許多系統(tǒng)采用字符串匹配的方法提取需要突出的數(shù)據(jù)元素。這種方法非常直接,但這種方法忽略強有力的同義詞和否定詞概念。更高級的自然語言處理系統(tǒng)已經(jīng)開發(fā)出來,這些系統(tǒng)能夠得到不同程度的成功取決于臨床領(lǐng)域的范圍和所需數(shù)據(jù)的顆粒度。

臨床癥狀和體征是任何病歷文本中的關(guān)鍵部分,包含與疾病表現(xiàn)形式和藥物治療相關(guān)的信息。從自由文本的癥狀和體征信息中獲取信息是復(fù)雜的,有若干影響因素。這些數(shù)據(jù)在以雙字符串匹配及其概念為基礎(chǔ)的繪圖軟件中經(jīng)常被記錄縮寫詞。審查系統(tǒng)信息中,以簡寫的形式記錄癥狀是普遍存在的。因為這些信息是必要的。此外,這些信息在不同部分的重復(fù)敘述,都有不同的解釋。或許最重要的是頻繁地使用否定詞的臨床癥狀(術(shù)語)。當癥狀信息在文本中出現(xiàn)而報告中不存在時就可能導(dǎo)致假陽性檢測。

我們設(shè)法進行以規(guī)則為基礎(chǔ)的算法性能評估,使用自然語言處理系統(tǒng)作為輸出端,提取一組表現(xiàn)為非特異性的研究結(jié)果的感染性綜合征。這種類型的評估在急診和初級衛(wèi)生保健的文檔中尚未完成。此外,我們得出確定、否定或不確定的癥狀,因為這樣的調(diào)查結(jié)果與經(jīng)常使用的否定詞相關(guān)聯(lián)。

1 方法

1.1 研究設(shè)置及數(shù)據(jù)源

采用一個全國性的電子健康檔案(EHR),提取了大約33000名患者的臨床醫(yī)療記錄,這些患者均是從1999年9月30日至2012年9月30號在6個醫(yī)療中心手術(shù)住院的。所有由急診科(ED)、緊急護理診所(UC)、或一個初級保健診所(PCC)抽取的醫(yī)療文檔由醫(yī)師剔除地方和國家的文件標題。文檔的標題沒有完全符合邏輯觀察的標示符名稱和代碼(LOINC)規(guī)定的情況下,從該類別中的幾個具有代表性的標題中手工檢查以確定該類編的資格。然后我們產(chǎn)生不同的訓(xùn)練和測試數(shù)據(jù)集。從數(shù)據(jù)集中采用隨機分層方式分別抽取ED、UC、PCC的臨床就診記錄20個共60個創(chuàng)建一個訓(xùn)練集。以同樣的方式額外不重復(fù)從數(shù)據(jù)集中分別抽取ED、UC、PCC各148個共444個文檔創(chuàng)建一個測試集。

1.2 多線程臨床詞匯服務(wù)器

自然語言處理系統(tǒng)在這次評價中已經(jīng)使用很長的一段時間,并在使用詞匯術(shù)語和術(shù)語之間臨床層次關(guān)系的醫(yī)學(xué)概念上建立索引。在UMLS、HL7、中的術(shù)語結(jié)構(gòu)超過140萬個字符串,包括縮寫詞、詞匯、同義詞、修飾詞和限定詞。該系統(tǒng)還具有一個拼寫檢查和修正功能。(MCVS)評估敘述性文本,以從候選詞中選取最終的概念和主張。這些候選詞根據(jù)每個字或詞的值的詞義提供的覆蓋范圍和它們在臨床術(shù)語之間的關(guān)系選取。

1.3 規(guī)則的演變

每個癥狀的檢測規(guī)則演變了三個迭代。迭代應(yīng)用在訓(xùn)練集文檔,并使用關(guān)鍵詞和概念匹配。精確匹配的字符串在NLP系統(tǒng)中定義成術(shù)語,并定義為關(guān)鍵字。這些規(guī)則可以表示為非展開概念的任何組合,這些概念包括它們的孩子,和(或)關(guān)鍵字匹配法。當關(guān)鍵字匹配法包含多個單詞時,一個成功的匹配被定義為找出在同一個句子的跨越兩個短語以任何順序排列的所有分量的詞。此外,規(guī)則中有被推翻的術(shù)語。這意味著有的否定癥狀術(shù)語當作一個確定的術(shù)語。例如,確定術(shù)語 “無黃疸”和否定術(shù)語“黃疸之間”,“非腹脹”與“腹脹”。因為我們不能改變NLP系統(tǒng)的代碼,所以我們無法進行迭代改善否定詞的性能。NLP系統(tǒng)分配關(guān)鍵詞和概念的描述。萬一關(guān)鍵詞和概念規(guī)則分量存在描述分歧,概念規(guī)則通常要判斷。

1.4 數(shù)據(jù)分析

為了衡量癥狀檢測規(guī)則的性能,我們在訓(xùn)練集中規(guī)則迭代完成后在測試集評價規(guī)則的性能。分析單位是短語。在每個短語中,每個癥狀可能存在一個單一的時間上。一個癥狀匹配算法在人工審核和以規(guī)則為基礎(chǔ)的自動算法中對一個癥狀短語(不管描述)的判定是相符的。癥狀匹配法的描述是手動審核和自動化算法的協(xié)議。

以規(guī)則為基礎(chǔ)的自動化算法從查全率、精確度及F值進行評估,分別用測試集中的結(jié)果真陽性(TP)、假陽性(FP)及假陰性(FN)表示。對于每個癥狀,假陽性是由系統(tǒng)查找,沒有通過手動標注器,而假陰性是通過手動標注器發(fā)現(xiàn)的。

2 結(jié)果

該系統(tǒng)一共分析了12224條句子,這些句子均來自444個文檔。這些句子分解成28040個短語,以便將它們映射到SNOMED-CT的概念和關(guān)鍵字中以及檢測概念和關(guān)鍵字描述。這使得90673條短語被映射成概念,其余36410條短語沒有被映射,保留作為關(guān)鍵字。

一共有2679條癥狀短語在人工評審和第三方評審的測試中檢測到。呼吸急促癥狀出現(xiàn)3次,水腫出現(xiàn)343次,可以作為表2中真陽性和假陰性結(jié)果數(shù)的總和。在這些癥狀短語中,976個癥狀短語(36.4%)為確定性描述,1542個癥狀短語(57.6%)否定性描述,161個癥狀短語(6.0%)不確定性描述。有917個癥狀短語有歧義,913個癥狀短語由單獨評審發(fā)現(xiàn)。有91個歧義描述由兩個主要評審中發(fā)現(xiàn)。所有手工評審的F度量的平均值為0.805。在第三次評審判別歧義癥狀短語后,734個癥狀短語(80%)被評審人證實是正確的,183個癥狀短語是不存在的,6個屬于不同癥狀的。

通過以規(guī)則為基礎(chǔ)的自動化檢測算法,在測試集中一共檢測出2451個結(jié)果,分別有2236個真陽性結(jié)果和215個假陽性結(jié)果。表2中癥狀的真陽性和假陽性之和可以確定癥狀的出現(xiàn)。1223個癥狀(49.9%)為確定性描述,1215個癥狀(49.6%)為否定性描述,13個癥狀(0.5%)為不確定性描述。

相比于手工評審集,自動化癥狀檢測算法的整體性能的測量精度為0.91,查全率為0.84,F(xiàn)值為0.87((TP=2236,FP=215,FN=443)。9個不同變化頻率的癥狀重,黃疸的變化范圍為0.35~1.00?;叵胍幌聫?.30~1.00變化范圍的癥狀(黃疸、打噴嚏和厭食),這些癥狀都是比較特殊的。

相比于手工評審集,癥狀檢測算法的整體性能測量精度為0.67,查全率為0.62,F(xiàn)值為0.64(TP=1654,F(xiàn)P=807,F(xiàn)N=1035)。例如,腹脹,19(6+13)情況下被自然語言處理系統(tǒng)發(fā)現(xiàn),并沒有被手工評審發(fā)現(xiàn)。另外,有NLP系統(tǒng)和手工評審均通過的34個癥狀中,NLP系統(tǒng)認為是確定性描述,手工評審認為是否定性描述。請注意,由于對于一個癥狀的描述,計算單個多級別精度和查全率的測量值是不平衡的算法,所以某些應(yīng)變矩陣的元素的FP和FN應(yīng)計算多次。表4描述的是每個癥狀規(guī)則的癥狀檢測描述性能測量值(準確率、查全率和F值)。該系統(tǒng)正確檢測出84.7%(646/762)的確定性描述、75.1%(1001/1333)的否定描述,和0.7%(1/141)的不確定性描述。

3 結(jié)論

總體而言,包含關(guān)鍵字和術(shù)語的檢測規(guī)則的自動化算法在臨床記錄中的感染癥狀檢測中的表現(xiàn)非常出色。癥狀檢測算法的表現(xiàn)好壞取決于臨床記錄中不確定性和否定性癥狀的比例。該系統(tǒng)能很好地協(xié)助檢測敘述性文檔的各種臨床癥狀以支持實時臨床決策和公共健康活動。今后的工作將是系統(tǒng)開發(fā)和以規(guī)則為基礎(chǔ)的癥狀檢測和描述確定算法的改進。

[1]王燦輝,張敏,馬少平.自然語言處理在信息檢索中的應(yīng)用綜述[J].中文信息學(xué)報,2007,21(2):35-45.

[2]李毅,保鵬飛,薛萬國.中文電子病歷的信息抽取研究[J].生物醫(yī)學(xué)工程學(xué)雜志, 2010,27(4):757-762.

猜你喜歡
術(shù)語短語規(guī)則
撐竿跳規(guī)則的制定
數(shù)獨的規(guī)則和演變
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規(guī)則對我國的啟示
有感于幾個術(shù)語的定名與應(yīng)用
從術(shù)語學(xué)基本模型的演變看術(shù)語學(xué)的發(fā)展趨勢
奧運術(shù)語
籃球術(shù)語及游泳術(shù)語
404 Not Found

404 Not Found


nginx
淮滨县| 金堂县| 宁阳县| 齐齐哈尔市| 水富县| 湟中县| 陆河县| 梅河口市| 佛山市| 手机| 灵宝市| 台北市| 金山区| 耒阳市| 封开县| 德庆县| 安宁市| 成安县| 乌鲁木齐市| 同江市| 赣州市| 顺昌县| 金秀| 湛江市| 尤溪县| 沙河市| 盈江县| 泰安市| 海原县| 新郑市| 财经| 祁阳县| 苏尼特左旗| 石林| 洪泽县| 松溪县| 宜章县| 松滋市| 繁昌县| 赤峰市| 兰坪|