李國壘 陳先來,2,3* 夏 冬 楊 榮
1(中南大學(xué)信息安全與大數(shù)據(jù)研究院,長沙 410013)2(醫(yī)學(xué)信息研究湖南省普通高等學(xué)校重點(diǎn)實(shí)驗(yàn)室(中南大學(xué)),長沙 410013)3(湖南省高等學(xué)校醫(yī)學(xué)大數(shù)據(jù)2011協(xié)同創(chuàng)新中心,長沙 410013)4(中國科學(xué)院成都文獻(xiàn)情報(bào)中心,成都 610041)5(中南大學(xué)湘雅醫(yī)院,長沙 410078)
中文病歷文本分詞方法研究
李國壘1陳先來1,2,3*夏 冬4楊 榮5
1(中南大學(xué)信息安全與大數(shù)據(jù)研究院,長沙 410013)2(醫(yī)學(xué)信息研究湖南省普通高等學(xué)校重點(diǎn)實(shí)驗(yàn)室(中南大學(xué)),長沙 410013)3(湖南省高等學(xué)校醫(yī)學(xué)大數(shù)據(jù)2011協(xié)同創(chuàng)新中心,長沙 410013)4(中國科學(xué)院成都文獻(xiàn)情報(bào)中心,成都 610041)5(中南大學(xué)湘雅醫(yī)院,長沙 410078)
探索適合醫(yī)學(xué)文本的分詞方法,為醫(yī)學(xué)數(shù)據(jù)挖掘和臨床決策支持的語義分析奠定基礎(chǔ)。分別使用單純中科院ICTCLAS分詞、ICTCLAS+自定義詞典、ICTCLAS+統(tǒng)計(jì)分詞和ICTCLAS+自定義詞典結(jié)合互信息統(tǒng)計(jì)分詞4種策略,對1 500份出院記錄中的病歷文本進(jìn)行分詞處理,并從準(zhǔn)確率、召回率和綜合指標(biāo)值等3個(gè)方面對分詞結(jié)果進(jìn)行評價(jià)。以人工分詞的50份出院記錄結(jié)果為標(biāo)準(zhǔn)依據(jù),4種分詞策略的綜合指標(biāo)值分別為45.77%、58.76%、64.93%和78.06%。結(jié)果證實(shí),自定義詞典結(jié)合基于互信息的統(tǒng)計(jì)分詞方法,能夠有效地對病歷中出院記錄文本進(jìn)行分詞處理,可以滿足臨床數(shù)據(jù)分析的需求,具有良好的推廣意義。
病歷文本;中文分詞;統(tǒng)計(jì)分詞;詞典分詞;出院記錄
一份完整的住院電子病歷包含許多記錄信息,如住院病案首頁、病歷概要、入院記錄、檢查報(bào)告、檢驗(yàn)報(bào)告和出院記錄等。其中,出院記錄是患者住院診療過程的高度總結(jié),包含著患者的入院病情摘要、入院診斷、住院期間的病情變化及整個(gè)診療過程,既有結(jié)構(gòu)化內(nèi)容也有非結(jié)構(gòu)化內(nèi)容。出院記錄的內(nèi)容大多為敘述性的文本信息,對其進(jìn)行語義分析或數(shù)據(jù)挖掘等,迫切需要良好的技術(shù)對其進(jìn)行分詞處理。
近年來,眾多學(xué)者開展了針對醫(yī)學(xué)文本分詞處理的研究。國外方面,由于中文語言沒有自然的分隔標(biāo)識,且國外電子病歷大部分實(shí)現(xiàn)了結(jié)構(gòu)化并擁有較為完善的臨床術(shù)語系統(tǒng),如SNOMEO CT、UMLS和RxNorm等,因此相關(guān)研究主要集中在醫(yī)學(xué)術(shù)語和本體知識庫構(gòu)建、醫(yī)學(xué)自然語言處理和醫(yī)療數(shù)據(jù)模型和軟件開發(fā)等方面。國外針對中文病歷文本分詞的研究較少,Lu等利用統(tǒng)計(jì)學(xué)方法,從100萬名患者的主訴中抽取了470個(gè)關(guān)鍵術(shù)語,并轉(zhuǎn)換為英文進(jìn)行分類,用以實(shí)現(xiàn)臨床癥狀的監(jiān)測[1]。Dong等利用無監(jiān)督迭代算法和SVM,構(gòu)建了一個(gè)數(shù)據(jù)驅(qū)動(dòng)框架,將電子病歷中的自由文本轉(zhuǎn)化為時(shí)間事件描述形式的結(jié)構(gòu)化文本[2]。在國內(nèi)的中文病歷文本中,許多臨床活動(dòng)是以自由文本形式進(jìn)行描述的,用詞不受約束,依個(gè)人愛好而定,使用未登錄詞、同義詞、近義詞、縮略詞等的現(xiàn)象普遍存在。因此,對中文病歷文本進(jìn)行分詞處理,并從中抽取臨床術(shù)語,是進(jìn)行電子病歷數(shù)據(jù)分析的基礎(chǔ)。陳衡等對電子病歷中現(xiàn)病史文本進(jìn)行了分詞研究,對于實(shí)現(xiàn)電子病歷結(jié)構(gòu)化具有一定的參考價(jià)值[3]。栗偉等提出了一種基于CRF與規(guī)則相結(jié)合的醫(yī)學(xué)病歷實(shí)體識別算法[4]。王軍輝等提出了基于重現(xiàn)的無詞典分詞方法構(gòu)建醫(yī)學(xué)文獻(xiàn)相關(guān)性數(shù)據(jù)庫、發(fā)現(xiàn)醫(yī)學(xué)新名詞的應(yīng)用設(shè)想[5]。為了抽取電子病歷中的相關(guān)概念,鄧本洋使用了CRF、最大熵、MIRA等3種基本學(xué)習(xí)模型,并利用實(shí)體識別的基本特征,建立了baseline系統(tǒng)用來識別電子病歷中的相關(guān)概念[6]。國內(nèi)已有的中文病歷文本分詞研究雖然取得了良好的進(jìn)展,但尚無法滿足病歷文本處理的需要。
筆者以中國科學(xué)院的ICTCLAS分詞系統(tǒng)為基礎(chǔ),對出院記錄文本的詞語切分進(jìn)行研究。通過4種分詞方案進(jìn)行實(shí)驗(yàn)并評價(jià),探索中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫術(shù)語、基于互信息的統(tǒng)計(jì)方法對出院記錄文本分詞的應(yīng)用價(jià)值。
1.1 數(shù)據(jù)來源
本研究的實(shí)驗(yàn)數(shù)據(jù)來自國內(nèi)多所著名三甲醫(yī)院的電子病歷系統(tǒng),從中提取了第一診斷為胃腫瘤(ICD-10:C16)的出院記錄1 500份,出院記錄的部分內(nèi)容如圖1所示。
圖1 出院記錄部分內(nèi)容Fig.1 Part of the discharge record
1.2 處理方法
采用4種分詞策略對出院記錄文本進(jìn)行處理:一是單純利用中科院ICTCLAS對文本進(jìn)行分詞;二是采用中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫中有關(guān)胃腫瘤的關(guān)鍵詞、主題詞構(gòu)建自定義詞典,結(jié)合ICTCLAS分詞;三是計(jì)算ICTCLAS分詞后相鄰詞匯互信息值,進(jìn)行ICTCLAS統(tǒng)計(jì)分詞;四是首先利用中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫中有關(guān)胃腫瘤的關(guān)鍵詞、主題詞作為自定義詞典進(jìn)行詞典分詞,然后計(jì)算分詞后相鄰詞匯互信息值進(jìn)行統(tǒng)計(jì)分詞。
對中文分詞算法的性能,通常采用準(zhǔn)確率(precision)、召回率(recall)[7]和綜合指標(biāo)F-1值[8]等指標(biāo)進(jìn)行測評,各指標(biāo)的計(jì)算公式如下:
(1)
(2)
(3)
準(zhǔn)確率和召回率越高,分詞結(jié)果就越理想。但是在通常情況下,準(zhǔn)確率和召回率是相互影響的,準(zhǔn)確率高、召回率就低,準(zhǔn)確率低、召回率就高[9]。因此,常常采用綜合評測指標(biāo)F-1對切分結(jié)果進(jìn)行測評,綜合指標(biāo)F-1值越高,切分結(jié)果就越理想。
以人工分詞的結(jié)果為標(biāo)準(zhǔn),為保證人工分詞的一致性及人工分詞的準(zhǔn)確性,人工分詞由來自普外科、消化內(nèi)科和影像科的3名臨床醫(yī)生同時(shí)對一份出院記錄進(jìn)行人工分詞并及時(shí)溝通交流,當(dāng)3人對一份出院記錄的分詞結(jié)果達(dá)成一致時(shí),則按順序完成下一個(gè)出院記錄文本的人工切分,具體測評步驟如下。
步驟1:隨機(jī)抽取50份出院記錄,進(jìn)行預(yù)處理,刪除掉標(biāo)點(diǎn)等特殊字符。
步驟2:對50份出院記錄進(jìn)行人工分詞,并記錄下每一份出院記錄切分出來的詞語總數(shù)。
步驟3:利用4種分詞策略,對每一份出院記錄進(jìn)行分詞處理,編制程序?qū)Ψ衷~結(jié)果進(jìn)行統(tǒng)計(jì)計(jì)算,得到每種分詞策略切分出來的總詞數(shù)和正確切分的詞數(shù)(即每條出院記錄中人工切分詞匯在機(jī)器分詞結(jié)果中出現(xiàn)的詞匯總數(shù))。
步驟4:利用式(1)~(3),計(jì)算得到每一種分詞策略對每一份出院記錄切分后的準(zhǔn)確率、召回率和綜合指標(biāo)F-1值,并計(jì)算3個(gè)指標(biāo)的平均值。
如圖2所示,對文本進(jìn)行切分處理后,統(tǒng)計(jì)每一種分詞方法的召回率、準(zhǔn)確率和綜合指標(biāo)F-1值,并對不同方案進(jìn)行比較,選擇切分效果最優(yōu)的方法。
圖2 中文分詞過程Fig.2 Chinese word segmentation process
1.2.1 單純ICTCLAS分詞
實(shí)驗(yàn)所選分詞工具為中國科學(xué)院計(jì)算機(jī)技術(shù)研究所的ICTCLAS漢語分詞系統(tǒng),版本為5.0。本實(shí)驗(yàn)采用MyEclipse集成開發(fā)環(huán)境,參考ICTCLAS提供的API,采用JAVA語言實(shí)現(xiàn)對出院記錄文本的分詞處理。文本經(jīng)過切分處理后,切分出的詞匯以空格隔開,表明該詞匯為單個(gè)獨(dú)立詞匯。首先對1500份出院記錄進(jìn)行單純的ICTCLAS分詞。
1.2.2 基于SinoMed自定義詞典分詞
為改善單純ICTCLAS的分詞效果,本研究采用中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(SinoMed)中與胃腫瘤相關(guān)文獻(xiàn)的關(guān)鍵詞和主題詞構(gòu)建自定義詞典。中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫收集了大量的國內(nèi)生物醫(yī)學(xué)領(lǐng)域研究文獻(xiàn),其中包含了大量的臨床研究文獻(xiàn),并且在題錄中有規(guī)范的主題詞和關(guān)鍵詞[10]。
在SinoMed中,檢索2001—2003年分類號為R735.2的文獻(xiàn)(注:近幾年的文獻(xiàn)題錄中只標(biāo)注了關(guān)鍵詞,沒有標(biāo)注主題詞,且重復(fù)的關(guān)鍵詞較多,故設(shè)定檢索年限為2001—2003年),導(dǎo)出關(guān)鍵詞和主題詞合并去重,得到自定義詞典,該詞典含有詞匯5 429個(gè)。利用ICTCLAS,結(jié)合自定義詞典,對1 500份出院記錄進(jìn)行分詞。
1.2.3 基于互信息統(tǒng)計(jì)方法分詞
由于出院記錄中有大量醫(yī)療領(lǐng)域的專業(yè)術(shù)語,自定義詞典很難構(gòu)建完備,無法識別未登錄詞?;バ畔⑺惴梢愿鶕?jù)實(shí)際的臨床文本內(nèi)容,計(jì)算相鄰字構(gòu)成詞的概率,利用基于互信息的統(tǒng)計(jì)分詞算法,構(gòu)建符合臨床實(shí)踐應(yīng)用的臨床術(shù)語字典,對于識別未登錄詞具有重要價(jià)值。本研究采用計(jì)算相鄰詞匯互信息值的方法,對病歷文本分詞進(jìn)行探索。
互信息值反映了漢字之間結(jié)合關(guān)系的緊密程度[11],大于0表明兩個(gè)字成正相關(guān),反之則為負(fù)相關(guān),對有序漢字串AB中漢字AB之間的互信息MI(A,B)定義如下:
(4)
式中,P(A,B)為漢字A、B出現(xiàn)的概率,P(A)為漢字A出現(xiàn)的概率,P(B)為漢字B出現(xiàn)的概率。
由于出院記錄中存在大量的標(biāo)點(diǎn)、數(shù)字、單位等特殊字符,在計(jì)算互信息值時(shí),特殊符號的存在會(huì)影響統(tǒng)計(jì)計(jì)算結(jié)果,因此本研究首先對出院記錄文本進(jìn)行預(yù)處理,刪除文本中的標(biāo)點(diǎn)等特殊字符,使用ICTCLAS對文本進(jìn)行無詞典分詞,以空格為切分依據(jù),切分出單個(gè)詞匯,然后編制程序,統(tǒng)計(jì)計(jì)算兩個(gè)相鄰詞匯的共現(xiàn)頻次,同時(shí)分別統(tǒng)計(jì)這兩個(gè)詞匯的出現(xiàn)總頻次,然后計(jì)算這兩個(gè)詞匯的互信息值。經(jīng)過統(tǒng)計(jì)分析后,發(fā)現(xiàn)MI≥0的詞對共有10 096種,將其作為自定義字典,對1 500份出院記錄進(jìn)行切分。
1.2.4 自定義詞典與統(tǒng)計(jì)方法相結(jié)合分詞
本研究使用的詞典和統(tǒng)計(jì)相結(jié)合分詞策略的步驟如圖3所示。
圖3 融入自定義詞典與統(tǒng)計(jì)方法分詞流程Fig.3 Process of segmentation method with custom dictionary and statistical segmentation method based on mutual information
首先,以SinoMed中的關(guān)鍵詞和主題詞構(gòu)建自定義詞典,對文本進(jìn)行詞典分詞;然后,依據(jù)分詞結(jié)果,統(tǒng)計(jì)計(jì)算相鄰詞匯的互信息值,將互信值大于等于0的詞匯與自定義詞典中的詞匯合并去重構(gòu)新的自定義詞典;最后,再依據(jù)新的自定義詞典,對文本進(jìn)行分詞。
本研究主要采取了單純ICTCLAS分詞、ICTCLAS+自定義詞典分詞、ICTCLAS+統(tǒng)計(jì)分詞以及ICTCLAS+自定義詞典+統(tǒng)計(jì)分詞4種策略,分別對出院記錄文本進(jìn)行了分詞處理。利用單純ICTCLAS分詞策略處理后發(fā)現(xiàn),ICTCLAS系統(tǒng)對于專業(yè)的醫(yī)學(xué)臨床術(shù)語并不能有效地切分。例如:對于“次/分”,系統(tǒng)將其切分成了3個(gè)部分——“次”、“/”、“分”;對于“黃染”,系統(tǒng)則切分成“黃”、“染”兩個(gè)詞;對于“反跳痛”,系統(tǒng)則切分成了“反”、“跳”、“痛”3個(gè)詞。
利用ICTCLAS+自定義詞典分詞策略,發(fā)現(xiàn)融入自定義詞典后,對于詞典中存在的詞匯,如“黃染”、“肛門”、“移動(dòng)性”、“右肝”等醫(yī)學(xué)臨床用語,系統(tǒng)均能有效地切分出來,對于詞典中不存在的詞匯,如“肌力”、“胸片”等,系統(tǒng)仍然不能有效識別。
利用ICTCLAS+統(tǒng)計(jì)分詞方法進(jìn)行互信息值計(jì)算后,發(fā)現(xiàn)在文本中相鄰兩個(gè)字組合生成新的詞匯共有48 770種可能,如表1所示。
表1 統(tǒng)計(jì)分詞后詞匯互信息值Tab.1 Mutual information value after statistical word segmentation
經(jīng)過統(tǒng)計(jì)分析后,發(fā)現(xiàn)MI≥0的詞對共有10 096種,將其作為自定義字典對1 500份出院記錄進(jìn)行切分。對于“黃”、“染”,ICTCLAS系統(tǒng)默認(rèn)為兩個(gè)詞,經(jīng)過互信息計(jì)算后,“黃”、“染”兩個(gè)詞被組合成了一個(gè)詞“黃染”,“叩”,“痛”兩個(gè)詞也被組合成了一個(gè)詞“叩痛”。同理,對于ICTCLAS系統(tǒng)切分開的正確詞匯,經(jīng)過互信息計(jì)算后,可以被有效地合并。由于本次實(shí)驗(yàn)只保留了MI≥0的詞匯,并不能保證所有被切分開的詞匯能夠合并,如“上腹部”被ICTCLAS切分成了“上”和“腹部”兩個(gè)詞,而“上腹部”的互信息值為-2.41,因此并沒有將其納入詞典進(jìn)行切分,導(dǎo)致統(tǒng)計(jì)分詞后“上腹部”依然為“上”和“腹部”兩個(gè)詞。
利用ICTCLAS+自定義詞典+統(tǒng)計(jì)分詞策略對文本切分后,統(tǒng)計(jì)計(jì)算相鄰詞匯的互信息值,此次實(shí)驗(yàn)文本中相鄰兩個(gè)字組合生成新的詞匯共有51 658種可能,如表2所示。
表2 詞典分詞+統(tǒng)計(jì)分詞后互信息值Tab.2 Mutual information value after dictionary word segmentation and statistical word segmentation
經(jīng)統(tǒng)計(jì),發(fā)現(xiàn)相鄰兩個(gè)詞MI≥0的詞對共有11 845種,將其與初始詞典中的5 429個(gè)詞匯進(jìn)行合并去重,構(gòu)成新的自定義詞典,共含有詞匯17 113個(gè)。依據(jù)該自定義字典,再次對1 500份出院記錄進(jìn)行切分,發(fā)現(xiàn)詞典和統(tǒng)計(jì)相結(jié)合的分詞方法不僅能夠?qū)⒃~典中的詞匯有效地切分出來,同時(shí)還可以彌補(bǔ)ICTCLAS系統(tǒng)的不足,能夠?qū)CTCLAS系統(tǒng)拆分開的詞匯有效地合并起來。例如,可以將“無黃染”、“無壓痛”、“外生殖器”等臨床癥狀描述的術(shù)語準(zhǔn)確地切分出來。
在實(shí)驗(yàn)中,采用召回率、準(zhǔn)確率以及綜合指標(biāo)F-1值,對分詞效果進(jìn)行評估,4種分詞算法測評結(jié)果如表3所示。由此可知,ICTCLAS中文分詞系統(tǒng)并不能有效地對臨床醫(yī)療文本進(jìn)行切分,對一些臨床術(shù)語并不能有效識別出來。加入自定義詞典后,對于該詞典內(nèi)的詞匯可以準(zhǔn)確地切分出來。但是,醫(yī)學(xué)術(shù)語錯(cuò)綜復(fù)雜,數(shù)量大,SinoMed中的關(guān)鍵詞、主題詞大多為名詞,且主要用于醫(yī)學(xué)文獻(xiàn)檢索領(lǐng)域,用于臨床實(shí)踐的術(shù)語收錄較少,因此單純以SinoMed中的關(guān)鍵詞和主題詞作為自定義領(lǐng)域字典,實(shí)現(xiàn)對醫(yī)療文本的切分,效果仍然不太理想。統(tǒng)計(jì)學(xué)方法對于識別未登錄詞是有效的,互信息算法是其中的一種。利用互信息算法,對醫(yī)療文本進(jìn)行統(tǒng)計(jì)分詞,能夠依據(jù)詞匯在病歷的實(shí)際應(yīng)用進(jìn)行組合,從中提取出符合實(shí)際應(yīng)用的臨床術(shù)語,可以提高切分的準(zhǔn)確率,但是會(huì)切分出一些共現(xiàn)頻率較高但沒有實(shí)際意義的詞匯組合,導(dǎo)致切分的召回率較低。
表3 分詞算法測評結(jié)果Tab.3 Evaluation results of segmentation algorithm
目前,通過ICTCLAS+自定義詞典+統(tǒng)計(jì)分詞的分詞策略,可以將切分的準(zhǔn)確率提高到82.30%,實(shí)現(xiàn)對大部分臨床術(shù)語的切分,為電子病歷中其他文本的分詞處理和中文病歷文本概念的抽取提供了思路,對電子病歷的結(jié)構(gòu)化起到一定的作用[12]。同時(shí),本研究為電子病歷命名實(shí)體識別和實(shí)體關(guān)系抽取也提供了借鑒[13]。
本次實(shí)驗(yàn)中,將閾值設(shè)置為0,即互信息值大于0的詞匯,默認(rèn)為是一個(gè)詞,但是實(shí)驗(yàn)過程中發(fā)現(xiàn)存在互信息值小于0的詞組,其本身也是一個(gè)詞語,但是并沒有將其納入詞典中,因此導(dǎo)致利用互信息進(jìn)行統(tǒng)計(jì)分詞構(gòu)建的詞典并不完備。同時(shí),在切分過程中發(fā)現(xiàn),對于醫(yī)生的一些書寫錯(cuò)誤,如“十二指長”、“以球形”等,此類詞匯并不能有效地切分出來。由于臨床用語的不規(guī)范,文本中出現(xiàn)了“墨菲氏征”、“Murph′s征”、“莫菲氏癥”等不規(guī)范的表達(dá)方式,導(dǎo)致切分效果不佳。實(shí)驗(yàn)測評以人工分詞結(jié)果為準(zhǔn)且測評樣本較小,測評結(jié)果的準(zhǔn)確率也會(huì)受此影響;分詞效果的高低取決于臨床術(shù)語字典構(gòu)建的質(zhì)量,由于難以構(gòu)建能夠囊括所有臨床術(shù)語的字典,且本研究只選擇了電子病歷中出院記錄作為研究對象,所以語句結(jié)構(gòu)比較單一,推廣受到了一定的限制。選擇更多的病歷信息進(jìn)行研究,構(gòu)建較為全面的臨床術(shù)語字典,將是下一步需要開展的工作。
利用詞典和統(tǒng)計(jì)相結(jié)合的分詞方法,不僅能夠準(zhǔn)確地切分出字典中的詞匯,同時(shí)也能夠依據(jù)臨床實(shí)際應(yīng)用,組合構(gòu)建新的臨床術(shù)語,較好地識別出臨床文本中的未登錄詞,其切分的準(zhǔn)確率和召回率明顯高于其他幾種分詞策略,且綜合指標(biāo)F-1值也是4種切分策略中最高的。測試結(jié)果證實(shí),SinoMed臨床術(shù)語和互信息統(tǒng)計(jì)算法可以提升醫(yī)學(xué)文本的切分效果。由于構(gòu)造的字典臨床術(shù)語較少,不能達(dá)到覆蓋用于臨床文檔中概念術(shù)語的要求,所以還不能應(yīng)用到中文文本病歷的分詞處理中。相信通過進(jìn)一步的研究,構(gòu)建較為全面的臨床術(shù)語字典,以便能夠提高中文病歷文本的分詞效果,為下一步開展醫(yī)學(xué)數(shù)據(jù)挖掘等工作奠定基礎(chǔ)。
[1] Hsin-Min L, Hsinchun C, Daniel Z, et al. Multilingual chief complaint classification for syndromicsurveillance:An experiment with chinese chief complaints [J]. International Journal of Medical Informatics, 2009,78:308-320.
[2] Dong X, Meizhuo Z, Tianwan Z, et al. Data-driven information extration from Chinese electronic medical records[J]. Public Library of Science,2015,8:1-18.
[3] 陳衡、黃刊迪.結(jié)構(gòu)化電子病歷概述[J].中國數(shù)字醫(yī)學(xué),2011,6(5):36-39.
[4] 栗偉,趙大哲,李博,等. CRF與規(guī)則相結(jié)合的醫(yī)學(xué)病歷實(shí)體識別[J]. 計(jì)算機(jī)應(yīng)用研究,2015,32(4):1082-1085.
[5] 王軍輝,胡鐵軍,李丹亞. 基于重現(xiàn)的無詞典分詞方法在中文生物醫(yī)學(xué)文本挖掘中的應(yīng)用[J]. 醫(yī)學(xué)信息學(xué)雜志,2009,30(2):21-25.
[6] 鄧本洋. 電子病歷中的概念抽取研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué),2013.
[7] 李惠. 組合型中文分詞方法的研究[D]. 廣州:廣東工業(yè)大學(xué),2014.
[8] 李原. 中文文本分類中分詞和特征選擇方法研究[D].長春:吉林大學(xué),2011.
[9] 林冬盛. 中文分詞算法的研究與實(shí)現(xiàn)[D]. 西安:西北大學(xué),2011.
[10] 李國壘,陳先來. 潛在語義分析在關(guān)鍵詞-敘詞對照系統(tǒng)構(gòu)建中的應(yīng)用[J]. 情報(bào)理論與實(shí)踐,2014,37(4):127-130.
[11] Young Mee C, Jae Yun L. A corpus-based approach to comparative evaluation of statistical term association measure [J]. Journal of the Amercican Society for Information Sceince and Technology, 2001,54(2):283-296
[12] 徐勇勇,張玉海,劉丹紅, 等.電子病歷與臨床信息標(biāo)準(zhǔn)[J].中華神經(jīng)外科疾病研究雜志,2005,4(6):6-10.
[13] 楊錦鋒,于秋濱,關(guān)毅,等. 電子病歷命名實(shí)體識別和實(shí)體關(guān)系抽取研究綜述[J]. 自動(dòng)化學(xué)報(bào),2014,40(8):1537-1562.
Research on Segmentation of Chinese Text in Medical Record
Li Guolei1Chen Xianlai1,2,3Xia Dong4Yang Rong5
1(InstituteofInformationSecurityandBigData,CentralSouthUniversity,Changsha410013,China)2(KeyLaboratoryofMedicalInformationResearch(CentralSouthUniversity),CollegeofHunanProvince,Changsha410013,China)3(HunanProvinceCooperativeInnovationCenterofMedicalBigData,Changsha410013,China)4(ChengduDocumentationandInformationCenter,ChineseAcademyofSciences,Chengdu610041,China)5(XiangyaHospital,CentralSouthUniversity,Changsha410078,China)
electronic medical record; Chinese text segmentation; statistical word segmentation; dictionary segmentation; discharge summary
10.3969/j.issn.0258-8021. 2016. 04.012
2015-09-14, 錄用日期:2016-04-11
國家社會(huì)科學(xué)基金(13BTQ052)
R318
D
0258-8021(2016) 04-0477-05
*通信作者(Corresponding author), E-mail: chenxianlai@csu.edu.cn