駱軼姝 申舒心 陳德華
摘 要: 甲狀腺病史作為一類重要的非結(jié)構(gòu)化文檔,對(duì)醫(yī)療診斷至關(guān)重要。針對(duì)具體的甲狀腺病史數(shù)據(jù),提出一種基于深度學(xué)習(xí)的甲狀腺病史結(jié)構(gòu)化處理方法。首先,構(gòu)建專業(yè)詞庫(kù)和病史本體,使用專業(yè)詞庫(kù)指導(dǎo)分詞,基于本體結(jié)構(gòu)完成結(jié)構(gòu)化輸出;其次,通過(guò)使用實(shí)體識(shí)別技術(shù),完成對(duì)分詞結(jié)果標(biāo)簽的預(yù)測(cè);最后,使用標(biāo)簽抽取和詞庫(kù)匹配兩種方法對(duì)病史數(shù)據(jù)進(jìn)行信息抽取,并將結(jié)構(gòu)化結(jié)果以RDF進(jìn)行存儲(chǔ)。實(shí)驗(yàn)結(jié)果表明該方法的準(zhǔn)確率和泛化性較傳統(tǒng)方法有明顯提升。
關(guān)鍵詞: 甲狀腺;病史;深度學(xué)習(xí);實(shí)體識(shí)別
文章編號(hào):2095-2163(2019)04-0021-07?中圖分類號(hào):TP311?文獻(xiàn)標(biāo)志碼:A
0 引 言
隨著醫(yī)學(xué)信息化水平的不斷提高,逐漸積累了越來(lái)越豐富的非結(jié)構(gòu)化臨床診療數(shù)據(jù)。如何有效利用這些數(shù)據(jù)已然成為目前智慧醫(yī)療領(lǐng)域備受關(guān)注的重點(diǎn)研究課題。
甲狀腺疾病是內(nèi)分泌科常見(jiàn)疾病之一。甲狀腺病史作為非結(jié)構(gòu)化臨床診療數(shù)據(jù)資源,為醫(yī)生診斷患者疾病提供了重要依據(jù)。但甲狀腺病史結(jié)構(gòu)化主要面臨以下難點(diǎn):適用于通用數(shù)據(jù)集的傳統(tǒng)分詞方法難以對(duì)醫(yī)學(xué)領(lǐng)域的專業(yè)知識(shí)進(jìn)行準(zhǔn)確分詞;對(duì)于傳統(tǒng)的信息抽取方法,當(dāng)應(yīng)用在非標(biāo)準(zhǔn)縮寫(xiě)、術(shù)語(yǔ)以及拼寫(xiě)錯(cuò)誤和不完整句子上時(shí),難以兼顧模型的泛化性和準(zhǔn)確性;傳統(tǒng)的結(jié)構(gòu)化輸出難以為結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、分析、檢索起到便捷支持作用。
針對(duì)上述問(wèn)題,本文結(jié)合甲狀腺病史數(shù)據(jù)的具體特點(diǎn),提出一種基于深度學(xué)習(xí)的甲狀腺病史結(jié)構(gòu)化處理方法,以期為中文臨床診療數(shù)據(jù)結(jié)構(gòu)化提供參考。
1 方法
甲狀腺病史完整的結(jié)構(gòu)化工作包含3個(gè)模塊,分別是:預(yù)處理模塊、實(shí)體識(shí)別模塊以及信息抽取模塊,如圖1所示。其中,預(yù)處理模塊和此過(guò)程中構(gòu)建的基礎(chǔ)專業(yè)詞庫(kù)是整個(gè)框架的基礎(chǔ),預(yù)處理的水平直接決定了實(shí)體識(shí)別模型的效果;實(shí)體識(shí)別模塊在預(yù)處理模塊輸出的數(shù)據(jù)集上訓(xùn)練得到一個(gè)模型,該模型作為標(biāo)注工具用以指導(dǎo)結(jié)構(gòu)化;信息抽取模塊依賴于實(shí)體識(shí)別模型的標(biāo)注結(jié)果和本體構(gòu)建的結(jié)果,最終模塊會(huì)將結(jié)構(gòu)化文本通過(guò)RDF(Resource Description Framework)以一種“樹(shù)型”結(jié)構(gòu)進(jìn)行存儲(chǔ)。
1.1 專業(yè)詞庫(kù)構(gòu)建
構(gòu)建專業(yè)詞庫(kù)主要目的在于數(shù)據(jù)預(yù)處理過(guò)程中指導(dǎo)原始數(shù)據(jù)分詞和結(jié)構(gòu)化過(guò)程中基于詞庫(kù)匹配進(jìn)行實(shí)體抽取。使用專業(yè)詞庫(kù)指導(dǎo)文本分詞則旨在避免通用分詞工具對(duì)專業(yè)數(shù)據(jù)進(jìn)行誤分、錯(cuò)分;基于詞庫(kù)進(jìn)行信息抽取的核心思想是指結(jié)合領(lǐng)域知識(shí)和抽取目標(biāo)信息建立的字符串標(biāo)識(shí)匹配與定位。詞庫(kù)的最初構(gòu)建來(lái)源于多個(gè)專業(yè)詞表,包括:ICD-10疾病標(biāo)準(zhǔn)[1]、2017年國(guó)家醫(yī)保藥品目錄、ICD-9-CM[2](手術(shù)操作編碼)、某三甲醫(yī)院收費(fèi)明細(xì)與收費(fèi)標(biāo)準(zhǔn)和中華醫(yī)學(xué)會(huì)內(nèi)分泌分會(huì)發(fā)表的2008《甲狀腺疾病診治指南》[3]。標(biāo)準(zhǔn)詞表及其對(duì)應(yīng)的實(shí)體類型和舉例詳見(jiàn)表1。
1.2 病史本體構(gòu)建
由于甲狀腺病史文本表達(dá)形式多樣且內(nèi)容繁雜,相較于傳統(tǒng)的句子模板,通過(guò)使用構(gòu)建甲狀腺病史本體的方法,對(duì)甲狀腺病史文本數(shù)據(jù)進(jìn)行一定程度的抽象概括,更適用于當(dāng)前結(jié)構(gòu)化任務(wù)。相關(guān)研究表明,基于描述邏輯和規(guī)則的本體可以進(jìn)一步表述數(shù)據(jù)的語(yǔ)義,本體基于邏輯的知識(shí)表示形式可以有效提高知識(shí)的語(yǔ)義表述能力,相應(yīng)的邏輯推理算法可以改進(jìn)知識(shí)的發(fā)現(xiàn)能力和解釋能力[4-5]??紤]到對(duì)結(jié)構(gòu)化結(jié)果的存儲(chǔ)、分析、檢索的便捷支持需要,本文使用決策七步法構(gòu)建病史本體,使用自左向右的方法構(gòu)建甲狀腺病史本體中的類和類之間的關(guān)系,并采用軟件Protégé完成本體模型的構(gòu)建,繼而使用RDF[6]語(yǔ)言描述構(gòu)建的本體模型。
(1)確定本體的專業(yè)領(lǐng)域和范疇。本文以醫(yī)學(xué)領(lǐng)域?yàn)樘囟ǖ难芯款I(lǐng)域,構(gòu)建甲狀腺病史本體:通過(guò)一套明確的體系規(guī)范甲狀腺病史數(shù)據(jù)中的詞匯,使數(shù)據(jù)中的術(shù)語(yǔ)得到統(tǒng)一,能夠被其它領(lǐng)域認(rèn)可;基于本體結(jié)構(gòu),使用詞典匹配和實(shí)體識(shí)別標(biāo)簽抽取實(shí)現(xiàn)甲狀腺病史的結(jié)構(gòu)化。
(2)考慮復(fù)用現(xiàn)有本體的可能性。本文的原始數(shù)據(jù)來(lái)自于上海市某三甲醫(yī)院的真實(shí)臨床采集得到,本體的結(jié)構(gòu)依據(jù)病史的內(nèi)容和記錄格式,且由于醫(yī)生的個(gè)人習(xí)慣原因,病史的記錄規(guī)則相對(duì)比較靈活,且構(gòu)建本體的目的是為實(shí)現(xiàn)病史的結(jié)構(gòu)化,目前也尚未見(jiàn)到可以復(fù)用或是具有參考價(jià)值的公開(kāi)本體。
(3)列出本體中的重要術(shù)語(yǔ)。通過(guò)與標(biāo)準(zhǔn)詞表進(jìn)行匹配構(gòu)建基礎(chǔ)專業(yè)詞庫(kù),通過(guò)專家糾錯(cuò)和使用實(shí)體識(shí)別算法擴(kuò)充專業(yè)詞庫(kù)。專業(yè)詞庫(kù)的專業(yè)術(shù)語(yǔ)樣本見(jiàn)表2。
(4)定義類和類的層次。通過(guò)實(shí)體識(shí)別算法構(gòu)建詞典和實(shí)體標(biāo)簽,然而大都屬于專業(yè)術(shù)語(yǔ),且這些實(shí)體(見(jiàn)表2)的分布是散亂的,關(guān)系不明確,僅僅是信息抽取,很難達(dá)到預(yù)期結(jié)構(gòu)化的效果。因此本文提出基于原始數(shù)據(jù)的記錄結(jié)構(gòu),依據(jù)標(biāo)簽,將這些實(shí)體進(jìn)行歸類。類的順序按照病史的數(shù)據(jù)結(jié)構(gòu)自頂向下地逐級(jí)排序,依次是時(shí)間、地點(diǎn)、誘因、癥狀、檢查、治療、效果、入院情況和疾病;類的層次結(jié)構(gòu)通常采用自左向右的方法加以確定,即先確定父類,再確定子類。將這種關(guān)系定義為part-of關(guān)系。
(5)定義類的屬性。在第(4)步的過(guò)程中,通過(guò)提取部分術(shù)語(yǔ)定義了類和類之間的關(guān)系,然而簡(jiǎn)單的類名無(wú)法體現(xiàn)具體的知識(shí),本體的具體知識(shí)通過(guò)定義類特有的屬性來(lái)體現(xiàn)。本文提出將現(xiàn)有的屬性分為2種,即:數(shù)據(jù)型屬性和對(duì)象型屬性。兩者間的區(qū)別就在于實(shí)例的不同。其中,數(shù)據(jù)型屬性是指實(shí)例中具有文字、字符串、數(shù)字和日期的屬性,包括:時(shí)間、地點(diǎn)、誘因、癥狀、效果、入院情況和疾病的屬性;對(duì)象型屬性是指實(shí)例中包含另一個(gè)子類的屬性,即該屬性不是具體的屬性值,而是另一個(gè)父類下的一個(gè)子類,包括:檢查和治療兩種屬性,檢查的屬性是某種檢查項(xiàng)目、接下去才是檢查內(nèi)容,治療下是某種治療方式、緊接著才是治療內(nèi)容。本文將數(shù)據(jù)型屬性定義為instance-of關(guān)系,對(duì)象型屬性定義為attribute-of關(guān)系。
在實(shí)體抽取的所有實(shí)體中,基本上形成了3種關(guān)系,見(jiàn)表3。
(6)本體決策。本體在使用前需要經(jīng)過(guò)3個(gè)步驟進(jìn)行驗(yàn)證,來(lái)證明本文構(gòu)建的本體是否符合實(shí)際需求。首先經(jīng)過(guò)邏輯推理證明本體構(gòu)建邏輯無(wú)誤;其次,本文基于本體結(jié)構(gòu),使用實(shí)體識(shí)別技術(shù)進(jìn)行信息抽取,構(gòu)建本體;最后,經(jīng)由專家驗(yàn)證該本體的正確性。
(7)創(chuàng)建實(shí)例。本文使用本體的主要目的是為結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、分析、檢索提供便捷支持,本體結(jié)構(gòu)如圖2所示。
1.3 數(shù)據(jù)預(yù)處理
(1)數(shù)據(jù)標(biāo)準(zhǔn)化。甲狀腺疾病現(xiàn)病史文本數(shù)據(jù)是由醫(yī)生手動(dòng)錄入,而不同的醫(yī)生有不同的輸入習(xí)慣,這主要體現(xiàn)在標(biāo)點(diǎn)以及特殊符號(hào)使用上的不統(tǒng)一與不規(guī)范,導(dǎo)致分詞效果并不理想。同時(shí)存在比較嚴(yán)重的錯(cuò)別字。故而在預(yù)處理過(guò)程中需要對(duì)標(biāo)點(diǎn)符號(hào)進(jìn)行規(guī)范化,并對(duì)錯(cuò)別字做出修改。標(biāo)準(zhǔn)化樣例見(jiàn)表4。
(2)文本分詞。為確保實(shí)體識(shí)別模型的順利訓(xùn)練,本文依賴基于標(biāo)準(zhǔn)詞表構(gòu)建的專業(yè)詞庫(kù)對(duì)病史文本進(jìn)行精準(zhǔn)分詞。針對(duì)現(xiàn)有的中文分詞工具對(duì)專業(yè)性較高的醫(yī)學(xué)文本存在錯(cuò)誤分詞的問(wèn)題,建立專業(yè)詞庫(kù),提高分詞準(zhǔn)確度。專業(yè)詞庫(kù)包括癥狀、疾病、檢查和治療四個(gè)子庫(kù),初始化來(lái)源于幾個(gè)專業(yè)數(shù)據(jù)集。另外,分詞模塊中需要對(duì)訓(xùn)練集加上標(biāo)注,專家團(tuán)隊(duì)對(duì)13類實(shí)體進(jìn)行標(biāo)注,產(chǎn)生21種標(biāo)簽用于模型的監(jiān)督學(xué)習(xí)。本文基于病史數(shù)據(jù)內(nèi)容對(duì)甲狀腺病史分詞后的數(shù)據(jù)設(shè)計(jì)標(biāo)簽見(jiàn)表5。
本文為模型設(shè)計(jì)了13種標(biāo)注,對(duì)應(yīng)不同的語(yǔ)義內(nèi)容,這些標(biāo)注包含了一定的實(shí)體信息。表5對(duì)部分語(yǔ)義內(nèi)容進(jìn)行了詳細(xì)分類。為避免在結(jié)構(gòu)化過(guò)程中的稀疏存儲(chǔ),本體定義沒(méi)有做到細(xì)致的屬性劃分,這些標(biāo)簽最終會(huì)有助于定義結(jié)構(gòu)化內(nèi)容的屬性。
1.4 實(shí)體識(shí)別
在專業(yè)詞庫(kù)構(gòu)建過(guò)程中,通過(guò)使用實(shí)體識(shí)別技術(shù)對(duì)專業(yè)詞庫(kù)進(jìn)行擴(kuò)充和更新;在結(jié)構(gòu)化過(guò)程中,通過(guò)使用實(shí)體識(shí)別技術(shù)對(duì)給定文本進(jìn)行標(biāo)簽預(yù)測(cè)。本文使用Bi-LSTM[7-10]作為實(shí)體識(shí)別的主體,該模型在LSTM的基礎(chǔ)上加入逆向傳播過(guò)程,使得網(wǎng)絡(luò)可以同時(shí)利用上下文中的語(yǔ)義特征。另外,由于Bi-LSTM的各輸出之間沒(méi)有相互影響,僅僅獲得獨(dú)立的最大概率標(biāo)簽,造成Bi-LSTM的輸出中可能存在非法標(biāo)簽問(wèn)題,即B-cause后連接I-time,本文為該模型添加CRF[11]的后處理層來(lái)適應(yīng)多變的輸出。CRF中的轉(zhuǎn)移特征會(huì)分析輸出標(biāo)簽之間的順序,以獲得最優(yōu)的標(biāo)簽序列。Bi-LSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3中,第一層為詞嵌入層(Word Embedding layer),主要是將基于自定義詞典分詞后的序列文本數(shù)據(jù)轉(zhuǎn)化為詞向量序列,并將向量序列輸入模型進(jìn)行訓(xùn)練。第二層為Bi-LSTM編碼層,通過(guò)LTSM的正向推導(dǎo)和反向傳播對(duì)序列文本數(shù)據(jù)中的各個(gè)詞進(jìn)行獨(dú)立分類,獲取標(biāo)注信息。第三層為CRF層,通過(guò)使用CRF中的條件轉(zhuǎn)移矩陣從已獲得標(biāo)注信息的分詞中選取合法標(biāo)注,獲得最優(yōu)標(biāo)注序列。第四層為輸出層,在給定目標(biāo)語(yǔ)句的情況下,通過(guò)深度學(xué)習(xí)模型可以對(duì)目標(biāo)語(yǔ)句自動(dòng)進(jìn)行單詞的語(yǔ)義標(biāo)注。
1.5 信息抽取
在甲狀腺病史結(jié)構(gòu)化過(guò)程中,本文主要選取2種方法用于信息抽取研究,即在不同部分的數(shù)據(jù)使用不同的方法:對(duì)于描述相對(duì)多樣化或是過(guò)度依賴上下文語(yǔ)義的實(shí)體使用實(shí)體識(shí)別標(biāo)簽抽取,見(jiàn)表6。
除此以外,對(duì)于癥狀、檢查、治療、疾病這四類描述相對(duì)較為規(guī)范、固定的實(shí)體使用詞庫(kù)匹配的方法進(jìn)行信息抽取。
最后結(jié)合病史本體結(jié)構(gòu),將通過(guò)上述兩種方法獲得的信息實(shí)現(xiàn)結(jié)構(gòu)化輸出。
1.6 結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)
RDF數(shù)據(jù)模型本質(zhì)上是一個(gè)圖結(jié)構(gòu)模型,由主語(yǔ)、謂詞和對(duì)象組成,底層使用XML/RDF語(yǔ)言實(shí)現(xiàn)。由于醫(yī)學(xué)專業(yè)知識(shí)具有數(shù)據(jù)庫(kù)量大和增長(zhǎng)快的特點(diǎn),本文構(gòu)建的現(xiàn)病史本體也需要以RDF的形式存儲(chǔ)。常用的單節(jié)點(diǎn)RDF數(shù)據(jù)庫(kù)不能滿足存儲(chǔ)現(xiàn)病史本體實(shí)例的需求,使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)又面臨信息冗余高和查詢性能低的問(wèn)題,所以研究和構(gòu)建分布式的具備圖存儲(chǔ)功能的本體存儲(chǔ)系統(tǒng)是一個(gè)可行的方法。資源描述框架模型如圖4所示。
2 實(shí)驗(yàn)
2.1 實(shí)驗(yàn)數(shù)據(jù)
病史是病歷中的一部分,通常包括現(xiàn)病史、既往史、家族史、個(gè)人史和婚育史。其中,現(xiàn)病史記述患者發(fā)病后的全過(guò)程,即發(fā)生、發(fā)展、演變和診治的經(jīng)過(guò),具有數(shù)據(jù)量最大、內(nèi)容最多和記錄結(jié)構(gòu)最復(fù)雜的特點(diǎn)。本文選取上海某三甲醫(yī)院從2005~2015年十余年間、共9 386條甲狀腺病史中的現(xiàn)病史數(shù)據(jù)內(nèi)容作為實(shí)驗(yàn)數(shù)據(jù)。
現(xiàn)病史從內(nèi)容上大致分為4個(gè)部分,也就是:疾病發(fā)生、病情發(fā)展、治療經(jīng)過(guò)和入院情況。其中,疾病發(fā)生主要包括:起病時(shí)間、臨床癥狀和起病誘因;病情發(fā)展主要包括:病程中主要癥狀的變化、新出現(xiàn)癥狀以及伴隨癥狀;治療經(jīng)過(guò)是指:本次就診前已經(jīng)接受過(guò)的診斷檢查及其結(jié)果,治療所用藥物的名稱、劑量、給藥途徑、療程及療效;入院情況是指:醫(yī)生從患者病后的精神、體力狀態(tài)、飲食情況、睡眠與大小便等方面,對(duì)病人得出全身情況的評(píng)價(jià)。甲狀腺病史樣例數(shù)據(jù)可表述如下。
2015-3患者因勞累出現(xiàn)消瘦、乏力、無(wú)多汗、心慌、無(wú)手抖等癥狀,至徐匯區(qū)中心醫(yī)院查甲狀腺功能提示甲亢,給予賽治最初20 mg,bid,口服2周后改用10 mg,bid,3周后復(fù)查甲狀腺功能后改用5 mg,bid,口服半月后復(fù)查甲狀腺功能FT3、FT4較前升高,1月前(2015-6-20)患者自訴雙眼突出逐漸明顯,并出現(xiàn)右眼復(fù)視,視力下降,2015-7-3隨至復(fù)旦大學(xué)附屬耳鼻喉醫(yī)院查雙眼CT提示雙側(cè)甲狀腺相關(guān)性眼病,查甲狀腺功能提示FT3 6.41 pmol/L,F(xiàn)T4 16.68 pmol/L,TSH 0.006 5 uIU/ml。今為求進(jìn)一步診治,門診以“甲狀腺相關(guān)性眼病”收住院。發(fā)病以來(lái),患者神志清楚,精神一般,雙眼突出,畏光流淚,無(wú)明顯充血水腫,右眼有復(fù)視,無(wú)嘔血、黑便 ,無(wú)腹痛,胃納可,二便可,夜眠佳,近期未見(jiàn)明顯體重下降。
2.2 實(shí)驗(yàn)與結(jié)果
(1)參數(shù)設(shè)置。本文通過(guò)平均實(shí)驗(yàn)結(jié)果來(lái)確定最優(yōu)的參數(shù)組合,實(shí)驗(yàn)中采用的可調(diào)參數(shù)設(shè)置見(jiàn)表7。
(2)評(píng)估標(biāo)準(zhǔn)。對(duì)于實(shí)體關(guān)系抽取結(jié)果的評(píng)價(jià),本文針對(duì)全部實(shí)體分別計(jì)算準(zhǔn)確率(precision)、召回率(recall)和F1值。對(duì)應(yīng)數(shù)學(xué)公式可順次表示如下:
其中,TP表示本類別中正確識(shí)別的樣本數(shù);FP表示本類中標(biāo)注錯(cuò)誤的樣本數(shù);FN表示原本屬于本類的標(biāo)注,卻錯(cuò)誤地標(biāo)注為別的種類的標(biāo)簽的樣本數(shù)。F1值可以加權(quán)調(diào)和平均模型的準(zhǔn)確率和召回率,能綜合地表征一個(gè)模型的優(yōu)劣。
(3)實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)在現(xiàn)病史共定義13類特征實(shí)體,21種標(biāo)簽,通過(guò)混淆矩陣計(jì)算出各類實(shí)體的準(zhǔn)確率P、召回率R以及F1值。實(shí)驗(yàn)結(jié)果見(jiàn)表8。
甲狀腺病史中現(xiàn)病史將識(shí)別結(jié)果繪制混淆矩陣,如圖5所示。
圖5中,顏色越亮代表該標(biāo)簽預(yù)測(cè)的準(zhǔn)確率越高,混淆矩陣的橫軸表示預(yù)測(cè)結(jié)果,縱軸表示真實(shí)標(biāo)記,可以看到在O標(biāo)記上,本文模型出現(xiàn)的偏差比較明顯,但依然保持在較高的水準(zhǔn),這是因?yàn)镺標(biāo)記總體數(shù)據(jù)樣本占據(jù)的比例最大、也相對(duì)更為分散。另外,文本的模型在時(shí)間點(diǎn)、肯定詞、否定詞等關(guān)鍵實(shí)體的識(shí)別上也達(dá)到了較高的準(zhǔn)確率,這對(duì)本文結(jié)構(gòu)化過(guò)程中的按時(shí)間節(jié)點(diǎn)分段,按肯定詞、否定詞分句有較大影響。
隨機(jī)選取一樣例做實(shí)體識(shí)別,識(shí)別結(jié)果展示如圖6所示。
通過(guò)實(shí)體識(shí)別后的數(shù)據(jù)就可以進(jìn)行結(jié)構(gòu)化處理,結(jié)構(gòu)化結(jié)果中的一個(gè)樣例如圖7所示。
圖7中,通過(guò){}及[]不同的括號(hào)來(lái)區(qū)分不同方法得到的結(jié)構(gòu)化信息,{}為實(shí)體識(shí)別的內(nèi)容,[]為詞庫(kù)匹配的內(nèi)容。
(4)結(jié)構(gòu)化存儲(chǔ)。將最終的結(jié)構(gòu)化數(shù)據(jù)以資源描述框架的形式進(jìn)行存儲(chǔ)。結(jié)構(gòu)化存儲(chǔ)借助python第三方擴(kuò)展(rdflib),以XML形式進(jìn)行RDF序列化存儲(chǔ),最終對(duì)每個(gè)時(shí)間段內(nèi)的內(nèi)容都生成一個(gè)XML文件。由于文本限制,只截取一條完整病史數(shù)據(jù)的結(jié)構(gòu)化結(jié)果的起始部分內(nèi)容,序列化的一個(gè)樣本如圖8所示。
3 結(jié)束語(yǔ)
本文結(jié)合現(xiàn)有自然語(yǔ)言處理技術(shù)和甲狀腺病史的數(shù)據(jù)特征,提出了一種甲狀腺病史結(jié)構(gòu)化處理方法。首先,構(gòu)建專業(yè)詞庫(kù)和病史本體,分別用于指導(dǎo)分詞和實(shí)現(xiàn)結(jié)構(gòu)化輸出;其次,對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,并將預(yù)處理后的數(shù)據(jù)進(jìn)行實(shí)體識(shí)別,實(shí)現(xiàn)對(duì)分詞結(jié)果的標(biāo)簽預(yù)測(cè);最后,基于病史本體結(jié)構(gòu),使用標(biāo)簽抽取和詞庫(kù)匹配兩種方法,實(shí)現(xiàn)對(duì)甲狀腺病史的結(jié)構(gòu)化,并通過(guò)RDF將結(jié)構(gòu)化結(jié)果進(jìn)行存儲(chǔ)。
參考文獻(xiàn)
[1]SUNDARARAJAN V, HENDERSON T, PERRY C, et al. New ICD-10 version of the Charlson comorbidity index predicted in-hospital mortality[J]. Journal of Clinical Epidemiology, 2004, 57(12):1288-1294.
[2]DEYO R A. Adapting a clinical comorbidity index for use with ICD-9-CM administrative data: A response[J]. Journal of Clinical Epidemiology, 1993, 46(10):1081-1082.
[3]中華醫(yī)學(xué)會(huì)內(nèi)分泌學(xué)分會(huì)《中國(guó)甲狀腺疾病診治指南》編寫(xiě)組. 中國(guó)甲狀腺疾病診治指南[J]. 中華內(nèi)科雜志, 2007, 47(10):867-868.
[4]MAEDCHE A. Ontology learning for the semantic Web[M]// Ontology learning for the semantic Web. Boston, MA:Springer,?2002:117-147.
[5]杜文華. 本體構(gòu)建方法比較研究[J]. 情報(bào)雜志, 2005(10):24-25.
[6]GIBBINS N . Resource description framework[J]. Serials Review, 2009, 27(1):58-61.
[7]QIN Ying, ZENG Yingfei. Research of clinical named entity recognition based on Bi-LSTM-CRF[J]. Journal of Shanghai Jiaotong University, 2018, 23(3):392-397.
[8]ANH L T , ARKHIPOV M Y , BURTSEV M S . Application of a hybrid Bi-LSTM-CRF model to the task of Russian Named Entity Recognition[M]// FILCHENKOV A, PIVOVAROVA L, IKA J. Artificial intelligence and natural language. AINL 2017. Communications in Computer and Information Science. Cham:Springer, 2017,789:91-103.
[9]HUANG Zhiheng , XU Wei , YU Kai . Bidirectional LSTM-CRF models for sequence tagging[J].?arXiv preprint arXiv:1508.01991, 2015.
[10]楊錦鋒,關(guān)毅,何彬,等. 中文電子病歷命名實(shí)體和實(shí)體關(guān)系語(yǔ)料庫(kù)構(gòu)建[J]. 軟件學(xué)報(bào), 2016,27(11):2725-2746.
[11]LAFFERTY J, MCCALLUM A, PEREIRA F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proc. 18th International Conf. on Machine Learning.San Francisco, CA:Morgan Kaufmann, 2001: 282-289.