常洪陽(yáng),昝紅英,馬玉團(tuán),張坤麗
(1. 鄭州大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,河南 鄭州 450001; 2. 鵬城實(shí)驗(yàn)室,廣東 深圳 518055)
腦卒中疾病[1](Cerebral Stroke)俗稱腦中風(fēng), 是由于腦部血管突然破裂(即腦出血)或血管阻塞導(dǎo)致血液不能流入大腦(即腦梗塞)而引起腦組織損傷的一組疾病。據(jù)2020年世界衛(wèi)生組織公布(1)https://www.who.int/news-room/fact-sheets/detail/the-top-10-causes-of-death,中風(fēng)是全球范圍的第二大殺手,占世界死亡總?cè)藬?shù)11%,而在中國(guó),根據(jù)科普中國(guó)網(wǎng)顯示(2)https://cloud.kepuchina.cn/newSearch/imgText?id= 6750802040109207552,腦卒中已然成為中國(guó)死亡原因第一位,同時(shí)也是中國(guó)成年人致殘的首要元兇。因此,通過(guò)人工智能的手段對(duì)腦卒中疾病進(jìn)行研究是非常有必要的,而構(gòu)建腦卒中電子病歷實(shí)體及實(shí)體關(guān)系標(biāo)注語(yǔ)料庫(kù)(SEMRC)是深入研究的基礎(chǔ)。
電子病歷是指醫(yī)務(wù)人員在醫(yī)療活動(dòng)過(guò)程中,使用醫(yī)療機(jī)構(gòu)信息系統(tǒng)生成的文字、符號(hào)、數(shù)據(jù)、圖表、圖形、影像等數(shù)字化信息,并能實(shí)現(xiàn)存儲(chǔ)、管理、傳輸和重現(xiàn)的醫(yī)療記錄,是病歷的一種記錄形式,包括門(急)診病歷和住院病歷,記錄了病人從入院到出院期間診斷治療全部過(guò)程的診療信息[2],包含了大量真實(shí)可靠的病情信息,如“于外傷后出現(xiàn)頭懵不適感”、“頭CT(2018—07—21我院): 1.硬膜下出血?2. 蛛網(wǎng)膜下腔出血。”等,對(duì)這些電子病歷文本進(jìn)行實(shí)體及實(shí)體關(guān)系標(biāo)注的語(yǔ)料庫(kù)對(duì)后續(xù)的相關(guān)研究具有重大意義。(為方便書寫,本文出現(xiàn)電子病歷若無(wú)特殊說(shuō)明都是指中文電子病歷)。
對(duì)海量的電子病歷進(jìn)行人工標(biāo)注的代價(jià)是昂貴的,因此對(duì)電子病歷的處理常常需要借助自然語(yǔ)言處理、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)進(jìn)行自動(dòng)抽取。由于醫(yī)學(xué)文本信息具有領(lǐng)域特點(diǎn),通用語(yǔ)料庫(kù)不能很好地應(yīng)用到醫(yī)學(xué)文本的信息抽取中,而且電子病歷屬于半結(jié)構(gòu)化文本,不方便機(jī)器自動(dòng)處理。因此,構(gòu)建腦卒中疾病電子病歷的實(shí)體及實(shí)體關(guān)系標(biāo)注語(yǔ)料庫(kù)將為腦卒中疾病的健康咨詢、智能輔診等相關(guān)研究提供可靠的數(shù)據(jù)基礎(chǔ)。
本文的主要針對(duì)腦卒中疾病電子病歷文本,探討實(shí)體及實(shí)體間關(guān)系,創(chuàng)立腦卒中疾病電子病歷標(biāo)注規(guī)范體系,構(gòu)建腦卒中疾病電子病歷文本的實(shí)體及實(shí)體關(guān)系標(biāo)注語(yǔ)料庫(kù)(SEMRC)。
對(duì)于醫(yī)學(xué)信息的抽取, i2b2(Informatics for Integrating Biology & the Bedside)舉行的公開評(píng)測(cè)引起了大家濃厚的興趣。在2006年舉辦的患者抽煙狀態(tài)識(shí)別任務(wù)中[3],i2b2把患者抽煙的狀態(tài)定義成了五個(gè)類別,該評(píng)測(cè)在2008年又加入了對(duì)電子病歷中肥胖及其并發(fā)癥進(jìn)行抽取的任務(wù),同時(shí)在標(biāo)注中引進(jìn)了推斷機(jī)制,檢查實(shí)體的屬性值如血糖值、血脂值等能夠?qū)颊郀顟B(tài)進(jìn)行定量表述的描述,對(duì)于這些數(shù)值型的描述也進(jìn)行了標(biāo)注[4]。在2009年i2b2組織的評(píng)測(cè)任務(wù)中,加入了對(duì)電子病歷中藥物相關(guān)信息的抽取[5]。2010年i2b2的評(píng)測(cè)任務(wù)發(fā)起了倡議,希望參與評(píng)測(cè)的隊(duì)伍可以在電子病歷中抽取出醫(yī)療概念、醫(yī)療問(wèn)題及對(duì)問(wèn)題的修飾,并且能夠識(shí)別出醫(yī)療問(wèn)題與治療、檢查之間存在的關(guān)系[6]。在2012年i2b2舉行的評(píng)測(cè)任務(wù)中,加入了對(duì)電子病歷中時(shí)間信息及醫(yī)療事件與時(shí)間之間的關(guān)系的抽取[7]。在2014年i2b2組織的評(píng)測(cè)任務(wù)中,進(jìn)行了糖尿病類患者的電子病歷中心臟病風(fēng)險(xiǎn)因素的抽取[8]。除了i2b2,還有一些其他研究者做了相關(guān)的工作,Meystre等[9]構(gòu)建了對(duì)醫(yī)療問(wèn)題標(biāo)注相關(guān)修飾詞信息的醫(yī)療術(shù)語(yǔ)標(biāo)注語(yǔ)料庫(kù)、梅奧診所[10]首次對(duì)實(shí)體及關(guān)系的修飾信息進(jìn)行細(xì)致分類,Campillos等[11]構(gòu)建了法語(yǔ)語(yǔ)種的命名實(shí)體及實(shí)體關(guān)系語(yǔ)料庫(kù),以及一些其他的相關(guān)工作,如對(duì)醫(yī)療事件之間的關(guān)系[12]、電子病歷中的時(shí)間信息[13]、醫(yī)療術(shù)語(yǔ)和實(shí)體[14]、對(duì)實(shí)體和實(shí)體關(guān)系進(jìn)行修飾的信息[15]等做了討論。
中文醫(yī)療信息抽取領(lǐng)域近些年來(lái)也取得了許多的成果。Yang等[16]在構(gòu)建中文電子病歷命名實(shí)體和關(guān)系語(yǔ)料庫(kù)過(guò)程中采用了以預(yù)標(biāo)注的方法訓(xùn)練標(biāo)注人員更新標(biāo)注規(guī)范的模式在標(biāo)注結(jié)果上取得了較好的一致性。Lei等人[17-18]借鑒i2b2組織2010年的實(shí)體分類,在2013年把病歷中出現(xiàn)的治療進(jìn)一步劃分為了過(guò)程及藥物,并于2014年抽取研究了電子病歷中出現(xiàn)的檢查、藥物、治療過(guò)程及醫(yī)療問(wèn)題等。Wu等人[19]在Lei等人[17]標(biāo)注的語(yǔ)料庫(kù)上使用深度學(xué)習(xí)算法識(shí)別電子病歷中的命名實(shí)體。昝紅英等人[20-21]在所構(gòu)建的面向兒科疾病的實(shí)體及實(shí)體關(guān)系語(yǔ)料庫(kù)中抽取多元組,構(gòu)建了兒科醫(yī)學(xué)知識(shí)圖譜;針對(duì)目前國(guó)內(nèi)醫(yī)學(xué)領(lǐng)域信息抽取發(fā)展現(xiàn)狀對(duì)深度學(xué)習(xí)模型在這一領(lǐng)域的應(yīng)用及未來(lái)發(fā)展趨勢(shì)做了總結(jié)。張坤麗等人[22]于2019年以構(gòu)建中文醫(yī)學(xué)知識(shí)圖譜任務(wù)為基礎(chǔ),構(gòu)建了能夠?qū)崿F(xiàn)半自動(dòng)化的實(shí)體及關(guān)系標(biāo)注平臺(tái),即本文標(biāo)注過(guò)程中所采用的平臺(tái)。
Lei等人[17]于2013年收集了協(xié)和醫(yī)院的800份電子病歷并由兩名專家醫(yī)生進(jìn)行標(biāo)注構(gòu)建了命名實(shí)體標(biāo)注語(yǔ)料庫(kù)。2014年Wang等人[23]構(gòu)建了包含11 613條主訴的醫(yī)學(xué)癥狀名語(yǔ)料庫(kù),語(yǔ)料的標(biāo)注由在職醫(yī)生完成。2016年楊錦峰等人[24]在922份病歷文本基礎(chǔ)上構(gòu)建了中文電子病歷命名實(shí)體和實(shí)體關(guān)系語(yǔ)料庫(kù)。2019年蘇嘉等人[25]在中文健康信息處理領(lǐng)域構(gòu)建了第一份關(guān)于心血管疾病風(fēng)險(xiǎn)因素的語(yǔ)料庫(kù)。昝紅英等人[20,26]利用自行開發(fā)的標(biāo)注工具構(gòu)建了包含常見疾病504種的面向兒科疾病的實(shí)體及關(guān)系標(biāo)注語(yǔ)料庫(kù),并于2019年在原有的醫(yī)學(xué)命名實(shí)體及關(guān)系標(biāo)注體系的基礎(chǔ)上結(jié)合了癥狀的特征、概念等及癥狀在醫(yī)學(xué)影像中所發(fā)揮的作用,構(gòu)建了一個(gè)共包含了8 772種癥狀和146 631條關(guān)系的癥狀知識(shí)庫(kù)。Guan等人[27]基于教科書、電子病歷等多種數(shù)據(jù)來(lái)源構(gòu)建了中文醫(yī)學(xué)信息提取數(shù)據(jù)集(Chinese Medical Information Extraction,CMeIE)。
參考昝紅英等人[20,26]提出的中文電子病歷命名實(shí)體和實(shí)體關(guān)系標(biāo)注規(guī)范、面向兒科疾病的實(shí)體及關(guān)系標(biāo)注語(yǔ)料庫(kù)中使用的標(biāo)注規(guī)范及Guan等人[27]使用的標(biāo)注規(guī)范,在臨床醫(yī)生的專業(yè)指導(dǎo)下,本文制定了適用于腦卒中疾病電子病歷內(nèi)容特點(diǎn)的標(biāo)注規(guī)范。圖1為腦卒中電子病歷實(shí)體及實(shí)體關(guān)系標(biāo)注體系的示意圖。按照疾病及其與癥狀之間的關(guān)系以及疾病和癥狀分別與檢查、手術(shù)治療、藥物治療、其他治療、修飾和時(shí)間等實(shí)體之間的關(guān)系來(lái)介紹腦卒中疾病電子病歷標(biāo)注規(guī)范。
圖1 腦卒中疾病電子病歷實(shí)體及實(shí)體關(guān)系標(biāo)注體系示意圖
在腦卒中疾病電子病歷標(biāo)注過(guò)程中,疾病實(shí)體是指患者在一定條件下受到病因的損害作用后,機(jī)體因自穩(wěn)調(diào)節(jié)紊亂而引發(fā)的異常生命活動(dòng)的過(guò)程或醫(yī)生針對(duì)患者情況做出的診斷。疾病的概念范圍用ICD-10和MeSH詞表中編碼為C的疾病概念來(lái)界定,但同時(shí)不局限于詞表中的概念,借助百度百科和醫(yī)學(xué)百科等輔助確認(rèn)疾病概念。
在此次癥狀的標(biāo)注過(guò)程中,主要參考了《中文癥狀庫(kù)》[26]和《診斷學(xué)》中的癥狀實(shí)體。沒有專門區(qū)分癥狀與異常檢查結(jié)果(體征),而是統(tǒng)一當(dāng)作癥狀標(biāo)注,即患者自述或家屬轉(zhuǎn)述或者醫(yī)生通過(guò)觀察、儀器等方法檢查到患者出現(xiàn)的異常結(jié)果都標(biāo)為癥狀實(shí)體。
疾病與癥狀之間存在的關(guān)系: 疾病導(dǎo)致了癥狀。
實(shí)例1: “4余年胃鏡檢查提示胃潰瘍,后復(fù)查胃鏡恢復(fù),平時(shí)易出現(xiàn)胃部不適”中出現(xiàn)的疾病與癥狀之間的三元組為<胃潰瘍,疾病導(dǎo)致癥狀, 胃部不適>。
治療是指因疾病或癥狀而施加給患者的治療程序、藥物給予、干預(yù)實(shí)施等。我們認(rèn)為治療可以通過(guò)治療的定義、手段和方法等再做更加精細(xì)的劃分,因此在本次研究中不單獨(dú)出現(xiàn)“治療”實(shí)體,而是分別拆分成為了“手術(shù)治療”“藥物治療”和“其他治療”。
手術(shù)治療指通過(guò)針、刀、剪等醫(yī)療器械在患者身體局部進(jìn)行割、切、縫合等操作來(lái)完成維持患者健康目的的過(guò)程,通常用于外科治療。本次標(biāo)注中主要通過(guò)ICD-9-CM和MeSH詞表中E編碼的手術(shù)概念以及病歷中明確指出患者通過(guò)某種手術(shù)進(jìn)行治療來(lái)界定手術(shù)實(shí)體的范圍。藥物是指能夠?qū)C(jī)體的生理功能或代謝活動(dòng)產(chǎn)生影響的化學(xué)物質(zhì),此次標(biāo)注對(duì)藥物實(shí)體范圍的界定主要為ATC、MeSH詞表中D編碼的藥物以及病歷中明確指出患者使用過(guò)或出現(xiàn)在用藥指導(dǎo)部分的藥物。其他治療主要包括放射治療、輔助治療、化療以及其他要完成一定治療目的,如營(yíng)養(yǎng)神經(jīng)、清除自由基、改善循環(huán)等。
治療與疾病和癥狀之間的關(guān)系如表1所示。
實(shí)例2: “4年前因聲帶息肉行“聲帶手術(shù)”;”一句中存在手術(shù)治療與疾病之間三元組<聲帶手術(shù),治療施加于疾病,聲帶息肉>。
檢查指為了查清證實(shí)患者是否患有某種疾病或具有某些癥狀而通過(guò)特定的技術(shù)、醫(yī)療儀器設(shè)備而進(jìn)行的檢查項(xiàng)目、手段、過(guò)程等,為醫(yī)生的臨床診斷和治療提供依據(jù)。為界定檢查覆蓋范圍,避免標(biāo)注歧義,檢查限于以下三種: ①診療計(jì)劃、輔助檢查及治療過(guò)程中提到的檢查手段,如“頭CT”“頭頸聯(lián)合CT”“頭顱磁共振”等; ②體液檢查項(xiàng)目、生理指標(biāo)、生理測(cè)量及其他檢查項(xiàng)目,后面通常跟有表示指標(biāo)值或測(cè)量值的數(shù)值。如: “體溫36.7℃”“血壓134/87mmHg”“甘油三酯2.32mmol/L”等; ③病歷中直接指出的檢查,如“查”“檢查”“示”“查體”“試驗(yàn)”等。由于在后續(xù)工作中采用深度學(xué)習(xí)算法,這些算法對(duì)于數(shù)值數(shù)字并不敏感,因此在檢查項(xiàng)目中出現(xiàn)的指標(biāo)數(shù)值結(jié)果沒有進(jìn)行標(biāo)注,只標(biāo)注了其中的檢查項(xiàng)目。
表1 治療與疾病、癥狀間的關(guān)系
檢查與疾病間存在的關(guān)系: 檢查證實(shí)了疾病、為了證實(shí)疾病而采取的檢查;檢查與癥狀間存在的關(guān)系: 檢查證實(shí)了癥狀、為了證實(shí)癥狀而采取的檢查。
實(shí)例3: “查體: 伸舌右偏,”一句中存在檢查與癥狀之間三元組<查體,檢查證實(shí)了癥狀,伸舌右偏>。
身體包括部位、器官或身體位置、區(qū)域及身體系統(tǒng)。參考中文電子病歷命名實(shí)體和實(shí)體關(guān)系標(biāo)注規(guī)范[26]中沒有身體或者部位的實(shí)體,但經(jīng)過(guò)對(duì)腦卒中疾病電子病歷的分析認(rèn)為身體實(shí)體是有必要的,尤其是當(dāng)癥狀與身體部位之間并不直接相連,如“雙側(cè)額頂葉、雙側(cè)側(cè)腦室周圍腦白質(zhì)脫髓鞘”“雙側(cè)小腦半球、左側(cè)橋小腦結(jié)合臂含鐵血黃素沉淀”等,部位與部位之間有間隔,如果不添加身體實(shí)體會(huì)造成大量的信息缺失,并影響電子病歷本身的嚴(yán)謹(jǐn)真實(shí)性。
身體與癥狀之間存在的關(guān)系: 位置。當(dāng)身體部位與癥狀不能夠直接相連時(shí),則將其標(biāo)注為: <身體,位置,癥狀>。
實(shí)例4: “雙側(cè)額葉、左側(cè)頂葉點(diǎn)狀白質(zhì)脫髓鞘”一句中出現(xiàn)身體與癥狀之間三元組<雙側(cè)額葉,位置,點(diǎn)狀白質(zhì)脫髓鞘>、<左側(cè)頂葉,位置,點(diǎn)狀白質(zhì)脫髓鞘>。
電子病歷中的一些對(duì)疾病、癥狀及治療等實(shí)體進(jìn)行定性或定量非數(shù)值的描述,如,“無(wú)飲水嗆咳”中“無(wú)”字、“頭暈稍好轉(zhuǎn)”中的“稍好轉(zhuǎn)”“腦梗死可能性大”中的“可能性大”等,在腦卒中電子病歷標(biāo)注過(guò)程中將其標(biāo)注為修飾實(shí)體。
修飾與疾病、癥狀和治療之間的關(guān)系如表2所示。
實(shí)例5: “主訴: 視物不清2天加重1天”一句中存在修飾與癥狀之間三元組<加重1天,嚴(yán)重程度,視物不清>。
在腦卒中電子病歷標(biāo)注過(guò)程中,將病歷中出現(xiàn)的與疾病或癥狀有直接關(guān)聯(lián)的時(shí)間點(diǎn)、時(shí)間段標(biāo)注為時(shí)間實(shí)體。
時(shí)間與疾病之間存在的關(guān)系: 既往、持續(xù)、將來(lái);時(shí)間與癥狀之間存在的關(guān)系: 既往、持續(xù)、將來(lái)。
實(shí)例6: “主訴: 視物不清2天加重1天”一句中存在時(shí)間與癥狀之間三元組<2天,持續(xù),視物不清>。
表2 修飾與疾病、癥狀和治療間關(guān)系
在標(biāo)注過(guò)程中,發(fā)現(xiàn)在電子病歷中會(huì)經(jīng)常出現(xiàn)在同一區(qū)域有多個(gè)同類實(shí)體對(duì)應(yīng)同一個(gè)或多個(gè)實(shí)體的現(xiàn)象,由于所使用的可視化圖形標(biāo)注工具[22],為提高標(biāo)注過(guò)程中對(duì)標(biāo)注人員的友好性和標(biāo)注效率,將出現(xiàn)在同一區(qū)域且與同一個(gè)或多個(gè)實(shí)體對(duì)應(yīng)的多個(gè)同類實(shí)體標(biāo)注為實(shí)體組。定義的實(shí)體組關(guān)系有: <疾病,實(shí)體組,疾病>、<癥狀,實(shí)體組,癥狀>、<檢查,實(shí)體組,檢查>、<手術(shù)治療,實(shí)體組,手術(shù)治療>、<藥物治療,實(shí)體組,藥物治療>及<其他治療,實(shí)體組,其他治療>。
實(shí)例7: “無(wú)頭暈頭痛,惡心嘔吐”一句中“無(wú)”字分別修飾“頭暈頭痛”和“惡心嘔吐”,由于文本數(shù)量多及平臺(tái)特征,如果分別單獨(dú)標(biāo)注會(huì)造成標(biāo)注人員難以辨認(rèn),因此將“頭暈頭痛”和“惡心嘔吐”標(biāo)注為實(shí)體組<頭暈頭痛,實(shí)體組,惡心嘔吐>。
在本次SEMRC構(gòu)建過(guò)程中遵循的醫(yī)學(xué)實(shí)體標(biāo)注基本原則如下:
(1) 非重復(fù)標(biāo)注原則: 即在一段醫(yī)學(xué)文本中出現(xiàn)的實(shí)體提及,只能屬于一種確定的實(shí)體類型;
(2) 非嵌套標(biāo)注原則: 即全部的實(shí)體都是相對(duì)獨(dú)立的,不能作為其他實(shí)體的子集;
(3) 規(guī)范性原則: 即標(biāo)注過(guò)程中,實(shí)體中不應(yīng)包含普通文本與標(biāo)點(diǎn)符號(hào)的組合,且盡量不包含“或、及、和”等連接詞。
構(gòu)建語(yǔ)料庫(kù)最為主要的工作就是制定合理的標(biāo)注規(guī)范,并嚴(yán)格地依據(jù)規(guī)范進(jìn)行語(yǔ)料標(biāo)注。以上述制定的腦卒中疾病電子病歷實(shí)體及實(shí)體關(guān)系標(biāo)注體系為基礎(chǔ),在領(lǐng)域?qū)<抑笇?dǎo)下,制定了標(biāo)注規(guī)范的初稿,選定基礎(chǔ)標(biāo)注平臺(tái)并開發(fā)出適用于本體系的標(biāo)注工具。目前主流的語(yǔ)料標(biāo)注模式有三種:
(1) 領(lǐng)域?qū)<覙?biāo)注: 適用于專業(yè)知識(shí)儲(chǔ)備要求高的專業(yè)領(lǐng)域語(yǔ)料的標(biāo)注,該模式能夠極大程度地保證語(yǔ)料標(biāo)注的質(zhì)量,但也存在標(biāo)注成本高、語(yǔ)料構(gòu)建周期長(zhǎng)等弊端。
(2) 眾包標(biāo)注: 這種模式能夠較為明顯地降低較大規(guī)模語(yǔ)料標(biāo)注的成本,但只能用于簡(jiǎn)單的語(yǔ)料構(gòu)建任務(wù),且標(biāo)注過(guò)程中要巧妙設(shè)計(jì)以保證標(biāo)注質(zhì)量。
(3) 團(tuán)體標(biāo)注: 該構(gòu)建語(yǔ)料庫(kù)的標(biāo)注模式與信息檢索評(píng)價(jià)集構(gòu)建較為類似,能夠在標(biāo)注過(guò)程中不依賴領(lǐng)域?qū)<业那闆r下構(gòu)建出質(zhì)量較高的語(yǔ)料,但對(duì)標(biāo)注成員要求較高。
為了兼顧標(biāo)注質(zhì)量及標(biāo)注成本和周期,我們?cè)谡Z(yǔ)料標(biāo)注模式上選擇了領(lǐng)域?qū)<?團(tuán)體標(biāo)注模式。
數(shù)據(jù)準(zhǔn)備我們從河南某三甲醫(yī)院篩選了共200份的電子病歷,其中每份電子病歷選取包括: 入院記錄、病程記錄(拆分為首次病程記錄和查房記錄)、出院小結(jié)及出院醫(yī)囑等作為標(biāo)注數(shù)據(jù)集。在這200份患者病歷中腦出血患者病歷有90份,腦梗塞有病歷110份。在標(biāo)注之前需要先進(jìn)行數(shù)據(jù)脫敏處理,即去除電子病歷中的敏感信息,如患者姓名、身份證號(hào)、聯(lián)系方式、家庭住址、工作單位和醫(yī)生姓名等。
標(biāo)注規(guī)范的制定和標(biāo)注人員的培訓(xùn)在腦卒中疾病電子病歷實(shí)體及實(shí)體關(guān)系標(biāo)注體系基礎(chǔ)上制定標(biāo)注規(guī)范初稿。在人員培訓(xùn)方面本文采用了預(yù)標(biāo)注的策略,在標(biāo)注人員詳細(xì)閱讀過(guò)標(biāo)注規(guī)范初稿后選用另一批不在最終語(yǔ)料庫(kù)中的相同來(lái)源電子病歷,將經(jīng)過(guò)格式轉(zhuǎn)換和脫敏等預(yù)處理后部署在腦卒中電子病歷實(shí)體及實(shí)體關(guān)系標(biāo)注平臺(tái)上進(jìn)行預(yù)標(biāo)注(預(yù)標(biāo)注后的數(shù)據(jù)不再使用),希望通過(guò)預(yù)標(biāo)注來(lái)達(dá)到兩個(gè)目的: ①完成標(biāo)注人員對(duì)標(biāo)注過(guò)程的熟悉、對(duì)標(biāo)注規(guī)范的深入理解; ②集合多位標(biāo)注人員智慧總結(jié)腦卒中電子病歷的特點(diǎn),完成對(duì)標(biāo)注規(guī)范初稿的修改完善,形成標(biāo)注規(guī)范v2.0版本。
平臺(tái)選取在張坤麗等人[22]構(gòu)建的半自動(dòng)化實(shí)體及關(guān)系標(biāo)注平臺(tái)基礎(chǔ)上,參考腦卒中標(biāo)注規(guī)范開發(fā)出適用于腦卒中疾病電子病歷實(shí)體及實(shí)體關(guān)系標(biāo)注平臺(tái)。
規(guī)范v2.0版本完善后在此基礎(chǔ)上開始正式標(biāo)注,對(duì)于每一批數(shù)據(jù)的標(biāo)注分為四步。
第一步在一標(biāo)文件中完成包括對(duì)疾病、癥狀、手術(shù)治療、藥物治療、其他治療、修飾、時(shí)間、檢查及身體等實(shí)體的分類標(biāo)注,同時(shí)記錄每位標(biāo)注人員標(biāo)注過(guò)程中的疑惑,對(duì)于疑惑問(wèn)題定期進(jìn)行討論解決,并在一標(biāo)文件中進(jìn)行修改;
第二步在一標(biāo)文件基礎(chǔ)上生成二標(biāo)文件,現(xiàn)有標(biāo)注人員進(jìn)行交叉檢查,對(duì)于有異議的,依據(jù)規(guī)范進(jìn)行討論解決;對(duì)于規(guī)范沒有定義不能很好解決的問(wèn)題統(tǒng)一討論解決,并修訂補(bǔ)充規(guī)范;
第三、四步實(shí)體標(biāo)注基本統(tǒng)一后繼續(xù)由一標(biāo)人員在二標(biāo)文件上依據(jù)規(guī)范v2.0版本中實(shí)體關(guān)系標(biāo)注部分進(jìn)行實(shí)體間關(guān)系標(biāo)注,第三、四步是對(duì)實(shí)體關(guān)系的標(biāo)注,過(guò)程與第一、二步一樣。對(duì)于選定的200份患者電子病歷,在標(biāo)注過(guò)程中將其分成了3個(gè)批次進(jìn)行標(biāo)注,而人員的培訓(xùn)及規(guī)范的完善也隨著這3個(gè)批次的進(jìn)行而循環(huán)進(jìn)行。整個(gè)語(yǔ)料構(gòu)建過(guò)程如圖2所示。
圖2 腦卒中標(biāo)注流程圖
文獻(xiàn)[28]中指出當(dāng)標(biāo)注一致性評(píng)價(jià)結(jié)果到達(dá)0.8時(shí)即可判定語(yǔ)料的一致性是可以被接受的。表3結(jié)果表明本文最終構(gòu)建的語(yǔ)料庫(kù)是可信賴的。一致性計(jì)算如式(1)~式(3)所示。
其中,A1、A2分別表示兩位標(biāo)注人員在同一份病歷上的標(biāo)注結(jié)果。
最終標(biāo)注語(yǔ)料庫(kù)的一致性評(píng)價(jià)結(jié)果如表3所示??梢钥闯觯敬螛?gòu)建的腦卒中語(yǔ)料庫(kù)的實(shí)體一致性達(dá)到了0.85,實(shí)體關(guān)系一致性達(dá)到了0.94,其中腦出血病歷標(biāo)注的實(shí)體及實(shí)體關(guān)系一致性分別為0.84和0.94;腦梗塞病歷標(biāo)注一致性分別為0.86和0.94。表3結(jié)果表明,本文最終構(gòu)建的語(yǔ)料庫(kù)是可信賴的。
表3 腦卒中標(biāo)注語(yǔ)料庫(kù)一致性結(jié)果
本文主要以腦卒中疾病電子病歷作為基礎(chǔ)的語(yǔ)料庫(kù)構(gòu)建依據(jù),介紹了語(yǔ)料標(biāo)注的過(guò)程和體系。整個(gè)腦卒中疾病實(shí)體及實(shí)體關(guān)系標(biāo)注語(yǔ)料庫(kù)的構(gòu)建過(guò)程歷時(shí)五個(gè)月,共由主任醫(yī)師1名、副主任醫(yī)師1名、計(jì)算機(jī)碩士研究生10名共同參與完成了電子病歷標(biāo)注語(yǔ)料庫(kù)構(gòu)建的工作。本次標(biāo)注共完成了標(biāo)注1 582 962字、實(shí)體概念10 594個(gè)、實(shí)體關(guān)系三元組14 457個(gè),標(biāo)注實(shí)體及實(shí)體關(guān)系數(shù)量如圖3、圖4所示。
圖3 標(biāo)注實(shí)體數(shù)量
圖4 標(biāo)注關(guān)系數(shù)量
本文主要對(duì)腦卒中疾病電子病歷實(shí)體及實(shí)體關(guān)系標(biāo)注過(guò)程進(jìn)行了探究,具體從以下三個(gè)方向進(jìn)行探討: 首先,構(gòu)建了一套適用于腦卒中疾病電子病歷實(shí)體及實(shí)體關(guān)系的標(biāo)注體系;其次,制定了與本文構(gòu)建體系相對(duì)應(yīng)的語(yǔ)料標(biāo)注規(guī)范;最后,根據(jù)標(biāo)注體系和規(guī)范構(gòu)建了中文腦卒中疾病電子病歷實(shí)體及實(shí)體關(guān)系標(biāo)注語(yǔ)料庫(kù)SEMRC。
在體系構(gòu)建、標(biāo)注規(guī)范的確立及完善、標(biāo)注過(guò)程中所遇到問(wèn)題的解決都有醫(yī)學(xué)專家的參與和指導(dǎo),這使本文制定的標(biāo)注規(guī)范具備較強(qiáng)的領(lǐng)域?qū)I(yè)性,能夠在后續(xù)的研究工作中提供一定的科學(xué)指導(dǎo)。在語(yǔ)料的標(biāo)注過(guò)程中采用了領(lǐng)域?qū)<?團(tuán)體標(biāo)注模式,并結(jié)合標(biāo)注人員預(yù)標(biāo)注培訓(xùn)的標(biāo)注思想,語(yǔ)料庫(kù)較高的一致性結(jié)果也肯定了本文的標(biāo)注方法。在對(duì)腦卒中電子病歷進(jìn)行標(biāo)注的過(guò)程中,本文根據(jù)病歷語(yǔ)料的特點(diǎn)提出了以疾病和癥狀為雙頭實(shí)體,以治療(包括手術(shù)治療、藥物治療和其他治療)為副頭實(shí)體,以時(shí)間、修飾、身體、檢查等作為從屬屬性實(shí)體的標(biāo)注體系。本文此次構(gòu)建的基于中文電子病歷腦卒中實(shí)體及實(shí)體關(guān)系標(biāo)注語(yǔ)料庫(kù)可以為使用機(jī)器學(xué)習(xí)算法進(jìn)行自動(dòng)抽取、通過(guò)計(jì)算機(jī)技術(shù)對(duì)腦卒中疾病進(jìn)行更深層次的探索提供基礎(chǔ)。