国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向真實(shí)世界的知識(shí)挖掘與知識(shí)圖譜補(bǔ)全研究(三):基于正則表達(dá)式對(duì)膀胱癌真實(shí)世界數(shù)據(jù)的結(jié)構(gòu)化信息抽取

2024-04-08 09:09:40馬文昊石涵予王永博王詩淳任相穎靳英輝閻思宇
醫(yī)學(xué)新知 2024年3期
關(guān)鍵詞:字段結(jié)構(gòu)化詞典

馬文昊,石涵予,黃 橋,黃 興,王永博,王詩淳,任相穎,施 悅,靳英輝,閻思宇

1. 武漢大學(xué)中南醫(yī)院循證與轉(zhuǎn)化醫(yī)學(xué)中心(武漢 430071)

2. 武漢大學(xué)第二臨床學(xué)院(武漢 430071)

3. 武漢大學(xué)弘毅學(xué)堂(武漢 430072)

4. 浙江大學(xué)醫(yī)學(xué)院附屬第一醫(yī)院泌尿外科(杭州 310003)

5. 武漢大學(xué)中南醫(yī)院信息中心(武漢 430071)

美國(guó)食品和藥物監(jiān)督管理局在《真實(shí)世界證據(jù)方案的框架》[1]中將真實(shí)世界數(shù)據(jù)(realworld data,RWD)定義為“與患者健康狀況有關(guān)的和(或)日常醫(yī)療過程中收集的各種來源的數(shù)據(jù)”。RWD 包括來源于衛(wèi)生信息系統(tǒng)、電子病歷(electronic medical record, EMR)、醫(yī)保系統(tǒng)的數(shù)據(jù)和來自移動(dòng)設(shè)備端如可穿戴設(shè)備獲得的相關(guān)數(shù)據(jù)等。隨著診療數(shù)據(jù)的幾何級(jí)增長(zhǎng),基于EMR 數(shù)據(jù)開展的真實(shí)世界研究越來越受重視,如進(jìn)行真實(shí)環(huán)境下干預(yù)措施效果和安全性的評(píng)價(jià)研究[2],但在實(shí)施時(shí)仍面臨一些挑戰(zhàn)。EMR 數(shù)據(jù)產(chǎn)生的初始目的不是用于臨床研究而是服務(wù)于臨床實(shí)踐,因此除結(jié)構(gòu)化字段外,還包括大量半結(jié)構(gòu)化、非結(jié)構(gòu)化文本,并且各醫(yī)療機(jī)構(gòu)之間數(shù)據(jù)的記錄與儲(chǔ)存尚缺乏統(tǒng)一標(biāo)準(zhǔn),對(duì)于數(shù)據(jù)記錄方面的規(guī)范化培訓(xùn)和質(zhì)量控制不足,導(dǎo)致原始數(shù)據(jù)質(zhì)量參差不齊,增大了研究者數(shù)據(jù)挖掘工作的難度。因此如何基于現(xiàn)有EMR 數(shù)據(jù)進(jìn)行結(jié)構(gòu)化信息抽取是一個(gè)不小的挑戰(zhàn)。

信息抽取作為自然語言處理的子領(lǐng)域,其方法主要包括基于人工編寫規(guī)則的信息抽取方法和基于統(tǒng)計(jì)學(xué)方法的信息抽取方法[3]。基于人工編寫規(guī)則的信息抽取方法相對(duì)簡(jiǎn)單但高度依賴于人工編寫的規(guī)則集,適用于有一定結(jié)構(gòu)規(guī)律的自然語言文本。正則表達(dá)式(regular expression, RE)是對(duì)字符串操作的一種邏輯公式,即是用事先定義好的一些特定字符及其組合,組成一個(gè)“規(guī)則字符串”,用以表達(dá)對(duì)字符串的一種過濾邏輯。RE 是一種文本模式,該模式描述了在搜索文本時(shí)要匹配的一個(gè)或多個(gè)字符串[4],可以作為一種過濾工具,實(shí)現(xiàn)對(duì)RWD 的結(jié)構(gòu)化信息抽取。近些年來,RE 在醫(yī)學(xué)領(lǐng)域有著廣泛的應(yīng)用。例如國(guó)外學(xué)者應(yīng)用RE于神經(jīng)外科手術(shù)登記表的構(gòu)建,顯著減少了人工工作量并促進(jìn)相關(guān)臨床研究[5];Flores 等[6]使用RE 從生物醫(yī)學(xué)文本中提取特征值,有較高的準(zhǔn)確性,可為數(shù)據(jù)集進(jìn)一步分析奠定基礎(chǔ);在對(duì)醫(yī)學(xué)指南中事件句型進(jìn)行相關(guān)匹配與抽取的研究中,RE 可高效準(zhǔn)確地將醫(yī)學(xué)指南中的事件自動(dòng)轉(zhuǎn)換成XML 結(jié)構(gòu)化數(shù)據(jù)[7]。

考慮到EMR 數(shù)據(jù)中大部分目標(biāo)字段具有一定的表達(dá)規(guī)律,故本研究以武漢大學(xué)中南醫(yī)院近7 年膀胱癌患者EMR 中的入院記錄、病理報(bào)告、手術(shù)記錄和影像記錄等非結(jié)構(gòu)化文本數(shù)據(jù)為例,采用基于人工編寫規(guī)則并以RE 為編程基礎(chǔ)的信息抽取方法對(duì)膀胱癌自然語言文本數(shù)據(jù)進(jìn)行結(jié)構(gòu)化信息抽取。

1 資料與方法

1.1 數(shù)據(jù)源及抽取字段

以武漢大學(xué)中南醫(yī)院2015—2021 年出院診斷包含膀胱癌的患者EMR 數(shù)據(jù)中的入院記錄、病理記錄、手術(shù)記錄以及影像學(xué)記錄為研究數(shù)據(jù)源,其中病理記錄示例見表1。本研究已通過武漢大學(xué)中南醫(yī)院倫理委員會(huì)審核批準(zhǔn)(批號(hào):科倫[2022002K]),所有數(shù)據(jù)均已進(jìn)行了去隱私化處理。

表1 病理記錄示例Table 1. Example of pathological record

在咨詢臨床、病理、流行病學(xué)等專家意見和查閱相關(guān)文獻(xiàn)后,結(jié)合膀胱癌RWD 的表達(dá)規(guī)律與結(jié)構(gòu)特點(diǎn),本研究確定需抽取的結(jié)構(gòu)化字段包括32 個(gè)目標(biāo)字段(表2)。其中“腫瘤浸潤(rùn)深度”以膀胱壁的解剖結(jié)構(gòu)層級(jí)為標(biāo)準(zhǔn)進(jìn)行抽取,包括固有層、淺深肌層等;“區(qū)域淋巴結(jié)浸潤(rùn)情況”的描述通常涵蓋了送檢淋巴結(jié)位置、送檢數(shù)量及陽性數(shù)量;“變異組織學(xué)”采用2016 年第4 版《WHO 泌尿系統(tǒng)及男性生殖器官腫瘤分類》[8]標(biāo)準(zhǔn)進(jìn)行抽取;當(dāng)病理記錄未明確記錄T、N 分期時(shí),依據(jù)美國(guó)癌癥聯(lián)合委員會(huì)2017 年制訂的第8版《膀胱癌TNM 分期手冊(cè)》[9],分別通過對(duì)“腫瘤浸潤(rùn)深度”“是否有輸尿管殘端、輸精管斷端癌浸潤(rùn)”“是否有精囊腺、前列腺組織、子宮、陰道癌浸潤(rùn)”3 個(gè)字段和“區(qū)域淋巴結(jié)浸潤(rùn)情況”字段的抽取結(jié)果推理得到T、N 分期?!癕 分期”也屬于推理字段,需要以影像學(xué)記錄中“腫瘤轉(zhuǎn)移情況”字段抽取結(jié)果并結(jié)合分期依據(jù)推理得到。

表2 抽取的結(jié)構(gòu)化字段Table 2. Extracted structured fields

1.2 抽取方法

本研究是基于Python 環(huán)境下利用RE 進(jìn)行文本信息的抽取。

1.2.1 正則概述

RE 提供對(duì)于基本字符、特殊字符、數(shù)量詞、邊界位置等文本的匹配。每一個(gè)字符代表不同的匹配規(guī)則,例如,字符“d”表示匹配數(shù)字字符;“*”“+”“?”分別表示匹配前一個(gè)字符零次或多次、一次或多次、零次或一次;{n, m}表示匹配至少n 次,最多m 次。完整RE 規(guī)則可參考相關(guān)文獻(xiàn)[10]。

1.2.2 數(shù)據(jù)集劃分及字段詞典編寫

使用隨機(jī)抽樣的方法,從入院記錄、病理記錄、手術(shù)記錄、影像學(xué)記錄四個(gè)表單中分別抽取300 條數(shù)據(jù)的樣本,其中200 條用于規(guī)則抽取集,100 條用于評(píng)測(cè)集。通過人工抽取規(guī)則抽取集中的結(jié)構(gòu)化數(shù)據(jù),得到目標(biāo)字段的不同描述,將其歸納總結(jié)為規(guī)則集,即字段詞典(示例見表3)。以字段詞典為規(guī)則撰寫RE。

表3 字段詞典示例Table 3. Example of field dictionary

1.2.3 正則抽取實(shí)現(xiàn)

在Python 編譯器中,主要通過Python 強(qiáng)大的庫和re 模塊實(shí)現(xiàn)正則抽取。本研究整體抽取方法流程圖見圖1。

圖1 抽取方法流程圖Figure 1. Flowchart of extraction method

步驟一,數(shù)據(jù)導(dǎo)入及遍歷行信息。使用pandas 庫中的dataframe,讀寫Excel 表格工作簿以及單元格信息,利用read_excel 對(duì)工作簿賦名及操作。本文以“病理記錄”工作簿(賦名為df)的處理情況示例。讀取“病理診斷”信息列(即目標(biāo)字段所在列)信息后,對(duì)每一列分配出獨(dú)立的代碼塊,利用for i in range(len (df))完成對(duì)df 工作簿每一行的遍歷工作。

步驟二,判斷非空。某些信息列中存在信息缺失的情況,此時(shí)單元格的類型被判定為float 類型,而float 類型不支持有關(guān)字符串處理的內(nèi)容。直接利用步驟一的方式遍歷會(huì)報(bào)錯(cuò),因此需要在進(jìn)入遍歷后且參與if語句判斷之前,利用if type (df['病理診斷'] [i])!=float 對(duì)信息列是否空白進(jìn)行判斷,非空白的行再進(jìn)行下一步操作。

步驟三,判斷詞典是否有效并抽取結(jié)構(gòu)化信息。包括以下幾種情況:(1)若詞典有效,可直接抽取出信息列中的字符串,如“分級(jí)”字段需要抽取出文本中的“高/中/低分化”“高/低級(jí)別”或“1/2/3 級(jí)”;或查找信息列中是否有特定的字符串,如“是否為膀胱標(biāo)本”“是否包含肌層”等。(2)若詞典無效:在本研究中,主要有以下兩種情況:①需要“指定字符串后”處理的組合字段,如“區(qū)域淋巴結(jié)浸潤(rùn)情況”需要抽取出淋巴結(jié)的位置及對(duì)應(yīng)的送檢淋巴結(jié)與陽性淋巴結(jié)的數(shù)量,需要利用split 函數(shù)識(shí)別關(guān)鍵詞,由于該字段需抽取出不同位置淋巴結(jié)浸潤(rùn)數(shù)量,因此將抽取出來的數(shù)量存儲(chǔ)到局部變量里,以便對(duì)不同區(qū)域的淋巴結(jié)進(jìn)行描述。②需要“模糊字符串前后”處理的字段,通常無固定詞組搭配,如“膀胱腫瘤直徑”常在“新生物”周圍出現(xiàn),應(yīng)抽取出“新生物”前后若干字符中含有的數(shù)字,即腫瘤的大?。换蚴窃谕辉~組后跟隨有干擾信息,如“入院記錄”中的“飲酒時(shí)間”字段常跟在“飲酒史(年)”后,但該字符串后不僅有飲酒時(shí)間,還有判斷是否飲酒的結(jié)果。利用RE 中的re 函數(shù)re. findall(pattern, string, flags=0),可將所有匹配內(nèi)容以列表形式返回??梢远x任意pattern 為匹配模式,選擇所要匹配的內(nèi)容。

步驟四,輸出規(guī)則抽取集結(jié)果計(jì)算準(zhǔn)確率和召回率,計(jì)算相似度并完善詞典。使用上述代碼對(duì)規(guī)則抽取集進(jìn)行字段抽取并輸出結(jié)果,將該結(jié)果與人工抽取結(jié)果進(jìn)行比對(duì)并計(jì)算其準(zhǔn)確率和召回率。準(zhǔn)確率=正確抽取的數(shù)量/已抽取到的數(shù)量,反映查準(zhǔn)率;召回率=正確抽取的數(shù)量/待抽取的數(shù)量,反映查全率。

在根據(jù)規(guī)則抽取集抽取結(jié)果對(duì)詞典進(jìn)行完善以及后期根據(jù)新的語料補(bǔ)充詞典時(shí),需要人工對(duì)RE 未能抽取出結(jié)果的文本進(jìn)行抽取,該工作耗時(shí)耗力,故本研究利用自然語言處理方法,首先利用jieba 庫進(jìn)行中文文本的分詞工作words=jieba. lcut(s),然后利用Word2Vec 模型對(duì)每一個(gè)分詞的結(jié)果轉(zhuǎn)化為向量(Vector)。

for word in words:

v+=model [word]

接著將所有的Vector 相加并求平均,得到整個(gè)句子的詞向量(Sentence Vector)。

v/=len(words)

將關(guān)鍵詞已經(jīng)納入詞典的信息列與其余信息列比對(duì),并對(duì)Sentence Vector 夾角的余弦值計(jì)算相似度,挑選相似度高(>0.85)且用RE 無法抽取出結(jié)果的語句,用這些語句進(jìn)行詞典更新,可大大減少人工工作量。

審核規(guī)則抽取集準(zhǔn)確率和召回率低于95%的字段,通過上述過程完善詞典。同一個(gè)變量中不同的描述字段均有一定的相似性,因此通過計(jì)算詞典中已有字段和詞典中沒有但信息列中存在字段的相似度,篩選出相似度較高的字段,由機(jī)器直接提取,錄入詞典;相似度不高的字段則通過人工再次提取的方式錄取詞典進(jìn)行再提取。重復(fù)執(zhí)行以上步驟直到目標(biāo)字段的召回率和準(zhǔn)確率高于95%。

步驟五,采用評(píng)測(cè)集進(jìn)行結(jié)果評(píng)估。使用經(jīng)由人工抽取并加以完善后的詞典對(duì)評(píng)測(cè)集字段進(jìn)行抽取,計(jì)算其準(zhǔn)確率和召回率。由于EMR 數(shù)據(jù)存在稀疏性特點(diǎn),部分字段只存在于個(gè)別患者的記錄中,目標(biāo)字段的缺失率將對(duì)抽取結(jié)果有顯著影響。因此本研究設(shè)定了評(píng)測(cè)集目標(biāo)字段缺失率的最大閾值為40%,若人工抽取的結(jié)果顯示該字段缺失率大于40%,則將從數(shù)據(jù)源中重新抽取數(shù)據(jù)對(duì)原評(píng)測(cè)集進(jìn)行補(bǔ)充,直至該字段缺失率降低至40%以下,以此作為新的評(píng)測(cè)集,進(jìn)行結(jié)果評(píng)估。

1.3 代碼示例及詳解

以“區(qū)域淋巴結(jié)浸潤(rùn)情況(送檢淋巴結(jié)位置、數(shù)量及陽性數(shù)量)”和“飲酒史:時(shí)間(年)”字段抽取為示例進(jìn)行代碼展示及解釋,詳見框1。

框1 部分目標(biāo)字段抽取代碼示例Box 1. Code examples for some target fields extraction

(1)字段“區(qū)域淋巴結(jié)浸潤(rùn)情況(送檢淋巴結(jié)位置、數(shù)量及陽性數(shù)量)”屬于詞典無效字段并且需抽取信息位于指定字符串后。這類字段有多種情況,此處選取一種送檢(左、右閉孔)情況進(jìn)行說明,使用split 函數(shù)將“(左、右閉孔”后,“、”前的內(nèi)容抽取出來,并存放在局部變量a 中,一般為左閉孔淋巴結(jié)的數(shù)量,再通過分割將第一個(gè)“枚”字后和第二個(gè)“枚”字前的內(nèi)容抽取出來,一般為右閉孔淋巴結(jié)的數(shù)量,存放在另一個(gè)局部變量b 中,若有癌轉(zhuǎn)移,且a、b 變量中含有“/”時(shí),前面的數(shù)字代表陽性淋巴結(jié)的數(shù)量,后面的數(shù)字代表送檢淋巴結(jié)數(shù)量,用split 函數(shù)將兩個(gè)數(shù)字分別分割出來,存放進(jìn)不同的局部變量。

(2)入院記錄中的字段“飲酒史:時(shí)間(年)”屬于詞典無效字段并且需抽取信息位于模糊字符串后。為抽取“個(gè)人史”信息列中的飲酒年份,使用re. findall 函數(shù)查找,并用RE 規(guī)則d+,抽取出在“飲酒史(年)”后的所有數(shù)字以列表形式返回。

2 結(jié)果

在對(duì)評(píng)測(cè)集中缺失率過高的字段進(jìn)行補(bǔ)充抽樣后,本研究以“未刪除缺失數(shù)據(jù)集”“刪除缺失數(shù)據(jù)集”為評(píng)測(cè)集分別進(jìn)行結(jié)果評(píng)估,若將缺失值認(rèn)為是抽取結(jié)果之一,那么可得到包含所有正誤對(duì)比的完整結(jié)果,但無法直觀獲得準(zhǔn)確率和召回率對(duì)于字段詞典的準(zhǔn)確性、完整性以及RE抽取效果的不同體現(xiàn),因?yàn)橐殉槿〉降臄?shù)量即為待抽取的數(shù)量,準(zhǔn)確率和召回率的結(jié)果相同。如果刪除缺失,即待抽取數(shù)量只包含有目標(biāo)值的情況,區(qū)別于已抽取數(shù)量,將得到不一致的召回率和準(zhǔn)確率從而對(duì)正則抽取效果進(jìn)行評(píng)估,但是因?yàn)榭罩稻粍h除,無法反映實(shí)際為空卻被RE 抽取到了錯(cuò)誤值的情況,因此同時(shí)報(bào)告兩個(gè)數(shù)據(jù)集的結(jié)果,進(jìn)行綜合評(píng)估。結(jié)果詳見表4。

未刪除缺失數(shù)據(jù)集的評(píng)估結(jié)果顯示,病理記錄中的大部分目標(biāo)字段準(zhǔn)確率和召回率均可達(dá)到80%以上,只有3~4 個(gè)目標(biāo)字段準(zhǔn)確率和召回率低于80%但水平仍可達(dá)到60%~80%之間;手術(shù)記錄中的“膀胱腫瘤是否單發(fā)”“膀胱腫瘤直徑”“膀胱腫瘤位置”和影像學(xué)記錄中“膀胱腫瘤直徑”字段的準(zhǔn)確率和召回率相對(duì)較低,在60%左右,手術(shù)記錄和影像學(xué)記錄中其它目標(biāo)字段的準(zhǔn)確率和召回率均可達(dá)到95%以上;入院記錄的所有目標(biāo)字段召回率與準(zhǔn)確率均在90%左右。

刪除缺失數(shù)據(jù)集的評(píng)估結(jié)果顯示,大部分目標(biāo)字段的準(zhǔn)確率較未刪除前有顯著提升,可達(dá)到95%以上;但是召回率結(jié)果差異較大,病理記錄中目標(biāo)字段平均召回率在75%左右,手術(shù)記錄中目標(biāo)字段平均召回率約為63%,入院記錄中目標(biāo)字段平均召回率為94%,而影像學(xué)記錄中除“膀胱腫瘤直徑”召回率為37%外,其余字段召回率均高于90%。

3 討論

本研究結(jié)果顯示,總體上基于RE 方法抽取目標(biāo)字段的準(zhǔn)確率較高,說明人工總結(jié)的字段詞典的查準(zhǔn)率較高、準(zhǔn)確性較強(qiáng),原因可能是基于RE方法的信息抽取可精準(zhǔn)匹配特定的文本模式。但是基于RE 方法抽取目標(biāo)字段的召回率相對(duì)較低且差異較大,反映出在部分字段上詞典的查全率相對(duì)較低,完整性相對(duì)較差。原因可能有兩種,一是由于規(guī)則抽取集不夠具有代表性,導(dǎo)致人工總結(jié)的詞典不夠完整,后續(xù)可通過增加規(guī)則抽取集、迭代完善詞典的方式解決;二是文本中目標(biāo)字段對(duì)應(yīng)的語言結(jié)構(gòu)復(fù)雜、文本表述變化多樣,RE 方法難以歸納概括全部規(guī)律而導(dǎo)致漏抽,查全率低,需要盡量全面總結(jié)字段表達(dá)規(guī)律以改善抽取結(jié)果。需注意的是,對(duì)高缺失率目標(biāo)字段補(bǔ)充抽樣時(shí),受限于原數(shù)據(jù),個(gè)別目標(biāo)字段如“是否浸潤(rùn)神經(jīng)”“戒煙時(shí)間(年)”等的補(bǔ)充抽樣仍不能達(dá)到缺失率小于40%的目標(biāo),其評(píng)估結(jié)果可能隨著包含目標(biāo)值樣本量的增大而波動(dòng)。

既往有研究者以層疊條件隨機(jī)場(chǎng)機(jī)器學(xué)習(xí)模型為基礎(chǔ),對(duì)包含入院記錄、出院記錄、輔助檢查報(bào)告等非結(jié)構(gòu)化文本的呼吸??谱≡篍MR 進(jìn)行了信息抽取,結(jié)果顯示病歷中各類文本信息抽取準(zhǔn)確率和召回率分別為92.12%、92.42%[11]。與本研究抽取結(jié)果對(duì)比發(fā)現(xiàn),一方面,基于RE的信息抽取方法其準(zhǔn)確率較高,對(duì)于大部分變量可以達(dá)到98%甚至是100%的準(zhǔn)確率,但是召回率就顯著遜色于基于機(jī)器學(xué)習(xí)的信息抽取方法,因?yàn)镽E 無法抽取規(guī)則集之外的文本信息;其次,對(duì)于表述簡(jiǎn)單的字段,如病理記錄中的“是否為膀胱標(biāo)本”“是否為膀胱尿路上皮癌”等字段,或半結(jié)構(gòu)化文本中的字段抽取,如入院記錄,RE規(guī)則集的編寫會(huì)相對(duì)簡(jiǎn)單,其抽取效果優(yōu)于機(jī)器學(xué)習(xí),可達(dá)到較高的準(zhǔn)確率和召回率(98%以上)。但是對(duì)于像影像學(xué)記錄與手術(shù)記錄中的“膀胱腫瘤直徑”“膀胱腫瘤位置”等表述形式較為繁雜的非結(jié)構(gòu)化文本,由于自由度過大、語法語義復(fù)雜,基于人工編寫規(guī)則的信息抽取方法就難以較好歸納概括其表達(dá)規(guī)律,導(dǎo)致規(guī)則的編寫過程耗時(shí)耗力,抽取的效果不佳。

本研究對(duì)于四類文本規(guī)則集歸納總結(jié)的時(shí)間耗時(shí)較久,側(cè)面說明RE 的人工依賴性較強(qiáng)。某些字段在文本中的出現(xiàn)頻次低,其固有稀疏性導(dǎo)致研究者難以充分總結(jié)表達(dá)規(guī)律,而文本中有時(shí)出現(xiàn)的不規(guī)范數(shù)據(jù)輸入情況也會(huì)直接影響規(guī)則集的總結(jié)和抽取結(jié)果的可靠性,并且在前期規(guī)則集的編寫過程中需要大量的人工參與,而人工制定規(guī)則集的質(zhì)量由文本的結(jié)構(gòu)化程度決定并直接影響最終信息抽取效果。例如吳歡等的研究表明,針對(duì)語義簡(jiǎn)單、結(jié)構(gòu)規(guī)范的文本,基于規(guī)則的模式匹配方法的信息抽取技術(shù)更簡(jiǎn)單、快速、易實(shí)現(xiàn)[12];對(duì)于像冠狀動(dòng)脈CT 血管成像及鈣化積分這類單病種且比較規(guī)范的報(bào)告,RE 是實(shí)現(xiàn)其結(jié)構(gòu)化的最佳投入產(chǎn)出比方案,其制定的規(guī)則對(duì)于報(bào)告的結(jié)構(gòu)和語言描述具有較高的依賴性[13]。RE 始終是基于人工制定的規(guī)則進(jìn)行信息抽取,但是由于RWD 的多樣性,可能會(huì)出現(xiàn)字符一致但是語境不同而導(dǎo)致抽取錯(cuò)誤的情況,需要人工對(duì)表達(dá)式進(jìn)行完善,也可能會(huì)影響該方法的適用、推廣和維護(hù)。

需要注意的是,RE 規(guī)則集跨學(xué)科、跨單位、跨病種的可遷移性和可復(fù)用性較弱。在不同學(xué)科之間各類文本所涉及知識(shí)、術(shù)語、數(shù)據(jù)大相徑庭以及RE對(duì)于規(guī)則集準(zhǔn)確性有著高要求的前提下,對(duì)于某一學(xué)科中某一文本構(gòu)建的規(guī)則集難以進(jìn)行跨學(xué)科遷移。因不同機(jī)構(gòu)、系統(tǒng)或醫(yī)生記錄習(xí)慣的不同,可能會(huì)導(dǎo)致無法實(shí)現(xiàn)規(guī)則集的大規(guī)模跨機(jī)構(gòu)使用。對(duì)于圍繞單一病種EMR 記錄構(gòu)建的規(guī)則集,除入院記錄中部分信息不具有疾病特異性,大部分記錄如病理記錄、手術(shù)記錄、影像學(xué)記錄等均具有疾病特異性表達(dá),其規(guī)則集難以跨病種。

在對(duì)規(guī)則抽取集的詞典進(jìn)行革新迭代過程中,本研究采用了計(jì)算文本相似度的方法,通過計(jì)算無法抽取出信息或新納入的文本與已歸納總結(jié)出規(guī)則集文本的相似度進(jìn)行比對(duì),從而提高詞典更新的效率,一方面可減少人工工作量,提高信息抽取的召回率與準(zhǔn)確率,另一方面則可更準(zhǔn)確、高效地服務(wù)于新文本數(shù)據(jù)。該方法可以在一定程度上為上述RE 規(guī)則集可遷移性、可復(fù)用性弱以及人工依賴性強(qiáng)的問題提供解決思路。

近年來,越來越多的研究者將目標(biāo)聚焦于醫(yī)療文本中結(jié)構(gòu)化信息的抽取,相關(guān)的方法與算法優(yōu)化不斷涌現(xiàn)。例如安輝對(duì)RE 可視化編輯的實(shí)現(xiàn),以降低RE 的學(xué)習(xí)和使用難度[14];相關(guān)研究者提出的基于文本表示的RE 自動(dòng)生成技術(shù),可大大減少研究者概括規(guī)則集、撰寫RE 過程中耗費(fèi)的時(shí)間以及人力資源成本[15];同時(shí)ChatGPT 類大型預(yù)訓(xùn)練語言模型的出現(xiàn)和發(fā)展,也為文本挖掘、信息抽取領(lǐng)域開辟了新的途徑[16]。吳騁等積極探索新的多層次信息抽取模式,實(shí)現(xiàn)了對(duì)醫(yī)療文本中各種信息的多維解析與分類存儲(chǔ)[17]。抽取方法的不斷革新為醫(yī)療大數(shù)據(jù)的價(jià)值挖掘提供了有力抓手。

對(duì)于研究中發(fā)現(xiàn)的問題,可考慮以下解決方法:選擇基于統(tǒng)計(jì)學(xué)方法的信息抽取方法,如機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等,以大量樣本數(shù)據(jù)為訓(xùn)練集進(jìn)行模型訓(xùn)練從而實(shí)現(xiàn)對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的信息抽取[18]。已有研究者采用機(jī)器學(xué)習(xí)方法識(shí)別并抽取病歷中藥物濫用和藥物使用障礙等相關(guān)信息[19];從源頭解決數(shù)據(jù)質(zhì)量差、結(jié)構(gòu)化程度低的問題,加強(qiáng)醫(yī)院信息系統(tǒng)的頂層設(shè)計(jì),樹立醫(yī)務(wù)人員對(duì)高質(zhì)量數(shù)據(jù)價(jià)值的正確認(rèn)識(shí),規(guī)范醫(yī)務(wù)人員對(duì)EMR 等醫(yī)療數(shù)據(jù)的書寫和核對(duì),提高數(shù)據(jù)的結(jié)構(gòu)化程度和質(zhì)量。

本研究以RE 為基礎(chǔ),針對(duì)膀胱癌EMR 數(shù)據(jù)開展實(shí)踐應(yīng)用,具有一定的應(yīng)用價(jià)值,但該方法存在一定局限性,諸如人工依賴性較強(qiáng),部分字段抽取的準(zhǔn)確率與召回率偏低等問題。并且本研究并未對(duì)RE 規(guī)則集在跨病種、跨單位等的其他數(shù)據(jù)集上的抽取效果進(jìn)行測(cè)試。后期研究團(tuán)隊(duì)將使用基于Transformer 架構(gòu)的深度學(xué)習(xí)模型對(duì)相同的數(shù)據(jù)進(jìn)行信息抽取,并對(duì)比二者在操作流程、適用樣本、構(gòu)建時(shí)間、構(gòu)建難度、抽取效率、抽取效果等方面的優(yōu)劣,并納入其他單位以及其他病種的EMR 數(shù)據(jù),以此為基礎(chǔ)構(gòu)建可視化平臺(tái),為研究者提供參考。

猜你喜歡
字段結(jié)構(gòu)化詞典
圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
評(píng)《現(xiàn)代漢語詞典》(第6版)
詞典例證翻譯標(biāo)準(zhǔn)探索
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
CNMARC304字段和314字段責(zé)任附注方式解析
無正題名文獻(xiàn)著錄方法評(píng)述
基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
葵青区| 察隅县| 鲜城| 浑源县| 来安县| 西安市| 沅陵县| 阿荣旗| 社旗县| 囊谦县| 龙口市| 镇康县| 深水埗区| 鹿泉市| 昌图县| 滨海县| 龙海市| 枣阳市| 鄢陵县| 临桂县| 荆门市| 肥东县| 山东省| 广水市| 塔河县| 白银市| 五台县| 甘洛县| 肇庆市| 富裕县| 乌苏市| 新乡市| 临夏县| 克山县| 昭觉县| 行唐县| 宜兴市| 东明县| 苍梧县| 吉首市| 永福县|