国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于SNOMED-CT的醫(yī)療術(shù)語語義相似度計(jì)算方法

2021-02-16 00:40呂曉云
關(guān)鍵詞:脫敏計(jì)算公式術(shù)語

戴 敏,朱 森,呂曉云

(天津理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,天津 300384)

醫(yī)療物聯(lián)網(wǎng)(internet of medical things,IoMT)技術(shù)的發(fā)展推進(jìn)了醫(yī)療服務(wù)、醫(yī)療保健的普及和發(fā)展。許多基于IoMT的工具、軟件和設(shè)施已用于遠(yuǎn)程健康跟蹤、身體恢復(fù)鍛煉、慢性病人群和老年人群的護(hù)理[1-2]。當(dāng)健康數(shù)據(jù)關(guān)聯(lián)到具體的個(gè)體時(shí),若處理不當(dāng),可能會(huì)引發(fā)嚴(yán)重的用戶隱私曝光問題。

在醫(yī)學(xué)領(lǐng)域內(nèi)已經(jīng)制定了關(guān)于隱私保護(hù)的正式條例,如《健康保險(xiǎn)攜帶和責(zé)任法案》規(guī)定了在醫(yī)療文件允許發(fā)布之前應(yīng)刪除個(gè)人可識(shí)別信息[3]。美國(guó)許多州和聯(lián)邦法律也規(guī)定,在向第三方發(fā)布醫(yī)療記錄之前,必須對(duì)艾滋病狀況、藥物或乙醇濫用以及精神健康狀況等因素進(jìn)行脫敏[3-5]。

醫(yī)療文本中很多文本術(shù)語在語義上都是相關(guān)的,單純刪除或涂黑敏感術(shù)語(如艾滋?。┛赡軙?huì)提高潛在攻擊者的警覺性,并且未處理的語義相關(guān)術(shù)語(如免疫系統(tǒng)、流感和無保護(hù)的性行為)可能會(huì)增大敏感術(shù)語被揭露的風(fēng)險(xiǎn)[6]。因此,如何用語義泛化的形式來處理敏感術(shù)語,以及如何發(fā)現(xiàn)和處理語義相關(guān)術(shù)語成為了醫(yī)療文本脫敏工作的重點(diǎn)[7]。

文獻(xiàn)[8]提出了一種基于信息量(information content,IC)的醫(yī)療文本自動(dòng)脫敏方法,該方法不僅對(duì)敏感術(shù)語進(jìn)行脫敏,還檢測(cè)了語義相關(guān)的術(shù)語。該方法以搜索引擎必應(yīng)(https://cn.bing.com)鏈接的資源來計(jì)算IC值以確定敏感詞,并利用知識(shí)庫將其泛化為通用術(shù)語。但互聯(lián)網(wǎng)中的數(shù)據(jù)存在流動(dòng)性的特點(diǎn)[9],特定醫(yī)療數(shù)據(jù)在搜索引擎中所鏈接的資源的稀疏性受階段性流行病和社會(huì)輿論指向的影響。另外,依照數(shù)據(jù)稀疏性來判斷術(shù)語敏感與否,可能會(huì)使一些非常用的非敏感術(shù)語被識(shí)別為敏感術(shù)語。

醫(yī)學(xué)術(shù)語系統(tǒng)命名法-臨床術(shù)語(systematized nomenclature of medicine-clinical terms,SNOMEDCT)作為世界上最全面的臨床醫(yī)療術(shù)語,在國(guó)際上的臨床醫(yī)學(xué)數(shù)據(jù)分析的研究中應(yīng)用極為廣泛[10-12]。因其收錄的大量醫(yī)學(xué)概念及詳細(xì)的分類結(jié)構(gòu),已被許多科研工作者用作醫(yī)療文本脫敏的知識(shí)庫[13-14]。本文在分析SNOMED-CT結(jié)構(gòu)的基礎(chǔ)上,提出了一種基于SNOMED-CT的語義相似度計(jì)算方法,該方法可以有效地應(yīng)用于醫(yī)療文本的語義脫敏。

1 SNOMED-CT結(jié)構(gòu)分析

SNOMED-CT是目前最為全面的國(guó)際標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語系統(tǒng),包含30多萬個(gè)醫(yī)學(xué)概念和130多萬個(gè)關(guān)系[15]。因具備完整、穩(wěn)固的語義基礎(chǔ)和結(jié)構(gòu)化的術(shù)語表達(dá)形式,被醫(yī)學(xué)領(lǐng)域許多信息模型指定為標(biāo)準(zhǔn)編碼系統(tǒng),在國(guó)際醫(yī)療與健康領(lǐng)域中有著廣泛地應(yīng)用。

SNOMED-CT概念模型由概念、描述和關(guān)系組成,并采取統(tǒng)一的數(shù)字標(biāo)識(shí)符來唯一地表示各個(gè)概念、描述和關(guān)系,SNOMED-CT的邏輯結(jié)構(gòu)如圖1所示,其中概念關(guān)系可分為2大類。

第1類是繼承關(guān)系(“IS_A”關(guān)系),又稱“上下位關(guān)系”或“父子關(guān)系”,從縱向上連接語義上具有包含與被包含關(guān)系的概念。IS_A關(guān)系是SNOMED-CT建立概念分類層級(jí)體系的基礎(chǔ),眾多語義上具有包含與被包含的概念基于IS_A關(guān)系縱向聚合,形成了SNOMED-CT中不同的概念分類層級(jí)體系。除了頂級(jí)的“根概念”——“SNOMED Concept”外,每個(gè)概念均至少有一個(gè)IS_A關(guān)系與上位概念相關(guān)聯(lián)。

第2類是“概念模型屬性”關(guān)系,從橫向上連接兩個(gè)概念并確定概念間的語義關(guān)系[16]。如圖1中的“肺炎—肺結(jié)構(gòu)”、“氣管支氣管炎—?dú)夤苤夤芙Y(jié)構(gòu)”等都是概念模型屬性關(guān)系。SNOMED-CT實(shí)際運(yùn)用了60種概念模型屬性,形成了數(shù)十萬條的橫向語義關(guān)聯(lián)關(guān)系。

圖1 SNOMED-CT的邏輯結(jié)構(gòu)Fig.1 Logical structure of SNOMED-CT

2 語義相似度計(jì)算方法

結(jié)合SNOMED-CT的結(jié)構(gòu)特點(diǎn),本文利用SNOMED-CT中的2類概念關(guān)系來計(jì)算醫(yī)療術(shù)語的語義相似度,即計(jì)算2個(gè)概念的語義相似度時(shí)考慮2個(gè)因素:概念的具體化程度和語義距離。

2.1 具體化程度

在如圖1所示的SNOMED-CT的邏輯結(jié)構(gòu)中,概念所在的層次(深度),即概念節(jié)點(diǎn)與根節(jié)點(diǎn)之間的縱向關(guān)系距離(即“IS_A”關(guān)系數(shù)量),代表了概念描述內(nèi)容的具體化程度。每一層都是對(duì)上層概念的具體化,也是對(duì)下層概念的泛化,故深度越大,具體化程度越高。設(shè)c1和c2是SNOMED-CT中的2個(gè)概念,則這2個(gè)概念節(jié)點(diǎn)的具體化程度可表示為:

式中,h代表c1和c22個(gè)概念節(jié)點(diǎn)的最小公共祖先的深度。最小公共祖先的深度越大,概念的具體化程度越高,反之亦成立。

2.2 語義距離

在SNOMED-CT的邏輯結(jié)構(gòu)中,概念節(jié)點(diǎn)之間的橫向關(guān)系距離(即“概念模型屬性”關(guān)系數(shù)量)代表了2個(gè)概念之間的語義距離。設(shè)c1和c2是SNOMED-CT中的2個(gè)概念,可以用兩個(gè)概念節(jié)點(diǎn)之間的最短路徑長(zhǎng)度描述2個(gè)概念的語義距離,其公式為:

式中,d是概念節(jié)點(diǎn)c1和c2之間的最短路徑。

由此可見,兩個(gè)概念節(jié)點(diǎn)之間的最短路徑距離越大,它們之間的語義距離就越大,反之亦成立。

2.3 術(shù)語相似度的計(jì)算公式

綜合考慮SNOMED-CT中2個(gè)概念間的2類關(guān)系,2個(gè)概念的相似度計(jì)算公式為:

由于一個(gè)單詞可能具有多種概念含義,本文用與單詞相關(guān)的概念的相似度最大值來描述單詞之間的語義相似度。設(shè)單詞q1具有多個(gè)概念(c11,c12,…,c1a),單詞q2具有多個(gè)概念(c21,c22,…,c2b),則2個(gè)單詞q1,q2間的語義相似度的計(jì)算公式為:

一篇醫(yī)療文本中包含若干醫(yī)療術(shù)語,每個(gè)醫(yī)療術(shù)語通常由若干單詞組成。假設(shè)術(shù)語p1包含多個(gè)單詞(q11,q12,…,q1m),術(shù)語p2包含多個(gè)單詞(q21,q22,…,q2n),則2個(gè)術(shù)語之間的語義相似性的計(jì)算公式為:

3 實(shí)驗(yàn)及結(jié)果分析

本文實(shí)驗(yàn)數(shù)據(jù)為從維基百科(Wikipedia)選擇的6類共42篇醫(yī)療文本,這些文本分別從醫(yī)學(xué)角度描述了性傳播疾病、艾滋病毒、艾滋病、精神障礙和藥物濫用。為了評(píng)估本文方法的有效性,以2名醫(yī)療專家對(duì)各文本進(jìn)行手動(dòng)脫敏的結(jié)果為參照標(biāo)準(zhǔn),從脫敏精度和實(shí)用度兩方面對(duì)本文方法與基于IC的脫敏方法進(jìn)行了比較。

3.1 脫敏精度評(píng)估

本文用3個(gè)指標(biāo)來評(píng)價(jià)脫敏的精度,分別是精準(zhǔn)度(precision)、召回率(recall)和F-度量(Fmeasure,F(xiàn)mea)。

精準(zhǔn)度用來描述自動(dòng)脫敏方法識(shí)別出敏感術(shù)語的準(zhǔn)確率,其計(jì)算公式為:

式中,A代表自動(dòng)脫敏識(shí)別出的敏感術(shù)語,B代表手動(dòng)脫敏識(shí)別出的敏感詞。Ppre越高,表明自動(dòng)脫敏識(shí)別敏感術(shù)語的準(zhǔn)確率越高。

召回率用來描述自動(dòng)脫敏方法對(duì)文本中敏感術(shù)語的識(shí)別率,其計(jì)算公式為:

Prec越高,說明敏感術(shù)語的識(shí)別率越高。在文本脫敏過程中,Prec通常比Ppre更重要,若Prec過低,則意味著有更多敏感術(shù)語未被識(shí)別出來,文本披露隱私風(fēng)險(xiǎn)越高。

Fmea用Ppre和Prec的諧波均值來表示脫敏的準(zhǔn)確性,其計(jì)算公式為:

用本文方法與基于IC的方法分別對(duì)6類文本進(jìn)行脫敏實(shí)驗(yàn),表1所示為精度實(shí)驗(yàn)結(jié)果的對(duì)比。

表1 精度實(shí)驗(yàn)結(jié)果的對(duì)比Tab.1 Comparison of accuracy test results

由表1可知,與基于IC的方法相比,采用本文方法對(duì)上述6類醫(yī)療文本進(jìn)行脫敏,精準(zhǔn)度、召回率和F-度量的平均性能分別提高了5.92%、3.13%和4.97%。

3.2 實(shí)用性評(píng)估

實(shí)用性代表了文本脫敏后的實(shí)用程度,即信息量的保留程度。本文采用文獻(xiàn)[8]提出的基于IC的評(píng)估方式評(píng)估脫敏后文本相對(duì)于原文本所保留的實(shí)用性。

某術(shù)語t所包含的信息量可用其CIC值表示,其計(jì)算公式為:

式中,p(t)為t在知識(shí)庫中出現(xiàn)的概率,這里以搜索引擎百度所鏈接的資源作為評(píng)估知識(shí)庫。CIC(t)越高,意味著t包含著更多的信息量。

一篇文本的信息量為該文本所包含術(shù)語提供的信息量的總和,假設(shè)文本D包含多個(gè)術(shù)語(t1,t2,…,tn),則其信息量的計(jì)算公式為:

式中,ti為文本中所包含的術(shù)語。

文本脫敏后的實(shí)用性保留程度Putility的計(jì)算公式為:

式中,D為脫敏前的文本,D′為脫敏后的文本。

采用對(duì)比本文提出的方法與基于IC的方法脫敏后的文本的實(shí)用性進(jìn)行分析,表2所示為實(shí)用性對(duì)比實(shí)驗(yàn)結(jié)果。

表2 實(shí)用性對(duì)比實(shí)驗(yàn)結(jié)果Tab.2 Experiment results of practicability comparison

由表2可知,與基于IC的方法相比,采用本文提出的方法脫敏后文章的實(shí)用性平均提高了5.65%。

4 結(jié)論

本文在深入分析SNOMED-CT知識(shí)庫結(jié)構(gòu)的基礎(chǔ)上,提出利用該知識(shí)庫中2類概念關(guān)系計(jì)算醫(yī)療術(shù)語的語義相似度計(jì)算方法,并將該方法用于醫(yī)療文本的脫敏。對(duì)從Wikipedia上選取的6類共42篇醫(yī)療文本進(jìn)行脫敏提出的實(shí)驗(yàn),結(jié)果表明,與基于IC的脫敏方法相比,本文提出的方法在脫敏精度和實(shí)用度方面都有一定幅度的提高,適用于以SNOMED-CT作為知識(shí)庫的醫(yī)療文本敏感詞識(shí)別和脫敏。

猜你喜歡
脫敏計(jì)算公式術(shù)語
電機(jī)溫升計(jì)算公式的推導(dǎo)和應(yīng)用
激光聯(lián)合脫敏劑治療牙本質(zhì)過敏癥
快速脫敏治療的臨床應(yīng)用
貿(mào)易術(shù)語修改適用問題探討
談擬柱體的體積
微分在近似計(jì)算中的應(yīng)用
變力做功的八種求法
慎用脫敏牙膏