喻 捷
(東華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海201620)
隨著醫(yī)療大數(shù)據(jù)領(lǐng)域的迅速發(fā)展,很多用于處理藥物不良反應(yīng)(drug adverse reaction,ADR)相關(guān)的電子病歷的醫(yī)院管理系統(tǒng)(Hospital Information System,HIS),自身識(shí)別電子病歷中所涵蓋的藥物不良反應(yīng)術(shù)語(yǔ)的能力以及所使用的不良反應(yīng)術(shù)語(yǔ)庫(kù)的全面性都無(wú)法與當(dāng)前的需求相匹配,尤其是電子健康記錄(electronic health record,EHR)的發(fā)展,對(duì)于癥狀庫(kù)的深度與廣度提出了更高的要求。同時(shí),如何從發(fā)現(xiàn)的不良反應(yīng)術(shù)語(yǔ),關(guān)聯(lián)到發(fā)現(xiàn)其所對(duì)應(yīng)的疾病術(shù)語(yǔ)或更高層級(jí)的醫(yī)學(xué)術(shù)語(yǔ),成為了學(xué)界亟待解決的問(wèn)題。本文所研究的課題就是面向已有的藥物不良反應(yīng)發(fā)現(xiàn)與呈報(bào)系統(tǒng),對(duì)多源異構(gòu)數(shù)據(jù)源進(jìn)行數(shù)據(jù)融合。區(qū)別于以往藥物不良反應(yīng)發(fā)現(xiàn)與呈報(bào)系統(tǒng)所使用到的單一的不良反應(yīng)術(shù)語(yǔ)集,研究中融合了多個(gè)具有代表性的醫(yī)學(xué)術(shù)語(yǔ)集,形成了層級(jí)的、多軸性的、更為全面的、按系統(tǒng)器官分類(lèi)的癥狀庫(kù)。本文的研究?jī)?nèi)容強(qiáng)化了藥物不良反應(yīng)發(fā)現(xiàn)與呈報(bào)系統(tǒng)的設(shè)計(jì)性能,使其具有從電子病歷涵蓋的不良反應(yīng)信息中得到對(duì)應(yīng)的疾病術(shù)語(yǔ)及醫(yī)學(xué)術(shù)語(yǔ)表示的能力,并可通過(guò)篩選得到不良反應(yīng)所涉及的系統(tǒng)器官類(lèi)別。
多源異構(gòu)是大數(shù)據(jù)的基本特征之一,多源數(shù)據(jù)融合成為了大數(shù)據(jù)分析處理的關(guān)鍵環(huán)節(jié),多源數(shù)據(jù)融合也成為大數(shù)據(jù)領(lǐng)域重要的研究主題與熱點(diǎn)方向[1]。本文所涉及的多源異構(gòu)數(shù)據(jù)融合通過(guò)對(duì)相同領(lǐng)域但不同結(jié)構(gòu)的數(shù)據(jù)集的融合,提高數(shù)據(jù)集的完備性,并進(jìn)一步挖掘數(shù)據(jù)的潛在價(jià)值。
數(shù)據(jù)融合按照一定準(zhǔn)則綜合分析、處理來(lái)自多個(gè)數(shù)據(jù)源的信息,從而獲得比其各個(gè)組成部分都更為充分、準(zhǔn)確的信息,在全面信息的基礎(chǔ)上進(jìn)行相應(yīng)決策與估計(jì),進(jìn)而得出更為精確、可靠的結(jié)論[2]。
數(shù)據(jù)融合算法是數(shù)據(jù)融合的核心部分。目前,多源數(shù)據(jù)融合領(lǐng)域廣泛運(yùn)用的算法有基于D-S理論[3]、模糊集理論[4]、主題圖[5]和語(yǔ)義規(guī)則[6]的數(shù)據(jù)融合算法。
本文所研究的面向藥物不良反應(yīng)發(fā)現(xiàn)與呈報(bào)系統(tǒng)的多源異構(gòu)數(shù)據(jù)融合,融合的數(shù)據(jù)源分別為FAERS(FDA AdverseEventReportingSystem,F(xiàn)AERS)的數(shù)據(jù)集、國(guó)際疾病分類(lèi)(International Classification of Diseases,ICD)以及醫(yī)學(xué)用語(yǔ)詞典(MedDRA)。融合的目的在于構(gòu)建多軸性的醫(yī)學(xué)術(shù)語(yǔ)與疾病術(shù)語(yǔ)集合,并實(shí)現(xiàn)從不良反應(yīng)術(shù)語(yǔ)到醫(yī)學(xué)術(shù)語(yǔ)或疾病術(shù)語(yǔ)的一個(gè)一對(duì)多的層級(jí)性映射關(guān)聯(lián)。這里將對(duì)此展開(kāi)探討分述如下。
FAERS數(shù)據(jù)集來(lái)源于美國(guó)食品藥品監(jiān)督管理局(Food and Drug Administration)的藥物不良反應(yīng)報(bào)告系統(tǒng),數(shù)據(jù)集包含的是用戶提交到FDA的藥物不良反應(yīng)報(bào)告系統(tǒng)中的不良反應(yīng)信息和用藥錯(cuò)誤信息。這個(gè)數(shù)據(jù)庫(kù)是用來(lái)支持FDA的藥物和生物制品安全監(jiān)測(cè)系統(tǒng)的。本文所用到的FAERS數(shù)據(jù)集由FAERS數(shù)據(jù)庫(kù)中的數(shù)據(jù)去重篩選后翻譯得到,涵蓋不良反應(yīng)術(shù)語(yǔ)8 000條左右。
國(guó)際疾病分類(lèi)是依據(jù)疾病的某些特征,按照規(guī)則將疾病分門(mén)別類(lèi),并用編碼的方法來(lái)表示的系統(tǒng)。全世界通用的是第10次修訂本《疾病和有關(guān)健康問(wèn)題的國(guó)際統(tǒng)計(jì)分類(lèi)》,稱(chēng)為ICD-10。ICD-10收入了疾病記錄近26 000多條,主要包括ICD-10編碼、手術(shù)碼、疾病名稱(chēng)、拼音碼。
醫(yī)學(xué)用語(yǔ)詞典(MedDRA)是由人用藥物注冊(cè)技術(shù)要求國(guó)際協(xié)調(diào)會(huì)(ICH)主辦開(kāi)發(fā)、在醫(yī)藥事務(wù)管理活動(dòng)中使用的一套醫(yī)學(xué)標(biāo)準(zhǔn)術(shù)語(yǔ)[7]。該術(shù)語(yǔ)集可廣泛見(jiàn)于各種醫(yī)學(xué)數(shù)據(jù)的編碼、檢索和分析,如不良事件、適用癥與臨床檢查等場(chǎng)景。以本文用到的MedDRA 21.0版本為例,收錄了疾病記錄等118 000條左右,從上到下主要包括系統(tǒng)器官分類(lèi)(System organ class,SOC)、位組語(yǔ)(High level group term,HLGT)、高位語(yǔ)(High level term,HLT)、首選語(yǔ)(Preferred term,PT)以及低位語(yǔ)(Lowest level term,LLT)這五層結(jié)構(gòu)。
本文通過(guò)多源數(shù)據(jù)融合研發(fā)建立的以人體系統(tǒng)及器官分類(lèi)的不良反應(yīng)癥狀庫(kù),包含有2層。第一層為醫(yī)學(xué)術(shù)語(yǔ)與疾病術(shù)語(yǔ),第二層為不良反應(yīng)術(shù)語(yǔ)。最終能夠?qū)崿F(xiàn)通過(guò)提取的不良反應(yīng)信息,匹配不良反應(yīng)信息所對(duì)應(yīng)的醫(yī)學(xué)術(shù)語(yǔ)與疾病術(shù)語(yǔ),并得到涉及的人體系統(tǒng)及器官類(lèi)。
在醫(yī)學(xué)上,醫(yī)學(xué)術(shù)語(yǔ)或癥狀術(shù)語(yǔ)很多都涉及人體的多個(gè)系統(tǒng)或器官,比如缺鐵性貧血就涉及到血液循環(huán)系統(tǒng)與內(nèi)分泌系統(tǒng)。這種術(shù)語(yǔ)與系統(tǒng)或器官的一對(duì)多表示,更適合醫(yī)學(xué)研究的需要。因此,本次研究引入帶有多軸性的MedDRA數(shù)據(jù)集,參見(jiàn)表1,即MedDRA的低位語(yǔ)與系統(tǒng)器官分類(lèi)存在一對(duì)多的關(guān)系,MedDRA中的醫(yī)學(xué)術(shù)語(yǔ)對(duì)應(yīng)一個(gè)或多個(gè)系統(tǒng)器官分類(lèi)[8]。
表1 缺鐵性貧血在MedDRA中的多軸性表示Tab.1 Multiaxial expression of iron deficiency anemia in MedDRA
此外,標(biāo)準(zhǔn)的不同,中西醫(yī)學(xué)的不同等都有可能導(dǎo)致同一種疾病有多個(gè)不同的疾病名稱(chēng)。如西醫(yī)疾病學(xué)中的蛛網(wǎng)膜下腔出血與中醫(yī)中的腦中風(fēng)表述的就是同一癥狀。為了豐富數(shù)據(jù)源中的疾病術(shù)語(yǔ),避免出現(xiàn)同一種疾病的不同疾病名稱(chēng)的缺失,研究中又引入了ICD-10數(shù)據(jù)集作為MedDRA數(shù)據(jù)集的補(bǔ)充,但是ICD-10卻不具有多軸性。對(duì)于ICD-10數(shù)據(jù)集,研究通過(guò)構(gòu)建和MedDRA相同的多軸性表達(dá)方式,達(dá)到將MedDRA與ICD-10進(jìn)行數(shù)據(jù)融合的目的。
本文所涉及的多源數(shù)據(jù)融合致力于構(gòu)建從不良反應(yīng)術(shù)語(yǔ)到醫(yī)學(xué)術(shù)語(yǔ)或疾病術(shù)語(yǔ)的一個(gè)一對(duì)多的層級(jí)性映射關(guān)聯(lián)。通過(guò)構(gòu)建層級(jí)性關(guān)聯(lián),每一條不良反應(yīng)術(shù)語(yǔ)都可以在疾病術(shù)語(yǔ)集或醫(yī)學(xué)用語(yǔ)集中找到對(duì)應(yīng)的一種或多種表示。在層級(jí)性關(guān)聯(lián)中,每一條不良反應(yīng)術(shù)語(yǔ)所涉及到的系統(tǒng)器官類(lèi)別也可以表示為由其所對(duì)應(yīng)的疾病術(shù)語(yǔ)或醫(yī)學(xué)用語(yǔ)所涉及的系統(tǒng)器官類(lèi)別。
如FAERS中提取的不良反應(yīng)信息為血壓升高,通過(guò)層級(jí)性融合,能夠匹配出高血壓心臟病、高血壓性腦病等疾病,也能夠匹配出撤退性高血壓、反彈性高血壓等醫(yī)學(xué)用語(yǔ),并且得到可能涉及的人體系統(tǒng)器官。設(shè)計(jì)運(yùn)行結(jié)果詳見(jiàn)表2。
表2 MedDRA、ICD-10及FAERS的比較Tab.2 Comparison of MedDRA,ICD-10 and FAERS
本文著眼于已有的不良反應(yīng)發(fā)現(xiàn)系統(tǒng),通過(guò)進(jìn)行多軸性、層級(jí)性的多源數(shù)據(jù)融合,在原有的提取電子病歷中的不良反應(yīng)的基礎(chǔ)上,通過(guò)提取的不良反應(yīng)術(shù)語(yǔ),找到對(duì)應(yīng)的疾病術(shù)語(yǔ)及醫(yī)學(xué)用語(yǔ)表示。同時(shí),根據(jù)層級(jí)結(jié)構(gòu)分析得到受不良反應(yīng)影響的系統(tǒng)器官。在方法上,主要用到的是基于疾病術(shù)語(yǔ)特征提取的模式識(shí)別以及向量空間模型(Vector Space Model)。
本文所涉及的不良反應(yīng)發(fā)現(xiàn)系統(tǒng)設(shè)計(jì)是在鄧劍雄等人[9]提出的基于HIS的藥品不良反應(yīng)快速上報(bào)與智能搜索系統(tǒng)的基礎(chǔ)上,融入了多源數(shù)據(jù)融合帶來(lái)的不良反應(yīng)到疾病術(shù)語(yǔ)與醫(yī)學(xué)用語(yǔ)的層級(jí)性映射關(guān)聯(lián),實(shí)現(xiàn)對(duì)HIS系統(tǒng)的不良反應(yīng)相關(guān)疾病報(bào)告功能。研究得到的面向藥物不良反應(yīng)發(fā)現(xiàn)與上報(bào)系統(tǒng)的系統(tǒng)結(jié)構(gòu)如圖1所示。
圖1 面向藥物不良反應(yīng)發(fā)現(xiàn)與上報(bào)系統(tǒng)的系統(tǒng)架構(gòu)Fig.1 System architecture for adverse drug reaction discovery and reporting system
首先,對(duì)本文研究問(wèn)題進(jìn)行定義,用L1={M1,M2,M3,..,Mn} 來(lái)表示醫(yī)學(xué)用語(yǔ)數(shù)據(jù)集,用L2={S1,S2,S3,..,Sn} 來(lái)表示疾病術(shù)語(yǔ)數(shù)據(jù)集,用L3={A1,A2,A3,..,An} 來(lái)表示不良反應(yīng)術(shù)語(yǔ)集,Label={lab1,lab2,lab3,..,labn} 表示系統(tǒng)或器官類(lèi)別。 那么醫(yī)學(xué)用語(yǔ)集和疾病術(shù)語(yǔ)集中的每一條記錄都可以表示為<symptom,label>的形式。 對(duì)于Mi∈L1,Mi.label表示所屬的系統(tǒng)器官類(lèi)別標(biāo)簽,Mi.symptom表示醫(yī)學(xué)用語(yǔ),同理也可以表示L2。此外,L1所具有的多軸性可以表示為對(duì)于Mi,Mj∈L1,i≠j,存在Mi.symptom=Mj.symptom且Mi.label≠M(fèi)j.label。 對(duì)于Si∈L2,研究嘗試通過(guò)實(shí)體鏈接的方式來(lái)繼承L1的多軸性。
本文通過(guò)對(duì)數(shù)據(jù)的預(yù)處理,構(gòu)建了Label以及L1,L2,L3,其中對(duì)于Ai∈L3,Ai.Label為空且為集合類(lèi)型,Ai.symptom為不良反應(yīng)術(shù)語(yǔ),同時(shí)Ai還包含Ai.set,用來(lái)存放層級(jí)性映射關(guān)聯(lián)中滿足條件的所有醫(yī)學(xué)用語(yǔ)或疾病術(shù)語(yǔ),并將對(duì)應(yīng)的系統(tǒng)器官標(biāo)簽存入Label集合中。
圖2 不良反應(yīng)在層級(jí)性映射關(guān)聯(lián)中的形式及Lab獲取Fig.2 The form of adverse reactions in hierarchical mapping correlation and Lab acquisition
本文的多軸性融合是為ICD-10引入多軸性表示,從而與MedDRA融合,其實(shí)質(zhì)是基于ICD-10疾病術(shù)語(yǔ)中涵蓋的醫(yī)學(xué)特征詞語(yǔ)的模式識(shí)別。與常規(guī)的分類(lèi)問(wèn)題所不同的是,通常分類(lèi)的特征選擇都是從原始特征中挑選出最有代表性、分類(lèi)性能好的特征,而對(duì)ICD-10引入多軸性需要提取多個(gè)分類(lèi)明顯的特征,對(duì)多個(gè)特征分別進(jìn)行分類(lèi)決策,最終可得對(duì)于ICD-10的每條疾病術(shù)語(yǔ)都屬于一個(gè)或多個(gè)系統(tǒng)器官類(lèi)別的運(yùn)行結(jié)果,具體即如圖3所示。
圖3 構(gòu)建ICD-10疾病術(shù)語(yǔ)的多軸性表示Fig.3 Construction of multiaxial representation of ICD-10 disease terms
在特征的選擇上,常見(jiàn)的醫(yī)學(xué)術(shù)語(yǔ)特征有發(fā)病部位、病因、病理等。如鼻竇惡性腫瘤,按發(fā)病部位屬于耳鼻喉,按病理屬于惡性腫瘤。
本文的層級(jí)融合是構(gòu)建以FAERS數(shù)據(jù)集為底層,多軸性融合后的MedDRA與ICD-10數(shù)據(jù)集為頂層的2層結(jié)構(gòu)。研究通過(guò)構(gòu)建詞向量空間,并以FAERS數(shù)據(jù)集為對(duì)象進(jìn)行聚類(lèi),來(lái)完成層級(jí)性映射關(guān)聯(lián)。這里,設(shè)計(jì)給出的癥狀庫(kù)層級(jí)性映射關(guān)聯(lián)模型則如圖4所示。
圖4 癥狀庫(kù)層級(jí)性映射關(guān)聯(lián)模型Fig.4 Hierarchical mapping correlation model of symptom library
層級(jí)性關(guān)聯(lián)融合所涉及到的詞典庫(kù)包含了FAERS數(shù)據(jù)集的所有不良反應(yīng)術(shù)語(yǔ)。因此,通過(guò)構(gòu)建詞向量空間模型,F(xiàn)AERS數(shù)據(jù)集的不良反應(yīng)術(shù)語(yǔ)都可以用MedDRA或ICD-10中的醫(yī)學(xué)用語(yǔ)或疾病術(shù)語(yǔ)的夾角余弦值表示。
向量空間模型把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,并且是以空間上的相似度表達(dá)語(yǔ)義的相似度。對(duì)于MedDRA、ICD-10及FAERS數(shù)據(jù)集,研究擬將構(gòu)建詞向量空間模型,再通過(guò)計(jì)算夾角余弦值來(lái)評(píng)估相似度。
研究選擇了Skip-gram模型作為生成數(shù)據(jù)源對(duì)應(yīng)的詞向量的模型。Skip-gram是一種根據(jù)當(dāng)前詞語(yǔ)來(lái)預(yù)測(cè)上下文的詞語(yǔ)模型。相對(duì)于根據(jù)上下文的詞語(yǔ)預(yù)測(cè)當(dāng)前詞語(yǔ)出現(xiàn)的概率的模型,Skip-gram在理解低頻詞上有比較好的效果,這點(diǎn)在本文的課題研究中顯得尤為重要,很多在電子病歷中頻繁出現(xiàn)的不良反應(yīng)術(shù)語(yǔ)在數(shù)據(jù)源中卻屬于低頻詞。Skip-gram的輸入層是一個(gè)詞向量,投影層直接將輸入層的詞向量傳遞給輸出層,整體的研發(fā)設(shè)計(jì)架構(gòu)則如圖5所示。
圖5 Skip-gram模型Fig.5 Skip-gram model
本文是針對(duì)為醫(yī)院提供的藥物不良反應(yīng)發(fā)現(xiàn)與呈報(bào)系統(tǒng),通過(guò)對(duì)系統(tǒng)的癥狀庫(kù)進(jìn)行多源異構(gòu)數(shù)據(jù)融合,形成了層級(jí)的按系統(tǒng)器官分類(lèi)的癥狀庫(kù),并且在對(duì)于癥狀庫(kù)的描述上更為全面,能夠反映出癥狀庫(kù)中的術(shù)語(yǔ)所涉及的多個(gè)系統(tǒng)器官類(lèi)。本文雖然采用了神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型中適宜于處理低頻詞的Skip-gram模型,但在低頻詞的層級(jí)性關(guān)聯(lián)上仍然有待于提高。