張正宇,于躍,周虎,趙文龍*
?
基于OMOP通用數(shù)據(jù)模型的FAERS數(shù)據(jù)庫標準化與數(shù)據(jù)挖掘
張正宇1,于躍2,周虎1,趙文龍1*
1. 重慶醫(yī)科大學醫(yī)學信息學院, 重慶 400016 2. 美國梅奧醫(yī)院數(shù)字醫(yī)學科學系, 明尼蘇達州 55901
應用OMOP通用數(shù)據(jù)模型,對FAERS數(shù)據(jù)庫進行標準化轉化,通過標準化前后數(shù)據(jù)質量與數(shù)據(jù)采集速度的對比分析,展示OMOP CDM在FAERS數(shù)據(jù)標準化程中的重要意義。然后,標準化的基礎上,對5-羥色胺再攝取抑制劑(Selective Serotonin Reuptake Inhibitor,SSRIs)藥物不良反應信號進行了挖掘,展示了基于“真實世界數(shù)據(jù)”的SSRIs上市后的安全信號的綜合挖掘結果,為后續(xù)用藥研究提供參考。
OMOP通用數(shù)據(jù)模型; 數(shù)據(jù)標準化; 數(shù)據(jù)挖掘; 藥品不良反應
美國食品藥品監(jiān)督局的不良反應上報系統(tǒng)數(shù)據(jù)庫(FDA Adverse Event Reporting System, FAERS)是世界范圍內藥物監(jiān)管部門和學術界最常用的藥物不良反應檢測數(shù)據(jù)來源之一。但由于FAERS中的不良事件數(shù)據(jù)來源于自發(fā)上報,因此其存在一定程度的數(shù)據(jù)質量問題。隨著電子健康檔案(Electronic Health Records, EHR)數(shù)據(jù)庫的發(fā)展,使得應用EHR的“真實世界數(shù)據(jù)”進行藥物不良反應檢測與驗證成為了可能[1]。而EHR與FAERS數(shù)據(jù)的異質性,給藥物不良反應挖掘分析帶來了困難。因此,為了提高藥物不良反應信號挖掘的準確性,對并且為未來FAERS與EHR相結合進行數(shù)據(jù)挖掘提供統(tǒng)一的標準化數(shù)據(jù),亟需對FAERS進行數(shù)據(jù)標準化。
健康觀測數(shù)據(jù)科學和信息學組織(Observational Health Data Sciences and Informatics,OHDSI)開發(fā)的觀察醫(yī)療結果合作項目通用數(shù)據(jù)模型(Observational Medical Outcomes Partnership Common Data Model, OMOP CDM)為FAERS數(shù)據(jù)庫的標準化和整合提供了框架[2]。OMOP CDM是一個為醫(yī)學數(shù)據(jù)標準化而設計的數(shù)據(jù)模型,其基本思想是通過統(tǒng)一的數(shù)據(jù)模型與醫(yī)學概念詞匯表示,使得不同來源的醫(yī)學數(shù)據(jù)以統(tǒng)一的標準進行整合。
本課題組的于躍等[3]開發(fā)了數(shù)據(jù)庫轉化工具ADEpedia-on-OHDSI,該工具具有較高的數(shù)據(jù)轉化率,可以將FAERS數(shù)據(jù)庫較為完整的轉化為OMOP CDM格式。本文在基于OMOP CDM對FAERS 數(shù)據(jù)庫進行標準化的基礎上,對5-羥色胺再攝取抑制劑(Selective Serotonin Reuptake Inhibitor,SSRIs)藥物不良反應信號進行了挖掘。通過標準化前后數(shù)據(jù)質量的對比分析,展示OMOP CDM在FAERS數(shù)據(jù)標準化與挖掘過程中的重要意義。
數(shù)據(jù)來源于美國食品與藥品監(jiān)督管理局(Food and Drug Administration,F(xiàn)DA)建立的藥品不良事件(Adverse Drug Event,ADE)上報系統(tǒng)(FDA Adverse Event Reporting System, FAERS)數(shù)據(jù)庫[4]。
在不良反應挖掘研究對象的選擇上,選取臨床廣泛使用的SSRIs類抗抑郁藥物。選擇目前常用的五種SSRIs類藥物:共五種:氟西?。‵luoxetine)、帕羅西?。≒aroxetine)、舍曲林(Sertraline)、氟伏沙明(Fluvoxamine)以及西酞普蘭(Citalopram)作為不良反應挖掘的實驗對象,并納入了2013年1月1日-2017年12月31日的藥品不良反應(Adverse drug reaction,ADR)信號進行檢測。
設計基于OMOP CDM的FAERS數(shù)據(jù)標準化與數(shù)據(jù)挖掘框架。整個框架主要分為三部分,F(xiàn)AERS數(shù)據(jù)標準化、標準化藥物不良反應數(shù)據(jù)查詢與提取,基于標準化數(shù)據(jù)的藥物不良反應挖掘。
采用OHDSI組織開發(fā)的OMOP通用數(shù)據(jù)模型完成FAERS數(shù)據(jù)庫的標準化工作。OMOP CDM的最大特點是除了提供完備統(tǒng)一的標準化數(shù)據(jù)庫結構外,還提供了用于醫(yī)學概念的標準化醫(yī)學詞匯表。OMOP CDM的基本結構如圖1所示目前,OMOP CDM中共收錄了116種不同的醫(yī)學詞匯表/本體,并且通過同義詞表,為每一個醫(yī)學數(shù)據(jù)設定一個標準的概念映射,使不同數(shù)據(jù)庫之間醫(yī)學概念描述的差異化問題得到了解決。
圖 1 OMOP CDM結構示意圖
圖 2 表級別FAERS-OMOP CDM數(shù)據(jù)結構匹配
在FAERS數(shù)據(jù)庫的標準化方面,采用ADEpedia-on-OHDSI工具[3]將FAERS轉化成為了OMOP CDM格式。其基本轉化流程分為四步。1)數(shù)據(jù)預處理。應用斯坦福大學Banda等人開發(fā)的AEOLUS工具[5],完成對FAERS原數(shù)據(jù)中進行數(shù)據(jù)去重與藥物名稱標準化等預處理工作。經(jīng)AEOLUS工具處理后FAERS數(shù)據(jù)庫中的藥物名稱被映射到RxNorm藥物標準化本體[6],完成藥物名稱的標準化工作。2)數(shù)據(jù)結構匹配。將FAERS原始的數(shù)據(jù)結構與OMOP CDM的數(shù)據(jù)框架在邏輯上進行了匹配,用以指導進一步的數(shù)據(jù)轉換工作。主要包括表級別的匹配和字段級別的匹配。表級別的匹配結果如圖2所示。3)數(shù)據(jù)提取、轉化與加載。在邏輯匹配的基礎上,根據(jù)OMOP CDM的具體要求,對FAERS原數(shù)據(jù)進行了數(shù)據(jù)的具體轉化工作。數(shù)據(jù)提取、轉化與加載內容具體包括:數(shù)據(jù)類型的轉換、醫(yī)學概念數(shù)據(jù)的標準化、數(shù)據(jù)計算、遺失數(shù)據(jù)插補、數(shù)據(jù)加載等流程。4)標準化結果評價,為了對數(shù)據(jù)標準化的結果進行評估,還對數(shù)據(jù)的轉化率、醫(yī)學概念匹配的正確率、數(shù)據(jù)計算插補的準確率等進行了評估。以反應整個FAERS數(shù)據(jù)庫轉換的效果。
應用OMOP CDM進行數(shù)據(jù)標準化與整合的一個重要目的,就是為了實現(xiàn)標準化的數(shù)據(jù)查詢與提取。由于OMOP CDM中所有的醫(yī)學數(shù)據(jù)均會匹配到標準詞匯表中的概念上,因此只要根據(jù)標準詞匯制定標準化的查詢語句,就可以實現(xiàn)不同數(shù)據(jù)庫、甚至不同機構之間的標注化數(shù)據(jù)查詢與提取,既實現(xiàn)了異構數(shù)據(jù)的標準化查詢,又節(jié)省了編寫查詢語句的人力與時間。
數(shù)據(jù)提取采用根據(jù)OMOP CDM首選用于標注藥物概念的RxNorm藥物標本體獲取SSRIs的各具體藥物規(guī)范名稱與概念唯一標識符(RxCUI)與相對應的OMOP概念標識符。進而根據(jù)編寫標準化的SQL查詢語句完成標準化數(shù)據(jù)的提取。數(shù)據(jù)提取完成后還要轉置成為“藥物-不良反應”矩陣格式,以備接下來的數(shù)據(jù)挖掘研究使用。
基于藥品不良反應的數(shù)據(jù)挖掘方法主要包括比例失衡法(Disproportionality Analysis,DPA)、信息成分法(Information component,IC)、MGPS相對比值比法(Multi-item gamma passion shrinker,MGPS)、和聚類分析法(clustering or database segmentation)等。其中比例失衡算法包括報告比值比法(Reporting odd radio,ROR)、比例報告比值比法(Proportional reporting radio,PRR)、和貝葉斯置信傳播神經(jīng)網(wǎng)絡算法(Bayesian Confidence Propagation Neural Network,BCPNN)等。ROR法具有較高靈敏度,早期發(fā)現(xiàn)ADR信號的能力較好,故采用該方法。警戒信號檢測標準為:(1)a≥3;(2)ROR 95%CI下限>1提示生成1個可疑藥物不良反應信號。
MedDRA不僅用于對藥品不良事件的規(guī)范化處理和編碼,還提供藥品不良事件的分類信息。將挖掘出的ADR信號按照MedDRA的系統(tǒng)器官分類(System organ class,SOC)進行統(tǒng)計整理。MedDRA所有術語都被賦予唯一的編碼,并將其分為系統(tǒng)器官分類、高位組語(High Level Group Term,HLGT)、高位語(High Level Term,HLT)、首選語(PT)和低位語(Lowest Level Term,LLT)5個層級。基本單元是PT,用于對醫(yī)療事件進行劃分和檢索。采用MedDRA19.0版本對藥品不良事件記錄在26個SOC分類上的分布情況進行統(tǒng)計。并應用雙聚類算法,繪制不良反應信號的熱圖,以實現(xiàn)挖掘結果的可視化展示。
從FAERS官網(wǎng)上下載2013年1月1日-2017年12月31日的數(shù)據(jù)進行試驗。FAERS原始數(shù)據(jù)中共有病人數(shù)據(jù)11 904 580條,經(jīng)過去重復后,病人數(shù)據(jù)為9,956,310條。進一步對去重復后的數(shù)據(jù)進行標準化并將其存入OMOP CDM數(shù)據(jù)庫中。兩個數(shù)據(jù)庫主要表格間的轉化結果如表1所示。從表1可以看出,F(xiàn)AERS數(shù)據(jù)庫中患者基本數(shù)據(jù),臨床用藥數(shù)據(jù),用藥適應癥數(shù)據(jù)均全部加載到了OMOP CDM相對應的表中。而FAERS中的不良反應數(shù)據(jù)和臨床結果數(shù)據(jù)也被全部轉加載到OMOP CDM的OBSERVATION中(OBSERVATION表中數(shù)據(jù)總數(shù)等于FAERS數(shù)據(jù)庫中REAC和OUTC兩個表數(shù)據(jù)總數(shù)之和)。
另外,本研究同樣調查了數(shù)據(jù)庫中醫(yī)學概念數(shù)據(jù)標準化的準確率。其中,藥物名稱匹配成功率約為94%,僅有6%左右的藥物名稱無法被匹配到OMOP CDM規(guī)定的RxNorm標準藥物概念上。而不良反應概念與適應癥概念由于FAERS中已經(jīng)應用MedDRA詞表對其進行標注。因此其可以全部轉化到OMOP CDM的標準概念上。另外,患者的性別、國籍、服藥方式、服藥劑量等等相關概念的匹配成功率均在94%以上。說明轉化過程中的信息損失較小,不會對后續(xù)分析結果造成較大影響。
表 1 FAERS與OMOP CDM數(shù)據(jù)庫標準化前后主要表格數(shù)據(jù)比較
經(jīng)ROR法計算得到的五種SSRIs類藥物不良反應信號數(shù)量如圖3所示。其中共有ADR信號187例。
進一步對不良反應信號MedDRA術語集進行SOC分類,共涉及到26個SOC。繪制熱點圖(HeatMap)對挖掘出的不良反應信號在人類系統(tǒng)器官級別分類層次進行可視化展示。由圖4可見,藥物不良反應累積的器官/系統(tǒng)主要集中在各類精神類疾病、神經(jīng)系統(tǒng)疾病、各類檢查、胃腸道系統(tǒng)以及血管及淋巴管等系統(tǒng)。
圖 3 SSRIs類藥物不良反應信號數(shù)量
Fig.3 Number of adverse reaction signals of SSRIs
圖 4 SSRIs-SOC分類層次不良反應信號熱點圖
圖4展示了藥品不良反應信號的分布狀況。橫軸代表SSRIs藥物的類別,縱軸代表不良事件的SOC分類,行與列的交叉處的每個小格代表曲坦類藥物和SOC分類的組合。每個小格的顏色代表著不良反應信號的頻數(shù)值,顏色越深,頻數(shù)越大。白色代表著該“藥品-SOC分類組合”沒有探測到藥品不良反應信號。
該熱點圖從SSRIs類別和不良事件SOC兩個維度對不良反應信號進行了聚類分析。首先,從圖左側的聚類樹可以看出,主要可以分成兩個大類:1)氟西汀、帕羅西汀、舍曲林及西酞普蘭涵蓋了所有不同層次的不良反應事件,因此將其聚類在相同的類團下;2)氟伏沙明挖掘出的不良反應信號較少,被單獨聚到一個類團。相比較氟西汀和帕羅西汀,舍曲林和西酞普蘭挖掘出的不良反應信號相對較少,因此該四種藥品種又進一步進行劃分。從圖上側的聚類樹可以看出,5種SSRIs類藥物所探測的藥物不良反應信號多集中在“各類神經(jīng)系統(tǒng)疾病”至“各類精神疾病”、“各類檢查”至“各種先天性、家族性及遺傳性疾病”、“血管及淋巴管類疾病”至“胃腸系統(tǒng)疾病”的6個SOC分類上,其中氟西汀檢測到的危險信號高達1583個,氟伏沙明危險信號最少,僅有429個。
目前,應用FAERS及其它EHR進行信號挖掘成為目前藥品上市后安全性再評價的研究熱點。而數(shù)據(jù)庫中的數(shù)據(jù)質量問題和不同數(shù)據(jù)庫之間數(shù)據(jù)異構化的問題是未來藥物不良反應檢測索要面對的主要困難之一。通過OMOP CDM對FAERS數(shù)據(jù)庫進行了標準化轉化,轉化前后的信息損失僅6%左右,不會對后續(xù)的挖掘分析造成重大影響?;贠MOP CDM的FAERS數(shù)據(jù)庫標準化優(yōu)勢在于其提高了數(shù)據(jù)的質量,可以制定可重復使用的標準化查詢,提高了數(shù)據(jù)采集的速度,為未來更多數(shù)據(jù)庫的整合提供了可能。綜上所述,本研究為基于“真實世界數(shù)據(jù)”藥物警戒監(jiān)測工作奠定了基礎。
[1] Zhou X, Murugesan S, Bhullar H,. An evaluation of the THIN database in the OMOP common data model for active drug safety surveillance[J]. Drug safety, 2013,36(2):119-134
[2] Hripcsak G, Duke JD, Shah NH,. Observational health data sciences and informatics (OHDSI): opportunities for observational researchers[J]. Studies in health technology and informatics, 2015,216:574-578
[3] Yu Y, Ruddy KJ, Hong N,. ADE pedia-on-OHDSI: a next generation pharmacovigilance signal detection platform using the OHDSI common data model[J]. Journal of biomedical informatics, 2019,91:103119
[4] FDA. Questions and answers on FDA's adverse event reporting system (FAERS)[EB/OL]. https://www.fda.gov/ drugs/surveillance/fda-adverse-event-reporting-system-faers.html, 2018-01-06/2018-02-06
[5] Banda JM, Evans L, Vanguri RS,. A curated and standardized adverse drug event resource to accelerate drug safety research[J]. Scientific data, 2016,3:160026
[6] Rothman KJ, Lanes S, Sacks ST. The reporting odds ratio and its advantages over the proportional reporting ratio[J]. Pharmacoepidemiology & drug safety, 2004,13(8):519-523
Standardization and Data Mining of FAERS Database Based on OMOP Common Data Model
ZHANG Zheng-yu1, YU Yue2, ZHOU Hu1, ZHAO Wen-long1*
1.400016,2.55901,
In this study, we utilize OMOM Common Data Model to standardize FAERS data set. And then we evaluate the transformation results to validate the significance of the FAERS standardization. Then, we implement a data mining research about 5 Selective Serotonin Reuptake Inhibitor (SSRIs) drugs base on the standardized FAERS database. The study based on ADR signals in the real world is helpful to evaluate the post-marking safety drugs and provide references for safety in clinical medication.
OMOP universal data model; data standardization; data mining; adverse drug reactions
TP274
A
1000-2324(2019)03-0434-04
10.3969/j.issn.1000-2324.2019.03.016
2018-03-05
2018-05-06
基于臨床大數(shù)據(jù)的醫(yī)療行為分析系統(tǒng)研究與開發(fā)(cstc2015shmszx10004)
張正宇(1994-),女,碩士研究生,主要研究方向為數(shù)據(jù)挖掘和醫(yī)學信息. E-mail:389136875@qq.com
Author for correspondence. E-mail:cqzhaowl@163.com