王嘯宇,郭代紅,徐元杰(解放軍總醫(yī)院藥品保障中心,北京 100853)
?
·藥學服務·
基于文本分類技術的住院患者藥源性變態(tài)反應自動監(jiān)測模塊研究
王嘯宇,郭代紅,徐元杰(解放軍總醫(yī)院藥品保障中心,北京 100853)
[摘要]目的:利用醫(yī)療電子病歷中的文本信息開展住院患者用藥安全性評價,為住院患者ADR監(jiān)測提供新方法。方法:在已有的主動監(jiān)測系統(tǒng)基礎上,設計、開發(fā)基于文本分類技術的住院患者藥源性變態(tài)反應自動監(jiān)測模塊,利用優(yōu)質文本進行分類算法的機器學習。結果:完成包括事件配置器、特征詞集、自然語言處理器、文本分類器、結果展示器5部分的主動監(jiān)測模塊的開發(fā);試用于頭孢哌酮舒巴坦用藥患者的主動監(jiān)測,結果顯示629例患者中出現(xiàn)變態(tài)反應的陽性預測值達到44.44% (4/9),其真實世界發(fā)生率0.64%,與說明書中所列的發(fā)生率0.68%相近。結論:本研究建立了文本信息主動監(jiān)測方法,陽性預測值可通過特征詞集、分類規(guī)則的深入研究加以改善。
[關鍵詞]藥品不良反應;醫(yī)療電子病歷;自然語言處理;文本分類技術
藥品不良反應(adverse drug reaction,ADR)監(jiān)測是藥品安全性監(jiān)測的主要手段,是藥品上市后評價的重要組成部分。隨著藥品風險研究領域中ADR主動監(jiān)測工作的日趨重要,計算機ADR自動監(jiān)測系統(tǒng)的研究也日漸深入。我們采觸發(fā)器技術研發(fā)的“醫(yī)療機構ADE主動監(jiān)測與智能評估警示系統(tǒng)”,能夠監(jiān)控患者檢驗指標的異常變化,對血小板減少、肝腎功能異常等多種藥源性疾病實施主動監(jiān)測,并已初步形成了國內首個藥品安全信息化主動監(jiān)測網絡[1-2]。但醫(yī)療電子病歷中包含有患者在院治療期間的全部醫(yī)療數據,且其中大部分信息為采醫(yī)療自然語言記錄的文本,由于缺少高效的計算機自動監(jiān)測系統(tǒng),無法精準的篩選這些文本中包含的大量ADR相關信息。因此本研究采文本分類技術開發(fā)醫(yī)療電子病歷文本信息監(jiān)測模塊,并通過機器學習獲取較高的陽性報警率,填補自動監(jiān)測系統(tǒng)在該領域的空白,為臨床藥師更加精準的開展藥學監(jiān)護工作提供有效支撐工具,保障患者的藥安全。
醫(yī)療電子病歷文本信息監(jiān)測模塊的功能需求是能夠通過自然語言處理手段挖掘醫(yī)療電子病歷中的文本信息,以文本自動分類技術判定患者是否發(fā)生ADR,自動監(jiān)測院內目標藥物導致變態(tài)反應的發(fā)生情況。為實現(xiàn)這一目的,模塊需具備劃定監(jiān)測范圍、信息識別、信息收集、文本性質判定、結果呈現(xiàn)等功能。因此,應包括以下幾個部分:
1.1事件配置器
1.2特征詞集
特征詞集是在藥源性變態(tài)反應的診斷、治療過程中醫(yī)療電子病歷記錄內可能出現(xiàn)的專業(yè)詞語的集合。特征詞集是文本分類的依據,應能夠全面地描述ADR,涵蓋目標ADR相關的專業(yè)詞、同義詞、特殊詞;為兼顧系統(tǒng)運行效率,特征詞集不宜過大,要求每個特征詞都具有代表性和特異性。因此,特征詞集的建立是本課題的研究重點之一。
1.3自然語言處理器
自然語言處理是基于文本信息的自動監(jiān)測的基礎,也是研究的難點。合格的處理器應具備3種基本能力:①目標藥物使人群的查詢;②利病人特征編碼如住院號、病歷號等,通過電子病歷系統(tǒng)接口取得患者病歷資料;③結合特征詞集提取患者與目標ADR有關的文本信息及完整的藥物治療記錄,并能按照標準化格式儲存、傳遞上述數據,便于數據的進一步利。
1.4文本分類器
1.5結果展示器
監(jiān)測的結果交由結果展示器呈現(xiàn),包括報警、正常、排除三類。報警結果為自動監(jiān)測系統(tǒng)判斷為陽性的病例,正常為陰性病例,排除結果為按照監(jiān)測計劃的納入排除標準排除的相關病例。在結果展示器中可查看由患者電子病歷中提取的文本數據、特征詞集記錄、藥物治療記錄等信息,由專業(yè)人員分析、評估自動監(jiān)測的結果。
在這種模塊構架下的自動監(jiān)測一般流程為:在事件配置器中設定自動監(jiān)測計劃,啟動監(jiān)測任務,而后配置器在HIS系統(tǒng)中調取計劃所需數據,傳遞給自然語言處理器;自然語言處理器結合特征詞表,提取有意義的數據,于文本分類;在文本分類器中,處理上一階段產生的數據,判斷文本性質,完成分類,提交到結果展示器,供藥師人工甄別。如圖1。
圖1 自動監(jiān)測模塊運行流程圖Fig 1 Program flow chart of the automatic monitoring module
2.1建立特征詞集
在本次特征詞集建立過程中,我們深入研究了變態(tài)反應這一ADR事件在臨床醫(yī)療文書中的表達。首先,研讀《過敏性疾病診療指南》等5本藥源性變態(tài)反應或皮膚疾病專著,劃定了一個包括43個詞語的待選范圍,入選的均為藥源性變態(tài)反應臨床表現(xiàn)相關的專術語;而后利院內已確診的藥源性變態(tài)反應患者醫(yī)療電子病歷,對照備選特征詞進行病案研究,統(tǒng)計特征詞在陽性病例中出現(xiàn)的詞頻,分析詞語與ADR事件的關聯(lián)性,確定特征詞集。同時收集病案中出現(xiàn)的特殊詞、非標準詞,以擴充詞量,提高特征詞集的特異性。最后確定的藥源性變態(tài)反應特征詞集包括臨床表現(xiàn)、解救措施、相關排除等多個維度,共44個特征詞。
2.2自然語言處理方法探索
自然語言處理的難點之一在于詞語的正確提取,如“皮疹”和“疹”都是模塊中的特征詞,但在詞語提取時,將“皮疹”中的“疹”作為獨立的詞語提取出來,則會產生詞語重復提取的情況;醫(yī)療文書的語義分析也存在難度,例如“皮疹”與“無皮疹”、“未見皮疹”語義完全相反,如果不能正確識別,則會產生極大的歧義。對于上述問題,我們將中文分詞技術和文本關鍵詞檢索與語言邏輯處理相結合,分詞得到的結果需通過邏輯檢驗才予以采信、保留,解決了以上問題。
另外,自然語言處理對計算機性能有很高的要求,在大規(guī)模處理文本時,會對服務器帶來極大的壓力;我們以時間為標志增量提取電子病歷,避免了重復讀取病歷全文,有效地緩解了這一壓力。
2.3文本分類方法的選擇
中文文本分類研究中比較成熟的技術主要分為兩類[6],一類是根據特征詞在各類文本中分布概率來進行文本分類的,比較具有代表性的方法為樸素貝葉斯法;另一類是根據特征詞間存在的具有方向性的聯(lián)系對文本分類,如:決策樹法。本研究采樸素貝葉斯法,在機器學習后能夠得到每個特征詞與文本性質間的邏輯關系,即在是否發(fā)生了ADR兩類文檔中的分布概率,在分類過程中,計算每個病歷的總分布概率,以達到分類的目的。采樸素貝葉斯法的優(yōu)勢是:①分類結果準確,系統(tǒng)調試難度小;②特征詞間不存在關聯(lián)性,便于調整特征詞集,適于系統(tǒng)初期開發(fā);③算法易行,系統(tǒng)運算壓力??;④能夠進行自主學習。使決策樹法亦能達到系統(tǒng)所需要的分類性能,但決策樹法依賴于特征詞間的相互關系,不利于特征詞集的調整,而且其自主學習機制搭建復雜,應難度大,并不適于系統(tǒng)初期開發(fā),在特征詞集調整完畢后,可添加為比較算法,提升系統(tǒng)效率。
2.4分類算法的機器學習
在基于樸素貝葉斯法的文本分類器構建完成后,仍需經過機器學習方能使獲得特征詞分布概率形成文本分類的能力[6]。機器學習是指針對算法,通過統(tǒng)計分析分類確定的優(yōu)質文本中特征詞的分布情況,計算特征詞在各分類中的概率,以開展真實樣本分析。在機器學習的過程中,我們發(fā)揮醫(yī)療電子病歷資源豐富的優(yōu)勢,通過人工篩選的方式在HIS系統(tǒng)中取得陽性樣本132例,陰性樣本68例,完成了系統(tǒng)建設階段的機器學習;并通過程序設定,將每次自動監(jiān)測任務的結果返回系統(tǒng),進一步調整特征詞的分布概率,從而完成運行后的機器學習,在使過程中自動優(yōu)化軟件性能。
3.1模塊開發(fā)
本系統(tǒng)模塊開發(fā)工具為Microsoft Visual Studio 2012,其中服務器端配置為:CPU 2.0 GHz,內存4 G,硬盤200 G;操作系統(tǒng)兼容Win2003 Server/Win2008 Server;數據庫采Microsoft SQL Server 2008。客戶端配置:CPU 2.0 GHz,內存2 G,硬盤空間20 G;操作系統(tǒng)兼容Win2003/XP/Win7/Win10等,IE6.0及以上環(huán)境。
3.2模塊內容
按照模塊設計思路,完成了文本監(jiān)測模塊的初步開發(fā)工作。模塊共包括事件配置器、特征詞集、自然語言處理器、文本分類器、結果展示器5部分,其中事件配置器、特征詞集、結果展示器有可操作界面,自然語言處理器和文本分類器為后臺運行。見圖2~4。
圖2 事件配置器Fig 2 The event configurator
圖3 事件配置器及特征詞庫Fig 3 The event configurator and the representative feature set
3.3實際應用效果
模塊的監(jiān)測目標是醫(yī)療過程中產生的患者醫(yī)療文本數據,因此其報警提示的ADR信號已經被臨床醫(yī)生發(fā)現(xiàn),并做出客觀描述,具有一定的滯后性,但對于及時補充漏報ADR并分析其發(fā)生原因具有重要的實際意義,能夠減輕臨床藥師的工作負擔,提高臨床藥學干預的效率和準確性,增加患者藥安全性。
經過測試,本次研究開發(fā)的自動監(jiān)測模塊陽性率為44.44%,低于已有模塊的平均水平[7],除了醫(yī)生病案書寫的規(guī)范性外,還可能與以下3個因素相關:①測試覆蓋的患者范圍窄,ADR發(fā)生率低,陽性病例數少,監(jiān)測結果受誤差影響較大;②特征詞集中,存在1個或多個特征詞的特異性不強,對主動監(jiān)測結果造成干擾,致使結果陽性率較低;③特征詞集所包含的詞語間存在一定的聯(lián)系,而樸素貝葉斯法未能將這些聯(lián)系納入考察范圍,使文本中蘊含的部分信息被忽略,影響自動監(jiān)測模塊性能未能達到預期的目標。
針對上述可能的影響因素,我們將繼續(xù)展開以下研究:①進一步擴大使范圍,增加樣本量,減少隨機誤差對實驗結果的影響;②深化特征詞集研究,對再次特征詞與ADR之間的聯(lián)系,篩選可能存在干擾的詞語,同時在擴大試范圍的基礎上,加大機器學習的強度,得到更加準確的特征詞分布概率;③文本分類算法由樸素貝葉斯調整為貝葉斯網絡,將特征詞間的相互聯(lián)系納入到文本性質考察中來,更全面地分析文本中的信息。
圖4 結果展示器Fig 4 The result display unit
[參考文獻]
[1] 郭代紅,陳超,馬亮,等.5所醫(yī)院住院患者ADE警示系統(tǒng)主動監(jiān)測數據分析與評價[J].中國藥物應與監(jiān)測,2014,11 (6):368-371.
[2] 陳超,郭代紅,薛萬國,等.住院患者藥品不良事件主動監(jiān)測與評估警示系統(tǒng)的研發(fā)[J].中國藥物警戒,2013,10(7):411-414,418.
[3] 呂婷,姜友好.文本挖掘在生物醫(yī)學領域中的應及其系統(tǒng)工具[J].中華醫(yī)學圖書情報雜志,2010,19(4):56-64.
[4] 耿魁魁,劉圣,沈愛宗,等.醫(yī)院信息系統(tǒng)中藥品不良反應主動監(jiān)測系統(tǒng)的構建[J].中國醫(yī)院藥學雜志,2012,32(14):1147-1149.
[5] 余凱,賈磊,陳雨強,等.深度學習的昨天、今天和明天[J].計算機研究與發(fā)展,2013,50(9):1799-1804.
[6] 蘇金樹,張博鋒,徐昕.基于機器學習的文本分類技術研究進展[J].軟件學報,2006,17(9):1848-1859.
[7] 裴斐,陳超,郭代紅.阿托伐他汀致轉氨酶異常升高的主動監(jiān)測研究[J].中國藥物應與監(jiān)測,2014,11(1):31-33.
Study on automatic monitoring module of inpatient drug-induced allergy based on text categorization technology
WANG Xiao-yu, GUO Dai-hong, XU Yuan-jie(Department of Pharmaceutical Care, PLA General Hospital, Beijing 100853, China)
[ABSTRACT]Objective: To evaluate drug safety of inpatients by text information in electronic healthcare records, and provide the new method for inpatients ADR monitoring. Methods: On the basis of active monitoring system, automatic monitoring module of inpatient drug-induced allergy based on text categorization technology was designed and developed, and the machine learning of categorization algorithm was carried out through qualifed text. Results: The active monitoring module consists of the event confgurator,the representative feature set,the natural language processors,the text categorizer and the result display unit. The module had been tested, and the positive predictive value was 44.44% (4/9) in the 629 users of cefoperazone and sulbactam. The real world incidence rate was 0.64%, which was similar with the incidence rate (0.68%) in the drug directions. Conclusion: Text information active monitoring method had been built and the positive predictive value could be improved by further study of the representative feature set and categorization rules.
[KEY WORDS]Adverse drug reaction; Electronic healthcare record; Natural language processing; Text categorization technology
[中圖分類號]R95
[文獻標識碼]A
[文章編號]1672–8157(2016)02–0117–04
[基金項目]2014年全軍后勤科研重點項目(BWS14R039)
[通信作者]郭代紅,女,主任藥師,碩士生導師,主要從事臨床藥學及藥物警戒研究。E-mail:guodh301@163.com
[作者簡介]王嘯宇,男,藥師,碩士研究生,主要從事臨床藥學研究。E-mail:metallica365@126.com
收稿日期:(2016-01-20 修回日期:2016-02-25)