□ 吳燕秋 WU Yan-qiu 黃偉 HUANG Wei 劉慧鑫 LIU Hui-xin 馬敏 MA Min 王天兵 WANG Tian-bing④
Objective To elaborate the experience and effect of automatic collection and integration of heterogeneous multisource data, screening of patients with trauma, establishment of a unified standard trauma data model, and data intelligent processing in the development of hospital trauma database. Methods The patients with trauma characteristics were screened from the medical data of the hospital through combining ICD codes and diagnosis names. A unified standard trauma data model was formulate for scientific research and quality control. The data of trauma patients were processed with intelligent method. Results The trauma database in the study included nearly 20,000 cases of trauma inpatients from January, 2012 to November, 2020; and 191 structured data sets were established. The database developed the functions of case retrieval,whole disease course view and data set export. Conclusion The development of the trauma database can help produce standardized, structured and high quality data of trauma inpatients automatically and consecutively, thus improving the efficiency of trauma research and enhancing the medical quality control of trauma in the hospital.
隨著對(duì)臨床科研的重視,以臨床研究為目的的專病數(shù)據(jù)庫(kù)與日俱增,國(guó)內(nèi)已有不少醫(yī)院建立了自己的專病數(shù)據(jù)庫(kù)。金濤等[1]對(duì)國(guó)內(nèi)外疾病數(shù)據(jù)庫(kù)的建設(shè)情況進(jìn)行了歸納總結(jié):早期建立的數(shù)據(jù)庫(kù)大多為單一數(shù)據(jù)庫(kù),未與醫(yī)院信息系統(tǒng)(HIS)連接;之后有基于Web的數(shù)據(jù)庫(kù)系統(tǒng),但這些數(shù)據(jù)庫(kù)主要是基于現(xiàn)有的HIS或電子病歷系統(tǒng),數(shù)據(jù)源單一、維度不夠豐富、數(shù)據(jù)結(jié)構(gòu)化程度不高,且存在元數(shù)據(jù)一致性和規(guī)范性差等缺陷,導(dǎo)致數(shù)據(jù)庫(kù)整體呈現(xiàn)重復(fù)建設(shè)、利用率低等弊端[2]。隨著人工智能技術(shù)在醫(yī)療領(lǐng)域的發(fā)展,國(guó)內(nèi)一些醫(yī)院基于標(biāo)準(zhǔn)化、結(jié)構(gòu)化的疾病數(shù)據(jù)模型,建立了智能??萍膊?kù)[3-5]。美國(guó)、歐洲、日本等國(guó)家在疾病數(shù)據(jù)庫(kù)領(lǐng)域起步較早,已經(jīng)建立了不同疾病的國(guó)家級(jí)數(shù)據(jù)庫(kù),包括美國(guó)麻省理工學(xué)院與貝斯以色列女執(zhí)事醫(yī)療中心聯(lián)合研發(fā)的重癥監(jiān)護(hù)醫(yī)學(xué)信息數(shù)據(jù)庫(kù)(MIMIC)和美國(guó)國(guó)家創(chuàng)傷數(shù)據(jù)庫(kù)等。MIMIC數(shù)據(jù)庫(kù)是一個(gè)多參數(shù)、智能化的重癥監(jiān)護(hù)數(shù)據(jù)庫(kù),它涵蓋了來(lái)自不同人群的ICU患者住院全程的臨床數(shù)據(jù)資料,已運(yùn)轉(zhuǎn)10余年,并對(duì)全球的醫(yī)學(xué)研究者免費(fèi)開(kāi)放,為全世界急重癥疾病研究提供了海量的數(shù)據(jù)支持,也為急危重癥的真實(shí)世界研究(RWR)提供了數(shù)據(jù)基礎(chǔ)[6]。早在1982年,美國(guó)外科醫(yī)師協(xié)會(huì)(ACS)開(kāi)始牽頭創(chuàng)傷數(shù)據(jù)庫(kù)的建設(shè)研究,至今,美國(guó)國(guó)家創(chuàng)傷數(shù)據(jù)庫(kù)已成為全美最大的創(chuàng)傷登記數(shù)據(jù)庫(kù),從全美成百上千家創(chuàng)傷登記中心采集病例數(shù)據(jù),為創(chuàng)傷疾病研究與發(fā)展奠定基礎(chǔ)。
數(shù)據(jù)是當(dāng)今時(shí)代智能醫(yī)療的核心所在,臨床研究需要大量高質(zhì)量、結(jié)構(gòu)化、標(biāo)準(zhǔn)化的數(shù)據(jù)作為基礎(chǔ)。鑒于當(dāng)前開(kāi)展創(chuàng)傷疾病臨床研究面臨的數(shù)據(jù)獲取困難、標(biāo)準(zhǔn)不統(tǒng)一、數(shù)據(jù)非結(jié)構(gòu)化等問(wèn)題以及創(chuàng)傷醫(yī)療質(zhì)量控制的實(shí)際需求,本文采集并整合了醫(yī)院多個(gè)信息系統(tǒng)的臨床數(shù)據(jù),從中篩選出符合創(chuàng)傷疾病特征的患者數(shù)據(jù)集,使用人工智能技術(shù)進(jìn)行數(shù)據(jù)加工與深度處理,建立了結(jié)構(gòu)化、標(biāo)準(zhǔn)化的創(chuàng)傷專病數(shù)據(jù)庫(kù),為創(chuàng)傷疾病研究和醫(yī)療質(zhì)量控制提供了高質(zhì)量的數(shù)據(jù)支撐。
1.自動(dòng)采集多源異構(gòu)數(shù)據(jù)。本文通過(guò)開(kāi)放醫(yī)院多個(gè)信息系統(tǒng)的數(shù)據(jù)庫(kù)訪問(wèn)接口,使用人工智能技術(shù),自動(dòng)、持續(xù)性地采集其中的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。使用ETL(Extract-Transform-Load)技術(shù)將數(shù)據(jù)從多個(gè)不同的數(shù)據(jù)源經(jīng)過(guò)抽取、轉(zhuǎn)換、加載至目標(biāo)數(shù)據(jù)庫(kù)[7]。具體開(kāi)放的信息系統(tǒng)及采集的數(shù)據(jù)信息內(nèi)容見(jiàn)表1。
表1 醫(yī)院臨床業(yè)務(wù)信息系統(tǒng)數(shù)據(jù)采集內(nèi)容
2.篩選創(chuàng)傷疾病患者。國(guó)際研究通常使用ICD-10-CM編碼來(lái)識(shí)別研究人群,美國(guó)國(guó)家創(chuàng)傷數(shù)據(jù)庫(kù)對(duì)入庫(kù)的創(chuàng)傷特征患者的篩選也是基于ICD-10-CM編碼,其納入了ICD-10-CM 編 碼 范 圍 在 S00-S99,T07,T14,T20-T28,T30-T32,T79。A1-T79.A9中的患者數(shù)據(jù)集,并排除編碼 為 S00,S10,S20,S30,S40,S50,S60,S70,S80,S90的患者數(shù)據(jù)集。然而基于前人的研究發(fā)現(xiàn),在中國(guó)僅僅使用ICD編碼來(lái)識(shí)別研究人群并不準(zhǔn)確,主要原因包括兩點(diǎn):(1)我國(guó)的ICD編碼有多種版本,并沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。僅僅使用某一種ICD編碼標(biāo)準(zhǔn)并不能全面篩選符合創(chuàng)傷特征的目標(biāo)患者;(2)在醫(yī)院的臨床業(yè)務(wù)信息系統(tǒng)中,很多數(shù)據(jù)是文本形式(非結(jié)構(gòu)化數(shù)據(jù))的形式存儲(chǔ),部分診斷名稱與ICD編碼對(duì)應(yīng)的診斷名稱并不完全一致。僅僅使用ICD編碼來(lái)篩選會(huì)遺漏實(shí)際符合創(chuàng)傷特征的患者就診數(shù)據(jù)。
2.1 根據(jù)ICD編碼和診斷名稱初步篩選。根據(jù)國(guó)家衛(wèi)生健康委員會(huì)醫(yī)政醫(yī)管局醫(yī)院質(zhì)量監(jiān)測(cè)系統(tǒng)研究中心發(fā)布的《住院病案首頁(yè)數(shù)據(jù)采集接口標(biāo)準(zhǔn)》中使用的北京版、全國(guó)版RC020-ICD-10診斷編碼,初步定義創(chuàng)傷特征診斷的ICD編碼在如下范圍內(nèi):S00-S99,T00-T14,T20-T31,T79,T90-T95,V01-V99,W00-W64;并結(jié)合常見(jiàn)創(chuàng)傷疾病診斷名稱可能包含的關(guān)鍵詞,包括“活動(dòng)受限”、“多發(fā)傷”、“骨折”等創(chuàng)傷疾病相關(guān)癥狀和“挫傷”、“扭傷”、“擠壓”等創(chuàng)傷疾病相關(guān)病因等,見(jiàn)表2,通過(guò)算法層層循環(huán)迭代,并結(jié)合人工標(biāo)注判斷,對(duì)全院臨床業(yè)務(wù)信息系統(tǒng)中采集的患者數(shù)據(jù)集進(jìn)行了初步篩選。
2.2 精確篩選嚴(yán)重創(chuàng)傷疾病患者。根據(jù)《國(guó)家衛(wèi)生健康委辦公廳關(guān)于印發(fā)國(guó)家創(chuàng)傷醫(yī)學(xué)中心及國(guó)家創(chuàng)傷區(qū)域醫(yī)療中心設(shè)置標(biāo)準(zhǔn)的通知》(國(guó)衛(wèi)辦醫(yī)函[2019]700號(hào))文件的《附表1:嚴(yán)重創(chuàng)傷病種》和《附表2:嚴(yán)重創(chuàng)傷并發(fā)癥》中的疾病名稱和疾病分類代碼,精確篩選符合附件要求的嚴(yán)重創(chuàng)傷疾病患者。
表2 用于初步篩選的常見(jiàn)創(chuàng)傷疾病診斷名稱包含的關(guān)鍵詞
3.設(shè)計(jì)并建立創(chuàng)傷住院患者統(tǒng)一標(biāo)準(zhǔn)數(shù)據(jù)集模型。數(shù)據(jù)集模型的設(shè)計(jì)與建立有助于建立數(shù)據(jù)標(biāo)準(zhǔn),規(guī)范數(shù)據(jù)內(nèi)容。早在2006年,美軍就根據(jù)數(shù)據(jù)采集需求和創(chuàng)傷傷員救治流程建立了聯(lián)合戰(zhàn)場(chǎng)創(chuàng)傷系統(tǒng)(JTTR)標(biāo)準(zhǔn)化框架結(jié)構(gòu),使得不同救治機(jī)構(gòu)使用統(tǒng)一的數(shù)據(jù)記錄流程表[8]。本文參考了美國(guó)國(guó)家創(chuàng)傷數(shù)據(jù)庫(kù)的數(shù)據(jù)集模型,依據(jù)國(guó)內(nèi)創(chuàng)傷患者實(shí)際診療流程,并根據(jù)《關(guān)于進(jìn)一步提升創(chuàng)傷救治能力的通知》(國(guó)衛(wèi)辦醫(yī)函[2018]477號(hào))文件的《附件3:創(chuàng)傷中心醫(yī)療質(zhì)量控制指標(biāo)》中的16項(xiàng)指標(biāo),制定了創(chuàng)傷住院患者統(tǒng)一標(biāo)準(zhǔn)數(shù)據(jù)集模型,見(jiàn)表3,包括9個(gè)模塊,14個(gè)分組,191個(gè)字段,且對(duì)每個(gè)模型定義了數(shù)據(jù)格式、字段長(zhǎng)度、值域、內(nèi)容約束等,制定了統(tǒng)一的規(guī)則處理標(biāo)準(zhǔn),為創(chuàng)傷住院患者數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化收集與利用,創(chuàng)傷中心醫(yī)療質(zhì)量控制和未來(lái)跨機(jī)構(gòu)數(shù)據(jù)共享奠定了堅(jiān)實(shí)的基礎(chǔ)。
表3 創(chuàng)傷住院患者數(shù)據(jù)集模型各模塊及其內(nèi)容描述、字段數(shù)量
4.數(shù)據(jù)處理與加工。數(shù)據(jù)深度加工主要是將創(chuàng)傷住院患者的原始數(shù)據(jù)映射到統(tǒng)一的標(biāo)準(zhǔn)數(shù)據(jù)模型上,再通過(guò)人工智能等技術(shù)手段,對(duì)數(shù)據(jù)進(jìn)行自然語(yǔ)言處理,數(shù)據(jù)歸一和結(jié)構(gòu)化處理的過(guò)程[9]。
4.1 模型映射與重構(gòu)。根據(jù)制定的創(chuàng)傷患者統(tǒng)一標(biāo)準(zhǔn)數(shù)據(jù)集模型,將入庫(kù)的創(chuàng)傷住院患者的原始數(shù)據(jù)映射到統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)模型上,并按照制定的標(biāo)準(zhǔn)數(shù)據(jù)類型和清洗規(guī)則等對(duì)數(shù)據(jù)內(nèi)容進(jìn)行重構(gòu),且對(duì)現(xiàn)有數(shù)據(jù)中存在的不完整、不準(zhǔn)確和不標(biāo)準(zhǔn)的“臟”數(shù)據(jù)進(jìn)行清洗,見(jiàn)圖1。
4.2數(shù)據(jù)歸一、標(biāo)準(zhǔn)化處理。由于醫(yī)生書(shū)寫病例的個(gè)人習(xí)慣與表達(dá)不一,醫(yī)院原始信息系統(tǒng)中存在大量文字表達(dá)不同,但含義相對(duì)一致的信息。文本通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行總結(jié)、歸納,按照數(shù)據(jù)集模型對(duì)數(shù)據(jù)進(jìn)行了歸一、標(biāo)準(zhǔn)化處理。例如,將“導(dǎo)尿”、“保留導(dǎo)尿”、“留置尿管”、“尿管接無(wú)菌袋”、“導(dǎo)尿管留置”等相關(guān)文字表達(dá)都?xì)w一處理為“護(hù)理記錄”模塊中“導(dǎo)尿”字段中的信息。
4.3 數(shù)據(jù)結(jié)構(gòu)化。為了進(jìn)一步提高數(shù)據(jù)的可利用性,形成臨床科研所需的研究變量,本文使用自然語(yǔ)言處理技術(shù)對(duì)原有的文本病歷數(shù)據(jù)等大量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行了結(jié)構(gòu)化處理,將這部分?jǐn)?shù)據(jù)在一定程度上變成可二維展現(xiàn)的數(shù)據(jù)。例如,對(duì)入院記錄的既往史等文本中的“吸煙”“飲酒”等字樣進(jìn)行智能識(shí)別,將“病史”模塊中“當(dāng)前吸煙”“當(dāng)前飲酒”等字段的值域填充為“是”或“否”。
本文建立的創(chuàng)傷專病數(shù)據(jù)庫(kù)共納入了2012年1月至2020年11月近2萬(wàn)余名創(chuàng)傷住院患者的診療數(shù)據(jù),并形成了191個(gè)結(jié)構(gòu)化數(shù)據(jù)集。目前有25名臨床醫(yī)生應(yīng)用本數(shù)據(jù)庫(kù)進(jìn)行了臨床研究。該數(shù)據(jù)庫(kù)能夠?yàn)獒t(yī)生提供全流程自助式科研工作,功能包括:支持全文查詢、單一條件查詢和多條件組合查詢,能夠方便快捷地篩選出符合研究要求的目標(biāo)患者及其相關(guān)數(shù)據(jù);以時(shí)間軸形式展示入庫(kù)創(chuàng)傷患者的歷次住院記錄,當(dāng)醫(yī)生制定檢索條件定位到目標(biāo)研究人群時(shí),可以點(diǎn)擊查看患者的全病程診療數(shù)據(jù);此外,還可以excel格式導(dǎo)出醫(yī)生感興趣的目標(biāo)患者的結(jié)構(gòu)化數(shù)據(jù)集。
本文將分散在醫(yī)院各個(gè)信息系統(tǒng)中的創(chuàng)傷住院患者的多源頭治療方案、用藥情況、治療效果等診療數(shù)據(jù)全面整合起來(lái),構(gòu)建疾病和診斷、癥狀、用藥、手術(shù)等關(guān)鍵要素的關(guān)聯(lián)關(guān)系,建立了創(chuàng)傷專病數(shù)據(jù)庫(kù)。醫(yī)院創(chuàng)傷專病數(shù)據(jù)庫(kù)的建立能夠自動(dòng)、持續(xù)性地生成標(biāo)準(zhǔn)化、結(jié)構(gòu)化的創(chuàng)傷住院患者診療數(shù)據(jù),促進(jìn)開(kāi)展高質(zhì)量、高效率的創(chuàng)傷疾病研究[10],助力創(chuàng)傷醫(yī)療質(zhì)量控制。下一步,可望在全國(guó)范圍內(nèi)推廣創(chuàng)傷專病數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)化建設(shè),從而建立國(guó)家級(jí)創(chuàng)傷數(shù)據(jù)庫(kù),為開(kāi)展基于大數(shù)據(jù)的多中心創(chuàng)傷疾病臨床研究以及建立基于數(shù)據(jù)導(dǎo)向的創(chuàng)傷救治質(zhì)量控制體系提供強(qiáng)大的數(shù)據(jù)支持。