萬 歆,姚晴虹
(上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院,上海 200025)
電子病歷在我國各醫(yī)院已經(jīng)實施多年,結(jié)構(gòu)化電子病歷不僅能為醫(yī)學(xué)科研工作提供高質(zhì)量的數(shù)據(jù),還能支持病歷數(shù)據(jù)的跨院交流。目前,電子病歷結(jié)構(gòu)化處理一般有2 種方式:電子病歷前結(jié)構(gòu)化和后結(jié)構(gòu)化。電子病歷前結(jié)構(gòu)化是指使用結(jié)構(gòu)化的電子病歷模板采集數(shù)據(jù);電子病歷后結(jié)構(gòu)化是指醫(yī)生填寫完病歷后,再通過算法進行電子病歷結(jié)構(gòu)化。
上述2 種電子病歷結(jié)構(gòu)化處理方式均存在一些問題:(1)在電子病歷前結(jié)構(gòu)化中,由于醫(yī)學(xué)術(shù)語收集需要醫(yī)療人員負責(zé),加之疾病種類繁多,因此需要制作大量的結(jié)構(gòu)化模板。如果沒有足夠的醫(yī)療人員從事結(jié)構(gòu)化模板制作的工作,結(jié)構(gòu)化病歷模板就難以實現(xiàn)。前期能實現(xiàn)結(jié)構(gòu)化的電子病歷模板始終有限,且病歷存在復(fù)雜性和多樣性,因此目前電子病歷前結(jié)構(gòu)化的全覆蓋較難實現(xiàn)。此外,在臨床上還存在即使有結(jié)構(gòu)化電子病歷模板,醫(yī)務(wù)人員也并未完全按照結(jié)構(gòu)化模板錄入的現(xiàn)象。(2)電子病歷后結(jié)構(gòu)化則存在如何從自然語言文本中提取明確、有效信息的困難。目前,國內(nèi)外對于信息抽取和文本處理,常采用機器學(xué)習(xí)、篇章分析、Web 信息抽取、語言文本處理等技術(shù)。
胰腺癌是一種生存概率極低的疾病。多年來,我院在開展胰腺癌手術(shù)和術(shù)后隨訪等方面積累了大量的經(jīng)驗和數(shù)據(jù)[1-3]。為了更好地研究這種疾病,提高胰腺癌患者術(shù)后的生存概率,臨床醫(yī)生希望能搭建一個胰腺癌科研數(shù)據(jù)平臺,從電子病歷、檢驗、檢查、病理等報告中獲取有效的數(shù)據(jù),以用于胰腺癌的研究。目前,大部分科研數(shù)據(jù)的處理都是通過SPSS 軟件進行處理,但是SPSS 不能處理非結(jié)構(gòu)化的電子病歷文本[4-6],且無法進行全院數(shù)據(jù)共享,難以開展大規(guī)模的數(shù)據(jù)研究,因此搭建一個可以處理結(jié)構(gòu)化和非結(jié)構(gòu)化文本并且可以全院共享的胰腺癌科研數(shù)據(jù)平臺迫在眉睫。
本文基于胰腺癌這種特定類型的疾病,應(yīng)用臨床知識建立符合這種疾病特點的數(shù)據(jù)模型,并采用基于字符匹配的知識理解分詞法,對不同的數(shù)據(jù)模型采用不同的分詞方法,最終形成統(tǒng)一的胰腺癌科研數(shù)據(jù)平臺和可供臨床使用的可視化界面。本研究提供的可復(fù)用軟件代碼和分詞方法,可為構(gòu)建類似需求的其他病歷研究平臺提供借鑒。
我院從2008 年開始使用SQL Server 數(shù)據(jù)庫和C#自主開發(fā)電子病歷系統(tǒng),目前已經(jīng)平穩(wěn)運行10 余年,積累了大量數(shù)據(jù)。目前臨床科室希望建設(shè)??茖2?shù)據(jù)庫,能從中抽取臨床數(shù)據(jù)以用于診斷和科研。而我院部分科室的部分病種實施了全結(jié)構(gòu)化電子病歷,部分科室使用半結(jié)構(gòu)化電子病歷,即關(guān)鍵字段結(jié)構(gòu)化,其余文本為非結(jié)構(gòu)化自由文本,因此在電子病歷系統(tǒng)中存在大量非結(jié)構(gòu)化的病歷文本。如何對這些電子病歷文本進行后結(jié)構(gòu)化處理,并從中抽取出科研、臨床所需數(shù)據(jù),是搭建胰腺癌科研數(shù)據(jù)平臺的關(guān)鍵[7-8]。胰腺癌科研數(shù)據(jù)平臺須包含患有胰腺癌并在我院實施手術(shù)的患者的所有信息,醫(yī)生可以通過瀏覽器對胰腺癌??茢?shù)據(jù)庫進行檢索,從中獲得科研數(shù)據(jù),從而為胰腺癌科研項目提供數(shù)據(jù)支撐[9-12]。
胰腺癌科研數(shù)據(jù)平臺的開發(fā)環(huán)境分為2 個部分:硬件環(huán)境和軟件環(huán)境。在硬件環(huán)境方面,目前我院的主應(yīng)用服務(wù)器采用互為集群的2 臺服務(wù)器,并采用多臺輔助服務(wù)器提供查詢、報表、備份、監(jiān)測服務(wù),以保證平臺性能的穩(wěn)定。為了保證網(wǎng)絡(luò)安全、穩(wěn)定運行,核心及匯聚交換機均采用雙機熱備的方式進行工作,確保在交換機之間的線路或主干設(shè)備發(fā)生故障時,整個系統(tǒng)仍能運行,業(yè)務(wù)仍可以正常開展。在軟件環(huán)境方面,數(shù)據(jù)庫采用SQL Server 2015,數(shù)據(jù)抽取、轉(zhuǎn)換、加載(extract transform load,ETL)工具采用SQL Server Integration Services(SSIS)2015,前端開發(fā)工具采用SQL Server Reporting Services(SSRS)2015。
平臺數(shù)據(jù)處理主事務(wù)的流程如下:首先,由臨床醫(yī)生提供數(shù)個典型的胰腺癌病例,按這些典型病例分析電子病歷中的關(guān)鍵詞,進行數(shù)據(jù)平臺專病數(shù)據(jù)模型設(shè)計,模型設(shè)計應(yīng)該具有足夠的彈性,以便在病例足夠豐富時對模型進行快捷修改。然后,按照專病數(shù)據(jù)模型,采用基于字符串匹配和知識理解的分詞法,通過可擴展標(biāo)記語言(extensible markup language,XML)函數(shù)和SQL Server 標(biāo)量值函數(shù)對XML 文本進行語義解析,從中獲取并返回有用的信息。使用SQL Server 標(biāo)量值函數(shù)將半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進行結(jié)構(gòu)化,并采用SSIS 2015 抽取結(jié)構(gòu)化后的電子病歷數(shù)據(jù)和醫(yī)院信息系統(tǒng)(hospital information system,HIS)、實驗室信息系統(tǒng)(laboratory information system,LIS)等臨床信息系統(tǒng)產(chǎn)生的異構(gòu)數(shù)據(jù),通過提取、清洗、轉(zhuǎn)換、集成等一系列步驟融合到統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù)平臺,并保存到胰腺癌??茢?shù)據(jù)庫。最后,在胰腺癌??茢?shù)據(jù)庫的基礎(chǔ)上,采用SSRS 2015 開發(fā)瀏覽器界面,供用戶查詢數(shù)據(jù),為科研提供數(shù)據(jù)支撐。
胰腺癌科研數(shù)據(jù)平臺采用瀏覽器/服務(wù)器(Browser/Server,B/S)架構(gòu)進行設(shè)計,分為基礎(chǔ)層、業(yè)務(wù)層、數(shù)據(jù)處理層和數(shù)據(jù)展現(xiàn)層,如圖1 所示。基礎(chǔ)層包括服務(wù)器和存儲設(shè)備;業(yè)務(wù)層由各種數(shù)據(jù)庫構(gòu)成,包含HIS 數(shù)據(jù)庫、LIS 數(shù)據(jù)庫等各類異構(gòu)數(shù)據(jù)庫;數(shù)據(jù)處理層從業(yè)務(wù)層抽取和處理數(shù)據(jù),并保存到胰腺癌??茢?shù)據(jù)庫;數(shù)據(jù)展現(xiàn)層可對用戶權(quán)限進行管理,展示最終的數(shù)據(jù)查詢結(jié)果,并支持查詢結(jié)果打印和導(dǎo)出功能。
圖1 胰腺癌科研數(shù)據(jù)平臺架構(gòu)圖
胰腺癌科研數(shù)據(jù)平臺包括數(shù)據(jù)抽取、數(shù)據(jù)處理、查詢分析3 個模塊,模塊結(jié)構(gòu)圖如圖2 所示。數(shù)據(jù)抽取模塊包括結(jié)構(gòu)化數(shù)據(jù)庫抽取和非結(jié)構(gòu)化數(shù)據(jù)庫抽取2 個子模塊,這2 個子模塊分別對應(yīng)不同結(jié)構(gòu)化的數(shù)據(jù)庫,實現(xiàn)數(shù)據(jù)抽取功能;數(shù)據(jù)處理模塊包括后結(jié)構(gòu)化數(shù)據(jù)處理和結(jié)構(gòu)化數(shù)據(jù)處理2 個子模塊,可實現(xiàn)對數(shù)據(jù)的清洗和結(jié)構(gòu)化處理,并將處理好的數(shù)據(jù)保存到胰腺癌??茢?shù)據(jù)庫;查詢分析模塊包括數(shù)據(jù)查詢和查詢結(jié)果打印導(dǎo)出2 個子模塊,可實現(xiàn)按臨床醫(yī)生的需求展示數(shù)據(jù)并將查詢結(jié)果打印和導(dǎo)出。
圖2 胰腺癌科研數(shù)據(jù)平臺模塊結(jié)構(gòu)圖
根據(jù)胰腺癌研究的需要,在SQL Server 上構(gòu)建數(shù)據(jù)庫,對數(shù)據(jù)源進行抽取操作。采集的數(shù)據(jù)分為完全結(jié)構(gòu)化數(shù)據(jù)和非完全結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)抽取源流圖如圖3 所示,下文對其源流分別進行說明。
圖3 胰腺癌科研數(shù)據(jù)平臺的數(shù)據(jù)抽取源流圖
3.1.1 結(jié)構(gòu)化數(shù)據(jù)庫抽取模塊實現(xiàn)
結(jié)構(gòu)化數(shù)據(jù)庫包括HIS、LIS、影像歸檔和通信系統(tǒng)(picture archiving and communication systems,PACS)、病理系統(tǒng)、護理系統(tǒng),其中HIS 為Sybase數(shù)據(jù)庫,其他系統(tǒng)為SQL Server 數(shù)據(jù)庫。應(yīng)用SSIS 2015,采用對象連接與嵌入數(shù)據(jù)庫(object link and embed data base,OLE DB)方式連接數(shù)據(jù)庫,按以下步驟分別抽取數(shù)據(jù):先從HIS 中抽取出院主要診斷為胰腺癌并在我院實施手術(shù)的患者的基本信息,其中患者住院流水號為該患者該次住院的唯一標(biāo)識;再通過患者住院流水號從LIS、PACS、病理系統(tǒng)、護理系統(tǒng)中抽取這些患者的病史數(shù)據(jù)。
從LIS 的檢驗報告中獲得的數(shù)據(jù)有各種檢驗指標(biāo),包括術(shù)前1 d 和術(shù)后10 d 的血常規(guī)、肝功能、淀粉酶、空腹血糖、癌癥指標(biāo)、肌酐等檢驗指標(biāo),術(shù)后引流液淀粉酶、總蛋白、白細胞等檢驗指標(biāo)。這些檢驗指標(biāo)可通過比對患者的手術(shù)日期和檢驗采樣日期,從LIS 中獲取。
從PACS 中獲得各種醫(yī)學(xué)影像檢查報告,如B超、CT、MRI 等報告,也可通過住院流水號獲取該次住院期間的報告,或通過醫(yī)療卡號獲取住院前的檢查報告。
從病理系統(tǒng)獲得的病理報告,包括術(shù)中冰凍病理、術(shù)后石蠟病理、分子病理報告、病理補充報告,其中,分子病理報告需要通過分詞,并按“標(biāo)本類型”“檢測項目”“檢測方法”“結(jié)論”這4 個關(guān)鍵詞分別抽取。
從護理系統(tǒng)中獲得的數(shù)據(jù)有術(shù)后10 d 內(nèi)患者每天的最高體溫、每天引流量等生命體征信息。通過比對手術(shù)日期和護理記錄日期,提取患者每天的最高體溫,計算當(dāng)天引流量的總和,并用SSIS 2015 將這些數(shù)據(jù)抽取到胰腺癌科研數(shù)據(jù)平臺。
3.1.2 非結(jié)構(gòu)化數(shù)據(jù)庫抽取模塊實現(xiàn)
非結(jié)構(gòu)化數(shù)據(jù)庫為電子病歷數(shù)據(jù)庫,該數(shù)據(jù)庫為SQL Server 數(shù)據(jù)庫,采用XML 格式存儲數(shù)據(jù)。
從電子病歷系統(tǒng)獲得的數(shù)據(jù)含有患者的病史信息;從入院記錄中可獲取身高、體質(zhì)量、身體質(zhì)量指數(shù)(body mass index,BMI)、自發(fā)癥狀、病程、基礎(chǔ)疾病、吸煙史、喝酒史、家族史等信息;從手術(shù)記錄中可以獲取有無胰管置管、置管部位、胰管直徑、縫線型號、胰腺吻合方式、術(shù)中出血量、術(shù)中輸血量等,入院記錄和手術(shù)記錄中的部分電子病歷數(shù)據(jù)須進行后結(jié)構(gòu)化處理。
參照胰腺癌數(shù)據(jù)模型在數(shù)據(jù)平臺構(gòu)建相關(guān)表,例如主表(用于保存患者的主數(shù)據(jù))、檢驗表(用于保存患者術(shù)前、術(shù)后的檢驗指標(biāo)數(shù)據(jù))、病理表(用于保存結(jié)構(gòu)化病理報告)、3 張臨時表(用于處理引流量、體征、手術(shù)信息)、1 張控制表(用于保存上次抽取的時間),通過SSIS 2015 調(diào)用控制表來控制增量數(shù)據(jù)的抽取。主表和檢驗表的結(jié)構(gòu)如圖4 所示。
圖4 主表和檢驗表的結(jié)構(gòu)
SSIS 2015 數(shù)據(jù)抽取流程圖如圖5 所示。通過SSIS 2015 將所有相關(guān)的非結(jié)構(gòu)化數(shù)據(jù)抽取到一個通用的平臺,在SQL Server 數(shù)據(jù)庫中設(shè)置每天定時自動執(zhí)行的計劃任務(wù)??紤]到手術(shù)記錄可能會有補充、修改的情況,每月20 日前抽取從上1 個月1 日起至本月20 日的數(shù)據(jù),并覆蓋數(shù)據(jù)庫中的原數(shù)據(jù),20 日以后不再變動上個月的數(shù)據(jù),并在計劃任務(wù)失敗時,發(fā)送郵件通知平臺開發(fā)人員。數(shù)據(jù)庫計劃任務(wù)設(shè)置界面如圖6 所示。
圖5 SSIS 2015 數(shù)據(jù)抽取流程圖
圖6 數(shù)據(jù)庫計劃任務(wù)設(shè)置界面
當(dāng)自動執(zhí)行的數(shù)據(jù)庫計劃任務(wù)失敗時,可以手動抽取和處理數(shù)據(jù),并在界面上顯示數(shù)據(jù)操作的過程和處理日志,如圖7 所示。
圖7 數(shù)據(jù)抽取和處理日志界面
3.2.1 結(jié)構(gòu)化數(shù)據(jù)處理模塊實現(xiàn)
結(jié)構(gòu)化的數(shù)據(jù)處理相對簡單,將抽取到的部分不規(guī)范的數(shù)據(jù)先進行清洗處理,再保存到胰腺癌??茢?shù)據(jù)庫。例如,在檢驗指標(biāo)中,部分術(shù)前糖類抗原199(CA199)的值大于1 個固定值,如“>18890”“>20400”,部分術(shù)前癌糖類抗原724(CA724)的值“>300”,對于這些數(shù)據(jù),數(shù)據(jù)庫保存為字符型,但在統(tǒng)計平均值、中位數(shù)等數(shù)值時不予統(tǒng)計。
3.2.2 后結(jié)構(gòu)化數(shù)據(jù)處理模塊實現(xiàn)
為了滿足后續(xù)的數(shù)據(jù)處理需求,對胰腺外科病區(qū)電子病歷的文本進行分析和后結(jié)構(gòu)化處理。電子病歷以XML 格式文本存儲,文本的特點為多短句形式,有句號、逗號等標(biāo)點符號,含有專業(yè)術(shù)語及縮寫,也有由數(shù)字表示的定量數(shù)據(jù)。電子病歷文本的組織結(jié)構(gòu)可具體表示為信息項、信息標(biāo)識,信息項中有強信息標(biāo)識項,如超文本編輯語言(hypertext markup language,HTML)標(biāo)簽;也有弱信息標(biāo)識項,如帶中文冒號的文字“特殊既往史:”。
經(jīng)過分析,電子病歷文本根據(jù)標(biāo)簽和結(jié)束關(guān)鍵詞的存在與否分為3 類,并分別進行抽取。為了使文本處理過程更加合理,采用SQL Server 通用標(biāo)量值函數(shù),在存儲過程腳本中調(diào)用這些定制的標(biāo)量值函數(shù),在SSIS 2015 中按照固定格式執(zhí)行上述存儲過程來抽取文本。
第一類醫(yī)學(xué)術(shù)語有HTML 標(biāo)簽,比如入院記錄中的標(biāo)簽有主訴、疾病史、手術(shù)外傷史、家族史等。使用正則表達式/]*)?>[sS]*/來確定HTML 格式標(biāo)記,直接用xml.value()函數(shù)抽取數(shù)據(jù),如:xmlwd.value('(//疾病史)[1]','varchar(16)')。按此方式在大病史中抽取個人史、吸煙史、喝酒史、家族史等;在患者入院記錄中含有“主述:上腹疼痛3周”,通過HTML 標(biāo)簽“主述”,將“上腹疼痛3 周”抽取到“自發(fā)癥狀”字段中。
第二類醫(yī)學(xué)術(shù)語沒有HTML 標(biāo)簽,有表示結(jié)束的關(guān)鍵詞,比如患者病程通常包含在主訴中,并使用表示時間的關(guān)鍵詞。對該類醫(yī)學(xué)術(shù)語采用不確定型有窮自動機(non deterministic finite automaton,NFA)引擎運行匹配回溯算法,以指定順序測試正則表達式的所有可能的擴展匹配項,具體實現(xiàn)方法:先用xml.value()函數(shù)按HTML 標(biāo)簽從入院記錄抽取患者主訴,采用NFA 引擎運行匹配回溯算法分析這段文本,找到表示時間的關(guān)鍵詞,如天、日、周、星期、月、年,再將這些關(guān)鍵詞前面的表示定量的中文和阿拉伯?dāng)?shù)字抽取出來,如果關(guān)鍵詞后面還有“余”字,也一起抽取,最后形成文字如“1 天”“半年”“數(shù)月余”等。在患者入院記錄中含有“主述:上腹疼痛3 周”,通過關(guān)鍵詞“主述”,先抽取“上腹疼痛3 周”,再分離“3 周”并保存到“病程”字段中。如果有2 個以上的時間,如主訴為“反復(fù)右上腹痛伴惡心嘔吐6 年余,加重1 周”,則將這2 個時間按時間長短從小到大合并為“1 周/6年余”,并保存到“病程”字段中。
第三類醫(yī)學(xué)術(shù)語既沒有HTML 標(biāo)簽,也沒有表示結(jié)束的關(guān)鍵詞,需要具體分析。采用基于知識理解的分詞法,通過預(yù)處理SQL 和語句切分SQL 抽取文本。比如縫線型號,經(jīng)分析只有在“重建消化道”用到“胰腸吻合”時,才會產(chǎn)生“縫線型號”的相關(guān)數(shù)據(jù)。對此類醫(yī)學(xué)術(shù)語采用不要求回溯的確定型有窮自動機(deterministic finite automaton,DFA)正則表達式引擎執(zhí)行。在處理此類醫(yī)學(xué)術(shù)語時,先將文本片段中的英文逗號和句號轉(zhuǎn)換為中文的逗號和句號,再用中文的句號和逗號進行語句切分。比如抽取“縫線型號”,先從手術(shù)記錄抽取含“重建消化道”的文本,調(diào)用SQL Server 標(biāo)量值函數(shù),傳入醫(yī)學(xué)術(shù)語“胰腸吻合:”抽取表示吻合方式的數(shù)據(jù)。
對于抽取到的數(shù)據(jù),通過正則表達式[f v]匹配文本中的非打印控制字符,包括空格、制表符、換頁符等,將抽取的文本片段中的非打印控制字符刪除,再通過正則表達式[ s* ]匹配空白行,并刪除空白行,最后得到所需的文本片段。SQL Server 標(biāo)量值函數(shù)語句如圖8 所示。在SSIS 2015 程序中應(yīng)用標(biāo)量值函數(shù)的SQL 語句示例如圖9 所示。
圖8 SQL Server 標(biāo)量值函數(shù)語句片段
圖9 應(yīng)用標(biāo)量值函數(shù)的SQL 語句示例
在胰腺癌科研數(shù)據(jù)平臺的基礎(chǔ)上,本文采用SSRS 2015 開發(fā)前端界面,用以查詢、展示胰腺癌??茢?shù)據(jù)庫;前端界面支持按手術(shù)日期、患者年齡、性別查詢等多種查詢方式,可提供統(tǒng)計分析報表,如統(tǒng)計胰腺癌患者年齡、性別、出生省份等,對后結(jié)構(gòu)化數(shù)據(jù)如抽煙、喝酒情況進行統(tǒng)計;能提供平均值、標(biāo)準(zhǔn)差、方差、眾數(shù)、中位數(shù)、極大值、極小值等統(tǒng)計值,如術(shù)前檢驗指標(biāo)統(tǒng)計。
模塊具體實現(xiàn)方法如下:通過在SQL Server 數(shù)據(jù)庫端創(chuàng)建存儲過程腳本,將手術(shù)起止日期等作為查詢參數(shù),以此為依據(jù)在數(shù)據(jù)庫中進行查詢,得出相應(yīng)結(jié)果。在存儲過程中應(yīng)用SQL 函數(shù),如取平均值avg、取標(biāo)準(zhǔn)差stdev、取方差值var、取最大值max、取最小值min 等函數(shù)。在SSRS 2015 中選擇存儲過程腳本作為數(shù)據(jù)集生成報表,部署到報表服務(wù)器,然后為用戶授權(quán),用戶可以查詢相關(guān)報表。數(shù)據(jù)查詢分析的部分界面如圖10~15 所示。查詢結(jié)果支持導(dǎo)出、打印功能,并可以導(dǎo)出Word、Execl、PPT、PDF、TIFF、CSV、XML 等多種格式的文件,便于醫(yī)護人員后續(xù)進行手工處理。
圖10 按年齡、性別查詢患者信息界面
圖11 胰腺癌患者年齡性別組成統(tǒng)計界面
圖12 胰腺癌患者出生省份組成統(tǒng)計界面
圖13 按手術(shù)時間查詢患者信息界面
圖14 患者吸煙、飲酒情況調(diào)查界面
圖15 胰腺癌術(shù)前檢驗指標(biāo)統(tǒng)計界面
胰腺外科原來聘用專職文員進行電子病歷科研數(shù)據(jù)抽取,但人工處理耗時長,容易產(chǎn)生手工誤差。胰腺癌科研數(shù)據(jù)平臺將散落在各個不同版本的系統(tǒng)中的非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)集成到一起,能快速得到科研數(shù)據(jù)。本平臺在應(yīng)用方面具有如下優(yōu)勢:(1)相較于SPSS 等數(shù)據(jù)統(tǒng)計分析工具,本平臺可以完成非結(jié)構(gòu)化文本的處理,從非結(jié)構(gòu)化的文本中提取科研數(shù)據(jù),例如從入院記錄中提取BMI、抽煙和喝酒情況,進行量化處理后可以獲取如標(biāo)準(zhǔn)差、方差、眾數(shù)、中位數(shù)等統(tǒng)計值。(2)本平臺采用B/S架構(gòu),數(shù)據(jù)報表可以共享,醫(yī)院的科研人員只要應(yīng)用瀏覽器即可在授權(quán)后使用數(shù)據(jù)。對于有諸多分院的醫(yī)療機構(gòu),采用B/S 架構(gòu)有利于各分院實現(xiàn)科研合作和數(shù)據(jù)共享。
本文通過分類處理的方式,建立了胰腺癌科研數(shù)據(jù)平臺。本平臺為胰腺癌科研項目提供了真實可靠的數(shù)據(jù),為進一步的數(shù)據(jù)分析提供了數(shù)據(jù)支持。本平臺在非結(jié)構(gòu)化文本后結(jié)構(gòu)化處理方面有創(chuàng)新性,且為其他科室的專病??齐娮硬v數(shù)據(jù)抽取提供了可行方案。同時,本研究創(chuàng)建的SQL Server 標(biāo)量值函數(shù)為電子病歷后結(jié)構(gòu)化提供了新的思路和執(zhí)行方案。另外,本平臺使用的基于知識理解的分詞法產(chǎn)生的新詞匯可存入醫(yī)學(xué)字典,為后續(xù)類似的病歷文本抽取提供了分詞支持,為數(shù)據(jù)采集質(zhì)控提供了算據(jù)、算法、算例,為全流程數(shù)字化治理提供了新的思路。然而,本平臺在數(shù)據(jù)分析方面有一定的不足之處,對于數(shù)據(jù)分析處理的方式過少,需要后續(xù)進一步改進,增強應(yīng)用性和高效性。