吳 亮
(南京市婦幼保健院,江蘇 南京 210004)
網(wǎng)絡(luò)技術(shù)、信息技術(shù)與醫(yī)學(xué)領(lǐng)域融合發(fā)展,推動了醫(yī)學(xué)信息化建設(shè)發(fā)展。網(wǎng)絡(luò)中存有大量的有價值的醫(yī)學(xué)信息資源,這些資源不僅量大,而且種類較多,采用最傳統(tǒng)的人工方式對其進行整合具有較高的難度,全國各大醫(yī)院都致力于研發(fā)出適合自身需求的信息資源整合系統(tǒng)。隨著醫(yī)學(xué)領(lǐng)域和行業(yè)信息化建設(shè)不斷推進,網(wǎng)絡(luò)醫(yī)學(xué)信息資源整合技術(shù)逐漸受到關(guān)注。但是國內(nèi)在該方面起步比較晚,相關(guān)技術(shù)還不夠成熟,雖然已經(jīng)取得了一定的研究成果,但是實際應(yīng)用效果并不是很好。文獻[1]設(shè)計了基于人工智能的分布式多媒體數(shù)據(jù)庫資源整合系統(tǒng)。首先在B/S三層邏輯架構(gòu)模式的基礎(chǔ)上設(shè)計系統(tǒng)框架,其次進行系統(tǒng)硬件設(shè)計,包括集成芯片、傳輸設(shè)備、整合設(shè)備、儲存設(shè)備和檢索共享裝置,最后設(shè)計系統(tǒng)硬件運行邏輯,即系統(tǒng)軟件。但是該系統(tǒng)的丟包率較高,在實際應(yīng)用中經(jīng)常出現(xiàn)數(shù)據(jù)丟失的情況,整合后的信息資源完整性較低,已經(jīng)無法滿足網(wǎng)絡(luò)醫(yī)學(xué)信息資源整合的需求。
針對上述系統(tǒng)存在的問題,該文設(shè)計了基于數(shù)據(jù)倉庫技術(shù)的網(wǎng)絡(luò)醫(yī)學(xué)信息資源整合系統(tǒng)。該文試圖利用數(shù)據(jù)倉庫技術(shù)對信息資源進行整合,形成一個新的信息資源整合系統(tǒng)設(shè)計思路,保證網(wǎng)絡(luò)醫(yī)學(xué)信息的完整性。該文設(shè)計系統(tǒng)的具體細節(jié)如下:1)給出數(shù)據(jù)倉庫的定義,并分析數(shù)據(jù)倉庫的特點。2)設(shè)計系統(tǒng)硬件部分,包括網(wǎng)絡(luò)信息采集器、數(shù)據(jù)收發(fā)器和數(shù)據(jù)轉(zhuǎn)換器。3)根據(jù)數(shù)據(jù)倉庫的概念和特點設(shè)計系統(tǒng)軟件部分。在數(shù)據(jù)庫的設(shè)計原則下,根據(jù)管理系統(tǒng)選型,利用數(shù)據(jù)倉庫技術(shù)設(shè)計數(shù)據(jù)庫,并根據(jù)信息資源的編碼對信息資源分層,進而實現(xiàn)對醫(yī)學(xué)信息資源的整合,完成系統(tǒng)設(shè)計。
數(shù)據(jù)倉庫是基于人們對數(shù)據(jù)庫的常年使用而擴展出來的,能夠更適應(yīng)社會需求,具備更高科技以及深層次的應(yīng)用和數(shù)據(jù)管理技術(shù)。作為數(shù)據(jù)組織和存儲的載體,它更容易建立適用于分析研究的數(shù)據(jù)模型,其加工出來的數(shù)據(jù)可用于決策支持系統(tǒng),并能支持數(shù)據(jù)的挖掘,該數(shù)據(jù)的最終作用是為人們提供更具有決策作用的信息,幫助人們進行數(shù)據(jù)的挖掘和分析。數(shù)據(jù)倉庫之父Willian H.Inmod曾經(jīng)在《Building the Data Warehouse》一書中對數(shù)據(jù)倉庫做出過這樣的描述:“數(shù)據(jù)倉庫是一個面向主題的,集成的,隨時間變化的,非易失性的,用于管理人員的決策的數(shù)據(jù)集合?!睆脑撁枋隹梢园l(fā)現(xiàn),數(shù)據(jù)倉庫的作用是在多個異構(gòu)數(shù)據(jù)庫中把符合主題的提取出來,并重新進行排列組織,保持數(shù)據(jù)的一致性、全面和貼合主體的特點。并且倉庫中的數(shù)據(jù)是長期保留而非隨時變化的,它能夠綜合反映出歷史的變化與發(fā)展。數(shù)據(jù)倉庫提高了數(shù)據(jù)的質(zhì)量和一致性,同時也保證了數(shù)據(jù)的穩(wěn)定性。通過對多個數(shù)據(jù)來源的數(shù)據(jù)進行檢索可以實現(xiàn)對數(shù)據(jù)的連續(xù)化、存貯與分析,進而實現(xiàn)數(shù)據(jù)價值的最大化,增強了業(yè)務(wù)的智能化。
從數(shù)據(jù)倉庫的涵義來看,數(shù)據(jù)倉庫具有4個特征:以對象為中心、主題化、一體化和相對穩(wěn)定性。根據(jù)企業(yè)的需要,可將其分為不同的領(lǐng)域,對其進行分類和儲存。通過對現(xiàn)有的數(shù)據(jù)進行分離、清洗和處理,最后將數(shù)據(jù)進行處理、轉(zhuǎn)換和整合,進而達到解決數(shù)據(jù)不一致性的目的。數(shù)據(jù)一旦被錄入數(shù)據(jù)倉庫里面,通常都是長久地存儲,每隔一段時間就會增加一次,除非遇到緊急情況,否則很難對其進行改動和刪除。因此,在數(shù)據(jù)倉庫中,可以全面地反映企業(yè)在不同生產(chǎn)過程中的各種數(shù)據(jù),進而為公司提供量化的、動態(tài)的發(fā)展方向和對發(fā)展方向的預(yù)測。見表1。
表1 數(shù)據(jù)倉庫的特點
系統(tǒng)的硬件主要由網(wǎng)絡(luò)信息采集器、數(shù)據(jù)收發(fā)器和數(shù)據(jù)轉(zhuǎn)換器3個硬件設(shè)備組成,系統(tǒng)硬件拓撲圖如圖1所示。
如圖1所示,由網(wǎng)絡(luò)信息采集器對醫(yī)學(xué)網(wǎng)站和網(wǎng)頁上的信息資源進行獲取,利用數(shù)據(jù)收發(fā)器接收獲取的信息資源,將其發(fā)送給數(shù)據(jù)轉(zhuǎn)換器,并對網(wǎng)絡(luò)信息資源進行格式轉(zhuǎn)化,再由數(shù)據(jù)收發(fā)器將轉(zhuǎn)換后的數(shù)據(jù)信息發(fā)送到系統(tǒng)數(shù)據(jù)庫存儲和整合,以下將對該3個硬件設(shè)備的選型與設(shè)計進行詳細闡述。
圖1 網(wǎng)絡(luò)醫(yī)學(xué)信息資源整合系統(tǒng)硬件拓撲圖
網(wǎng)絡(luò)信息采集器是系統(tǒng)的核心硬件設(shè)備,主要是獲取醫(yī)學(xué)網(wǎng)頁、網(wǎng)站上的信息,該文選取型號為SFOA/55545網(wǎng)絡(luò)信息采集器。系統(tǒng)根據(jù)用戶需求,由服務(wù)器向網(wǎng)絡(luò)信息采集器發(fā)送醫(yī)學(xué)信息資源獲取任務(wù),形成一個任務(wù)清單。當采集器任務(wù)清單排列滿時,根據(jù)任務(wù)要求形成醫(yī)學(xué)網(wǎng)頁、網(wǎng)站檢索詞條,對醫(yī)學(xué)網(wǎng)頁、網(wǎng)站進行搜索。采集器在網(wǎng)頁屬性中將網(wǎng)址信息記錄到歷史日志中,并對該網(wǎng)頁中的醫(yī)學(xué)資源信息進行評估。評估的主要依據(jù)為網(wǎng)頁中的醫(yī)學(xué)信息與系統(tǒng)數(shù)據(jù)庫中醫(yī)學(xué)信息的重復(fù)率。在采集器上設(shè)定一個醫(yī)學(xué)信息資源下載閾值,如果重復(fù)率超過該閾值,則自動放棄該醫(yī)學(xué)網(wǎng)頁;如果重復(fù)率未超過該閾值,則將該網(wǎng)頁中的醫(yī)學(xué)信息資源鎖定,對其進行自動下載。為了保障系統(tǒng)數(shù)據(jù)安全,該文為系統(tǒng)配備了一個防火墻,將進入系統(tǒng)中的數(shù)據(jù)信息來源與采集器自動記錄在歷史日志中的網(wǎng)址進行比對,如果比對成功,則允許數(shù)據(jù)包進入;如果比對不成功,則阻擋數(shù)據(jù)包進入。
數(shù)據(jù)收發(fā)器的主要作用是接收和發(fā)送網(wǎng)絡(luò)醫(yī)學(xué)信息資源??紤]網(wǎng)絡(luò)信息資源量較大,該文為系統(tǒng)選擇了型號為OSUAF/2344的數(shù)據(jù)收發(fā)器。該收發(fā)器由發(fā)送器、接收器、緩沖器以及硬盤4個部分組成。硬盤大小為32 GB,可以為網(wǎng)絡(luò)醫(yī)學(xué)信息資源的接收和發(fā)送提供充足的空間[2]。網(wǎng)絡(luò)信息采集器將獲取到的醫(yī)學(xué)信息資源發(fā)送給緩沖器,將緩沖器數(shù)據(jù)列表屬性設(shè)定為10或者50。當接收到的數(shù)據(jù)包數(shù)量達到設(shè)定值時,形成驅(qū)動條件,此時停止接收數(shù)據(jù)包,將接收到的數(shù)據(jù)包發(fā)送給接收器。接收器將接收到的數(shù)據(jù)包發(fā)送給發(fā)送器或者發(fā)送到硬盤上,然后驅(qū)動緩沖器接收下一篇網(wǎng)絡(luò)醫(yī)學(xué)信息資源。根據(jù)系統(tǒng)指令,發(fā)送器將網(wǎng)絡(luò)醫(yī)學(xué)信息資源發(fā)送給數(shù)據(jù)庫或者數(shù)據(jù)轉(zhuǎn)換器。
考慮醫(yī)學(xué)信息資源來自于不同的網(wǎng)站和網(wǎng)頁,其格式會有所差異,因此該文利用數(shù)據(jù)轉(zhuǎn)換器將網(wǎng)絡(luò)醫(yī)學(xué)信息資源進行格式轉(zhuǎn)換。該文選擇型號為FSAFE-5644的數(shù)據(jù)轉(zhuǎn)換器,通過標準的網(wǎng)絡(luò)接口接收到網(wǎng)絡(luò)醫(yī)學(xué)信息資源。該轉(zhuǎn)換器在遵循數(shù)據(jù)一致性標準的基礎(chǔ)上,為每個數(shù)據(jù)包設(shè)定一個數(shù)據(jù)存儲形態(tài)[3]。將原始數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為ESRI Shapefile,并將數(shù)據(jù)的編碼格式統(tǒng)一?;颊咝畔⒌木幋a為40001002010,醫(yī)療保險類信息的編碼為40001002011,醫(yī)生信息的編碼為40001002012,藥品信息的編碼為40001002013,治療信息的編碼為40001002014[4]。此外,轉(zhuǎn)換器還將數(shù)據(jù)的存儲格式轉(zhuǎn)換為word(Doc),將轉(zhuǎn)換后的醫(yī)學(xué)信息資源發(fā)送給數(shù)據(jù)收發(fā)器,由數(shù)據(jù)收發(fā)器將其發(fā)送到系統(tǒng)數(shù)據(jù)庫中。
3.1.1 基于數(shù)據(jù)倉庫技術(shù)的數(shù)據(jù)庫的設(shè)計原則
“全病歷掃描光盤刻錄檢索系統(tǒng)”以關(guān)系性數(shù)據(jù)庫的設(shè)計為基礎(chǔ)。數(shù)據(jù)庫設(shè)計的基本原則就是在系統(tǒng)總體信息方案的指導(dǎo)下,各個庫應(yīng)當為它的各個用戶管理目標服務(wù)。設(shè)計數(shù)據(jù)庫時應(yīng)重點考慮以下幾個因素:1)數(shù)據(jù)庫必須分布合理,層次分明。2)數(shù)據(jù)庫的組織結(jié)構(gòu)化、規(guī)范化和標準化是數(shù)據(jù)庫建設(shè)和數(shù)據(jù)交流的前提。嚴格地說,數(shù)據(jù)庫是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲和管理數(shù)據(jù)的倉庫的。數(shù)據(jù)結(jié)構(gòu)的編制要遵循國家衛(wèi)生部和廣東省衛(wèi)生部等相關(guān)工業(yè)規(guī)范,需要特別注意代碼的使用,以實現(xiàn)數(shù)據(jù)的標準化和結(jié)構(gòu)化,提高數(shù)據(jù)的使用效率。3)進行數(shù)據(jù)庫設(shè)計時,應(yīng)盡量減少系統(tǒng)的冗余度,減少內(nèi)存的使用,并減少數(shù)據(jù)的相容性問題。同時要注意合理的冗余度,以加快系統(tǒng)的開發(fā)效率,減少系統(tǒng)的開發(fā)困難。4)數(shù)據(jù)的準確性和連貫性都要保持。在現(xiàn)實中,多個用戶共用一個資料庫會造成并行作業(yè)和資料的連貫性。5)建立對應(yīng)的安全措施,因為資料庫的資料具有特殊的使用者的保密性,因此需要針對具體的應(yīng)用提供相應(yīng)的安全措施。
3.1.2 基于數(shù)據(jù)倉庫技術(shù)的數(shù)據(jù)庫模型設(shè)計
數(shù)據(jù)庫是系統(tǒng)的核心軟件,主要是對網(wǎng)絡(luò)醫(yī)學(xué)信息資源進行存儲管理。根據(jù)網(wǎng)絡(luò)醫(yī)學(xué)信息資源特點,該文選擇數(shù)據(jù)倉庫技術(shù)對系統(tǒng)數(shù)據(jù)庫進行設(shè)計。網(wǎng)絡(luò)醫(yī)學(xué)信息資源大致可以分為患者信息、醫(yī)療保險信息、醫(yī)生信息和治療信息4類[5]。利用數(shù)據(jù)倉庫技術(shù)設(shè)計相應(yīng)的數(shù)據(jù)類,即patient_information、medical insurance_information、doctor_information和treat_information,進而形成系統(tǒng)庫的概念模型,如圖2所示。
將設(shè)計好的概念模型通過ODBC接口直接生成數(shù)據(jù)倉庫,對相應(yīng)的數(shù)據(jù)表創(chuàng)建,以表格的形式對數(shù)據(jù)進行分類存儲。如圖2所示,患者信息表存儲患者名稱、ID、性別、年齡以及戶籍等信息。醫(yī)療保險信息表用于存儲醫(yī)療費用類型、醫(yī)療保險號和醫(yī)療報銷記錄等信息。治療信息表存儲就診科別、醫(yī)院號、病案號、住院號以及健康記錄等信息。醫(yī)生信息表存儲醫(yī)生名稱、醫(yī)生ID、年齡、級別、醫(yī)生號以及家庭住址等信息,防止存儲的醫(yī)學(xué)信息資源混亂。
圖2 基于數(shù)據(jù)倉庫技術(shù)的數(shù)據(jù)庫概念模型圖
醫(yī)學(xué)信息系統(tǒng)的應(yīng)用實際上是建立在一個數(shù)據(jù)庫的基礎(chǔ)上,在實際應(yīng)用中,數(shù)據(jù)庫的運行與應(yīng)用都與之息息相關(guān)。所以,如何正確地使用和維護數(shù)據(jù)庫是一個非常關(guān)鍵的問題。這關(guān)系到一個整體的性能,關(guān)系到系統(tǒng)的應(yīng)用模式和開發(fā)模式。
以客戶/服務(wù)器計算模式為基礎(chǔ)的數(shù)據(jù)庫管理系統(tǒng)種類繁多,包括Microsoft的SQL、IBM的DB2以及oracle、Sybase、Informix等。在數(shù)據(jù)庫服務(wù)器的選擇過程中要考量SQL的擴展與支持情況,這關(guān)系到處理速度、資料吞吐量、交易的完整與可恢復(fù)性、并發(fā)性與系統(tǒng)安全性、可擴展性及系統(tǒng)的管理工具等。因此,該課題對數(shù)據(jù)庫管理系統(tǒng)的研究選用Microsoft SQL Server 2000。
SQL Server開始于Sybase SQL Server,這是自微軟推出后,SQL Server最大的一個版本。該軟件具有良好的系統(tǒng)可用性、恢復(fù)性以及在線事務(wù)處理能力,可提供有效且完全的使用者自定義和高效的程序設(shè)計。例如,醫(yī)學(xué)資訊系統(tǒng)需要每周7天、每天24h連續(xù)工作,無法設(shè)想出現(xiàn)10min的故障會帶來什么后果,更不允許出現(xiàn)數(shù)據(jù)丟失的現(xiàn)象。而 SQL SERVER 2000則可實現(xiàn)鏡像硬盤、在線備份以及事務(wù)記錄還原技術(shù),所以該文采用安全可靠的SQL SERVER 2000,以減少故障造成的損失。
隨著資料的快速傳遞,人們可以更快、更全面地搜集和處理更多資料,同時資料的處理也更復(fù)雜化。在系統(tǒng)的運行和應(yīng)用中很多性能都得到了顯著增強,如圖像管理、復(fù)制、XML集成、數(shù)據(jù)的轉(zhuǎn)換和數(shù)據(jù)倉庫等方面。應(yīng)用軟件的功能更強大,服務(wù)更個性化,進而推動了行業(yè)的發(fā)展。特別是數(shù)據(jù)倉庫的建立與設(shè)定方面,微軟設(shè)計了整套的完善過程路徑,在圖形管理、復(fù)制、數(shù)據(jù)轉(zhuǎn)換、分析服務(wù)和數(shù)據(jù)倉庫方面的功能也顯著增強。尤其是在建設(shè)數(shù)據(jù)倉庫方面,已經(jīng)為它所需的全部過程設(shè)定了一條完善的途徑,通過將各種技術(shù)與業(yè)務(wù)相融合,可以更容易地建立和設(shè)計具有性價比的資料倉儲。
資源整合是系統(tǒng)主要功能之一,該文運用分類分層技術(shù)對網(wǎng)絡(luò)醫(yī)學(xué)信息資源進行整合處理,便于用戶對信息資源的提取。假設(shè)待整合醫(yī)學(xué)信息資源為k,其提取公式如公式(1)所示。
式中:g為網(wǎng)絡(luò)醫(yī)學(xué)信息的特征;n為網(wǎng)絡(luò)醫(yī)學(xué)信息的特征數(shù)量;kn為醫(yī)學(xué)信息資源第n個單項特征[6]。
通過調(diào)整、校對提取的信息特征,得到的信息特征偏差如公式(2)所示。
式中:rg為網(wǎng)絡(luò)醫(yī)學(xué)信息資源的特征偏差;S為信息特征的縱向微調(diào)系數(shù);S0為信息特征的橫向微調(diào)系數(shù)[7]。
按照公式(2)對網(wǎng)絡(luò)醫(yī)學(xué)信息資源k相鄰的信息資源特征偏差進行計算,并將特征偏差標記在數(shù)據(jù)屬性上。按照偏差的大、小對醫(yī)學(xué)信息資源進行排序,將相鄰的2個信息資源歸為一類。并根據(jù)信息資源的編碼對信息資源分層,進而實現(xiàn)對醫(yī)學(xué)信息資源的整合,完成系統(tǒng)設(shè)計。
該文以南京市婦幼保健院為試驗對象,利用該文設(shè)計系統(tǒng)與傳統(tǒng)系統(tǒng)對該醫(yī)院網(wǎng)絡(luò)醫(yī)學(xué)信息資源進行整合。將該院所有醫(yī)學(xué)信息網(wǎng)站作為數(shù)據(jù)來源,對近7天的該醫(yī)院信息網(wǎng)站上的醫(yī)學(xué)信息資源進行采集、轉(zhuǎn)換、分層、分類和整合,原始數(shù)據(jù)公700 GB,為了保證試驗結(jié)果的可信度,2種系統(tǒng)均以windows 2010為操作系統(tǒng)。試驗準備了網(wǎng)絡(luò)信息采集器、數(shù)據(jù)收發(fā)器和數(shù)據(jù)轉(zhuǎn)換器各1臺,服務(wù)器3臺,顯示器1臺。系統(tǒng)組裝完畢后,對網(wǎng)絡(luò)信息采集器參數(shù)進行設(shè)定,將其數(shù)據(jù)采集頻率設(shè)定為1.16 Hz,數(shù)據(jù)采集周期設(shè)定為0.25s,緩沖器緩沖列表數(shù)據(jù)參數(shù)為10個。將丟包率作為該文試驗的唯一指標,使用OSDYA軟件監(jiān)測2種系統(tǒng)的數(shù)據(jù)丟失量,即整合前、后網(wǎng)絡(luò)醫(yī)學(xué)信息資源差值,計算出2種系統(tǒng)丟包率,并使用電子表格對其進行記錄,具體數(shù)據(jù)見表2。
表2 2種系統(tǒng)丟包率對比
通過對表2中的數(shù)據(jù)進行分析可以得出以下結(jié)論:該文設(shè)計系統(tǒng)在試驗過程中丟包率最大僅為0.05%,并且不會受信息資源量多、少的影響而發(fā)生變化,丟包率較低,說明該設(shè)計系統(tǒng)在對網(wǎng)絡(luò)醫(yī)學(xué)信息資源整合過程中,很少出現(xiàn)數(shù)據(jù)丟失現(xiàn)象。而傳統(tǒng)系統(tǒng)在試驗過程中丟包率最大可以達到8.68%,并隨著網(wǎng)絡(luò)醫(yī)學(xué)信息資源量的增加,丟包率也隨之增大,遠遠高于該文設(shè)計系統(tǒng)。因此試驗結(jié)果證明,在數(shù)據(jù)安全方面,該文設(shè)計系統(tǒng)優(yōu)于傳統(tǒng)系統(tǒng),能夠有效保證整合后的醫(yī)學(xué)網(wǎng)絡(luò)信息資源的完整性和安全性。
該文在傳統(tǒng)系統(tǒng)基礎(chǔ)上,融入了數(shù)據(jù)倉庫技術(shù),形成了一個新的網(wǎng)絡(luò)醫(yī)學(xué)信息資源整合系統(tǒng)設(shè)計思路,為網(wǎng)絡(luò)醫(yī)學(xué)信息資源采集、存儲、整合和共享等管理工作提供了便利,同時還能保證資源的完整性,具有一定的現(xiàn)實意義。