朱勝明,朱甜甜,毛江華,巢艷萍,舒子馨
(南京中醫(yī)藥大學(xué) 人工智能與信息技術(shù)學(xué)院,江蘇 南京 210023)
隨著醫(yī)療衛(wèi)生事業(yè)的快速發(fā)展,以醫(yī)院信息系統(tǒng)為基礎(chǔ)而建立的醫(yī)院大數(shù)據(jù)中心逐步開放,將已有的醫(yī)療數(shù)據(jù)資源給相關(guān)組織或者個人經(jīng)互聯(lián)網(wǎng)遠(yuǎn)程共享使用。在建立醫(yī)院大數(shù)據(jù)中心的基礎(chǔ)上,部分醫(yī)院通過嘗試大數(shù)據(jù)平臺和云計算、移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)等熱門技術(shù)的融合,探索新的信息管理模式,并且面向互聯(lián)網(wǎng)和物聯(lián)網(wǎng)開放部分醫(yī)療數(shù)據(jù)的訪問和應(yīng)用。
根據(jù)國家深化醫(yī)療體制改革和發(fā)展國民健康服務(wù)體制的相關(guān)政策文件來看,國務(wù)院和國家衛(wèi)生紀(jì)委大力提倡與推動開放醫(yī)療健康數(shù)據(jù)的共享,但是醫(yī)療大數(shù)據(jù)的共享應(yīng)用卻面臨信息安全的挑戰(zhàn)。鑒于行業(yè)的特殊性,醫(yī)療數(shù)據(jù)的安全是具有高度敏感性的,其牽涉患者隱私與醫(yī)院業(yè)務(wù)流程等一系列的機密,可能包括醫(yī)保號碼、藥物清單和體檢報告等。如果發(fā)生醫(yī)療數(shù)據(jù)泄漏問題,會對社會造成極大的負(fù)面影響,阻礙醫(yī)療體制改革的步伐。
近十年來,我國先后出臺了一系列的安全信息管理制度和措施,例如:信息安全保護條例、實行信息安全等級保護制度、等級保護專項監(jiān)督檢查等。在合法合規(guī)的總體要求下,信息安全已經(jīng)明顯提升到醫(yī)院信息系統(tǒng)建設(shè)的核心地位[1]。醫(yī)療大數(shù)據(jù)匯聚面臨的主要問題是安全問題,因此,針對大數(shù)據(jù)匯聚安全機制的研究是一項巨大的挑戰(zhàn),對以后醫(yī)療事業(yè)的發(fā)展具有重要意義。
作為處理大量數(shù)據(jù)時出現(xiàn)的固有問題的新興領(lǐng)域,大數(shù)據(jù)提供了重用和從信息中提取價值的新方法,并挑戰(zhàn)包括捕獲、數(shù)據(jù)管理、搜索、分析、查詢、共享、存儲、可視化、傳輸、信息隱私等在內(nèi)的一系列問題。大數(shù)據(jù)的基本特征是速度、多樣性和容量。在中醫(yī)藥領(lǐng)域,大數(shù)據(jù)主要包含疾病治療患者、藥方信息以及包含舌苔、面相等在內(nèi)的圖片信息,對于不同的信息顯然應(yīng)該采用不同的存儲機制。
中醫(yī)藥類的文本信息包含大量的重復(fù)冗余數(shù)據(jù),在傳輸過程中需要考兼顧重復(fù)數(shù)據(jù)的檢測壓縮。近年來,存儲數(shù)據(jù)的內(nèi)存需求大量增加,因此,很多研究人員專注于避免相似和重復(fù)的數(shù)據(jù)存儲,來減少存儲空間需求。在存儲系統(tǒng)中,檢測和消除冗余數(shù)據(jù)的主要問題是處理開銷。所以,本團隊在存儲系統(tǒng)中引入了增量壓縮,以從類似的數(shù)據(jù)塊中刪除冗余數(shù)據(jù)[2]??紤]一個包含兩個數(shù)據(jù)塊A1和A2(以A1為基本塊)的示例。delta壓縮只計算和存儲數(shù)據(jù)塊之間的差值。用來確定A2和A1之間的關(guān)系,主要挑戰(zhàn)是如何以更少的開銷更準(zhǔn)確地檢測相似的候選對象。據(jù)此,DARE提出了一種基于最小開銷的數(shù)據(jù)約簡方法——鄰接相似度檢測,通過驗證相鄰數(shù)據(jù)塊來識別數(shù)據(jù)的相似度。在發(fā)現(xiàn)數(shù)據(jù)相似度后,利用超特征技術(shù)提高相似度檢測的效率。當(dāng)然,該方法產(chǎn)生的數(shù)據(jù)碎片會導(dǎo)致一些問題,因此,還有一種聚合加密[3]的方式可以更好地解決問題,但是本項目仍然采用delta壓縮進行相應(yīng)的文本加密壓縮處理。
在大數(shù)據(jù)環(huán)境下,如果需要滿足合理的執(zhí)行性能,并在一定程度上增加數(shù)據(jù)安全性,本團隊認(rèn)為,一個比較好的方案是采用與公鑰加密相反的對稱加密方式。使用AES作為基本的密碼構(gòu)建塊,稱為塊密碼,特別是AES,都可以在不同的模式下工作。當(dāng)然,簡單的結(jié)構(gòu)使該模式容易受到某些類型的攻擊,例如,阻止重播或碼本攻擊等。為此,可以使用密碼塊鏈接(CBC),明文塊是根據(jù)前面的密文塊進行加密的,即Ci由Pi與Ci-1異或加密得到。如果沒有對前置塊解密,就無法對之后的塊解密,當(dāng)然,對于某些應(yīng)用程序,限制到某個塊的大小可能并不合適。
分組密碼也可以在密碼反饋(CFB)模式下運行,以滿足對任意大小數(shù)據(jù)的加密要求。CFB使用一個隊列,根據(jù)需要將塊密碼應(yīng)用到該隊列上。一開始,隊列是隨機且加密的數(shù)據(jù);隨后,從隊列左側(cè)檢索加密的數(shù)據(jù),并使用明文數(shù)據(jù)進行驗證。產(chǎn)生的密文位一方面存儲或傳輸,另一方面從右側(cè)輸入到隊列中。隊列再次加密,系統(tǒng)為下一個明文位做好準(zhǔn)備。有關(guān)分組密碼模式及其優(yōu)缺點的詳細(xì)信息,可以在Peter[4]的研究中獲得更詳細(xì)的信息。
在數(shù)據(jù)訪問方面,系統(tǒng)采用基于信任關(guān)系的證書驗證方式。信任是任何組織交易的重要特征。在Internet中,當(dāng)各方和數(shù)百萬用戶之間沒有直接聯(lián)系,交換信息就有必要采取安全措施,以便在交換數(shù)據(jù)、貨物和服務(wù)之前對組織的合作者、客戶和供應(yīng)商進行驗證。
公鑰基礎(chǔ)設(shè)施(PKI)使用稱為CAs的TTPs提供所需信任[5]。這些數(shù)字簽名的數(shù)據(jù)結(jié)構(gòu)稱為PKCs,以確保特定的公鑰屬于某個用戶。因此,證書及其密鑰提供了關(guān)于其組織合作伙伴的連接信息。在信任證書的內(nèi)容之前,證書的接收方必須確認(rèn)其簽名和有效性。如果檢測由同一CA頒發(fā)通信方的證書,則可以輕松確認(rèn)另一方證書的簽名。即使如此,要確認(rèn)由另一個核證機關(guān)發(fā)出的證書的簽署,PKI當(dāng)局之間也必須有一定的信任關(guān)系。
PKI是一個由人員、流程、策略、協(xié)議、硬件和軟件組成的框架,用于生成、管理、存儲、部署和撤銷公鑰證書。公開密匙基礎(chǔ)建設(shè)的組件包括一個或多個核證機關(guān)及一個證書儲存庫等系統(tǒng)組件。PKI將數(shù)字證書、公鑰密碼學(xué)和認(rèn)證機構(gòu)集成到整個組織范圍的網(wǎng)絡(luò)安全架構(gòu)中。一個典型的PKI組織包括向個人用戶和服務(wù)器頒發(fā)數(shù)字證書,終端用戶注冊軟件,證書目錄集成,管理、更新和撤銷證書以及相關(guān)服務(wù)和支持的工具?;A(chǔ)設(shè)施的主要組成部分包括[6]:核證機關(guān),公開密匙基礎(chǔ)建設(shè)的基本組成部分,以發(fā)出和撤銷數(shù)碼證書;注冊機構(gòu),驗證頒發(fā)的證書和最終用戶身份的請求。
本文分析了中醫(yī)藥數(shù)據(jù)存儲與訪問的現(xiàn)狀,提出在大數(shù)據(jù)環(huán)境下相應(yīng)存儲與訪問的策略,闡述了該系統(tǒng)具體采用的技術(shù)策略與算法方案。在數(shù)據(jù)加密壓縮存儲方面,對不同類型的數(shù)據(jù)做不同的分析與處理,使得加密效率與效果得到提升;在數(shù)據(jù)訪問方面,運用更新后的Openca庫與Openssl庫,使得數(shù)據(jù)訪問的安全性得到進一步提升??傮w而言,本研究為今后中醫(yī)藥大數(shù)據(jù)匯聚提供了一定的參考作用。