蔡夢(mèng)媛,張明武,2
1.桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,桂林541004
2.湖北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,武漢430068
云端醫(yī)療診斷系統(tǒng)不僅可以給患者提供在線實(shí)時(shí)遠(yuǎn)程醫(yī)療服務(wù)[1],而且可以幫助醫(yī)生實(shí)時(shí)監(jiān)測(cè)慢性病患者的身體狀況并及時(shí)發(fā)現(xiàn)潛在的并發(fā)癥[2],還可以根據(jù)患者的健康狀況、遺傳因子以及生活習(xí)慣等多種因素制定個(gè)性化的診療計(jì)劃[3].傳統(tǒng)的醫(yī)療診斷過程中,醫(yī)生需要憑借個(gè)人知識(shí)儲(chǔ)備和分析能力,整理分析包括癥狀、檢驗(yàn)結(jié)果等在內(nèi)的臨床數(shù)據(jù).然而,由于醫(yī)學(xué)病灶的形狀、位置和結(jié)構(gòu)具有高度可變性[4],醫(yī)生難以始終精確且高效地完成批量的醫(yī)療診斷任務(wù)[5].如今,醫(yī)療診斷服務(wù)可以借助深度學(xué)習(xí)算法等輔助手段實(shí)現(xiàn)自動(dòng)化分析和診斷,幫助醫(yī)生更細(xì)致地解析醫(yī)學(xué)圖像,減少醫(yī)生判斷失誤導(dǎo)致的誤診情況.深度學(xué)習(xí)算法的引入,不僅能夠提高醫(yī)療診斷的準(zhǔn)確性和高效性,而且可以提供在線實(shí)時(shí)的云端醫(yī)療診斷服務(wù).云端醫(yī)療診斷服務(wù)利用大數(shù)據(jù)分析和人工智能技術(shù),提供更便捷、更高效的醫(yī)療診斷,比如幫助醫(yī)生快速而精確地分析病癥的智能輔助診斷服務(wù)、幫助醫(yī)生識(shí)別X 射線和CT 等影像的醫(yī)學(xué)影像診斷服務(wù)以及通過生物傳感器監(jiān)測(cè)患者生理數(shù)據(jù)的健康狀況監(jiān)測(cè)服務(wù)等.
云端醫(yī)療診斷服務(wù)通過收集整理包括患者特征、患者藥物不良反應(yīng)、臨床檢驗(yàn)數(shù)據(jù)等用戶臨床數(shù)據(jù),利用大數(shù)據(jù)技術(shù)和人工智能算法分析、概括、應(yīng)用臨床數(shù)據(jù),為臨床診斷提供多方面的依據(jù),為后續(xù)醫(yī)療決策提供支撐.云計(jì)算能夠?yàn)獒t(yī)療機(jī)構(gòu)的智能化業(yè)務(wù)提供高效便捷的數(shù)據(jù)存儲(chǔ)和共享技術(shù),然而云計(jì)算的無(wú)邊界性和流動(dòng)性會(huì)造成云環(huán)境中數(shù)據(jù)的安全和隱私問題[6,7].云服務(wù)器上存儲(chǔ)的生物信息、電子病歷、診療數(shù)據(jù)、醫(yī)學(xué)影像數(shù)據(jù)等用戶醫(yī)療大數(shù)據(jù),面臨著嚴(yán)峻的機(jī)密性、完整性和可用性挑戰(zhàn).云端醫(yī)療診斷服務(wù)不僅需要避免用戶醫(yī)療大數(shù)據(jù)和預(yù)訓(xùn)練模型信息的隱私泄露,而且需要應(yīng)對(duì)云環(huán)境惡意攻擊者造成的數(shù)據(jù)安全性和機(jī)密性挑戰(zhàn),還需要綜合地考慮醫(yī)療診斷的計(jì)算效率和功能實(shí)現(xiàn).為了提供滿足云端數(shù)據(jù)安全隱私性、高效可用性的醫(yī)療診斷服務(wù),差分隱私[8,9]、安全多方計(jì)算[10]、同態(tài)加密[11,12]和函數(shù)加密[13-15]等密碼學(xué)技術(shù)被引入云計(jì)算領(lǐng)域.這些隱私保護(hù)措施不僅可以防止云計(jì)算處理數(shù)據(jù)時(shí)不慎泄露用戶敏感信息,而且可以有效地控制醫(yī)療診斷的時(shí)間成本和計(jì)算開銷,從而適應(yīng)大數(shù)據(jù)應(yīng)用環(huán)境.在這些技術(shù)中,差分隱私通過向數(shù)據(jù)中添加噪聲來掩藏計(jì)算結(jié)果中可能泄露的敏感信息;安全多方計(jì)算允許多個(gè)參與方共同計(jì)算而不向彼此泄露自己輸入的私有信息;同態(tài)加密允許對(duì)密文數(shù)據(jù)進(jìn)行計(jì)算并產(chǎn)生加密結(jié)果;函數(shù)加密能夠在密文數(shù)據(jù)上計(jì)算獲得明文結(jié)果.相比之下,函數(shù)加密具有更低的通信成本和計(jì)算開銷[13].用戶個(gè)人信息通??梢员硎緸橄蛄啃问?,內(nèi)積加密是能夠安全地計(jì)算兩個(gè)向量?jī)?nèi)積值的函數(shù)加密,因此更適應(yīng)醫(yī)療機(jī)構(gòu)智能化業(yè)務(wù)的隱私保護(hù)任務(wù)[16].
本文提出一種云端醫(yī)療診斷的雙向隱私保護(hù)方法,不僅可以保護(hù)用戶醫(yī)療大數(shù)據(jù)中的隱私信息,而且能夠幫助模型開發(fā)方避免云端模型的信息泄漏風(fēng)險(xiǎn),從而提供雙向隱私保護(hù)的醫(yī)療診斷服務(wù),如圖1 所示.服務(wù)器提供的醫(yī)療診斷服務(wù)依賴于模型開發(fā)方部署到服務(wù)器的預(yù)訓(xùn)練模型.模型開發(fā)方使用自行研發(fā)的深度學(xué)習(xí)算法訓(xùn)練明文形式的數(shù)據(jù)集,并修改獲得的預(yù)訓(xùn)練模型,使之可以處理密文形式的數(shù)據(jù).隨后模型開發(fā)方使用密鑰加密模型權(quán)重等信息,并將加密后的預(yù)訓(xùn)練模型部署到云服務(wù)器.而在用戶使用醫(yī)療診斷服務(wù)時(shí),首先將個(gè)人健康數(shù)據(jù)(例如結(jié)腸鏡檢查圖像等) 提供給智能手機(jī)或智能手表等個(gè)人終端.個(gè)人終端使用密鑰加密用戶輸入的健康數(shù)據(jù)后將其發(fā)送到云服務(wù)器.云服務(wù)器在接收到個(gè)人終端發(fā)送的醫(yī)療數(shù)據(jù)后,提供醫(yī)療診斷服務(wù),得到用戶的疾病出現(xiàn)概率,并將結(jié)果返回給用戶個(gè)人終端.最后,由個(gè)人終端向用戶呈現(xiàn)診斷結(jié)果.
圖1 單向隱私保護(hù)和雙向隱私保護(hù)的醫(yī)療診斷協(xié)議對(duì)比Figure 1 Comparison of medical diagnosis protocols with unilateral privacy-preserving and bilateral privacy-preserving
本文方案可實(shí)現(xiàn)用戶醫(yī)療大數(shù)據(jù)和預(yù)訓(xùn)練模型信息的雙向隱私保護(hù).該方案不僅考慮到傳統(tǒng)云端醫(yī)療診斷服務(wù)中用戶面臨的個(gè)人醫(yī)療大數(shù)據(jù)的隱私泄露風(fēng)險(xiǎn),還特別關(guān)注了模型開發(fā)方部署到云端的預(yù)訓(xùn)練模型的信息泄漏問題.該方案的診斷任務(wù)直接使用收到的密文數(shù)據(jù)計(jì)算,無(wú)需且無(wú)法解密獲得數(shù)據(jù)的明文,并且一次診斷任務(wù)中各個(gè)實(shí)體之間最多進(jìn)行一輪通信.標(biāo)簽可以使用onehot 編碼,不泄露標(biāo)簽的語(yǔ)義信息.預(yù)測(cè)標(biāo)簽直接以明文形式發(fā)回用戶個(gè)人終端,用戶終端根據(jù)約定的標(biāo)簽編碼規(guī)則解析預(yù)測(cè)標(biāo)簽.相較于傳統(tǒng)醫(yī)療診斷云服務(wù)方案,該方案具有高效、安全、便利的優(yōu)點(diǎn).本文還通過生成元求逆與零向量編碼方法改造內(nèi)積加密方案[17,18],實(shí)現(xiàn)負(fù)向量和零向量的安全內(nèi)積計(jì)算,增強(qiáng)內(nèi)積加密方案的實(shí)用性和安全性.此外,針對(duì)內(nèi)積加密算法只能在整數(shù)上執(zhí)行的問題,本文的浮點(diǎn)數(shù)縮放取整方法可以靈活調(diào)整縮放精度,從而動(dòng)態(tài)適應(yīng)醫(yī)療診斷服務(wù)要求的預(yù)測(cè)精度.
近來,決策樹[19]、支持向量機(jī)[20]、k-近鄰、隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)[21,22]等機(jī)器學(xué)習(xí)算法已經(jīng)被廣泛應(yīng)用到了生物醫(yī)學(xué)領(lǐng)域,并構(gòu)造了各類疾病預(yù)測(cè)模型、藥物分析算法與健康監(jiān)測(cè)系統(tǒng).深度學(xué)習(xí)算法能夠通過學(xué)習(xí)大規(guī)模醫(yī)學(xué)圖像數(shù)據(jù),實(shí)現(xiàn)高效的醫(yī)學(xué)圖像智能分析,其中卷積神經(jīng)網(wǎng)絡(luò)在肺炎診斷[21]、腫瘤檢測(cè)[22]、視網(wǎng)膜病變識(shí)別等方面取得了許多顯著的成就.在開展深度學(xué)習(xí)相關(guān)的生物醫(yī)學(xué)工作時(shí),疾病預(yù)測(cè)系統(tǒng)的設(shè)計(jì)需要重視醫(yī)療大數(shù)據(jù)的隱私保護(hù),防止生命體征、病歷病史、個(gè)人信息等敏感數(shù)據(jù)被云服務(wù)器濫用或誤用.因此,生物醫(yī)療領(lǐng)域的深度學(xué)習(xí)算法開發(fā)與設(shè)計(jì),需要探索如何在不泄露醫(yī)療大數(shù)據(jù)和預(yù)測(cè)模型的情況下診斷疾病出現(xiàn)的可能性.此外,深度學(xué)習(xí)的醫(yī)療系統(tǒng)設(shè)計(jì)時(shí)還需要權(quán)衡安全性、有效性和效率.密碼學(xué)技術(shù)能夠防止云端存儲(chǔ)的醫(yī)療大數(shù)據(jù)泄露,保護(hù)用戶敏感信息,從而確保云端預(yù)測(cè)服務(wù)能夠有效運(yùn)行.在云服務(wù)器上,差分隱私、安全多方計(jì)算、同態(tài)加密和函數(shù)加密等傳統(tǒng)密碼學(xué)技術(shù)都可以保障醫(yī)療大數(shù)據(jù)的安全性和機(jī)密性.
在訓(xùn)練或預(yù)測(cè)時(shí),差分隱私通過添加噪聲保護(hù)樣本數(shù)據(jù)中的敏感信息,并通過控制噪聲大小調(diào)整原始數(shù)據(jù)的保留信息量,從而調(diào)整噪聲對(duì)模型質(zhì)量的影響.Lu 等人[8]針對(duì)移動(dòng)醫(yī)療緊急情況提出了安全的隱私保護(hù)計(jì)算框架(SPOC),引入以用戶為中心的屬性基訪問控制和隱私保護(hù)標(biāo)量積計(jì)算.Khanna 等人[9]提出了預(yù)測(cè)乳腺癌狀態(tài)的聯(lián)邦學(xué)習(xí)隱私保護(hù)方案,客戶端使用來自服務(wù)器的模型參數(shù)在本地?cái)?shù)據(jù)上訓(xùn)練迭代,訓(xùn)練好的權(quán)重在添加差分隱私的噪聲后發(fā)回服務(wù)器.
安全多方計(jì)算技術(shù)有助于實(shí)現(xiàn)多個(gè)客戶端與服務(wù)器間不透露各自輸入數(shù)據(jù)的協(xié)作計(jì)算,確保機(jī)器學(xué)習(xí)的各參與方能夠在不暴露原始信息的情況下共享和處理敏感數(shù)據(jù).Knott 等人[10]開發(fā)了一個(gè)安全多方計(jì)算的機(jī)器學(xué)習(xí)框架CRYPTEN,可作為通用的機(jī)器學(xué)習(xí)API,實(shí)現(xiàn)文本分類、語(yǔ)音識(shí)別和圖像分類等任務(wù)中張量的安全計(jì)算,然而該方案難以實(shí)現(xiàn)加密標(biāo)記數(shù)據(jù)的質(zhì)量控制.
同態(tài)加密(homomorphic encryption,HE) 可以在不暴露原始數(shù)據(jù)信息的情況下完成各種復(fù)雜的安全計(jì)算操作,確保機(jī)器學(xué)習(xí)算法使用的數(shù)據(jù)在計(jì)算過程中始終處于密文狀態(tài).Xie 等人[11]通過HE 技術(shù)提供了安全預(yù)測(cè)方案,用戶使用第三方預(yù)測(cè)模型時(shí)不會(huì)泄露私有信息,但第三方返回的預(yù)測(cè)結(jié)果為密文形式,需要用戶自行解密.Sarkar 等人[12]設(shè)計(jì)了一種有效處理高維數(shù)據(jù)的快速矩陣乘法算法,旨在以高性能實(shí)現(xiàn)隱私保護(hù)的癌癥預(yù)測(cè).
函數(shù)加密(functional encryption,F(xiàn)E) 技術(shù)允許接收者訪問密文數(shù)據(jù)的特定部分,而不泄露關(guān)于明文的額外信息,能夠保護(hù)機(jī)器學(xué)習(xí)各參與方的數(shù)據(jù)隱私并減少數(shù)據(jù)泄漏風(fēng)險(xiǎn).Ligier 等人[14]結(jié)合FE 方案與機(jī)器學(xué)習(xí)算法,提出了一種保護(hù)隱私的數(shù)據(jù)分類協(xié)議.Dufour-Sans 等人[15]構(gòu)建了一種高效計(jì)算加密向量二次多元多項(xiàng)式的FE 方案,并設(shè)計(jì)了密文數(shù)據(jù)分類技術(shù).在文獻(xiàn)[15] 的基礎(chǔ)上,Nguyen 等人[13]使用HE 和FE 分別提出了預(yù)測(cè)加密電子郵件標(biāo)簽的垃圾郵件分類方案,其中FE 方案在31 秒內(nèi)預(yù)測(cè)出加密郵件的標(biāo)簽,而HE 方案則需要265 秒才能完成,但FE 方案更容易造成潛在的信息泄露.Zhang 等人[23]基于內(nèi)積加密方案提出了多客戶端分布式敏感數(shù)據(jù)的安全預(yù)測(cè)方法,具有比二次多項(xiàng)式方案更高效的加密計(jì)算和更高的預(yù)測(cè)精度,然而可能損失一定解密效率.
云環(huán)境中大量的惡意攻擊可能導(dǎo)致模型無(wú)法正常運(yùn)行,甚至可能泄露用戶隱私[6,7].為了保障模型和數(shù)據(jù)的安全性,不僅需要確保模型和數(shù)據(jù)不受非法訪問和惡意攻擊,還要確保模型能夠在云環(huán)境中正常運(yùn)行.然而,傳統(tǒng)的醫(yī)療診斷隱私保護(hù)技術(shù)[8-15]只關(guān)注醫(yī)療大數(shù)據(jù)的隱私,卻很少關(guān)注模型結(jié)構(gòu)和參數(shù)的泄露.本文采用內(nèi)積加密方案,能夠高效預(yù)測(cè)疾病并實(shí)現(xiàn)雙向隱私保護(hù).
對(duì)偶向量空間(dual pairing vector space,DPVS)[24]是由n個(gè)素階群的直積展成的空間,其上的雙線性運(yùn)算相當(dāng)于在n個(gè)素階群上的雙線性運(yùn)算.通過DPVS 的單位正交向量構(gòu)造密文和密鑰,可以實(shí)現(xiàn)雙系統(tǒng)加密,也可以在保證同等安全性的同時(shí)犧牲存儲(chǔ)復(fù)雜度提高雙線性映射運(yùn)算的計(jì)算效率.
內(nèi)積加密(inner product encryption,IPE) 是一種特殊的函數(shù)加密方案,Abdalla 等人[18]在2015年提出的經(jīng)典內(nèi)積加密方案能夠滿足線性密鑰同態(tài)性和線性密碼文本同態(tài)性,可以通過密文和解密密鑰解密獲得關(guān)聯(lián)向量的內(nèi)積值<>.該方案可以抵抗選擇明文攻擊,但沒有考慮私鑰中敏感信息的隱私問題.內(nèi)積加密方案ΠIPE包括四個(gè)PPT 算法,即Setup,Keygen,Encrypt 和Decrypt,如下所示:
· Setup(1λ,1n)→(mpk,msk): 給定安全參數(shù)λ和向量長(zhǎng)度n,Setup 算法輸出關(guān)于λ和n的公共參數(shù)mpk 和主密鑰msk.具體而言,Setup 生成非對(duì)稱雙線性映射(G1,G2,GT,p,),及群上生成元G1和G2.接著,算法生成矩陣B ←GLn(Zp),其中GLn(Zp) 是Zp上(n×n) 矩陣的一般線性群.然后,使用B的行列式det(B) 和逆矩陣B-1的轉(zhuǎn)置(B-1)T設(shè)置矩陣B*det(B)·(B-1)T.最后,算法輸出公共參數(shù)mpk(G1,G2,GT,p,?e) 和保存主密鑰msk(u,v,B,B*).
表1 概述了本文中出現(xiàn)的一些符號(hào).
表1 本文符號(hào)定義Table 1 Notations and terms
本文描述的醫(yī)療診斷系統(tǒng)涉及以下四個(gè)角色,其作用描述如下:
· 可信第三方(third party authority,TPA): 受信任的第三方機(jī)構(gòu),可視為受信任的密鑰分發(fā)中心或任何其他受信任的機(jī)構(gòu)實(shí)體,主要任務(wù)是生成系統(tǒng)參數(shù)并分發(fā).TPA 執(zhí)行系統(tǒng)初始化算法,并調(diào)用IPE.Setup 和FHIPE.Setup 算法,生成密碼系統(tǒng)參數(shù)(mpkIPE、mskIPE、mpkFHIPE及mskFHIPE).在完成系統(tǒng)初始化后,TPA 向數(shù)據(jù)持有者、模型持有者和云服務(wù)器發(fā)送且僅發(fā)送一次系統(tǒng)參數(shù).
· 數(shù)據(jù)持有者(data owner,DO): 接收來自TPA 的mskFHIPE,擁有個(gè)人醫(yī)療數(shù)據(jù).DO 首先進(jìn)行浮點(diǎn)數(shù)處理、零向量編碼、數(shù)據(jù)im2col 調(diào)整等預(yù)處理操作,然后調(diào)用FHIPE.RightEncrypt 算法使用mskFHIPE加密持有的數(shù)據(jù),并將密文數(shù)據(jù)提交給服務(wù)器進(jìn)行診斷.
· 模型持有者(model owner,MO): MO 先訓(xùn)練出模型,調(diào)整模型以識(shí)別密文數(shù)據(jù),然后調(diào)用FHIPE.LeftEncrypt 和IPE.Encrypt 算法使用mskFHIPE和mskIPE加密預(yù)訓(xùn)練模型參數(shù).最后MO 將受保護(hù)的模型提交給服務(wù)器以提供醫(yī)療診斷服務(wù).
· 云服務(wù)器(cloud server,CS): 接收來自TPA 的mpkFHIPE和mpkIPE,提供存儲(chǔ)和計(jì)算資源,基于MO 部署的預(yù)訓(xùn)練模型提供在線醫(yī)療診斷服務(wù).當(dāng)CS 從DO 接收到醫(yī)療數(shù)據(jù)時(shí),調(diào)用IPE.Decrypt 和FHIPE.Decrypt 安全地執(zhí)行具有雙向隱私保護(hù)的圖像識(shí)別算法.
在本文中,TPA 是一個(gè)可信的第三方,負(fù)責(zé)所有密碼系統(tǒng)參數(shù)的生成和分配,確保所有參數(shù)的安全性和正確性.在實(shí)際應(yīng)用中,它通常由公鑰基礎(chǔ)設(shè)施提供服務(wù).面對(duì)來自DO、MO、CS 和外部攻擊者的攻擊,本文考慮了以下威脅模型:
·誠(chéng)實(shí)但好奇的DO: DO 持有醫(yī)療數(shù)據(jù)并使用云端診斷服務(wù),誠(chéng)實(shí)地執(zhí)行系統(tǒng)算法并遵循系統(tǒng)的協(xié)議,能訪問用戶醫(yī)療數(shù)據(jù).DO 會(huì)通過ΠFHIPE加密用戶數(shù)據(jù)并準(zhǔn)確無(wú)誤地發(fā)送到云服務(wù)器CS,但DO 會(huì)好奇MO 持有的模型參數(shù),即通過監(jiān)聽MO 和CS 的通道收集加密的模型參數(shù),從中獲取MO 持有的模型信息.
·誠(chéng)實(shí)但好奇的MO: MO 訓(xùn)練明文形式的數(shù)據(jù)集,并修改預(yù)訓(xùn)練模型使之能夠識(shí)別密文數(shù)據(jù),會(huì)誠(chéng)實(shí)地執(zhí)行系統(tǒng)算法并遵循系統(tǒng)的協(xié)議,能自行研發(fā)深度學(xué)習(xí)算法并訓(xùn)練模型.MO 會(huì)通過ΠIPE和ΠFHIPE加密本地模型參數(shù)并準(zhǔn)確無(wú)誤地發(fā)送到云服務(wù)器CS,但MO 會(huì)好奇DO 持有的用戶醫(yī)療數(shù)據(jù),即通過監(jiān)聽DO 和CS 的通道收集加密的醫(yī)療數(shù)據(jù),從中獲取DO 持有的醫(yī)療數(shù)據(jù).
·誠(chéng)實(shí)但好奇的CS: 為DO 提供云端預(yù)測(cè)服務(wù),為MO 提供部署預(yù)訓(xùn)練模型的云平臺(tái),CS 被認(rèn)為是誠(chéng)實(shí)但好奇的,會(huì)誠(chéng)實(shí)地執(zhí)行系統(tǒng)算法并遵循系統(tǒng)的協(xié)議,但會(huì)好奇DO、MO 的私有信息.
·惡意攻擊者:系統(tǒng)外部攻擊者,可以竊聽各個(gè)通信通道,具有入侵云服務(wù)器CS 以獲取更多敏感信息的能力.
本文方案的設(shè)計(jì)目標(biāo)是避免DO 的醫(yī)療數(shù)據(jù)和MO 的模型信息泄露,并通過部署在CS 上的預(yù)訓(xùn)練模型提供有效的醫(yī)療診斷服務(wù).DO 和MO 的明文數(shù)據(jù)在整個(gè)運(yùn)行過程中必須得到充分的保護(hù).所以我們需要滿足以下設(shè)計(jì)要求:
· 安全性和隱私性: 需要實(shí)現(xiàn)雙向隱私保護(hù),同時(shí)保護(hù)DO 持有的醫(yī)療數(shù)據(jù)和MO 持有的模型參數(shù),并避免泄露給任何其他實(shí)體.此外,還需要具有足夠的安全性以抵御來自DO、MO、CS 和任何外部攻擊者的攻擊.
· 功能性: 模型訓(xùn)練需要和原模型有相同的圖像識(shí)別功能和相似的精度,所以要求能夠安全且正確地計(jì)算模型參數(shù)和各層輸入的內(nèi)積值,并且能夠正確處理浮點(diǎn)數(shù)和負(fù)數(shù)的輸入值.
· 可擴(kuò)展性: 需要支持不同的神經(jīng)網(wǎng)絡(luò)架構(gòu),并且神經(jīng)網(wǎng)絡(luò)和激活函數(shù)可以針對(duì)不同的應(yīng)用場(chǎng)景進(jìn)行調(diào)整.
· 有效性: 需要實(shí)現(xiàn)高效、準(zhǔn)確的醫(yī)療診斷,同時(shí)滿足雙向隱私保護(hù)功能.
本小節(jié)給出了一個(gè)在線醫(yī)療診斷的雙向隱私保護(hù)方案(參見圖2) 的具體實(shí)現(xiàn),由四個(gè)階段組成: 系統(tǒng)初始化、數(shù)據(jù)預(yù)處理、模型生成以及安全醫(yī)療診斷.系統(tǒng)初始化(參見算法1) 由TPA 生成密碼系統(tǒng)參數(shù),隨后向DO 和MO 發(fā)送加密密鑰.數(shù)據(jù)預(yù)處理由DO 對(duì)醫(yī)療數(shù)據(jù)(x1,x2,···,xn) 預(yù)處理后加密,并發(fā)送醫(yī)療數(shù)據(jù)密文[[X]] 給CS.模型生成是指MO 訓(xùn)練一個(gè)EfficientNet[27]模型,并修改使之能夠識(shí)別密文數(shù)據(jù).然后MO 加密模型權(quán)重矩陣W,并部署受保護(hù)的模型[[W]] 到CS.安全預(yù)測(cè)是讓CS 執(zhí)行神經(jīng)網(wǎng)絡(luò)的安全前向傳播算法,從而獲得最終的預(yù)測(cè)標(biāo)簽并發(fā)送給DO.
圖2 雙向隱私保護(hù)醫(yī)療診斷系統(tǒng)Figure 2 Bilateral privacy-preserving medical diagnosis system process
4.5.1 數(shù)據(jù)預(yù)處理
在加密醫(yī)療數(shù)據(jù)之前,DO 需要從CS 獲取醫(yī)療診斷云服務(wù)的神經(jīng)網(wǎng)絡(luò)采用的填充策略和內(nèi)核大小等網(wǎng)絡(luò)信息,并且進(jìn)行數(shù)據(jù)預(yù)處理操作(參見算法2).DO 首先將每張醫(yī)學(xué)圖像映射成向量,接著根據(jù)im2col算法整理圖像向量,然后處理浮點(diǎn)數(shù)和零向量的問題,最后加密圖像向量并發(fā)送到CS.
由于本文采用的神經(jīng)網(wǎng)絡(luò)第一層是卷積層,因此DO 需要填充周圍的樣本數(shù)據(jù),然后根據(jù)卷積核滑動(dòng)采樣,從而利用卷積值填充輸出特征圖.其中,根據(jù)im2col 算法[28,29]的卷積核滑動(dòng)采樣思想(參見圖3),首先將樣本數(shù)據(jù)根據(jù)卷積核的大小分割成若干個(gè)小塊,然后按順序排列各個(gè)小塊的像素值,最后將各個(gè)小塊的像素值拼接成為一個(gè)一維矩陣,方便后續(xù)通過ΠFHIPE加密樣本數(shù)據(jù).
圖3 im2col 算法描述Figure 3 Description for im2col algorithm
內(nèi)積加密方案只能在有限整數(shù)域上操作,但訓(xùn)練樣本和模型參數(shù)通常會(huì)涉及負(fù)數(shù)和浮點(diǎn)數(shù).本文使用生成元求逆方法擴(kuò)展內(nèi)積加密技術(shù)的向量有效范圍,可以處理涉及負(fù)數(shù)的情況(參見4.5.3 節(jié)).而關(guān)于原始數(shù)據(jù)中的浮點(diǎn)數(shù)處理問題,本文采用數(shù)值縮放后向下取整的方法:
其中p是預(yù)定義的縮放值,用以控制計(jì)算精度,可以根據(jù)實(shí)際使用中不同的預(yù)測(cè)精度需求調(diào)整,從而降低浮點(diǎn)數(shù)的預(yù)處理對(duì)預(yù)測(cè)服務(wù)的影響.縮放實(shí)數(shù)的基本運(yùn)算如下:
在數(shù)據(jù)預(yù)處理之后,DO 調(diào)用FHIPE.RightEncrypt 算法加密處理后的數(shù)據(jù),并向服務(wù)器提交密文數(shù)據(jù).而服務(wù)器使用從TPA 獲取的公共參數(shù)mpkFHIPE,調(diào)用FHIPE.Decrypt 算法便可以在密文上實(shí)現(xiàn)安全前向傳播(參見4.5.3 節(jié)).
4.5.2 模型生成
在模型生成(參見算法3) 階段,MO 使用自行研發(fā)的深度學(xué)習(xí)算法(如EfficientNet,見圖4) 訓(xùn)練明文形式的數(shù)據(jù)集獲得預(yù)訓(xùn)練模型.當(dāng)MO 想要將模型部署到CS 時(shí),本文給出的方案是改造模型的前向傳播計(jì)算,使其能夠?qū)用艿尼t(yī)療數(shù)據(jù)進(jìn)行實(shí)時(shí)預(yù)測(cè).其中,模型第一層的計(jì)算涉及用戶數(shù)據(jù)和模型權(quán)重,因此使用FHIPE 保護(hù)雙向隱私.其后的各層計(jì)算只需考慮模型權(quán)重,則使用IPE 保護(hù).
圖4 EfficientNet 網(wǎng)絡(luò)架構(gòu)Figure 4 Architecture of EfficientNet
云端的在線醫(yī)療診斷服務(wù)對(duì)實(shí)時(shí)性要求較高,而激活函數(shù)Sigmoid 算法的計(jì)算時(shí)間較長(zhǎng),因此本文考慮了各類與Sigmoid 算法性質(zhì)相似但計(jì)算速度更快的變體.Sigmoid 作為最基本的激活函數(shù),廣泛應(yīng)用于各種場(chǎng)景,有Fast Sigmoid 和Hard Sigmoid[30]等變體:
從圖5 可以看出,F(xiàn)ast Sigmoid 的曲線更接近Sigmoid,且計(jì)算效率更高,因此本文方案采用Fast Sigmoid 作為Sigmoid 的高效替代.
圖5 Sigmoid 算法及其變體性能比較Figure 5 Comparison of Sigmoid variants
4.5.3 安全醫(yī)療診斷
CS 為DO 提供的在線醫(yī)療診斷服務(wù)依賴于MO 部署到CS 的預(yù)訓(xùn)練模型,并由CS 負(fù)責(zé)醫(yī)療診斷服務(wù)的運(yùn)行和維護(hù),在DO 提交醫(yī)療數(shù)據(jù)時(shí)CS 執(zhí)行安全醫(yī)療診斷算法(參見算法4).本文方案的神經(jīng)網(wǎng)絡(luò)架構(gòu)為EfficientNet (參見圖4),其第一層網(wǎng)絡(luò)是3×3 卷積層,而且受到ΠFHIPE保護(hù),因此計(jì)算第一層輸出W[1]·XDecrypt([[X]],[[W[1]]])Decrypt(RightEncrypt(X),LeftEncrypt(W[1])).此外,其他層受ΠIPE保護(hù),CS 需要使用其前一層的輸出Z[l-1]來調(diào)用ΠIPE的Keygen 算法,隨后CS 計(jì)算第l層輸出Z[l]為Z[l]Decrypt([[W[l]]],[[Z[l-1]]])Decrypt(Encrypt(W[l]),Keygen(Z[l-1])).
此外,為了更好地解決醫(yī)療預(yù)測(cè)服務(wù)中解密算法的離散對(duì)數(shù)問題,本文采用了傳統(tǒng)的BSGS 策略[31],并且通過生成元求逆操作使BSGS 算法能夠適用于負(fù)數(shù)(參見算法5).ΠFHIPE和ΠIPE方案的內(nèi)積值需要限制在多項(xiàng)式大小內(nèi),以確保解密算法能夠在多項(xiàng)式時(shí)間內(nèi)完成.如果需要更高效的解密計(jì)算,可以考慮使用哈希表方法或者索引計(jì)算算法來降低離散對(duì)數(shù)求解的計(jì)算復(fù)雜度.
綜上所述,在整個(gè)在線醫(yī)療診斷云服務(wù)中,模型持有者只能部署模型、用戶只能獲得診斷結(jié)果,且服務(wù)器無(wú)法從密文形式的醫(yī)療數(shù)據(jù)和模型參數(shù)中獲知除預(yù)測(cè)標(biāo)簽外的有效信息,因而本文基于內(nèi)積加密設(shè)計(jì)的雙向隱私保護(hù)方案既能保護(hù)用戶醫(yī)療數(shù)據(jù)的個(gè)人隱私,也能防止云端部署的預(yù)訓(xùn)練模型參數(shù)的泄露.
實(shí)驗(yàn)設(shè)置和庫(kù).本文通過理論分析和實(shí)驗(yàn)結(jié)果評(píng)估了所提出方案的性能.數(shù)據(jù)集為來自NCT 生物庫(kù)的福爾馬林固定石蠟包埋(FFPE) 的人類癌癥組織樣本CRC-VAL-HE-7K[32],其中包含來自N50 名結(jié)直腸腺癌患者的7180 個(gè)圖像塊,尺寸為224×224 像素,組織類別包括脂肪(ADI)、背景(BACK)、碎片(DEB)、淋巴細(xì)胞(LYM)、粘液(MUC)、平滑肌(MUS)、正常結(jié)腸粘膜(NORM)、癌癥相關(guān)基質(zhì)(STR)、結(jié)直腸腺癌上皮細(xì)胞(TUM) 等(參見圖6).本文方案在Linux Ubuntu 操作系統(tǒng)上執(zhí)行,采用Intel Core i5-12500 單核處理器、3.2 GHz、16 GB 內(nèi)存,圖像識(shí)別過程依賴于云服務(wù)的GPU 計(jì)算資源.所有實(shí)驗(yàn)的安全參數(shù)均設(shè)置為256 位,底層加密方法IPE 和FHIPE 基于AMCL 庫(kù)和Charm 庫(kù)實(shí)現(xiàn),AMCL 是C 語(yǔ)言的密碼學(xué)庫(kù)用于實(shí)現(xiàn)密碼系統(tǒng)參數(shù)的生成,Charm 是Python 語(yǔ)言的加密工具包用于實(shí)現(xiàn)高效地解密計(jì)算,神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練通過科學(xué)計(jì)算基礎(chǔ)庫(kù)Numpy 實(shí)現(xiàn).
圖6 CRC-VAL-HE-7K 數(shù)據(jù)集類分布Figure 6 Distribution of CRC-VAL-HE-7K dataset
定理1若底層密碼原語(yǔ)ΠFHIPE具有模擬安全性,則構(gòu)造的安全預(yù)測(cè)方案也具有模擬安全性.
如果存在攻擊者A 具有不可忽略的優(yōu)勢(shì),能夠破壞所構(gòu)造的安全預(yù)測(cè)方案的模擬安全性,那么攻擊者A 必須具有不可忽略的優(yōu)勢(shì)能夠破壞ΠFHIPE的模擬安全性,而文獻(xiàn)[17] 中Kim 等人基于通用群模型證明了ΠFHIPE的模擬安全性,因此不存在能夠破解該安全預(yù)測(cè)方案模擬安全性的攻擊者.
定理2如果底層密碼原語(yǔ)ΠIPE在選擇明文攻擊下具有選擇性安全性,則構(gòu)造的安全預(yù)測(cè)方案也具有s-IND-CPA 安全性.
如果存在攻擊者A 具有不可忽略的優(yōu)勢(shì),能夠破壞所構(gòu)造的安全預(yù)測(cè)方案的s-IND-CPA 安全性,那么攻擊者A 必須具有不可忽略的優(yōu)勢(shì)能夠破壞ΠIPE的s-IND-CPA 安全性,并且文獻(xiàn)[18]中Abdalla 等人基于DDH 假設(shè)證明了ΠIPE的s-IND-CPA 安全性,因此不存在能夠破解該安全預(yù)測(cè)方案s-IND-CPA安全性的攻擊者.
定理3方程組是相同變量集的方程的集合,設(shè)(k1,k2)*×N*,令τ為包含k1個(gè)方程、k2個(gè)變量的方程組,記為τ(k1,k2).那么M[k×k]和A[k×k]的矩陣乘積可以看作涉及[(k×k)+(k×n)]個(gè)變量、(k×n) 個(gè)方程的方程組,即(M×A)τ(k×n,((k×k)+(k×n))).因此,對(duì)于(k1,k2)*×N*,若k1<k2,則τ(k1,k2) 有無(wú)窮個(gè)解.
本文基于ΠFHIPE和ΠIPE設(shè)計(jì)了四個(gè)實(shí)體: 可信第三方(TPA)、數(shù)據(jù)持有者(DO)、模型持有者(MO) 和云服務(wù)器(CS).實(shí)體之間存在五個(gè)通信通道,每個(gè)通道都存在隱私泄露的風(fēng)險(xiǎn).在本文安全預(yù)測(cè)方案中,初始化系統(tǒng)后TPA 向其他三方發(fā)送密碼系統(tǒng)的參數(shù)mpkIPE、mskIPE、mpkFHIPE及mskFHIPE僅與網(wǎng)絡(luò)層的數(shù)據(jù)大小相關(guān),而且不會(huì)泄露任何敏感信息,即使攻擊者獲得了密碼系統(tǒng)參數(shù)也無(wú)法推斷出關(guān)于原始樣本X和模型參數(shù)W的任何隱私信息.本文方案的安全性來自于矩陣方程無(wú)解原理、底層密碼原語(yǔ)ΠIPE和ΠFHIPE的安全性.具體如下:
· MO 可能監(jiān)聽CS 與DO 間的通信,獲取加密的醫(yī)療數(shù)據(jù),并希望從中推斷出DO 的敏感信息.假設(shè)X是明文狀態(tài)的醫(yī)療數(shù)據(jù),則DO 發(fā)送給CS 的加密醫(yī)療數(shù)據(jù)為[[X]].根據(jù)定理1,MO 無(wú)法通過[[X]] 破解出X的明文,所以本文的方案可以抵抗好奇MO 的攻擊.
· DO 可能監(jiān)聽CS 和MO 間的通信,獲取加密的模型參數(shù),并希望從中推斷出MO 的模型信息.假設(shè)W為明文狀態(tài)的模型參數(shù),則MO 最終發(fā)送給CS 的加密模型參數(shù)為[[W]].根據(jù)定理1 和定理2,DO 無(wú)法通過[[W]] 破解出W的明文,因此本文的方案可以抵抗好奇DO 的攻擊.
· CS 擁有加密的數(shù)據(jù)、加密的參數(shù)和密碼系統(tǒng)的公共參數(shù),但只能用于安全醫(yī)療診斷的前向傳播算法,最后獲得對(duì)CS 無(wú)意義的預(yù)測(cè)標(biāo)簽onehot 編碼.在網(wǎng)絡(luò)第一層,CS 擁有加密的模型參數(shù)[[W1]]、加密的醫(yī)療數(shù)據(jù)[[X]],以及由此安全計(jì)算出的明文W1·X,根據(jù)定理1 和定理3,CS 無(wú)法破解出W1和X的明文.在網(wǎng)絡(luò)的后續(xù)各層中,CS 擁有加密的模型參數(shù)[[Wl]] 和上一層的計(jì)算輸出[[Zl-1]],以及由此安全計(jì)算出的Wl·Zl-1,根據(jù)定理2 和定理3,CS 無(wú)法破解出Wl的明文.因此,本文方案可以抵御來自好奇的CS 的攻擊.
· 同理,本文方案也可以抵御來自惡意攻擊者的攻擊,因?yàn)槎ɡ?、定理2 和定理3,密碼系統(tǒng)參數(shù)、數(shù)據(jù)密文、參數(shù)密文以及網(wǎng)絡(luò)的各層輸出都不會(huì)泄露醫(yī)療數(shù)據(jù)、模型參數(shù)的隱私信息,入侵系統(tǒng)的攻擊者只能獲得對(duì)其無(wú)意義的預(yù)測(cè)標(biāo)簽和一系列密文和密鑰.
由于4.5.1 節(jié)中所述的浮點(diǎn)數(shù)縮放取整處理,向量元素的數(shù)值大小被限制在固定范圍內(nèi).而且MO 會(huì)在預(yù)測(cè)服務(wù)開始前,將預(yù)訓(xùn)練模型部署到服務(wù)器.因此,在線醫(yī)療預(yù)測(cè)服務(wù)的效率分析只需要考慮DO 上傳醫(yī)療數(shù)據(jù)與CS 進(jìn)行醫(yī)療診斷,主要在ΠFHIPE的算法開銷,所以我們主要分析數(shù)據(jù)向量長(zhǎng)度與ΠFHIPE算法運(yùn)行時(shí)間之間的關(guān)系(參見圖7):
圖7 計(jì)算開銷與數(shù)據(jù)維度的關(guān)系Figure 7 Relationship between computational cost and data length
Setup 算法具有顯著的計(jì)算時(shí)間開銷,但該算法由TPA 預(yù)先執(zhí)行,因此對(duì)方案的性能影響可以忽略不計(jì).LeftEncrypt 算法受到向量長(zhǎng)度的影響較大,時(shí)間成本昂貴,但該算法由MO 在部署預(yù)訓(xùn)練模型前執(zhí)行,不會(huì)影響用戶使用在線醫(yī)療診斷服務(wù)時(shí)的實(shí)時(shí)性.在線醫(yī)療診斷服務(wù)的延遲主要來自上傳醫(yī)療數(shù)據(jù)和在線醫(yī)療診斷,DO 上傳醫(yī)療數(shù)據(jù)時(shí)的延遲受RightEncrypt 算法影響,而CS 提供診斷服務(wù)時(shí)的延遲則受Decrypt 算法影響,因此醫(yī)療數(shù)據(jù)向量長(zhǎng)度對(duì)系統(tǒng)延遲影響不大.
本文采用內(nèi)積加密方法,各方之間最多只需一輪交互乃至一次通信即可實(shí)現(xiàn)云端醫(yī)療診斷服務(wù).TPA負(fù)責(zé)初始化系統(tǒng)并分發(fā)密鑰,且TPA 僅發(fā)送一次密鑰,因此可忽略系統(tǒng)初始化階段的通信開銷.在線醫(yī)療診斷的通信開銷主要包括DO、CS 之間醫(yī)療數(shù)據(jù)和診斷結(jié)果的傳輸以及MO、CS 之間模型參數(shù)的傳輸.
MO 部署預(yù)訓(xùn)練模型僅需要上傳一次模型參數(shù),醫(yī)療診斷服務(wù)就可以由云服務(wù)器提供并維護(hù).CS 傳輸?shù)脑\斷結(jié)果、DO 傳輸醫(yī)療數(shù)據(jù)的總時(shí)間消耗和帶寬開銷隨著數(shù)據(jù)向量維度和數(shù)量的增加而增加,即本文方案對(duì)于不同數(shù)量的訓(xùn)練樣本保持常數(shù)級(jí)的通信開銷.本文采用的內(nèi)積加密技術(shù),進(jìn)行云端計(jì)算時(shí)無(wú)需交互,而且只需一次通信用戶即可得到安全診斷的結(jié)果.
圖像識(shí)別的準(zhǔn)確性通常使用分類準(zhǔn)確率衡量,準(zhǔn)確率(Acc)的計(jì)算公式為Acc,即正確預(yù)測(cè)的樣本比例,其中N代表測(cè)試的樣本數(shù)量,TP 表示正確識(shí)別的正例,TN 表示正確識(shí)別的負(fù)例,TP+TN表示測(cè)試樣本中正確預(yù)測(cè)的總數(shù).
在本文方案中,模型持有者M(jìn)O 使用EfficientNet 模型訓(xùn)練明文形式的醫(yī)療圖像數(shù)據(jù)集CRC-VALHE-7K,其中包括來自50 名結(jié)直腸腺癌患者的7180 張圖像(參見圖8).本文模型訓(xùn)練可以在5 個(gè)epoch內(nèi)將準(zhǔn)確率提高到95% 以上,所得預(yù)訓(xùn)練模型需要調(diào)整使得能夠提供密文數(shù)據(jù)的醫(yī)療診斷服務(wù).本文方案雖然未能達(dá)到原始EfficientNet 超過99% 的準(zhǔn)確率,但也能夠在加密的醫(yī)療數(shù)據(jù)上以98% 的準(zhǔn)確率診斷結(jié)直腸癌狀態(tài)(參見圖9).
圖8 模型訓(xùn)練的準(zhǔn)確率和損失值Figure 8 Accuracy and loss of model training
圖9 對(duì)比密文和非密文數(shù)據(jù)的圖像識(shí)別準(zhǔn)確率Figure 9 Image recognition accuracy comparison on encrypted and clear data
本文提出了一種能夠?qū)崿F(xiàn)雙向隱私保護(hù)的云端醫(yī)療診斷服務(wù)方案,不僅能解決傳統(tǒng)醫(yī)療診斷云服務(wù)中用戶提供醫(yī)療數(shù)據(jù)時(shí)面臨的個(gè)人信息泄露問題,還可以幫助模型開發(fā)方避免云端部署模型的信息泄漏風(fēng)險(xiǎn).此外,該方案針對(duì)模型信息的保護(hù)措施也能進(jìn)一步提高樣本數(shù)據(jù)應(yīng)對(duì)白盒成員推理攻擊的能力.根據(jù)安全性和隱私性的分析,本文方案可以抵御好奇參與方和惡意攻擊者的攻擊.此外,我們還將本文方案與原始網(wǎng)絡(luò)比較,實(shí)驗(yàn)表明本文方案能夠達(dá)到與原網(wǎng)絡(luò)相似的圖像識(shí)別準(zhǔn)確率,即98% 以上.本文的解決方案還采用了Fast Sigmoid、im2col 等方法來提高安全前線傳播效率.未來我們將重點(diǎn)關(guān)注基于函數(shù)隱藏內(nèi)積加密的安全模型訓(xùn)練方法[33-36],以及針對(duì)訓(xùn)練數(shù)據(jù)集的加密計(jì)算和加密域中梯度計(jì)算開銷的優(yōu)化.