国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

生物醫(yī)療場景下的隱私保護(hù)計算應(yīng)用*

2022-06-01 05:57陳如梵王林郭蘭停鄭灝孫琪李幟王爽
信息通信技術(shù)與政策 2022年5期
關(guān)鍵詞:聯(lián)邦醫(yī)療模型

陳如梵 王林 郭蘭停 鄭灝 孫琪 李幟 王爽,3

(1.杭州锘崴信息科技有限公司,杭州 310053;2. 濟(jì)南大學(xué),濟(jì)南 250022;3. 四川大學(xué)華西醫(yī)院,成都 610041)

0 引言

在數(shù)字經(jīng)濟(jì)時代,不僅數(shù)據(jù)成為了新的生產(chǎn)要素,同時數(shù)據(jù)要素的市場化發(fā)展也帶動數(shù)據(jù)融入各行各業(yè),促使其他傳統(tǒng)生產(chǎn)要素和領(lǐng)域進(jìn)行數(shù)字化轉(zhuǎn)型以更好地適應(yīng)時代的變化。以醫(yī)療為例,在醫(yī)療信息化的浪潮下,醫(yī)院信息系統(tǒng)(Hospital Information System,HIS)、電子病歷(Electronic Medical Records,EMR)、圖像存儲和傳輸系統(tǒng)以及實驗室信息系統(tǒng)等已經(jīng)迅速普及,成為各醫(yī)療機(jī)構(gòu)必不可少的一部分。我國的“電子病歷系統(tǒng)應(yīng)用水平分級評價”對醫(yī)院的電子病歷系統(tǒng)等級做出了分類,級別越高即電子病歷的滲透率越高,4級意味著全院信息共享,可實現(xiàn)初級醫(yī)療決策支持;8級則表示可整合跨機(jī)構(gòu)的醫(yī)療健康記錄[1]。

盡管我國的大部分醫(yī)療機(jī)構(gòu)內(nèi)部已經(jīng)初步實現(xiàn)信息化,但是距離真正的信息化還有一定的距離且大部分醫(yī)院與醫(yī)院之間的數(shù)據(jù)仍然互相獨(dú)立,形成了眾多“數(shù)據(jù)孤島”。與此同時,在醫(yī)療領(lǐng)域中,從致病原因分析、疾病的早期篩查、臨床診斷輔助到藥物研發(fā)等幾乎都依賴數(shù)據(jù)和樣本量的積累?!皵?shù)據(jù)孤島”的存在很大程度上影響了精準(zhǔn)醫(yī)療、AI輔助診療等領(lǐng)域的發(fā)展,阻礙了我國邁入智慧醫(yī)療的步伐。只有打破這些“數(shù)據(jù)孤島”,將各個醫(yī)院之間的數(shù)據(jù),乃至醫(yī)院與其他不同數(shù)據(jù)源之間的數(shù)據(jù)連接起來,構(gòu)成多維度、多數(shù)據(jù)源的數(shù)據(jù)網(wǎng)絡(luò),才能充分發(fā)揮數(shù)據(jù)價值,使信息化行之有效。

制約生物醫(yī)療數(shù)據(jù)互聯(lián)互通的問題諸多,其中最主要的包括數(shù)據(jù)流通的合規(guī)風(fēng)險、流轉(zhuǎn)過程中的隱私安全隱患,以及生物醫(yī)療數(shù)據(jù)種類繁多、處理難度大等。我國在數(shù)據(jù)隱私安全方面已隨著現(xiàn)行法律制度的完善進(jìn)入強(qiáng)監(jiān)管時代。2021年正式實施的《中華人民共和國數(shù)據(jù)安全法》和《中華人民共和國個人信息保護(hù)法》不僅填補(bǔ)了我國法律法規(guī)在該領(lǐng)域的空白,更是目前全球范圍內(nèi)懲罰力度最強(qiáng)、監(jiān)管力度最大的數(shù)據(jù)隱私安全相關(guān)法律,其強(qiáng)度甚至超過號稱最嚴(yán)格的歐盟《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,GDPR)。

已經(jīng)有不少研究證明,傳統(tǒng)的隱私保護(hù)手段很難完全滿足現(xiàn)行法律所要求的“數(shù)據(jù)匿名化”,即無法通過處理后的數(shù)據(jù)重新識別出具體的個人身份信息。美國《健康保險便利和責(zé)任法案》(Health Insufance Portability and Accountability Act,HIPAA)中的安全港(Safe Harbor)策略是以往最常使用的數(shù)據(jù)脫敏手段之一。然而,即使按照其所要求的,剔除所有可用于識別、聯(lián)系、定位某一特定個體的18種標(biāo)識符,仍然有可能通過這些數(shù)據(jù)重新識別出特定個體的身份信息或者與該個體相關(guān)的敏感信息,稱其為重識別攻擊。對生物醫(yī)學(xué)數(shù)據(jù)來說,這樣的重識別攻擊所造成的危害遠(yuǎn)大于其他類型的數(shù)據(jù)。有研究顯示[2],這樣的重識別風(fēng)險廣泛存在于中國的醫(yī)療衛(wèi)生系統(tǒng)中。該研究對橫跨33個省83 萬患者的生日、性別及郵編進(jìn)行了調(diào)查,發(fā)現(xiàn)其中19.58%可以通過這些信息的三段求交進(jìn)行唯一定位,也就是說能夠被識別出個人身份。盡管安全港策略能有效降低風(fēng)險,但其中仍然有601 人能夠被唯一識別[2]。

因此,迫切地需要更完善、更有效的技術(shù)手段來解決這些醫(yī)療機(jī)構(gòu)的后顧之憂,保證數(shù)據(jù)能夠安全共享,讓隱私保護(hù)不再是“無用功”。隱私保護(hù)計算正是在這樣的大背景下迅速由幕后走向臺前,從理論發(fā)展到實踐。目前,隱私保護(hù)計算相關(guān)技術(shù)被認(rèn)為是技術(shù)層面解決數(shù)據(jù)共享和隱私安全矛盾的“最優(yōu)解”。本文將對目前隱私保護(hù)計算技術(shù)體系下3種最主要的技術(shù)路線進(jìn)行介紹,同時對這些技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用及醫(yī)療場景下隱私保護(hù)計算未來的發(fā)展方向和可能遇到的挑戰(zhàn)進(jìn)行分析和研究。

1 隱私保護(hù)計算技術(shù)

隱私保護(hù)計算(Privacy Preserving Computating)是以數(shù)據(jù)“可用不可見”為核心概念,在原始數(shù)據(jù)不外露的前提下實現(xiàn)多方數(shù)據(jù)協(xié)作、聯(lián)合計算的一門交叉學(xué)科。值得注意的是,隱私保護(hù)計算不是某種特定的技術(shù),而是一套完整的技術(shù)體系,主要通過聯(lián)邦學(xué)習(xí)、密碼學(xué)和可信硬件等多種技術(shù)的融合來實現(xiàn)。經(jīng)過近幾十年的發(fā)展,已發(fā)展出多種技術(shù)路線,其中以安全多方計算、聯(lián)邦學(xué)習(xí)、可信執(zhí)行環(huán)境為主流技術(shù),以下將具體介紹這3種隱私保護(hù)計算技術(shù)的特點(diǎn)及其優(yōu)劣。

1.1 安全多方計算

安全多方計算(Secure Multi-party Computation,MPC),目標(biāo)是使一組互相獨(dú)立互不信任的數(shù)據(jù)擁有方根據(jù)各自的私有數(shù)據(jù)聯(lián)合計算,并且每一方僅獲取自己的計算結(jié)果,無法通過計算過程中的交互數(shù)據(jù)推測出其他任意一方的輸入和輸出數(shù)據(jù)。安全多方計算最早于1982年由姚期智院士提出[3],描述了安全多方計算的一個通用場景,m個參與方聯(lián)合計算一個函數(shù)f(x1,x2,…,xm),xi表示第i個參與方的數(shù)據(jù)輸入。安全多方計算對協(xié)議的安全性有著精確的定義,一個合格的安全多方計算協(xié)議通常需要滿足以下安全性定義。

(1)隱私:任何一方都不應(yīng)該了解到超過其規(guī)定輸出的內(nèi)容。

(2)正確性:每一方都保證它收到的輸出是正確的。

(3)輸入的獨(dú)立性:腐壞方須獨(dú)立于誠實的參與方的輸入來選擇他們的輸入。

(4)保證輸出:腐壞方不應(yīng)阻止誠實方獲得其輸出。

(5)公平性:每一方都應(yīng)得到他們應(yīng)得的輸出。

安全多方計算拓展了傳統(tǒng)分布式計算以及信息安全范疇,為多中心協(xié)作計算提供了一種新的計算模式,對解決多中心環(huán)境下的信息安全具有重要價值。但由于底層繁復(fù)的密碼學(xué)理論基礎(chǔ),導(dǎo)致MPC在計算過程中的計算量和通信量非常龐大,對于網(wǎng)絡(luò)帶寬有限、算法復(fù)雜或數(shù)據(jù)量較大的任務(wù)場景有一定挑戰(zhàn)。

1.2 可信執(zhí)行環(huán)境

可信執(zhí)行環(huán)境(Trusted Execution Environment,TEE),通常指存在于CPU上的一塊特定區(qū)域,這塊區(qū)域可以給數(shù)據(jù)和代碼的執(zhí)行提供一個安全的空間,以保證它們的機(jī)密性和完整性。TEE最早是由Open Mobile Terminal Platform(OMTP)提出的概念,起初是針對移動設(shè)備開放環(huán)境的安全問題。TEE中具有代表性的有ARM的Trust Zone和Intel的SGX(Software Guard Extension)等。

以SGX為例,它是一套擴(kuò)展的x86指令集,通過使用“飛地(Enclaves)”來實現(xiàn)保護(hù)?!帮w地”是CPU內(nèi)置的隔離存儲區(qū)域,這種區(qū)域可以保護(hù)數(shù)據(jù)免受特權(quán)級別(如操作系統(tǒng)、BIOS)進(jìn)程或模塊的影響[4]。即使攻擊者可以控制整個軟件執(zhí)行環(huán)境(如操作系統(tǒng)、管理程序、BIOS等),SGX仍然能夠有效地保護(hù)在飛地內(nèi)處理的數(shù)據(jù)。更具體地說,SGX并沒有將系統(tǒng)中的惡意部分作為傳統(tǒng)的安全沙箱進(jìn)行隔離,而是使用“反向沙箱”設(shè)計將私有代碼、敏感數(shù)據(jù)和其他選定的需要保密的內(nèi)容密封到飛地中[5]。SGX提供的遠(yuǎn)程驗證(RA)過程可以使用戶能夠驗證遠(yuǎn)程控制的平臺是否真的具有可信硬件和相關(guān)軟件配置,這點(diǎn)在SGX環(huán)境由不受信任的機(jī)構(gòu)托管時至關(guān)重要[6]。圖1展示了TEE架構(gòu)的工作流程。

TEE技術(shù)實現(xiàn)了安全性和可用性之間較好的平衡,在當(dāng)前傳統(tǒng)公鑰密碼學(xué)性能受限的情況下是一個可選擇的替代方案。然而,其安全性在一定程度上依賴于對硬件廠商的信任,同時攻擊面較多,安全邊界定義不清晰,而這些問題都在一定程度上阻礙了TEE技術(shù)的大規(guī)模應(yīng)用[5]。

1.3 聯(lián)邦學(xué)習(xí)

聯(lián)邦學(xué)習(xí)(Federated Learning,F(xiàn)L)是一種分布式機(jī)器學(xué)習(xí)技術(shù)。2013年,王爽教授團(tuán)隊[7]提出以分布式系統(tǒng)解決隱私保護(hù)數(shù)據(jù)計算的初步概念和基本框架,著重探討了在線聯(lián)邦學(xué)習(xí)在醫(yī)療大數(shù)據(jù)方面的應(yīng)用。2016年,Google團(tuán)隊將聯(lián)邦學(xué)習(xí)應(yīng)用在移動設(shè)備上進(jìn)行聯(lián)邦式的多節(jié)點(diǎn)數(shù)據(jù)聯(lián)合建模。聯(lián)邦學(xué)習(xí)的核心思想是在多個數(shù)據(jù)源(如邊緣設(shè)備、數(shù)據(jù)中心、服務(wù)器等)之間協(xié)同訓(xùn)練模型,在這期間,各方的本地數(shù)據(jù)不會被其他方直接觀測,從而實現(xiàn)數(shù)據(jù)協(xié)作與隱私保護(hù)的平衡。

聯(lián)邦學(xué)習(xí)按照參與方數(shù)據(jù)分布模式可以分為橫向聯(lián)邦學(xué)習(xí)和縱向聯(lián)邦學(xué)習(xí)。橫向聯(lián)邦學(xué)習(xí)主要是通過融合不同數(shù)據(jù)集中數(shù)據(jù)維度大致相同的數(shù)據(jù)來增加樣本量(見圖2)??v向聯(lián)邦學(xué)習(xí)是指不同數(shù)據(jù)源擁有同一個樣本的不同特征時,每個參與方對各自的特征數(shù)據(jù)進(jìn)行處理,最后匯總中間結(jié)果得到最終模型的場景(見圖3)。

盡管聯(lián)邦學(xué)習(xí)被認(rèn)為能兼顧數(shù)據(jù)共享和隱私保護(hù)的雙重目標(biāo),但其仍然存在一定缺陷。一方面,聯(lián)邦學(xué)習(xí)雖然不直接暴露用戶數(shù)據(jù),但缺乏對中間統(tǒng)計信息、模型評估和最終輸出結(jié)果的保護(hù);另一方面,聯(lián)邦學(xué)習(xí)不支持模型評估階段的隱私保護(hù)。在具體的實踐中,模型評估階段也包括許多敏感信息,如模型參數(shù)、模型輸入數(shù)據(jù)、模型結(jié)果(如診斷結(jié)果)等。

安全聯(lián)邦學(xué)習(xí)(Security Federated Learning,SFL)是為了彌補(bǔ)聯(lián)邦學(xué)習(xí)中存在的不足而產(chǎn)生的進(jìn)階技術(shù)。它是在原有技術(shù)的基礎(chǔ)上,通過軟硬件結(jié)合的方式,在保留聯(lián)邦學(xué)習(xí)分布式計算特點(diǎn)的同時,通過軟硬件結(jié)合的方式,僅分享經(jīng)過加密的中間統(tǒng)計值,不分享明文個體數(shù)據(jù),同時也對模型本身進(jìn)行保護(hù),保證生物醫(yī)療數(shù)據(jù)共享的全鏈路隱私安全。

安全多方計算、可信執(zhí)行環(huán)境和聯(lián)邦學(xué)習(xí)作為隱私保護(hù)計算的三大主流技術(shù)在互聯(lián)網(wǎng)各產(chǎn)業(yè)發(fā)揮著重要的作用,可以涵蓋數(shù)據(jù)的生產(chǎn)、存儲、計算、應(yīng)用等信息流程。此外,差分隱私、零知識證明、同態(tài)加密、區(qū)塊鏈等技術(shù)也在隱私保護(hù)計算領(lǐng)域逐漸發(fā)力。這些技術(shù)通常情況下并不是替代關(guān)系,而是可以相互結(jié)合,為營造高效安全的隱私保護(hù)計算環(huán)境而發(fā)力。

2 醫(yī)療場景下的隱私保護(hù)計算技術(shù)應(yīng)用

2.1 基因組學(xué)分析

基因組學(xué)分析,例如全基因組關(guān)聯(lián)研究、致病基因分析、癌癥早篩等,在疾病防治中起到至關(guān)重要的作用。以全基因組關(guān)聯(lián)研究(Genome-Wide Association Studies,GWAS)為例,GWAS是將患者全基因組范圍內(nèi)的單核苷酸多態(tài)性(Single Nucleotide Polymorphism,SNP)位點(diǎn)與對照組進(jìn)行比較,找出所有變異的等位基因頻率,繼而排查出可能導(dǎo)致目標(biāo)性狀的變異基因位點(diǎn)。相比較于候選基因策略,GWAS不需要預(yù)設(shè)致病基因,很大程度上避免了研究過程中的“繞彎路”。同時,由于GWAS研究發(fā)現(xiàn)了許多此前未曾發(fā)現(xiàn)的基因和染色體區(qū)域,因此為復(fù)雜疾病(如脊柱炎、腫瘤、糖尿病等)發(fā)病機(jī)制、致病因素的探索以及發(fā)展新療法、開發(fā)新藥物提供了更多線索和思路。

由于基因數(shù)據(jù)的高敏感度,首先要確保數(shù)據(jù)隱私的安全。數(shù)據(jù)一旦脫離醫(yī)療機(jī)構(gòu)的管理邊界就會失去控制,不論是在傳輸過程中還是在可信第三方中都有可能面臨泄露的風(fēng)險,因此在帶有隱私保護(hù)的基因組學(xué)研究中,可以利用安全聯(lián)邦學(xué)習(xí)等技術(shù)實現(xiàn)隱私建模。隱私建模是指在多中心數(shù)據(jù)聯(lián)合分析中,使患者級別的明文數(shù)據(jù)不出醫(yī)療機(jī)構(gòu)的管理邊界,即在數(shù)據(jù)可用不可見的情況下,通過交互加密的模型統(tǒng)計信息,實現(xiàn)數(shù)據(jù)虛擬融合,進(jìn)而完成跨中心的聯(lián)合數(shù)據(jù)建模與分析。同時,基于聯(lián)邦學(xué)習(xí)的分布式計算特性,由于部分計算在本地完成,可以減少基因數(shù)據(jù)這樣的大體量數(shù)據(jù)帶來的通信負(fù)擔(dān)。

Wu[8]提出了一個名為iPRIVATES的技術(shù)框架,用于支持強(qiáng)直性脊柱炎的GWAS分析。不同于以往的技術(shù)框架只注重單一技術(shù)的設(shè)計,該框架以聯(lián)邦學(xué)習(xí)為核心,融合了多種技術(shù)和算法,既利用了聯(lián)邦學(xué)習(xí)分布式計算的特性不交換明文數(shù)據(jù),又結(jié)合了其他技術(shù)彌補(bǔ)聯(lián)邦學(xué)習(xí)對中間統(tǒng)計信息、模型評估、輸出結(jié)果等階段信息保護(hù)缺失的不足,能夠更好地保護(hù)基因數(shù)據(jù)的安全。具體來說,數(shù)據(jù)共享時,不同數(shù)據(jù)源和全局服務(wù)提供商之間的通信鏈路是攻擊高發(fā)的環(huán)節(jié),典型的如對中間統(tǒng)計和/或聯(lián)合分析結(jié)果的竊聽或中間人攻擊。對于這種攻擊,研究團(tuán)隊使用了基于安全套接字層消息驗證碼來降低風(fēng)險。同樣地,對于全局服務(wù)器來說,內(nèi)部攻擊是其所面臨的最大威脅之一,比如基于似然比檢驗(Likelyhood-ratio Test,LLR)攻擊可用于在基因組數(shù)據(jù)共享信標(biāo)網(wǎng)絡(luò)中重新識別個體。研究團(tuán)隊在框架中融入了基于SGX的可信執(zhí)行環(huán)境以應(yīng)對這一類風(fēng)險。

在研究過程中,研究人員利用模擬數(shù)據(jù)集和真實世界數(shù)據(jù)來評估iPRIVATES的性能。結(jié)果顯示,該框架能夠支持跨多家醫(yī)院和研究機(jī)構(gòu)的全基因組數(shù)據(jù)協(xié)作,且其結(jié)果和傳統(tǒng)的集中式計算等價,證明了該框架的可靠性[9]。

2.2 罕見病研究

罕見病研究中最常見的問題是樣本量不足。由于疾病的特殊性,單一機(jī)構(gòu)的數(shù)據(jù)量往往不足以支持一項結(jié)果可靠可信的研究,而跨機(jī)構(gòu)患者數(shù)據(jù)的不安全流動又受到嚴(yán)格限制。不僅如此,某些疾病由于極為罕見,甚至需要聯(lián)合多個國家的數(shù)據(jù)才能滿足一次研究所需的樣本量,而這又涉及到跨國數(shù)據(jù)流動合規(guī)性的問題。不同國家之間的隱私政策和法律監(jiān)管要求不同,同樣的隱私保護(hù)手段很難同時滿足多個國家的要求。

Chen[10]分享了一個跨三國(美國、英國、新加坡)兒童川崎病研究的實踐案例。傳統(tǒng)的國際合作需要將個人級別的患者數(shù)據(jù)物理集中在一個站點(diǎn)。但該案例中應(yīng)用的技術(shù)框架——PRINCESS則不同,它使用分布式計算使原始數(shù)據(jù)不需物理流動。同時,利用隱私保護(hù)計算技術(shù)進(jìn)行中間結(jié)果及其他數(shù)據(jù)的安全傳輸和分析,在這一過程中,不論是有意或無意,都不會泄露個人隱私數(shù)據(jù)及中間結(jié)果。這保證所有數(shù)據(jù)共享符合各國數(shù)據(jù)流動法規(guī)監(jiān)管要求,解決了醫(yī)療數(shù)據(jù)跨境流動難的問題。其次,該框架同時支持可信執(zhí)行環(huán)境、多方安全計算和同態(tài)加密等多種技術(shù),對于沒有可信硬件的參與方,也可以通過基于軟件的技術(shù)進(jìn)行聯(lián)合安全合作,因此使得安全的大規(guī)??鐕z傳數(shù)據(jù)分析在實踐中可行。

2.3 新藥輔助研發(fā)

藥物研發(fā)要經(jīng)歷靶點(diǎn)的發(fā)現(xiàn)與驗證、先導(dǎo)化合物的發(fā)現(xiàn)與優(yōu)化、候選化合物的挑選及開發(fā)和臨床研究等多個階段。傳統(tǒng)的藥物研發(fā)耗時耗力,且周期長、成功率低。因此,越來越多的研究者希望能將人工智能等技術(shù)應(yīng)用于藥物研發(fā),提高研發(fā)效率,最重要的是能極大地縮短藥物研發(fā)時間。首先靶點(diǎn)發(fā)現(xiàn)與驗證階段,傳統(tǒng)的方式就是基于假設(shè)的驗證工作,通過不斷驗證找出正確的假設(shè)。要人為地從海量線索中找出關(guān)鍵點(diǎn)并推斷出這其中的邏輯關(guān)系,這一學(xué)習(xí)過程勢必漫長且效率低下,而人工智能的加入可以大大提高這個發(fā)現(xiàn)到驗證過程中的效率,而且能夠更深入、更全面。

然而,人工智能是高度數(shù)據(jù)依賴和驅(qū)動的領(lǐng)域,完整的知識圖譜和邏輯的建立是大量數(shù)據(jù)訓(xùn)練的結(jié)果。眾多藥廠、研發(fā)機(jī)構(gòu)由于利益關(guān)系不希望其他方獲取自己的數(shù)據(jù),法律層面也不允許缺乏保護(hù)措施的數(shù)據(jù)流動,隱私保護(hù)計算則可以解決這些問題。在靶點(diǎn)發(fā)現(xiàn)與驗證階段,可以利用隱私求交找出患有同種疾病患者之間的共同點(diǎn),根據(jù)結(jié)果排查出真正的靶點(diǎn),由于不會暴露患者的隱私也無需擔(dān)心己方數(shù)據(jù)被竊取,因此可以打破數(shù)據(jù)孤島,聯(lián)合多個藥廠和研發(fā)機(jī)構(gòu)之間的多維度數(shù)據(jù)源,高效利用數(shù)據(jù)完成研發(fā)。

此外,藥物研發(fā)的其他階段,例如藥物的效果評估等,也依賴大量數(shù)據(jù)的積累。Cox比例風(fēng)險回歸模型(Cox Proportional Hazards Model,簡稱“Cox模型”),是一種廣泛使用的生存分析方法,可用于評估藥物或干預(yù)方式的效果。為了提高分析結(jié)果的準(zhǔn)確性,通常需要大量的數(shù)據(jù)進(jìn)行模型訓(xùn)練,跨機(jī)構(gòu)的數(shù)據(jù)共享能大幅提高樣本量以實現(xiàn)這一目標(biāo)。為了在共享數(shù)據(jù)的同時保護(hù)患者隱私,Lu[11]開發(fā)了一套基于分布式Cox模型的在線服務(wù)系統(tǒng):WebDISCO,該服務(wù)系統(tǒng)用于支持跨多個中心的帶有隱私保護(hù)的基于聯(lián)邦學(xué)習(xí)的生存分析。該服務(wù)系統(tǒng)在本地處理個體級的敏感數(shù)據(jù),只交互敏感度較低的中間統(tǒng)計值以構(gòu)建全局Cox模型。試驗結(jié)果顯示,聯(lián)邦式的Cox模型和集中式Cox模型的模型系數(shù)一致,其平均方差范圍在10~15到10~12之間,這證明了聯(lián)邦式的Cox模型這一概念的可行性和實際的應(yīng)用前景。

2.4 醫(yī)學(xué)影像分析

醫(yī)學(xué)影像學(xué)數(shù)據(jù)是生物醫(yī)療數(shù)據(jù)中一個非常重要的組成部分。與新藥研發(fā)相同,在醫(yī)學(xué)影像分析中也越來越多地應(yīng)用到人工智能等技術(shù),通過智能輔助診斷疾病、智能勾畫靶區(qū)、智能判斷病理切片等方式輔助醫(yī)生和研究人員完成臨床診斷和研究。然而,人工智能模型精度和效果往往是由訓(xùn)練樣本的數(shù)據(jù)量及其質(zhì)量決定。在實踐中,由于數(shù)據(jù)孤島問題、傳統(tǒng)數(shù)據(jù)脫敏的局限性帶來的隱私問題、數(shù)據(jù)監(jiān)管問題等,導(dǎo)致人工智能模型沒有足夠的數(shù)據(jù)支撐完成訓(xùn)練,也就限制了醫(yī)學(xué)影像人工智能的發(fā)展。

一項研究針對2020年期間發(fā)表的,通過胸部X光檢查(CXR)和電子計算機(jī)斷層掃描(CT)圖像進(jìn)行機(jī)器學(xué)習(xí)建模以檢測或預(yù)測新冠病毒的文獻(xiàn)進(jìn)行了臨床應(yīng)用價值的調(diào)查[12]。研究團(tuán)隊[12]從2212 篇文獻(xiàn)中最終篩選出了62篇質(zhì)量較高的文獻(xiàn),然而最終發(fā)現(xiàn)這些文獻(xiàn)中所提到的模型都不具有臨床應(yīng)用價值,研究人員指出,這些模型所使用的數(shù)據(jù)集質(zhì)量和規(guī)模嚴(yán)重不足是導(dǎo)致這一問題的主要原因之一。其中,超過半數(shù)的模型使用了公共數(shù)據(jù)集,然而這些公共數(shù)據(jù)集往往不具有足夠的數(shù)據(jù)多樣性,因此可能導(dǎo)致嚴(yán)重的偏差風(fēng)向,使模型失去臨床應(yīng)用價值。

隱私保護(hù)計算可以讓患者級明文數(shù)據(jù)在數(shù)據(jù)所有方管理邊界的前提下實現(xiàn)數(shù)據(jù)虛擬聚合,因此既可以保證患者的隱私安全,又能保證藥廠等數(shù)據(jù)源方的權(quán)益。在這一前提下,數(shù)據(jù)源有意愿參與數(shù)據(jù)共享,就可以打破數(shù)據(jù)孤島,聯(lián)合多維度大規(guī)模數(shù)據(jù)協(xié)作,提高模型精度和效果,解決上文所提到的模型缺乏臨床應(yīng)用價值的問題。

在具體實踐中,這類數(shù)據(jù)的高效傳輸和儲存是一個難點(diǎn)。由于在這類場景下不僅需要保證數(shù)據(jù)隱私的安全,還需要盡可能地保證數(shù)據(jù)的完整性和可利用性,因此不論是直接壓縮加密的影像數(shù)據(jù)還是在加密之前壓縮數(shù)據(jù),都不適用這種場景。傳統(tǒng)的壓縮算法無法處理加密數(shù)據(jù),會破壞數(shù)據(jù)的完整性,使其失去可利用性,而在加密之前壓縮數(shù)據(jù)則無法在處理數(shù)據(jù)的同時保證其隱私安全。Wang及其團(tuán)隊[13]開發(fā)了一個基于分布式源編碼(Distributed Source Coding,DSC)的安全隱私保護(hù)醫(yī)學(xué)圖像壓縮框架(SUPERMICRO)。該框架可以在不影響安全性和壓縮效率的情況下對加密數(shù)據(jù)進(jìn)行壓縮,保證數(shù)據(jù)在帶有隱私保護(hù)的前提下進(jìn)行傳輸和存儲以及服務(wù)于后期的數(shù)據(jù)分析。該團(tuán)隊在兩個CT圖像序列上測試了這一框架,并將其與最先進(jìn)的JPEG 2000無損壓縮進(jìn)行了比較。試驗結(jié)果表明,SUPERMICRO框架提供了增強(qiáng)的安全性和隱私保護(hù),以及較高的壓縮性能。

3 未來方向及挑戰(zhàn)

3.1 平臺兼容性問題

隱私保護(hù)計算技術(shù)在精準(zhǔn)防疫、基因分析、臨床醫(yī)學(xué)研究等領(lǐng)域都在積極地實踐落地。然而,由于醫(yī)療領(lǐng)域的計算任務(wù)目標(biāo)紛繁復(fù)雜,精度和數(shù)據(jù)量要求也相對嚴(yán)苛,這就對隱私保護(hù)計算平臺的能力提出了更嚴(yán)格的要求。此外,不同機(jī)構(gòu)使用的隱私保護(hù)計算平臺也可能來自不同的技術(shù)提供商,從而使用不同的特有技術(shù),這就導(dǎo)致使用同一平臺的機(jī)構(gòu)與地區(qū)可以實現(xiàn)互聯(lián)互通,然而不同的平臺之間卻互相孤立,無法實現(xiàn)信息交互,數(shù)據(jù)孤島變成了數(shù)據(jù)群島。

因此,制定不同平臺之間互聯(lián)互通的標(biāo)準(zhǔn)是破除數(shù)據(jù)群島現(xiàn)象,進(jìn)一步釋放數(shù)據(jù)潛力的必經(jīng)之路。中國信息通信研究院等標(biāo)準(zhǔn)化組織也正在積極推動這一互聯(lián)互通的標(biāo)準(zhǔn)建設(shè)。具體來講,互聯(lián)互通指不同技術(shù)方案的隱私保護(hù)計算平臺之間協(xié)同完成某一項隱私保護(hù)計算任務(wù)的能力。鼓勵各平臺的技術(shù)百花齊放,各自發(fā)展,但在必要時可以使用標(biāo)準(zhǔn)接口協(xié)作完成隱私保護(hù)計算任務(wù)。

隱私保護(hù)計算行業(yè)互通標(biāo)準(zhǔn)的制定落地,將有助于進(jìn)一步發(fā)展基于數(shù)據(jù)驅(qū)動的醫(yī)療領(lǐng)域研究開展,以及發(fā)展新的經(jīng)濟(jì)和商業(yè)模式,反向刺激數(shù)據(jù)要素的生產(chǎn)推動數(shù)據(jù)的開放和應(yīng)用,完成醫(yī)療等行業(yè)數(shù)字化和智能化的數(shù)據(jù)新基建。

3.2 落地部署面臨的挑戰(zhàn)

首先是安全問題,與其他領(lǐng)域的數(shù)據(jù)不同,醫(yī)療數(shù)據(jù)的敏感度更高,也對安全的要求更高。以基因數(shù)據(jù)為例,僅僅通過基因數(shù)據(jù)很難回溯定位到個人,但如前文所提到的,當(dāng)多個“單一數(shù)據(jù)”被結(jié)合在一起時,就有可能推斷出身份信息或是患者不希望被公開的敏感信息。此外,由于每個個體和其血親之間的基因具有高度相似性,基因數(shù)據(jù)泄露所帶來的負(fù)面影響將不止局限于單個個體,還極有可能蔓延至其家族群體,使傷害擴(kuò)大。由于很多研究中會將數(shù)據(jù)交由可信第三方進(jìn)行計算,即使可信第三方真得可靠,一旦數(shù)據(jù)脫離醫(yī)療機(jī)構(gòu)掌控,就面臨數(shù)據(jù)泄露和篡改計算過程的風(fēng)險。因此,為了保證患者的隱私安全和生命安全,在進(jìn)行此類研究時,隱私保護(hù)計算多使用惡意模型作為安全假設(shè),而非其他領(lǐng)域經(jīng)常使用的半誠實模型,以確保計算過程中出現(xiàn)可能導(dǎo)致風(fēng)險的篡改行為時,能夠被及時發(fā)現(xiàn)并阻止。這就要求隱私保護(hù)計算服務(wù)的提供商擁有較強(qiáng)的技術(shù)實力,因為在同樣的場景下,基于惡意模型的算法難度要高于基于半誠實或誠實模型的算法。

其次是數(shù)據(jù)類型和處理難度方面的挑戰(zhàn)。醫(yī)療數(shù)據(jù)的類型豐富,除了常見的結(jié)構(gòu)化數(shù)據(jù),還有非結(jié)構(gòu)化數(shù)據(jù),包括醫(yī)囑、醫(yī)學(xué)影像數(shù)據(jù)、基因數(shù)據(jù)等,這些類型的數(shù)據(jù)是其他領(lǐng)域所沒有的。此外,醫(yī)療數(shù)據(jù)在處理難度上也更高。在非醫(yī)療領(lǐng)域,所需的方法論往往比較簡單,例如邏輯回歸或者是樹模型就可以滿足絕大多數(shù)場景的需求,但是在醫(yī)療領(lǐng)域,所需的方法論可能要增加幾十或幾百倍。例如,全基因組關(guān)聯(lián)分析中基因數(shù)據(jù)首先要進(jìn)行對齊,然后才進(jìn)入到致病基因的篩查和分析;對于影像學(xué)數(shù)據(jù)可能涉及到勾畫病灶;對于非結(jié)構(gòu)化數(shù)據(jù),比如醫(yī)生給患者的醫(yī)囑,需要對這些數(shù)據(jù)進(jìn)行自然語義處理,提取關(guān)鍵信息,形成結(jié)構(gòu)化可用的數(shù)據(jù)才能進(jìn)行后續(xù)工作。因此,市面上流行的開源框架很難直接用于醫(yī)療數(shù)據(jù)的處理,或許需要醫(yī)學(xué)領(lǐng)域的專業(yè)人員和隱私保護(hù)計算專家統(tǒng)一協(xié)作,結(jié)合醫(yī)療場景的特性研發(fā)出真正可用、適合醫(yī)學(xué)場景的技術(shù)框架。

最后是對于計算精度的要求。在非醫(yī)療領(lǐng)域,比如征信、風(fēng)控等,大多只需要輸出一個數(shù)值用以評估,這個數(shù)值只要和傳統(tǒng)集中式計算的結(jié)果大致一樣就可以用來做實際的生產(chǎn)投入。但是在醫(yī)學(xué)領(lǐng)域,由于直接關(guān)系到患者的生命安全,計算過程中的誤差可能是致命的。如果這一誤差是由于加入了隱私保護(hù)計算而產(chǎn)生的,那么隱私保護(hù)計算的引入就不能夠被接受。因此,醫(yī)療領(lǐng)域的隱私保護(hù)計算需要做到?jīng)]有誤差,或者是將誤差控制在一個非常小的范圍內(nèi),這對技術(shù)研發(fā)人員同樣是一個非常大的考驗。

4 結(jié)束語

從技術(shù)層面來說,隱私保護(hù)計算確實是促進(jìn)數(shù)據(jù)互聯(lián)互通的最優(yōu)解。在醫(yī)療領(lǐng)域,隱私保護(hù)計算也有了不少的實踐案例,然而由于醫(yī)療數(shù)據(jù)具有敏感度高、數(shù)據(jù)類型復(fù)雜、處理難度大等特點(diǎn),相比于其他領(lǐng)域,隱私保護(hù)計算在醫(yī)療場景下的應(yīng)用難度更高。未來,除了融合多種技術(shù)以更好地保護(hù)生物醫(yī)療數(shù)據(jù)的安全之外,隱私保護(hù)計算的研究人員和從業(yè)者還應(yīng)當(dāng)增進(jìn)和醫(yī)學(xué)領(lǐng)域?qū)W者專家的合作,以期開發(fā)出更適合醫(yī)療場景的技術(shù)框架和底層算法邏輯,避免出現(xiàn)閉門造車導(dǎo)致所開發(fā)的技術(shù)不具有實踐價值的問題。

猜你喜歡
聯(lián)邦醫(yī)療模型
《現(xiàn)代儀器與醫(yī)療》2022年征訂回執(zhí)
聯(lián)邦學(xué)習(xí)在金融數(shù)據(jù)安全領(lǐng)域的研究與應(yīng)用
適用于BDS-3 PPP的隨機(jī)模型
《現(xiàn)代儀器與醫(yī)療》2022年征訂回執(zhí)
自制空間站模型
新型醫(yī)療廢棄物焚化艙
一“炮”而紅 音聯(lián)邦SVSound 2000 Pro品鑒會完滿舉行
模型小覽(二)
遇到疾病,如何醫(yī)療
離散型隨機(jī)變量分布列的兩法則和三模型
黄梅县| 娱乐| 临漳县| 拉萨市| 高要市| 上栗县| 乌鲁木齐市| 东台市| 洪雅县| 金昌市| 翁牛特旗| 绩溪县| 合川市| 酒泉市| 灵石县| 临夏市| 洛隆县| 玛纳斯县| 慈溪市| 阿合奇县| 台中县| 济源市| 奈曼旗| 定襄县| 云龙县| 万年县| 乃东县| 黄山市| 冕宁县| 海宁市| 西宁市| 霍林郭勒市| 宽城| 中牟县| 师宗县| 莫力| 临猗县| 乌拉特中旗| 嘉定区| 房山区| 读书|