王樂子 母健康 郭 昊 王思圓 弓孟春
(神州數(shù)碼醫(yī)療科技股份有限公司 北京 100000)
針對人類基因數(shù)據(jù)的研究發(fā)展已久,從達爾文的《物種起源》到孟德爾遺傳定律,德國科學家米歇爾發(fā)現(xiàn)DNA,劍橋大學的詹姆斯·沃森和弗朗西斯·克里克發(fā)現(xiàn)DNA的雙螺旋結構,再到20世紀與曼哈頓原子彈計劃、阿波羅登月計劃并稱為人類自然科學史上3個重點計劃的人類基因組計劃[1-3],以及近年來基因相關的精準醫(yī)療,漫長的發(fā)展過程也使得基因數(shù)據(jù)更加重要。隨著生物醫(yī)學和計算機相關領域的發(fā)展,基因組學的研究必將為人類醫(yī)療健康發(fā)揮重要效用。然而基因數(shù)據(jù)隱私問題也成為應用研究過程中重要的環(huán)節(jié),因為這些隱私數(shù)據(jù)可能包含個人背景資料、生活習慣、生理和精神情況等極為敏感的信息,另外這些醫(yī)療數(shù)據(jù)還蘊含著極大的商業(yè)價值[4-6],所以在最大限度使用基因數(shù)據(jù)的同時確保隱私數(shù)據(jù)安全的研究勢在必行,主要從法律和技術兩個方面進行。
個人數(shù)據(jù)的安全是數(shù)據(jù)在使用過程中的根本問題。美國在健康衛(wèi)生領域頒布的《健康保險流通與責任法案》(Health Insurance Portability and Accountability Act,HIPAA)[7-10]以及歐盟頒布的《通用數(shù)據(jù)保護條例》(General Data Protection Regulation,GDPR)[11-15]都體現(xiàn)出發(fā)達國家對于個人隱私保護的重視。我國現(xiàn)階段雖然沒有針對個人隱私信息保護的立法,但在多部法律法規(guī)中均有對個人信息數(shù)據(jù)保護的規(guī)定,也在不斷向各界征求新的立法意見?;驍?shù)據(jù)是極為隱私的個人數(shù)據(jù),通過基因測序后以數(shù)據(jù)庫形式存在,當研究人員在使用這些數(shù)據(jù)進行基因疾病篩選、研究患者發(fā)病率、尋找疾病基因靶點時均會涉及個人基因庫隱私安全的問題[16-18]。目前我國正在開展的千人基因計劃,以后可能會涉及百萬人群的基因組研究,其內容牽涉國人基因機構的組成、功能、演化等極為敏感的數(shù)據(jù),一旦泄露會給國家及人民帶來難以估計的損失和危害,所以在能夠滿足科研需求的情形下保證基因組數(shù)據(jù)的安全是迫切需要攻克的難關。
2.2.1K-匿名方法 由Sweeny[19]等提出,主要是用來解決鏈接攻擊個人數(shù)據(jù)隱私問題?;驍?shù)據(jù)隱私保護需要迫切,K-匿名方法不能完全保證將數(shù)據(jù)庫中的DNA序列數(shù)據(jù)信息與這些數(shù)據(jù)信息提供者的個人身份信息之間的聯(lián)系切斷,于是DNALA被開發(fā)出來。DNALA是K-匿名方法應用到DNA數(shù)據(jù)隱私保護的一種方法,主要是對DNA數(shù)據(jù)模糊化處理,使得在數(shù)據(jù)集中的每個序列都至少有K-1個完全相同的序列,通過這種方法來防止攻擊者的路徑攻擊,為保證數(shù)據(jù)的安全性降低數(shù)據(jù)的精度。另外該方法在數(shù)據(jù)預處理時用的是多序列對比,這個過程需要運算時間較長,在后面的數(shù)據(jù)處理中對序列利用貪心算法分組時精度不高。針對該問題的改進策略是在數(shù)據(jù)預處理階段將多序列對比改為兩兩序列對比,這樣就可以減少預處理階段所用時間。研究人員為減少該方法對數(shù)據(jù)精度的影響,在原來的基礎上提出隨機爬山法,即以隨機爬山法替代貪心算法,得到新的算法——Savior。經(jīng)實驗表明Savior對數(shù)據(jù)的變動程度遠遠小于DNALA,可以通過爬山次數(shù)這個參數(shù)來影響進程中的數(shù)據(jù)精度。因此通過對K-匿名算法進一步研究也成為保護基因數(shù)據(jù)安全的一個方向。
2.2.2 差分隱私方法 由計算機密碼領域的專家Bonnie Berger和Sean Simmons提出[20],可以用來保護基因組的數(shù)據(jù)庫,從而防止個人基因組數(shù)據(jù)被泄露。以往的隱私模型存在兩個主要缺點。其一,面對新型的攻擊模式,如背景知識、合成式、deFinetti等,分組的隱私保護模型難以提供有效的安全防護,攻擊者掌握的知識背景與這類模型的安全性相關,而完全定義所有的知識背景極為困難。只有和背景知識無關的隱私安全保護模型在面臨新型攻擊時才能對數(shù)據(jù)形成有效的防護。其二,以往的模型在參數(shù)變化時不能對數(shù)據(jù)隱私水平進行定量計算分析,而這將極為影響此類模型處理后的數(shù)據(jù)可信度。差分隱私模型的出現(xiàn)能夠克服以上兩個缺點,具有較好的魯棒性,能夠抵擋攻擊者各種攻擊方式。差分隱私模型就是確保任意一個元素不管是否存在數(shù)據(jù)集中,其對最后的結果查詢影響極小。這是由于該算法不需要知道攻擊者掌握多少隱私數(shù)據(jù)相關的情況背景,對數(shù)據(jù)庫進行隨機變化、增加噪聲,即在不影響整體的前提下對個人信息進行遮掩,這種輸出的信息存在允許范圍內的錯誤,從而達到保護個人數(shù)據(jù)隱私的目的。另外差分隱私模型建立在嚴格數(shù)學邏輯理論之上,不僅對數(shù)據(jù)隱私保護進行嚴密的定義,還提供評估的量化方法,使得模型在不同參數(shù)下輸出的數(shù)據(jù)集的隱私保護水平具有可比性。隱私保護模型的可靠性使其逐漸成為數(shù)據(jù)隱私防護方面的研究熱點。
2.2.3 區(qū)塊鏈技術[21]這是一種按照時間的順序將數(shù)據(jù)塊組合起來的鏈式數(shù)據(jù)結構,也是一種以密碼學為基礎的分布式賬本數(shù)據(jù)庫。由于區(qū)塊鏈具有數(shù)據(jù)庫的屬性,可以對輸入的數(shù)據(jù)信息進行保存和讀取。另外只要有需求都可以通過構建服務器的方式加入?yún)^(qū)塊鏈網(wǎng)絡結構,成為整個區(qū)塊鏈網(wǎng)絡中眾多節(jié)點中的一個節(jié)點。龐大的網(wǎng)絡中所有節(jié)點都是平等的,沒有中心節(jié)點,所以區(qū)塊鏈起到信任中介的作用,通過嚴密的數(shù)學邏輯算法保證基因數(shù)據(jù)的安全傳輸。區(qū)塊鏈技術在基因隱私保護方面的特點是個人可以通過設置訪問權限的方式使基因數(shù)據(jù)研究者得到授權,其只能得到公布的共享信息,也可以依據(jù)區(qū)塊鏈的特性捕捉到個人數(shù)據(jù)的使用者。這個過程使用非對稱加密——公鑰加密,區(qū)塊鏈用戶通過加密其鏈上數(shù)據(jù)以確保隱私性。當基因數(shù)據(jù)被用于出售或捐贈時,數(shù)據(jù)的購買方或接收方通過被授予的私鑰來解密數(shù)據(jù)信息,以保證數(shù)據(jù)不被兩者之外的人或機構訪問??梢钥闯鰠^(qū)塊鏈在保護用戶隱私的同時還為研究機構深入研究特定人群的遺傳規(guī)律提供一個安全平臺。區(qū)塊鏈中加密塊的使用使得個人數(shù)據(jù)的修改及被惡性篡改的風險大大降低,從而為研究人員確保數(shù)據(jù)庫的真實性。此外區(qū)塊鏈技術還可以用于基因數(shù)據(jù)的管理,相關研究機構和企業(yè)通過獲得準許證到基因鏈上存儲其擁有的基因數(shù)據(jù),這將能夠避免倫理方面的問題??傊S著基因技術的日趨成熟以及基因學臨床數(shù)據(jù)的不斷積累,在基因數(shù)據(jù)安全保護和應用方面會涌現(xiàn)更多深入的研究和全新方向。
3.1.1 國家基因庫 目前全球基因數(shù)據(jù)醫(yī)療領域的資金規(guī)模已超過600億美元,其中基因精準診斷和基因精準治療所占的資金規(guī)模分別約100億美元和約500億美元。全球精準醫(yī)療領域的增長速度達到15%。我國“十三五”計劃指出在2030年之前對精準醫(yī)療市場的投入資金將達到600億元,這些資金由中央財政、地方財政、企業(yè)機構共同支付。在如此巨大的財政支持下,國內外對基因數(shù)據(jù)的使用分析能力與數(shù)據(jù)共享需求都在迅猛增長。面對如此龐大的市場,基因數(shù)據(jù)的隱私安全問題顯得尤為重要。我國最具代表性的基因使用與共享的嘗試是國家基因庫(China National Genbank,CNGB)[22]。CNGB于2016年9月22日正式對外運行,是目前我國首個獲批籌建的國家級基因庫,也是繼美國的GenBank[23]、日本的DDBJ[24]及歐盟的EBI[25]之后建成的戰(zhàn)略級基因庫。CNGB管理用于研發(fā)的樣本和數(shù)據(jù)共享,采取設置無限制和受控數(shù)據(jù)訪問機制的方式,結合身份驗證、分層訪問控制和可審計的備案記錄等技術手段。CNGB只接受出于科研目的的訪問請求,數(shù)據(jù)權限的管理和控制在數(shù)據(jù)提交者手中,數(shù)據(jù)提交者在提交數(shù)據(jù)時必須確定數(shù)據(jù)的受控范圍,如果被設定為受控數(shù)據(jù),則研究者必須向數(shù)據(jù)分析師協(xié)會(Certified Data Analyst Institute,CDA)提交數(shù)據(jù)權限申請,經(jīng)CDA審批并授權后才可以下載和使用。CNGB的監(jiān)管體系采用大型國際數(shù)據(jù)庫常規(guī)辦法,CNGB同意機構審查委員會(Institution Review Board,IRB)定期檢查其已經(jīng)獲得批準的、涉及數(shù)據(jù)訪問的項目。IRB有權調查其中任何的負面事件并可以暫?;蛘呓K止違反訪問條款或道德條例的項目。
3.1.2 推進行業(yè)規(guī)范的發(fā)展 2017年4月華中科技大學與CNGB聯(lián)合起草的《生物樣本庫樣本/數(shù)據(jù)共享理論指南與管理規(guī)范》(征求意見稿)并對外發(fā)布,該指南明確界定樣本或數(shù)據(jù)從收集、管理(存儲安全、傳輸安全、使用安全和出境管理等)、國際研究合作、知識產(chǎn)權以及相關利益分配等的管理過程和規(guī)范。該指南參考包括國際生物與環(huán)境樣本庫協(xié)會(The International Society for Biological and Environmental Repositories,ISBER)相關實踐及英國生物庫(UK Biobank)倫理與治理框架在內的國際上遺傳資源數(shù)據(jù)庫和生物樣本庫的經(jīng)驗,同時還整合梳理國內有關管理部門的管理規(guī)定,為各種生物樣本庫的規(guī)范化管理奠定強有力的基礎。另外指南中規(guī)定數(shù)據(jù)安全和隱患保護是處理數(shù)據(jù)時的安全準則。所有涉及人類樣本或數(shù)據(jù)的相關項目均需要強制接受IRB的審查。同時該規(guī)范進一步規(guī)定跨境樣本和數(shù)據(jù)共享的規(guī)則,數(shù)據(jù)的使用僅限于科學研究。盡管人類基因組計劃完成多年,但人類基因組數(shù)據(jù)的醫(yī)療資源儲存方式仍然是相互隔離的,為解決這一現(xiàn)狀對精準醫(yī)療發(fā)展的制約,全球很多組織都在嘗試打破隔離。在中國,盡管包括CNGB在內的很多組織都在積極推進基因的共享和使用,其自身的規(guī)范也參考大量國際公認數(shù)據(jù)共享標準,對于涉及的跨境背景擁有一套完整的安全保護規(guī)范,然而除非得到中國人類遺傳資源管理辦的許可,目前所有共享僅限于中國境內使用。中國基因數(shù)據(jù)在國際間的共享仍處于初級階段,而在國際上很多組織嘗試不同的辦法進行數(shù)據(jù)的共享和使用。
全球基因組學與健康聯(lián)盟(GA4GH)[26]是由生命科學研究機構、醫(yī)療機構以及研究型大學等組合成的聯(lián)盟組織,主持發(fā)起制定基因組學和健康數(shù)據(jù)的共享框架。目的是為所有機構或個人提供、存儲、訪問、管理或使用基因組及健康相關數(shù)據(jù)。研究人員向指定醫(yī)院發(fā)送數(shù)據(jù)查詢指令,該指定醫(yī)院來決定數(shù)據(jù)共享程度以及共享對象,通過該方法避免隱私方面的問題。其中Beacon項目是GA4GH在基因數(shù)據(jù)共享方面具有代表性的一個項目,重點在于聯(lián)合全球具有數(shù)據(jù)共享意向的各大企業(yè)和研究機構,從而分享使用其基因數(shù)據(jù)庫,建立具有信息安全性、使用簡便的國際信息共享數(shù)據(jù)庫。Beacon項目設計一個簡單的網(wǎng)絡平臺,任何使用者都可以在不違反隱私規(guī)則的條件下提出其他實驗室所掌握的基因組數(shù)據(jù)的相關問題,使用者可以發(fā)出類似“你是否有一個基因包含‘A’在3號染色體的位點100,735處?”的問題,得到“Yes”或“No”的答復。每愿意提供類似這種平臺服務的機構都被稱作Beacon。針對難以收集數(shù)據(jù)的罕見病或者有強遺傳傾向的家族疾病的研究,由于此類研究涉及的基因往往具有極強的特異性,需通過重復詢問,可以唯一定位某個持有罕見基因的人在該平臺中的風險是否存在。GA4GH目前也在推行所有者同意書,該同意書對基因組數(shù)據(jù)提供者所享有的權利做出明確規(guī)定,與其他大多數(shù)同意書相比,該同意書允許全球范圍內的研究人員進行受控訪問。如果某個機構查詢的問題多次涉及同一個人,則認為該機構在有意探尋該人的隱私,將封鎖該機構的查詢權限。同時一些相關隱私算法的研究也在進行中,通過變更閾值,隨機反轉,加密交換的方式來保障個人隱私安全。
基因精準醫(yī)療的核心是基因數(shù)據(jù)庫的建立,然而在建立基因數(shù)據(jù)庫的過程中,涉及個人基因數(shù)據(jù)隱私、倫理的相關問題也會隨之產(chǎn)生。由于基因精準醫(yī)療處于起步階段,相應的技術標準、共享平臺、法律法規(guī)還沒有建立起來,在使用、保存、傳輸基因數(shù)據(jù)時有極大的泄露風險?,F(xiàn)今各國都在積極探索相應的法律條文,2016年美國食品藥物管理局(Food and Drug Administration,F(xiàn)DA)頒布基于下一代測序(Next Generation Sequencing,NGS)技術的設計、開發(fā)及檢測結果診斷標準指南,規(guī)定相關研究機構要嚴格遵守FDA標準分析檢測結果的有效性,盡量減少錯誤結果。我國針對基因檢測方面也頒布相關法規(guī)條文,如《藥物代謝酶和藥物作用靶點基因檢測技術指南(試行)》、《腫瘤個體化治療檢測技術指南(試行)》等。然而法律規(guī)定只是在技術層面的規(guī)范指導,缺乏確切的法律方面的監(jiān)管與規(guī)范。為使基因精準醫(yī)療有條不紊的發(fā)展,國家政府應明確國家衛(wèi)健委和食品藥品管理局在精準醫(yī)療領域的相應監(jiān)督職責并進一步細化相關法案。
精準醫(yī)療的基礎是數(shù)據(jù)的累積,在數(shù)據(jù)安全的前提下應建立精準醫(yī)療基因數(shù)據(jù)共享平臺。我國在建立平臺時可以參考美國FDA與DNAnexus生物信息公司構建的精準醫(yī)療FDA平臺[27],該平臺為新型的基因測序研究提供云工具,可以幫助研究者上傳臨床驗證成果和共享基因數(shù)據(jù)信息,其他研究機構也可以在該平臺上調用、驗證、分享其他人或機構的研究成果。構建平臺時會涉及數(shù)據(jù)整合標準、信息安全構架以及規(guī)范、平臺基礎構架技術體系、大數(shù)據(jù)分析技術。國家層面相應標準規(guī)范以及技術發(fā)展支持應建立在精準醫(yī)療基因方面,另外通過現(xiàn)有的電子病歷系統(tǒng),共同加入基因測序數(shù)據(jù)信息,為建立精準醫(yī)療基因數(shù)據(jù)共享平臺奠定基礎。也可以在現(xiàn)有的電子病歷系統(tǒng)基礎上加入基因測序數(shù)據(jù)信息,建立標準化、結構化和統(tǒng)一編碼的電子病歷數(shù)據(jù)共享系統(tǒng)。
基因組學領域發(fā)展面臨的問題在于已收集的大量數(shù)據(jù)難以共享,其中一個關鍵因素是數(shù)據(jù)所占的存儲空間,基因自身大小導致很多問題,如單人的全基因數(shù)據(jù)大小可達100G左右,即使是原始數(shù)據(jù)也有10G左右。然而DNA序列具有不同于其他數(shù)據(jù)的序列特征,導致目前通用的數(shù)據(jù)壓縮算法[28]難以進行有效壓縮,其時間和空間代價很大,因此研究基因序列壓縮算法對于基因數(shù)據(jù)的使用和共享具有重要意義。此外患者的隱私保護也是基因數(shù)據(jù)共享過程中無法回避的問題,因為個人基因組數(shù)據(jù)所含有的信息與個人和其家庭密切相關,除在法律和安全共享平臺方面進行規(guī)范外,在數(shù)據(jù)共享安全算法方面也應展開深入研究。除區(qū)塊鏈研究方向外,可搜索加密技術也是保護用戶隱私的方向[29-30]。傳統(tǒng)的搜索算法是基于明文的技術,這個過程中不論是查詢者提交的查詢字段,還是服務器數(shù)據(jù)庫中的信息數(shù)據(jù)均是以明文的形式出現(xiàn)的,這種情況極容易造成信息泄露,從而侵害個人數(shù)據(jù)信息安全??伤阉骷用芗夹g是用密碼學技術在密文的形式下進行搜索查詢,但該技術在大規(guī)模應用方面需要深入研究。
總的來說基因數(shù)據(jù)的安全既要國家政府在法律層面進行規(guī)范化,也需要在技術層面深入研究。目前我國政府雖然對基因數(shù)據(jù)隱私保護進行規(guī)定,但是現(xiàn)階段還沒有建立起完整的基因數(shù)據(jù)隱私安全立法系統(tǒng),涉及的基因隱私法律分散于法律及行政規(guī)范中,缺少層次性、針對性及統(tǒng)一性。另外在安全技術層面的研究也有待深入。