郭翔 唐春香 張龍江*
英國生物銀行(UK Biobank)又稱英國生物樣本庫,是一個大型前瞻性隊列研究及生物醫(yī)學(xué)數(shù)據(jù)庫,該數(shù)據(jù)庫由英國政府發(fā)起,由英國醫(yī)學(xué)研究委員會、英國衛(wèi)生部、蘇格蘭政府、英國西北地區(qū)發(fā)展局以及維康信托基金等多個機構(gòu)贊助建立而成[1]。UK Biobank 的宗旨是通過構(gòu)建大規(guī)模的人類信息資源庫來探求基因、生活方式和健康之間的關(guān)系,提高對一系列嚴(yán)重和威脅生命疾?。ㄈ绨┌Y、心臟病、卒中、糖尿病、抑郁癥和癡呆等)的預(yù)防、診斷和治療;同時為統(tǒng)計學(xué)家、倫理學(xué)家、遺傳學(xué)家和人工智能(artificial intelligence,AI)領(lǐng)域的研究者提供平臺,以促進研究方法的改進,最終達到改善公共健康的目的。UK Biobank 中包括50 萬參與者的遺傳、生活環(huán)境和健康數(shù)據(jù),并跟蹤記錄參與者數(shù)十年的健康醫(yī)療檔案信息,可供全球獲得授權(quán)的研究人員和科學(xué)家訪問。截至目前,UK Biobank 已收到國際上超過90 個國家和地區(qū)的申請訪問且訪問量仍在繼續(xù)增長,累計發(fā)表研究論文超過2 300 篇,對于人們了解健康與疾病的關(guān)系以及改善公共衛(wèi)生現(xiàn)狀具有重要貢獻。本文主要介紹UK Biobank 的發(fā)展歷程、項目設(shè)計、數(shù)據(jù)庫相關(guān)的研究進展以及數(shù)據(jù)庫的更新與未來發(fā)展計劃。
UK Biobank 的概念于1998—1999 年期間提出,其研究框架歷經(jīng)多次討論和修改,于2003 年宣布正式確立。在2003—2006 年期間,該項目逐步完成了實驗設(shè)計、倫理審批以及管理架構(gòu)等一系列準(zhǔn)備。于2005 年2—3 月期間進行了UK Biobank 的預(yù)實驗。正式的主體研究于2006 年2 月啟動,至2010年6 月順利完成了50 萬基線參與者的招募與評估[2]。UK Biobank 自2012 年1 月起開始向全球研究者發(fā)布已完成的數(shù)據(jù)資源,之后一直定期增加數(shù)據(jù),目前已增至2021 年的。
2.1 UK Biobank 的建立 在UK Biobank 數(shù)據(jù)庫設(shè)計階段,研究者們主要完成了以下7 個方面的理論調(diào)研,即數(shù)據(jù)庫的宏觀目的、樣本量的估計、調(diào)查問卷的種類、體格檢查的類別、生物樣本的采集、項目實施的規(guī)劃及參與單位的管理職責(zé)。在數(shù)據(jù)庫發(fā)展階段,研究者們進一步解決了以下9 個方面的具體問題,即UK Biobank 的宏觀戰(zhàn)略、參與者招募原則、基線評估規(guī)范、樣本處理細(xì)則、數(shù)據(jù)庫增強計劃、長期隨訪方案、數(shù)據(jù)管理、訪問策略以及組織架構(gòu)。最終,UK Biobank 發(fā)展成為一個由董事會指導(dǎo)的、接受一系列委員會和專家咨詢小組支持的制度完善的生物樣本數(shù)據(jù)庫。
2.2 UK Biobank 的數(shù)據(jù)概況 UK Biobank 目前共招募了全英國40~69 歲間50 萬名參與者,采集的數(shù)據(jù)量龐大且種類豐富,按照數(shù)據(jù)采集時間的先后順序和功能的不同大致可分為基線數(shù)據(jù)、增強數(shù)據(jù)和隨訪數(shù)據(jù)三大類。
2.2.1 基線數(shù)據(jù) 基線數(shù)據(jù)是指初次接觸參與者時所采集的數(shù)據(jù),包括知情同意書、調(diào)查問卷、認(rèn)知功能測試、面試者問卷、血壓、身體測量數(shù)據(jù)(身高、臀圍、腰圍、生物電阻抗測量、握力、左側(cè)足骨超聲、肺活量)以及生物樣本(血樣、尿樣)采集等。隨后入組的20 萬參與者的基線數(shù)據(jù)除了以上指標(biāo)之外,還增加了心理評估、部分專家建議的問題(例如家庭供暖情況、私人醫(yī)療等)、聽力測試、脈搏、雙側(cè)足骨超聲以及飲食問卷。最后入組的10~15 萬參與者的基線數(shù)據(jù)進一步增加了視覺相關(guān)數(shù)據(jù)、體力測試、新增的生物樣本(2~3 mL 血液、2~4 mL 唾液)采集以及7 d 內(nèi)的活動量記錄。
2.2.2 增強數(shù)據(jù) 增強數(shù)據(jù)是為了增強基線數(shù)據(jù)的可用性而采集的數(shù)據(jù),其主要作用除了校正基線數(shù)據(jù)的準(zhǔn)確性之外,也增加了可供分析數(shù)據(jù)的豐富性,以減少研究偏倚。增強數(shù)據(jù)的采集并非針對全部參與者,而是選擇部分有代表性的亞組進行評估,隨著研究亞組的增多,增強數(shù)據(jù)可持續(xù)增加。目前,除了復(fù)查基線時所采集的信息之外,增強數(shù)據(jù)還包括對部分參與者基線信息的隨訪、24 h 回憶飲食問卷、職業(yè)健康問卷、家庭位置調(diào)查、視網(wǎng)膜眼底照片,以及最重要的20 萬參與者的外顯子組數(shù)據(jù)、10 萬人的全身影像數(shù)據(jù)(包括顱腦、心臟及腹部MR 檢查、全身雙能X 線檢查及頸動脈超聲)等。
2.2.3 隨訪數(shù)據(jù) 隨訪數(shù)據(jù)至關(guān)重要,因所有的基線和增強數(shù)據(jù)都是為分析病人的健康變化而服務(wù)的。因此,詳盡的隨訪數(shù)據(jù)是分析一切臨床問題的前提。在獲得參與者的知情同意后,UK Biobank 可以調(diào)閱參與者在英國醫(yī)保系統(tǒng)中所有詳盡的健康醫(yī)療記錄,包括家族史、各種檢查報告(例如影像報告、血液檢查等)、各種暴露因素(例如服藥史、職業(yè)健康等)以及各種健康相關(guān)事件,例如入院、出院、癌癥或死亡等。在隨訪中,英國國家健康服務(wù)系統(tǒng)為UK Biobank 隨訪工作提供了強大的支持和保障。
UK Biobank 一些重要的研究成果預(yù)計在未來5~10 年里陸續(xù)產(chǎn)出。截至目前,研究者們在UK Biobank 平臺上海量數(shù)據(jù)的支持下,發(fā)表的文章超過2 300 篇,涵蓋眾多的研究領(lǐng)域。本文根據(jù)該數(shù)據(jù)庫發(fā)展過程中每個階段的主要產(chǎn)出將研究分為5個領(lǐng)域,包括基因與疾病的關(guān)系、基因與環(huán)境的交互作用對疾病的影響、影像學(xué)研究、AI 分析以及新型冠狀病毒肺炎(COVID-19)相關(guān)研究。下面就各個領(lǐng)域的代表性研究成果予以介紹。
3.1 基因與疾病的關(guān)系 了解遺傳學(xué)在表型和疾病變異中的作用對加深人類生物學(xué)的理解至關(guān)重要[3]。全基因組關(guān)聯(lián)分析(genome-wide association studies,GWAS)是鑒定常見疾病或性狀相關(guān)基因位點的一種成熟有效的方法。研究者們利用GWAS 已經(jīng)發(fā)現(xiàn)了數(shù)千種與人類疾病相關(guān)的變異,其中有些基因位點與確定的疾病明確相關(guān),例如在ATG16L1(rs2241880)[4]和IRGM(rs1000113)[5]基因中發(fā)現(xiàn)了與克羅恩病發(fā)生風(fēng)險相關(guān)的單核苷酸多態(tài)性(single nucleotide polymorphism,SNP),從而解釋了自噬現(xiàn)象在克羅恩病發(fā)生中的作用, 即rs2241880 的SNP錯義突變(p.Thr300Ala) 導(dǎo)致caspase-3 介導(dǎo)的ATG16L1 切割作用增強,在細(xì)胞發(fā)生應(yīng)激反應(yīng)時減少自噬現(xiàn)象,使細(xì)胞內(nèi)細(xì)菌清除功能受損以及炎癥細(xì)胞因子的產(chǎn)生增加,從而引發(fā)慢性炎癥狀態(tài)。同樣,在IRGM 位點上存在類似的作用,影響該位點的SNP 與rs1000113 基因有著密切的因果關(guān)聯(lián)。然而,盡管GWAS 已經(jīng)確定了大量與常見疾病和性狀相關(guān)的基因變異,但多數(shù)情況下這些基因變異對疾病的影響程度較低。例如,Elliott 等[6]從UK Biobank中納入15 947 例心血管病病人以及匹配的對照組,嘗試建立基于多基因風(fēng)險評分(polygenic risk score,PRS)預(yù)測發(fā)生心血管病事件的模型,并在352 660名UK Biobank 參與者組成的驗證組中進行驗證。隨訪結(jié)果表明,與傳統(tǒng)預(yù)測模型相比,基于PRS 的模型在預(yù)測心血管疾病事件發(fā)生率的準(zhǔn)確性方面僅有輕度的提高,而且僅對一小部分個體顯示出改善風(fēng)險分層的效果。此外,由于該PRS 研究樣本基本來源于歐洲人群的DNA 序列,故不能對非歐洲人群基因風(fēng)險預(yù)測的準(zhǔn)確性做出判斷。由此可見,將GWAS 應(yīng)用到臨床實踐中還需要很長的路要走。UK Biobank 作為目前最大樣本的前瞻性隊列數(shù)據(jù)庫,在未來的5~10 年中將會繼續(xù)納入更多的慢性病病人,對于此類研究具有十分重要的價值。
3.2 基因與環(huán)境的交互作用對疾病的影響 人類大多數(shù)常見疾病的病因是復(fù)雜的,受到遺傳和環(huán)境因素的綜合影響[7]。因此,了解遺傳風(fēng)險與環(huán)境風(fēng)險交互作用的方式對了解慢性復(fù)雜性疾病的發(fā)病機制至關(guān)重要。在此方面,UK Biobank 記錄了大樣本人群的基因、環(huán)境和生活習(xí)慣等數(shù)據(jù),是研究基因與環(huán)境之間交互作用的理想平臺。以肥胖病為例,既往有小樣本量的研究嘗試分析基因與環(huán)境對肥胖的影響,但研究結(jié)果往往不一致,尤其是在比較不同文化或種族的研究中。這一差異可能是因為不同研究之間測量環(huán)境變量的標(biāo)準(zhǔn)不同,以及檢測交互作用的能力較低所致。雖然薈萃分析能夠在一定程度上提取多個研究的數(shù)據(jù)并提高證據(jù)等級,但與同樣規(guī)模的單隊列研究相比,不同研究隊列之間的異質(zhì)性都會降低統(tǒng)計學(xué)效力。為了解決上述問題,Young 等[8]利用UK Biobank 這一大型的單隊列數(shù)據(jù)庫優(yōu)勢,研究了FTO 基因(脂肪質(zhì)量和肥胖關(guān)聯(lián)基因)與各種生活方式和環(huán)境因素之間相互作用的證據(jù)。經(jīng)過人群分組和篩選,該研究共納入了351 038名研究對象,均有生活習(xí)慣的記錄和人體測量值的完整信息,包括飲食方式(例如是否有油性魚類、家禽類、牛肉、加工肉類等攝入以及食鹽攝入量等)、飲酒量、體育鍛煉量、睡眠時間、是否吸煙以及觀看電視時間等。通過多種環(huán)境因素與體質(zhì)量指數(shù)(body mass index,BMI)的相關(guān)性分析發(fā)現(xiàn),較多的體育活動與較低的BMI 呈正相關(guān);每周飲酒的天數(shù)和飲酒總量與BMI 分別呈負(fù)和正相關(guān);在飲食方面,蛋白質(zhì)、食物質(zhì)量和飽和脂肪的攝入量與BMI呈明顯的正相關(guān);在睡眠方面,當(dāng)睡眠時長比較穩(wěn)定時,睡眠時間越長,BMI 越低;但對于睡眠時長波動較大的人群,則可能會導(dǎo)致BMI 的增加。通過基因與環(huán)境的交互作用分析,結(jié)果發(fā)現(xiàn)FTO 與體育活動、飲酒頻率、飲食變化和平均睡眠時間的方差之間存在著交互作用;而與當(dāng)前吸煙狀況、湯森剝奪指數(shù)、年齡和觀看電視之間未發(fā)現(xiàn)有統(tǒng)計學(xué)意義的證據(jù)。該研究證明基因與環(huán)境的交互作用對于疾病的發(fā)生和發(fā)展起著復(fù)雜的作用。此外,有研究表明在某些情況下,環(huán)境比基因更能決定疾病的發(fā)生與發(fā)展,例如Rutten-Jacobs 等[9]評估了PRS 及健康生活方式(當(dāng)前不吸煙、健康飲食、BMI <30 kg/m2以及每周2 次或更多次的適度身體活動)與腦卒中事件的相關(guān)性,結(jié)果發(fā)現(xiàn)無論有無遺傳風(fēng)險,不利的生活方式都會增加腦卒中風(fēng)險。這也從側(cè)面說明,即使人體中存在某些慢性病的易感基因,人們也可能通過控制生活習(xí)慣和周圍環(huán)境來達到預(yù)防疾病的目的。
3.3 影像學(xué)研究 隨著醫(yī)學(xué)影像技術(shù)的進步,影像醫(yī)學(xué)在疾病診療的各個環(huán)節(jié)(如診斷、治療決策的選擇以及預(yù)后評價)中發(fā)揮著越來越重要的作用。通過對大腦、心臟、周圍組織和骨骼等體內(nèi)器官的影像檢查,可以幫助醫(yī)生了解人體器官的結(jié)構(gòu)和功能與疾病發(fā)生的關(guān)系,甚至揭開某些疾病的發(fā)病機制,為預(yù)防此類疾病的發(fā)生提供參考。基于此方面的考慮,UK Biobank 建立了基于人群的大規(guī)模影像學(xué)數(shù)據(jù)庫,使得大樣本的影像學(xué)研究變得更加可及。例如,Cox 等[10]從UK Biobank 中納入了9 722 名研究對象,研究了多心血管危險因素(吸煙、高血壓、脈搏壓力、糖尿病、高膽固醇血癥、BMI、腰臀比例)與大腦結(jié)構(gòu)之間的關(guān)聯(lián)性,結(jié)果發(fā)現(xiàn)從灰質(zhì)和白質(zhì)的大體和微觀結(jié)構(gòu)來看,心血管危險因素水平越高,大腦健康水平越差。研究還發(fā)現(xiàn)心血管危險因素的效應(yīng)是可疊加的,主要集中于額葉和顳葉皮質(zhì)、皮質(zhì)下結(jié)構(gòu)和特定種類的白質(zhì)纖維,因此認(rèn)為即使在相對健康的中老年人群中,大腦健康也容易受到心血管因素的影響;而通過積極控制心血管危險因素,可能具有改善認(rèn)知能力下降的潛力。Pirruccello 等[11]以心臟磁共振(cardiac MR,CMR)為判斷標(biāo)準(zhǔn),利用GWAS 研究了心肌病的常見基因位點。該研究采集了UK Biobank 中36 041 名參與者的CMR 數(shù)據(jù),納入的心臟測量指標(biāo)包括左室舒張末期容積、左室收縮末期容積、每搏輸出量以及左室射血分?jǐn)?shù),所有指標(biāo)都已進行了體表面積標(biāo)準(zhǔn)化。研究結(jié)果確定了45 個未曾被報道的基因位點與心臟結(jié)構(gòu)和功能相關(guān)。該研究結(jié)果進一步推動了心肌病的發(fā)病機制研究,為今后研究正常人群發(fā)生心肌病的基因多態(tài)性奠定了基礎(chǔ)。
3.4 AI 分析 AI 與影像數(shù)據(jù)的結(jié)合是近年來醫(yī)學(xué)發(fā)展的一大領(lǐng)域。深度學(xué)習(xí)算法憑借龐大的運算能力以及復(fù)雜的神經(jīng)網(wǎng)絡(luò)構(gòu)建,通過對圖像的處理,在疾病的檢測、分類及預(yù)后評估等方面展現(xiàn)出巨大潛力。UK Biobank 數(shù)據(jù)庫收集并儲存了大量參與者的影像信息,例如眼底照片和影像檢查結(jié)果(超聲、X 線或MRI 影像等)極大地滿足了AI 算法的應(yīng)用。但如何降低CMR 影像中搏動偽影的干擾是改善CMR 影像的關(guān)鍵和難點。對此Oksuz 等[12]提出了一種基于深度學(xué)習(xí)的方法來實現(xiàn)CMR 短軸影像運動偽影檢測、校正和分割的全自動框架,然后通過從UK Biobank 中納入的4 000 例參與者的CMR 影像進行驗證,結(jié)果發(fā)現(xiàn)該方法能明顯提高影像的重建和分割質(zhì)量,具有非常實際的臨床價值。
基于UK Biobank 數(shù)據(jù)視網(wǎng)膜眼底照片開發(fā)的深度學(xué)習(xí)算法拓展了在心血管危險因素預(yù)測的應(yīng)用。既往研究發(fā)現(xiàn)眼底檢查時可以觀察到某些心血管病的標(biāo)志物,如高血壓性視網(wǎng)膜病變和膽固醇栓子?;谶@種現(xiàn)象,Poplin 等[13]通過收集UK Biobank中的48 101 名研究對象和EyePACS 數(shù)據(jù)庫中的23 6234 名研究對象的眼底圖像,采用深度學(xué)習(xí)方法建立了基于眼底圖像判斷心血管病危險因素的預(yù)測模型。然后,運用該模型在13 025 名研究對象(UK Biobank 中12 026 名,EyePACS 中999 名)中進行了驗證,結(jié)果顯示該模型在預(yù)測研究對象的年齡(平均絕對誤差為3.26 歲)、性別(預(yù)測模型的AUC=0.97)、是否吸煙(AUC=0.71)、收縮壓(平均絕對誤差為11.23 mmHg)和主要心臟不良事件(AUC=0.70)等心血管病危險因素方面均具有較高的預(yù)測效能。該研究結(jié)果證明AI 不僅可識別存在于視網(wǎng)膜上的心血管病危險因素的信息,而且還能在一定程度上進行精確量化,為心血管病危險因素的篩查以及心血管病的預(yù)防提供了新思路。
3.5 COVID-19 相關(guān)研究 2019 年COVID-19 疫情在全球爆發(fā),為了挽救病人的生命和防止疫情的傳播,大量的臨床及科研工作者投入到了COVID-19 的研究中。UK Biobank 向研究人員提供了大量感染者和未感染者的電子健康記錄數(shù)據(jù),有助于他們更好地研究遺傳、健康狀態(tài)和生活方式等與COVID-19 病情嚴(yán)重程度的關(guān)系。例如,有多項研究發(fā)現(xiàn)精神性疾病、認(rèn)知能力降低、吸煙等都會導(dǎo)致COVID-19 病毒感染率增加[14-16],提示臨床醫(yī)生應(yīng)重視基礎(chǔ)疾病的治療,病人需要盡早戒煙。此外,其他某些疾病的常規(guī)治療決策也會受疫情的干擾,例如有研究認(rèn)為酸抑制劑的使用可增加COVID-19 的感染風(fēng)險,但多項研究結(jié)果并不一致[17-20]。在此背景下,F(xiàn)an 等[21]收集了UK Biobank 數(shù)據(jù)庫中9 469 名研究對象的酸抑制劑的使用記錄及藥品類型、COVID-19 的感染率、死亡率以及一些其他相關(guān)健康記錄;通過分析各種因素與COVID-19 的感染率、死亡率的關(guān)系,發(fā)現(xiàn)質(zhì)子泵抑制劑以及組胺-2受體抑制劑均不會增加COVID-19 的感染率和已感染病人的死亡率;但亞組分析顯示,患有上胃腸道疾病并長期規(guī)律服用奧美拉唑的研究對象感染COVID-19 的概率可能會增加。該研究結(jié)果為疫情期間消化系統(tǒng)疾病的常規(guī)治療提供了新的證據(jù)。
UK Biobank 的數(shù)據(jù)由英格蘭、蘇格蘭和威爾士共3 個地區(qū)的不同數(shù)據(jù)機構(gòu)提供,從2012 年開始公布50 萬人的基線信息,至今一直在定期更新數(shù)據(jù)。目前死亡數(shù)據(jù)、住院病人數(shù)據(jù)以及COVID-19測試結(jié)果數(shù)據(jù)通常每月更新1 次,可供申請者使用;全科醫(yī)生記錄(初級保健數(shù)據(jù))通常每季度更新1 次,但此數(shù)據(jù)僅可用于COVID-19 的相關(guān)研究。UK Biobank 的未來計劃包括發(fā)布更多的遺傳信息數(shù)據(jù)、COVID-19 相關(guān)數(shù)據(jù)以及癌癥數(shù)據(jù)等。根據(jù)UK Biobank 的計劃及隨訪工作的進展,越來越多的基因、環(huán)境、生活習(xí)慣以及人體影像學(xué)數(shù)據(jù)將被采集并發(fā)布。此外,隨著全球科技的發(fā)展和醫(yī)療衛(wèi)生事業(yè)的進步,更多的有利于探索健康與疾病關(guān)系的新項目也會出現(xiàn)在UK Biobank 的未來計劃之中。
總之,UK Biobank 數(shù)據(jù)庫的運行模式證實,將遺傳學(xué)、廣泛而深入的生物學(xué)特征與健康記錄聯(lián)系起來并將數(shù)據(jù)共享,再結(jié)合大規(guī)模的人群研究可以實現(xiàn)巨大的科研和社會價值,為今后開展基于人群的研究提供了非常寶貴的經(jīng)驗。相信隨著這類數(shù)據(jù)庫的增多和發(fā)展,其相關(guān)資源將極大地推動并增進人們對人類生物學(xué)和疾病的理解,最終達到改善公共健康的目的。