許熠騰,靳光付
(1.南京醫(yī)科大學(xué)公共衛(wèi)生學(xué)院,南京 211166;2.博圣醫(yī)學(xué)檢驗(yàn)實(shí)驗(yàn)室,杭州 310000)
外顯子測(cè)序(exome sequencing,ES)是目前遺傳檢測(cè)領(lǐng)域最常用方法之一,該方法只需對(duì)全基因組序列中1%~2%的區(qū)域進(jìn)行測(cè)序,就可以檢測(cè)出85%的基因致病性突變[1]。ES測(cè)序結(jié)果相對(duì)于傳統(tǒng)的核型分析、染色體微陣列分析或一代測(cè)序等方法在提供更大數(shù)據(jù)量的同時(shí),也增加了數(shù)據(jù)判讀與臨床表型準(zhǔn)確關(guān)聯(lián)的難度。為了更好地利用臨床表型進(jìn)行輔助診斷,遺傳學(xué)者以及信息學(xué)者共同開發(fā)出了基于語義相似性框架——人類表型本體(human phenotype ontology, HPO)[2-4]的致病基因篩選方法,其將患者的臨床特征與HPO數(shù)據(jù)庫中收錄的標(biāo)準(zhǔn)化疾病表型進(jìn)行匹配,通過計(jì)算信息量(information content,IC)為2個(gè)表型之間的相似性進(jìn)行打分,繼而為候選基因與給定表型譜之間的匹配程度進(jìn)行排序,以此輔助診斷未知原因的遺傳缺陷。在被廣泛認(rèn)可的基于信息量的方法——Resnik[5]中,特異性較高的表型間相似性應(yīng)高于特異性較低表型間相似性的特征未得到體現(xiàn),其他基于Resnik的改進(jìn)計(jì)算方法(如Lin[4],JC[5],Rel[6]等)在既往研究中的排序準(zhǔn)確率低于Resnik。Gong等[7]的方法則直接定義1個(gè)臨床觀測(cè)到的表型對(duì)疑似疾病的貢獻(xiàn)值,最后累加所有貢獻(xiàn)值并計(jì)算臨床觀察到的表型集與相關(guān)疾病(或基因)的關(guān)聯(lián)。該方法不計(jì)算表型間的關(guān)聯(lián)性,直接排除了所有不能精準(zhǔn)匹配上的疑似表型所關(guān)聯(lián)的疾病,因此在臨床應(yīng)用中可能導(dǎo)致敏感性降低。本研究開發(fā)了一種基于拓?fù)浣Y(jié)構(gòu)的度量方法,該方法與原有的幾種疾病—基因關(guān)聯(lián)方法相比具有較高的敏感性。報(bào)道如下。
1.1測(cè)試數(shù)據(jù)來源 采用常規(guī)方法[7-9]生成與41種畸形綜合征相關(guān)的3 075例模擬病患作為測(cè)試數(shù)據(jù)。并通過本地的ES測(cè)序數(shù)據(jù)以及相關(guān)患者表型集作為真實(shí)的測(cè)試數(shù)據(jù)集進(jìn)行驗(yàn)證。
1.1.1模擬患者數(shù)據(jù)集 HPO表型與疾病(基因)關(guān)聯(lián)數(shù)據(jù)庫下載自其網(wǎng)站(https://hpo.jax.org//)。41種畸形綜合征以及其相對(duì)應(yīng)的HPO表型發(fā)生頻率列表下載自Genecards[10]網(wǎng)站(https://www.genecards.org//)。
為了給每種畸形綜合征生成25位模擬患者,首先對(duì)每個(gè)疾病關(guān)聯(lián)表型生成1個(gè)介于 0 和 100 之間的隨機(jī)整數(shù),如果該數(shù)字小于100例患者的相對(duì)發(fā)生率(頻率*100),則保留相應(yīng)的表型;生成的隨機(jī)數(shù)小于相對(duì)發(fā)生率的表型則剔除該名模擬患者的表型集。最終生成的初始數(shù)據(jù)集1共包含1 025例模擬患者以及其對(duì)應(yīng)的模擬表型集的數(shù)據(jù)集1(無噪聲數(shù)據(jù),無不準(zhǔn)確數(shù)據(jù))。隨之,將與潛在疾病無關(guān)的表型(數(shù)量為初始數(shù)據(jù)集中各樣本的模擬表型數(shù)量的一半)添加到初始表型集數(shù)據(jù)中來生成具有“噪聲”的模擬患者數(shù)據(jù)集2(有噪聲數(shù)據(jù),無不準(zhǔn)確數(shù)據(jù))。最后,通過將數(shù)據(jù)集1中的每個(gè)表型隨機(jī)替換成其的先祖表型以生成具有“不準(zhǔn)確性”的數(shù)據(jù)集,并加入數(shù)據(jù)集2中生成的噪聲表型,來獲取同時(shí)具有不準(zhǔn)確性和噪聲表型組的數(shù)據(jù)集3(有噪聲數(shù)據(jù),有不準(zhǔn)確數(shù)據(jù)),也是模擬數(shù)據(jù)集中最貼近臨床診斷環(huán)境的模擬患者數(shù)據(jù)集。
1.1.2真實(shí)患者數(shù)據(jù)集 選取385例經(jīng)臨床醫(yī)師診斷的南京地區(qū)患者樣本作為后續(xù)的測(cè)試數(shù)據(jù),數(shù)據(jù)來自博圣醫(yī)學(xué)檢驗(yàn)室的ES測(cè)序數(shù)據(jù),采樣時(shí)間為2021年9月至2022年3月。所有樣本均經(jīng)過臨床醫(yī)師診斷并確診相關(guān)疾病。其中產(chǎn)前樣本134例,超聲及影像學(xué)檢驗(yàn)報(bào)告異常后送檢;產(chǎn)后樣本中男性136例,女性患者115例,年齡為0~54歲,中位年齡6歲,經(jīng)臨床醫(yī)師診斷疑似患有遺傳性疾病后送檢。各送檢單位在檢測(cè)前均簽署知情同意書。測(cè)序數(shù)據(jù)根據(jù)美國醫(yī)學(xué)遺傳學(xué)和基因組學(xué)學(xué)會(huì)(the American College of Medical Genetics and Genomics, ACMG)指南[11],構(gòu)建質(zhì)量和人群頻率閾值、致病性規(guī)則,過濾掉低質(zhì)量、高頻率和良性變異,得到可用于醫(yī)學(xué)遺傳分析的變異結(jié)果?;颊咚技膊“ü趋老到y(tǒng)疾病、泌尿系統(tǒng)疾病和眼科疾病等單基因疾病。
1.2方法
1.2.1表型間相似性計(jì)算方法 HPO提供人類疾病中用于描述表型異常的標(biāo)準(zhǔn)詞匯,以及其所對(duì)應(yīng)疾病數(shù)據(jù),來源于分類學(xué)方法對(duì)人類孟德爾遺傳數(shù)據(jù)庫(Online Mendelian Inheritance in Man, OMIM)[12]中的表型進(jìn)行的文本挖掘和歸納。HPO中的表型依據(jù)相互之間的關(guān)系被組織為有向無環(huán)圖,以描述表型特征及相互之間的聯(lián)系。見圖1。
注:表型之間的關(guān)系由分類學(xué)中的概念is_a(is ancestor)定義,即箭頭所指的表型為箭頭另一端表型的先祖表型。父表型比子表型更具有通用性,而子表型比父表型更具有特異性[13]。
本研究提出的新方法Depth對(duì)任意表型之間相似性度量值計(jì)算公式如下:
在上述公式中,root為HP:0000001,ta、tb為任意2個(gè)HPO表型,dist(ta,tb)表示ta,tb2個(gè)表型到其任意共同先祖的最短距離之和的最小值,也即是將HPO的有向無環(huán)圖轉(zhuǎn)換為無向圖后,ta,tb2個(gè)表型之間的最短距離。
1.2.2表型集之間相似性計(jì)算方法 本方法選擇使用效果相對(duì)較好的單邊搜索算法獲取臨床觀察到的患者表型集與相關(guān)疾病(基因)所對(duì)應(yīng)的表型譜之間的相似性,公式:
simone-sided(Q→D)=avg[∑t1∈Qmaxt2∈Dsim(t1,t2)]
(2)
其中Q是要查詢的HPO表型集(觀察到的患者表型),D是注釋到給定疾病的HPO表型集,sim(ta,tb) 即為公式1中求得ta,tb的相似性。
1.3統(tǒng)計(jì)學(xué)分析 使用Python的random包生成模擬測(cè)試數(shù)據(jù)。通過Matplotlib繪制折線圖進(jìn)行圖畫化的性能分析。Depth和其他已有方法的性能比對(duì)則通過對(duì)患者表型集與每種候選疾病之間的相似性度量值排序,統(tǒng)計(jì)患者對(duì)應(yīng)疾病排名在每種方法的候選疾病列表中前二十位以內(nèi)的患者數(shù)量,該數(shù)字越大則對(duì)應(yīng)方法的敏感性越高。在難以直接通過圖表直觀確定方法的優(yōu)劣時(shí),采用Python包scipy進(jìn)行Wilcoxon秩和單邊檢驗(yàn)以驗(yàn)證不同方法之間的性能優(yōu)劣。
2.1模擬患者的檢驗(yàn)結(jié)果 本研究將Depth和其他5種已有方法分別計(jì)算患者表型集與每種候選疾病之間的相似性,然后根據(jù)它們的相似性度量值對(duì)所有候選疾病進(jìn)行降序排列。真實(shí)疾病的排名越靠前,算法的性能就越好。在每個(gè)模擬數(shù)據(jù)集中,統(tǒng)計(jì)患者對(duì)應(yīng)疾病排名在每種方法的候選疾病列表中前二十位以內(nèi)的患者數(shù)量,該數(shù)字越大則對(duì)應(yīng)方法的敏感性越高。3個(gè)模擬數(shù)據(jù)集中的比較結(jié)果見表1及圖2。
表1 6種方法在3個(gè)模擬數(shù)據(jù)集中的排序結(jié)果匯總
在數(shù)據(jù)集1中,Depth的敏感性低于Resnik和Gong的方法,與剩余3種方法相似。見圖2A。在數(shù)據(jù)集2中,Depth的敏感性僅次于Gong,高于其他4種方法。見圖2B。在同時(shí)包含噪聲數(shù)據(jù)以及不準(zhǔn)確數(shù)據(jù)的數(shù)據(jù)集3中,Depth在模擬患者數(shù)據(jù)集中展示出了與Gong類似的性能,Gong的方法對(duì)應(yīng)疾病排名在候選列表的第一、前五、前十、前二十位的百分比分別為24.68%、42.24%、50.73%、59.41%,Depth對(duì)應(yīng)疾病排名在候選列表的第一、前五、前十、前二十位的百分比分別為19.31%、37.85%、47.90%、58.04%,而其他幾種方法中最常使用的Resnik對(duì)應(yīng)疾病排名在候選列表的第一、前五、前十、前二十位的百分比分別為7.71%、18.83%、26.92%、37.07%,新方法與包括Resnik在內(nèi)的其他4種方法排序的敏感性相比均有了較大的提升。見圖2C。
注:A,B,C分別為數(shù)據(jù)集1,2,3;橫軸為模擬病例所對(duì)應(yīng)的真實(shí)疾病在6種方法中的排序秩次,縱軸為排序結(jié)果小于對(duì)應(yīng)秩次的患者數(shù)。
2.2385例本地?cái)?shù)據(jù)結(jié)果 本地測(cè)序數(shù)據(jù)集上的比較結(jié)果見表2及圖3。Depth對(duì)應(yīng)致病基因排名在候選列表的第一、前五、前十、前二十位的百分比分別為41.56%、51.43%、58.18%、64.68%,而這些數(shù)據(jù)在Gong和Resnik方法生成的排序結(jié)果中則分別為37.40%、51.43%、56.88%、64.94%以及35.58%、45.94%、53.52%、60%。分別將排名前二十位的患者數(shù)量進(jìn)行單邊Wilcoxon秩和檢驗(yàn),結(jié)果表明Depth的排序敏感性優(yōu)于Resnik方法和Gong方法(P<0.001)。
表2 3種方法在真實(shí)患者數(shù)據(jù)集上的排序結(jié)果匯總
注:橫軸為本地?cái)?shù)據(jù)集上3種方法的排序秩次,縱軸為排序結(jié)果小于對(duì)應(yīng)秩次的患者數(shù)。
近年來,HPO已被廣泛應(yīng)用到各種表型相關(guān)的領(lǐng)域中。Phenomizer的Web應(yīng)用程序提供基于HPO的本體相似性搜索,以幫助臨床醫(yī)生識(shí)別罕見病病因[6]。PheNominal是1個(gè)嵌入在電子健康記錄(electronic health record,EHR)工作流程中的即時(shí)網(wǎng)絡(luò)應(yīng)用程序,用于從非標(biāo)準(zhǔn)化文本中捕獲標(biāo)準(zhǔn)化的表型數(shù)據(jù)[14]。AMELIE解析了PubMed提供的2 900萬篇摘要以及數(shù)十萬篇全文文章,從文獻(xiàn)中挖掘與表型相關(guān)的疾病信息[15]。此外,有數(shù)種方法將基于HPO表型信息與基因突變的基因型數(shù)據(jù)進(jìn)行結(jié)合,以進(jìn)行基因變異致病性的優(yōu)先級(jí)排序,這類方法包括PHIVE/Exomiser、PhenoVar和Xrare等。
本方法提出的基于HPO拓?fù)湫畔⒌男卤硇拖嗨菩远攘糠椒ǎ捎糜谧R(shí)別致病基因并加速疾病診斷。依據(jù)2個(gè)表型與DAG根節(jié)點(diǎn)的總距離設(shè)計(jì)了正則化項(xiàng),使得在表型間拓?fù)渚嚯x相同時(shí),相似度計(jì)量值跟隨表型與根節(jié)點(diǎn)的距離增加而減小,既滿足了分類學(xué)中相似性度量的三大原則,又兼顧了HPO中由上而下特異性不斷提高的特點(diǎn)。另一方面,本方法的計(jì)量值計(jì)算僅依據(jù)拓?fù)湫畔?,不依賴注釋到每個(gè)表型的疾病信息來計(jì)算IC值,因此在計(jì)算尚未有相關(guān)聯(lián)疾病或致病基因被發(fā)現(xiàn)的表型間相似性時(shí),計(jì)算出的相似性度量值比依據(jù)IC值類方法更準(zhǔn)確。
模擬患者檢驗(yàn)結(jié)果顯示,本方法在最接近臨床的數(shù)據(jù)集3(有噪聲數(shù)據(jù)且有不準(zhǔn)確數(shù)據(jù))中的敏感性僅次于Gong的方法,高于其他4種方法;而在385例本地?cái)?shù)據(jù)測(cè)試中,本方法的敏感性經(jīng)Wilcoxon秩和檢驗(yàn)高于其他方法。本方法的局限性有以下幾個(gè)方面:(1)雖然使用了真實(shí)患者的ES測(cè)序結(jié)果作為測(cè)試數(shù)據(jù),但樣本量仍不夠多,有待于更多實(shí)際臨床應(yīng)用的驗(yàn)證;(2)完全基于HPO所生成的有向無環(huán)圖進(jìn)行計(jì)算,因此方法的排序準(zhǔn)確性高度依賴該圖中表型分類的精確性;(3)未能結(jié)合更多的信息(蛋白質(zhì)通路分析等)進(jìn)行綜合性判斷,相似性計(jì)算結(jié)果仍依賴于表型信息。綜上所述,本研究提出的新方法具有較高敏感性,增加了臨床中各類先天性疾病識(shí)別的準(zhǔn)確性,有望提高臨床醫(yī)生的工作效率,具有較高的臨床應(yīng)用潛力。