(河北醫(yī)科大學(xué)法醫(yī)學(xué)院,河北 石家莊 050017)
盡管各國(guó)法庭科學(xué)DNA數(shù)據(jù)庫已極大發(fā)展,但現(xiàn)場(chǎng)生物檢材與庫中數(shù)據(jù)比對(duì)為零的情況仍時(shí)有發(fā)生。如果能夠通過科學(xué)方法從生物檢材中獲取年齡等個(gè)體信息,可以為案件偵破提供重要線索。自從HORVATH[1]提出“表觀遺傳時(shí)鐘”,即353個(gè)CpG位點(diǎn)的年齡推斷模型,利用DNA甲基化準(zhǔn)確推斷年齡成為現(xiàn)實(shí)。DNA甲基化由屬于DNA甲基轉(zhuǎn)移酶(DNA methyltransferase,DNMT)家族的酶調(diào)節(jié),其將甲基從S-腺苷-1-甲硫氨酸(S-adenosylmethionine,SAM)轉(zhuǎn)移至胞嘧啶嘧啶環(huán)的5-位[2]。一般而言,隨著個(gè)體逐漸變老,DNA低甲基化在整個(gè)基因組中的分布增加(影響啟動(dòng)子、外顯子、內(nèi)含子和基因間區(qū)域),而年齡相關(guān)高甲基化位點(diǎn)更具體地定位于某些啟動(dòng)子中的CpG島[3]。筆者總結(jié)了近年來對(duì)DNA甲基化推斷人類年齡的研究成果,為進(jìn)一步研究提供參考。
通常認(rèn)為,DNA甲基化(DNA methylation,DNAm)具有組織特異性,但是這種特異性的表現(xiàn)形式還不明確。SEHL等[4]使用“表觀遺傳時(shí)鐘”推斷健康女性乳腺組織和外周血的DNAm年齡,發(fā)現(xiàn)乳腺組織的DNAm年齡顯著高于外周血,并且二者的絕對(duì)差異隨年齡增長(zhǎng)逐漸減小。在血液中,位于CpG島上的CpG位點(diǎn)的甲基化水平隨年齡增長(zhǎng)而升高,而在乳腺組織中,位于CpG島外的CpG位點(diǎn)的甲基化水平與年齡正相關(guān)。這些結(jié)果表明,血液和乳腺組織的DNAm年齡和甲基化模式存在差異。SLIEKER等[5]認(rèn)為大多數(shù)年齡相關(guān)差異甲基化位點(diǎn)(age-related differentially methylated position,aDMP)僅出現(xiàn)在一種組織中,甚至aDMP所位于的功能基因組區(qū)域和距離CpG最近的基因表達(dá)都具有組織特異性,且不同組織中aDMP的數(shù)量差異很大,隨年齡的變化率(甲基化變化值與時(shí)間的比值,多以變化值/10年為單位)也不相同,然而并沒有發(fā)現(xiàn)年齡相關(guān)DNA甲基化位點(diǎn)所在的基因表達(dá)發(fā)生改變,說明這種甲基化變化對(duì)基因功能影響不大。
而ZHU等[6]認(rèn)為SLIEKER等[5]的研究存在一些問題,如僅使用甲基化變化率篩選位點(diǎn)容易受到β值方差不齊、選擇偏倚等混雜因素的影響(如不易選出β值比較接近0或1的位點(diǎn)),篩選共享aDMP使用的Bonferroni閾值過于嚴(yán)格,會(huì)產(chǎn)生較高的假陰性率,并且在一些復(fù)雜組織中沒有分離不同類型的細(xì)胞,僅使用甲基化變化速度閾值會(huì)少識(shí)別很多aDMP,導(dǎo)致DNA甲基化位點(diǎn)具有很強(qiáng)的組織特異性。因此,ZHU等[6]使用了兩種顯著性閾值[FDR(false discovery rate)閾值和Bonferroni校正],并且評(píng)估了aDMP之間t統(tǒng)計(jì)量的一致性,發(fā)現(xiàn)大多數(shù)aDMP同時(shí)存在于幾種血細(xì)胞中,并且在血液、口腔黏膜、子宮頸細(xì)胞之間有許多相同的aDMP。估計(jì)至少有70%的aDMP是兩種或以上的細(xì)胞或組織共有的,aDMP的組織特異性在于其甲基化值在不同組織中變化的方向和速率不同。同時(shí)證明了篩選3種不同組織中共有的aDMP,至少需要數(shù)百個(gè)樣本。EIPEL等[7]使用在血液中已開發(fā)的3個(gè)CpG位點(diǎn)模型計(jì)算口腔拭子樣本的DNA甲基化年齡,與實(shí)際年齡相比平均高估了14.6歲;使用這3個(gè)位點(diǎn)重新訓(xùn)練模型,訓(xùn)練組平均絕對(duì)誤差為4.3歲,驗(yàn)證組平均絕對(duì)誤差為7.03歲。NAUE等[8]發(fā)現(xiàn)ELOVL2、DDO1、KLF14、TRIM59、ZYG11A、RPA2和NKIRAS2基因在所研究的5種樣本(全血、大腦、骨骼、肌肉和口腔拭子)中都表現(xiàn)出年齡相關(guān)性,只是這些位點(diǎn)在不同組織中甲基化水平隨時(shí)間改變的回歸直線存在差異。這些研究也都說明了aDMP的組織特異性在不同組織中變化的方向和速率不同。NAUE等[8]還提出一種假設(shè):“白細(xì)胞污染”的量決定了其他組織與血液在年齡推斷方面的相似程度。LI等[9]將從血液中篩選出的6個(gè)CpG位點(diǎn)應(yīng)用于唾液甲基化檢測(cè)中,兩種樣本之間的甲基化年齡與實(shí)際年齡的平均絕對(duì)誤差相似。ALIFERI等[10]使用唾液樣本和精液樣本,將精液樣本中精子和上皮細(xì)胞分離,將唾液的DNA甲基化值應(yīng)用于全血樣本推斷模型(平均絕對(duì)誤差為4.7歲)中,得到的平均絕對(duì)誤差為7.3歲,與血液樣本相比,誤差增加較小,表明有可能開發(fā)血液和唾液通用的模型。但是這些位點(diǎn)在所有精子樣本的甲基化程度均為0,無法使用精子DNAm推斷年齡。然而,JENKINS等[11]在先前的研究中成功分離了精子和體細(xì)胞,并得到了精子的甲基化數(shù)據(jù),使用這些數(shù)據(jù)建立了精子DNA甲基化年齡推斷模型,平均絕對(duì)誤差為2.04歲,并且在另外10個(gè)獨(dú)立樣本中進(jìn)行了技術(shù)驗(yàn)證和重復(fù)性測(cè)試,平均絕對(duì)誤差為2.37歲,同一樣本的幾次重復(fù)之間標(biāo)準(zhǔn)差為0.877歲,結(jié)果具有較強(qiáng)的重復(fù)性。
JUNG等[12]驗(yàn)證了血液、唾液和口腔拭子共448個(gè)樣本中ELOVL2、FHL2、KLF14、C1orf132/MIR29B2C和TRIM59基因的5個(gè)CpG位點(diǎn)。ELOVL2、KLF14和TRIM59基因的CpG位點(diǎn)在3種樣本中都顯示出了DNA甲基化與年齡的高度相關(guān)性。FHL2和C1orf132/MIR29B2C基因中的CpG位點(diǎn)在血液和唾液中DNA甲基化與年齡高度相關(guān),而在口腔拭子中表現(xiàn)為中等相關(guān)性。對(duì)3種樣本分別建模,在血液模型中,訓(xùn)練組平均絕對(duì)誤差為3.174歲,均方根誤差為3.876歲,驗(yàn)證組平均絕對(duì)誤差為3.478歲;在唾液模型中,訓(xùn)練組平均絕對(duì)誤差為3.291歲,均方根誤差為4.106歲,驗(yàn)證組平均絕對(duì)誤差3.552歲;在口腔拭子模型中,訓(xùn)練組平均絕對(duì)誤差3.822歲,均方根誤差4.551歲,驗(yàn)證組平均絕對(duì)誤差4.293歲。然后又將3種樣本一起建模,訓(xùn)練組平均絕對(duì)誤差3.553歲,均方根誤差4.430歲,驗(yàn)證組平均絕對(duì)誤差3.844歲。最后分別計(jì)算了模型中3種樣本的平均絕對(duì)誤差,與各自模型中的平均絕對(duì)誤差相似。
總 的 來 說,ELOVL2、KLF14、ASPA、TRIM59、NHLRC1、SCGN、CSNK1D表現(xiàn)出了較好的跨組織推斷年齡的能力,在更多的組織中驗(yàn)證這些基因中的CpG位點(diǎn)并繼續(xù)篩選可用于多種組織以推斷年齡的基因位點(diǎn)是今后的研究重點(diǎn)。
法醫(yī)學(xué)鑒定實(shí)踐中經(jīng)常要面臨降解檢材和微量物證,這就需要驗(yàn)證DNA甲基化檢測(cè)能否應(yīng)用于這些檢材。LEE等[13]使用甲基化SNaPshot對(duì)亞硫酸氫鹽轉(zhuǎn)化后的10、5、2.5、1.25、0.625、0.312 5 ng的DNA進(jìn)行靈敏度檢驗(yàn),結(jié)果顯示,使用>5ng的轉(zhuǎn)化后DNA可以得到可靠一致的結(jié)果;使用鑒定案件中的樣本(保存時(shí)間3個(gè)月~7年)進(jìn)行法醫(yī)學(xué)應(yīng)用研究,亞硫酸氫鹽轉(zhuǎn)化后的DNA量為1.97~12.8ng,推斷年齡與實(shí)際年齡的平均絕對(duì)偏差5.2歲,均方根誤差6.1歲。有研究[10]使用大規(guī)模平行測(cè)序發(fā)現(xiàn),10 ng的起始DNA量(約2ng的轉(zhuǎn)化后DNA量)可以保持較高的準(zhǔn)確性,某些位點(diǎn)如cg07158339、cg0693994和cg20692569在1 ng的起始DNA量時(shí)仍可保證測(cè)定準(zhǔn)確性。HONG等[14]評(píng)估了其開發(fā)的多重甲基化SNaPshot方法的靈敏度,使用10ng基因組DNA或4ng亞硫酸氫鹽轉(zhuǎn)化后DNA獲得的結(jié)果與較高模板DNA量得到的推斷年齡結(jié)果一致,使用2 ng或更少的亞硫酸氫鹽轉(zhuǎn)化后DNA出現(xiàn)等位基因丟失。
HAMANO等[15]比較了活體血液和尸體血液的甲基化年齡推斷,發(fā)現(xiàn)二者并沒有顯著差異。
在白骨化的尸體中,只能獲得骨骼和牙齒作為生物檢材,從其中獲得生物信息尤為重要。NAUE等[8]首次使用骨骼(來源于尸體檢驗(yàn),無腐敗跡象)DNA的甲基化進(jìn)行年齡推斷,很多標(biāo)記都顯示了很強(qiáng)的年齡相關(guān)性,RPA2、DDO、KLF14甚至超過了血液。GIULIANI等[16]根據(jù)牙齒(取自活體)的組織結(jié)構(gòu)分別建立了牙髓模型(13個(gè)CpG位點(diǎn))、牙本質(zhì)模型(5個(gè)CpG位點(diǎn))、牙骨質(zhì)模型(8個(gè)CpG位點(diǎn))以及包含牙骨質(zhì)和牙髓兩種組織的模型(8個(gè)CpG位點(diǎn)),推斷年齡與實(shí)際年齡誤差中位數(shù)分別為2.25、7.07、2.45、1.20歲,但是當(dāng)從整顆牙中提取DNA時(shí)發(fā)現(xiàn)只有1個(gè)CpG位點(diǎn)的甲基化水平與年齡相關(guān)。
綜上,不同甲基化檢測(cè)技術(shù)的靈敏度存在差異,使用5ng以上的亞硫酸氫鹽轉(zhuǎn)化后DNA可以得到較為可靠的結(jié)果。降解檢材的DNA片段變短,某些位點(diǎn)在設(shè)計(jì)擴(kuò)增引物時(shí)只能得到較長(zhǎng)的擴(kuò)增片段,應(yīng)該盡量避免這類位點(diǎn)。對(duì)擴(kuò)增引物進(jìn)行優(yōu)化,盡量縮短擴(kuò)增片段也可以提高DNA甲基化檢測(cè)的靈敏度。
目前,檢測(cè)DNA甲基化的方法有多種,如焦磷酸測(cè)序[12]、甲基化 SNaPshot[12]、Illumina 27/450k 陣列[17]、MPS[18]、EpiTYPER[19]等。但是由于每種平臺(tái)之間的技術(shù)差異,導(dǎo)致測(cè)定的甲基化水平也有所不同,如甲基化SNaPshot測(cè)得的甲基化水平高于焦磷酸測(cè)序[12,18],因此基于某種平臺(tái)開發(fā)的DNA甲基化年齡推斷模型并不適用于另一種平臺(tái)。在基于450k陣列數(shù)據(jù)建立的廣義回歸神經(jīng)網(wǎng)絡(luò)模型使用二代測(cè)序獲得的甲基化數(shù)據(jù),平均絕對(duì)誤差增加了3歲以上[10,20]。將甲基化SNaPshot數(shù)據(jù)應(yīng)用到基于焦磷酸測(cè)序數(shù)據(jù)建立的模型中,平均絕對(duì)誤差由3.384歲增加到4.368歲[12]。將焦磷酸測(cè)序數(shù)據(jù)應(yīng)用到基于EpiTYPER數(shù)據(jù)開發(fā)的模型中,平均絕對(duì)誤差約增加2歲,±5歲的準(zhǔn)確率和±6歲的準(zhǔn)確率都下降了約20%[19]。將二代測(cè)序數(shù)據(jù)應(yīng)用到基于甲基化SNaPshot開發(fā)的模型中,平均絕對(duì)誤差和均方根誤差甚至增加了20歲以上[18]。
有研究[8,19]使用z-score轉(zhuǎn)換來減小不同平臺(tái)之間的差異,也有研究[20]在機(jī)器學(xué)習(xí)中加入額外的變異層,但是效果都不太理想,并且應(yīng)用z-score轉(zhuǎn)換有諸多條件。HONG等[18]在模型中引入“平臺(tái)變量”,新模型在包括兩種數(shù)據(jù)的驗(yàn)證組中的平均絕對(duì)誤差為3.19歲,均方根誤差為4.03歲,平均絕對(duì)百分比誤差為8.89%;并且如果平臺(tái)增多,只需要增加平臺(tái)變量就可以建立新的模型;使用MPS、SNaPshot和450k陣列3種平臺(tái)的DNA甲基化數(shù)據(jù)建立的新模型的平均絕對(duì)誤差為3.62歲,平均絕對(duì)百分比誤差為9.36%,成功消除了不同平臺(tái)間的差異。
通常使用的普通最小二乘法回歸模型基于幾個(gè)假設(shè),其中包括方差齊性和線性。然而由于表觀遺傳衰老速度的個(gè)體差異,推斷誤差隨著年齡的增長(zhǎng)而增加,表現(xiàn)為方差不齊。已有研究[21]發(fā)現(xiàn)年齡相關(guān)CpG位點(diǎn)甲基化水平隨年齡變化的非線性模式。
SMEERS等[22]比較了普通最小二乘法、加權(quán)最小二乘法和分位數(shù)回歸三種線性回歸模型,在模型中增加了相應(yīng)變量的二次項(xiàng)。三個(gè)模型的平均絕對(duì)誤差都接近3.20歲(相差小于0.06),均方根誤差都在4.60歲左右,主要差異是在加權(quán)最小二乘法和分位數(shù)回歸模型中,推斷區(qū)間隨年齡增加而變大,在普通最小二乘法回歸中所有年齡段的推斷區(qū)間保持不變。其他關(guān)于線性方法的研究,如FREIRE-ARADAS等[23]建立的分位數(shù)回歸模型和FENG等[19]建立的逐步向后回歸法也獲得了較高的準(zhǔn)確性。自從VIDAKI等[20]首次將機(jī)器學(xué)習(xí)方法應(yīng)用于法醫(yī)學(xué)年齡推斷,許多研究開始使用這一方法。在大樣本量的研究中,機(jī)器學(xué)習(xí)方法與線性回歸相比展示出極強(qiáng)的推斷準(zhǔn)確性[9,20]。然而在幾十到數(shù)百個(gè)樣本的研究中,機(jī)器學(xué)習(xí)方法的準(zhǔn)確性沒有明顯的改善[10,18-19,24-25]。在不同的研究中表現(xiàn)最好的機(jī)器學(xué)習(xí)方法也不相同[9-10,19,22]。同時(shí),在模型中應(yīng)用插補(bǔ)算法,在缺少某些位點(diǎn)信息的情況下也能得出相對(duì)準(zhǔn)確的結(jié)果[19]。
整體來說,機(jī)器學(xué)習(xí)方法在海量數(shù)據(jù)中定量描述年齡與DNA甲基化水平數(shù)量上的依存關(guān)系的能力是傳統(tǒng)回歸方法不可比擬的。在將來的研究中繼續(xù)比較不同機(jī)器學(xué)習(xí)方法之間的差別,以期找到最適合DNA甲基化年齡推斷的模型。
有些CpG位點(diǎn)隨年齡的變化曲線類似二次函數(shù)[21];有些CPG位點(diǎn)在幼年到成年前呈指數(shù)變化[26],在成年后變化比較穩(wěn)定;使用成年人中確定的110個(gè)CpG位點(diǎn)[1]推斷兒童的年齡,產(chǎn)生了很大的誤差,中位數(shù)絕對(duì)誤差為11.4歲,推斷年齡與實(shí)際年齡的相關(guān)性為0.66;樣本年齡范圍較大(11.0~92.9歲)也可能導(dǎo)致較大的推斷誤差[10]。這些結(jié)果都表明未成年人與成年人的DNA甲基化模式不同。
FREIRE-ARADAS等[26]使用6個(gè)CpG位點(diǎn)建立了未成年人的分位數(shù)回歸模型。訓(xùn)練組的中位數(shù)絕對(duì)誤差為0.94歲,正確推斷率為77.78%;測(cè)試組的中位數(shù)絕對(duì)誤差為1.25歲,正確推斷率為62.07%。LI等[27]使用83個(gè)新發(fā)現(xiàn)的CpG位點(diǎn)為6~17歲的兒童和青少年建立了線性混合效應(yīng)回歸模型(44對(duì)同卵雙胞胎和46對(duì)異卵雙胞胎),訓(xùn)練組的中位數(shù)絕對(duì)誤差為0.23歲,驗(yàn)證組的中位數(shù)絕對(duì)誤差為0.62歲;然而將雙胞胎中的一個(gè)分到訓(xùn)練組、另一個(gè)分到驗(yàn)證組,導(dǎo)致訓(xùn)練組和驗(yàn)證組的DNA甲基化年齡很相近[20],所以在驗(yàn)證組中才會(huì)產(chǎn)生如此低的誤差。SHI等[28]將DNA甲基化與骨骼、牙齒結(jié)合起來對(duì)兒童進(jìn)行年齡推斷,使用多元線性逐步回歸方法對(duì)男女孩分別建立模型,男孩的平均絕對(duì)誤差為0.50歲,女孩的平均絕對(duì)誤差為0.37歲,該研究首次發(fā)現(xiàn)PRPH2和DHX8基因相關(guān)的CpG位點(diǎn)與年齡顯著相關(guān)。
雖然涉及未成年人的案件與日俱增,但是對(duì)于兒童和青少年的DNA甲基化年齡推斷的研究還不夠深入,鑒于未成年人的甲基化年齡誤差似乎不超過1歲,有望開發(fā)出推斷準(zhǔn)確性很高的未成年人年齡推斷模型。
有研究[29]表明,很多年齡相關(guān)甲基化位點(diǎn)位于常見疾病的相關(guān)基因座中,那么在某些疾病的影響下,DNA甲基化推斷年齡的準(zhǔn)確性也可能受到影響。
VIDAKI等[20]使用一組包括多種疾病的甲基化數(shù)據(jù)驗(yàn)證基于血液甲基化數(shù)據(jù)開發(fā)的廣義回歸神經(jīng)網(wǎng)絡(luò)模型,平均絕對(duì)誤差為7.18歲,明顯高于健康人[(3.8±3.3)歲]。只分析血液相關(guān)疾病的患者,平均絕對(duì)誤差明顯更高(12.47歲)。1型糖尿病患者平均絕對(duì)誤差為8.63歲,貧血患者平均絕對(duì)誤差為14.38歲,骨髓疾?。òò籽。┗颊咂骄^對(duì)誤差為11.09歲,卵巢癌患者平均絕對(duì)誤差為7.45歲,乳腺癌患者平均絕對(duì)誤差為6.77歲,精神分裂癥患者平均絕對(duì)誤差為5.03歲。LI等[9]分析了健康人的血液甲基化數(shù)據(jù)和多種患者的血液甲基化數(shù)據(jù)。在健康人中,訓(xùn)練組平均絕對(duì)誤差2.72歲,均方根誤差4.55歲,驗(yàn)證組平均絕對(duì)誤差4.06歲。在患者中,訓(xùn)練組平均絕對(duì)誤差5.91歲,均方根誤差7.81歲,驗(yàn)證組平均絕對(duì)誤差6.99歲?;颊叩哪挲g誤差明顯高于健康人,且頭頸鱗癌、卵巢癌、乳腺癌、結(jié)直腸癌和其他原發(fā)性腫瘤患者的誤差要高于1型糖尿病、克羅恩病、潰瘍性結(jié)腸炎、精神分裂癥、類風(fēng)濕性關(guān)節(jié)炎患者。
SPóLNICKA等[24]分析了ELOVL2、C1orf132、KLF14、FHL2和TRIM59基因中的甲基化標(biāo)志物在晚發(fā)性阿爾茨海默病、早發(fā)性阿爾茨海默病、毒性彌漫性甲狀腺腫患者中的年齡推斷能力。在晚發(fā)性阿爾茨海默病患者中,5個(gè)位點(diǎn)的甲基化水平都沒有改變;在早發(fā)性阿爾茨海默病患者中,TRIM59和KLF14標(biāo)志物發(fā)生異常的高甲基化水平,并且這種改變?cè)谀贻p組中更明顯;在毒性彌漫性甲狀腺腫患者中TRIM59發(fā)生異常的高甲基化水平,F(xiàn)HL2發(fā)生異常的低甲基化水平,同樣這些改變?cè)谀贻p組中更明顯。使用5個(gè)位點(diǎn)建立模型,在晚發(fā)性阿爾茨海默病患者中沒有發(fā)現(xiàn)準(zhǔn)確性下降,在早發(fā)性阿爾茨海默病患者中推斷準(zhǔn)確性降低只在年輕組中出現(xiàn),在毒性彌漫性甲狀腺腫患者中準(zhǔn)確性沒有下降,表明TRIM59和FHL2改變的效應(yīng)相互平衡。其先前的研究[30]還發(fā)現(xiàn),在造血干細(xì)胞移植后的患者中C1orf132發(fā)生高甲基化,由于造血干細(xì)胞移植和早發(fā)性阿爾茨海默病的病例很少,因此對(duì)法醫(yī)學(xué)年齡推斷的影響也較小。WOLF等[31]研究了創(chuàng)傷后應(yīng)激障礙(post-traumatic stress disorder,PTSD)患者的外周血DNA甲基化年齡,使用“表觀遺傳時(shí)鐘”和Hannum模型[32],DNA甲基化年齡與實(shí)際年齡的相關(guān)系數(shù)分別為0.88和0.87,僅發(fā)現(xiàn)PTSD嚴(yán)重程度與Hannum模型的DNA甲基化年齡殘差呈正相關(guān)。SORIANO-TARRAGA等[33]同樣使用了這兩種模型研究了缺血性卒中患者與健康人的DNA甲基化年齡的差異。使用Hannum模型,缺血性卒中患者的平均誤差比健康人大2.5歲,僅在年輕組(≤57歲)中差異有統(tǒng)計(jì)學(xué)意義;使用“表觀遺傳時(shí)鐘”,缺血性卒中患者的平均誤差與健康人相似。JENKINS等[11]發(fā)現(xiàn)吸煙人群比不吸煙人群的精子DNA甲基化年齡趨向增加,并且在年輕個(gè)體(<35歲)中更明顯。
許多疾病都會(huì)影響年齡推斷的準(zhǔn)確性,尤其在癌癥或年齡相關(guān)疾病的早發(fā)人群中更為明顯?!氨碛^遺傳時(shí)鐘”受疾病的影響要小于Hannum模型,可能有“表觀遺傳時(shí)鐘”包含的CpG位點(diǎn)遠(yuǎn)遠(yuǎn)多于Hannum模型,或者前者受疾病影響的CpG位點(diǎn)要少于Hannum模型。在今后的研究中,要盡量避免選擇疾病相關(guān)的CpG位點(diǎn),或者使用的CpG位點(diǎn)能夠評(píng)估受試者患某種疾病的可能性。
CHO等[34]使用決定系數(shù)最高的5個(gè)CpG位點(diǎn),平均絕對(duì)誤差為3.34歲;使用逐步回歸建立了6個(gè)CpG位點(diǎn)的模型,平均絕對(duì)誤差為3.29歲。EIPEL等[7]使用3個(gè)年齡相關(guān)CpG位點(diǎn)和口腔拭子中2個(gè)細(xì)胞類型特異性相關(guān)的CpG位點(diǎn)建立的模型提高了驗(yàn)證組中的推斷準(zhǔn)確性,以35歲為界限對(duì)年齡進(jìn)行分層,發(fā)現(xiàn)細(xì)胞類型CpG主要在年齡較高的人群中起作用。HONG等[14]選擇了6個(gè)年齡相關(guān)CpG位點(diǎn)和1個(gè)細(xì)胞類型特異性CpG位點(diǎn)建立的模型具有較高的推斷準(zhǔn)確性,訓(xùn)練組平均絕對(duì)誤差為3.13歲,均方根誤差為4.16歲;測(cè)試組平均絕對(duì)誤差為3.15歲,均方根誤差為4.43歲;在不包括細(xì)胞類型特異性CpG位點(diǎn)的模型中,平均絕對(duì)誤差為4.1歲。PARK等[35]從1 415人的450k陣列數(shù)據(jù)中篩選出25個(gè)年齡相關(guān)CpG位點(diǎn),檢查了1~25個(gè)位點(diǎn)所有可能組合的模型的平均絕對(duì)誤差;使用1個(gè)位點(diǎn)時(shí),平均絕對(duì)誤差最高,為4.14歲,使用2或3個(gè)位點(diǎn)時(shí),平均絕對(duì)誤差急劇減少,使用3個(gè)以上的位點(diǎn)時(shí),平均絕對(duì)誤差逐漸減少。由于某些位點(diǎn)不易進(jìn)行焦磷酸測(cè)序,在1~5個(gè)位點(diǎn)組合的前十位中,最終選擇了3個(gè)CpG位點(diǎn)(cg16867657、cg04208403、cg19283806)的組合,使用另一組獨(dú)立的樣本,建立多元線性回歸模型,訓(xùn)練組平均絕對(duì)誤差3.156歲,估計(jì)標(biāo)準(zhǔn)誤差為6.320歲,驗(yàn)證組中平均絕對(duì)誤差為3.346歲,估計(jì)標(biāo)準(zhǔn)誤差為6.853歲。EIPEL等[7]使用模型中貢獻(xiàn)最高的1個(gè)CpG位點(diǎn)建立的模型的訓(xùn)練組平均絕對(duì)誤差為5.2歲,驗(yàn)證組平均絕對(duì)誤差為7.6歲。ALGHANIM等[36]建立了唾液的單基因座(KLF14的CpG1和CpG2)和雙基因座(KLF14的CpG1和SCGN的CpG3)模型,二者訓(xùn)練組的平均絕對(duì)誤差分別為5.8歲和6.2歲,驗(yàn)證組的平均絕對(duì)誤差分別為8.0歲和7.1歲;又建立了血液的雙基因座模型(KLF14的CpG2和CpG3、SCGN的CpG1),訓(xùn)練組的平均絕對(duì)誤差為6.6歲,驗(yàn)證組的平均絕對(duì)誤差為10.3歲。HAMANO等[15]建立了2個(gè)CpG位點(diǎn)的年齡推斷模型,訓(xùn)練組的平均絕對(duì)誤差為7.44歲,驗(yàn)證組的平均絕對(duì)誤差為7.71歲。
顯然,越多的位點(diǎn)可以產(chǎn)生相對(duì)較低的推斷誤差,但是對(duì)成本和檢材的要求也就越高。法醫(yī)應(yīng)用要兼顧準(zhǔn)確性和檢材的情況,進(jìn)一步驗(yàn)證合適的位點(diǎn)數(shù)量可以更好地解決年齡推斷在法醫(yī)學(xué)實(shí)際應(yīng)用中存在的問題。
隨著對(duì)DNA甲基化進(jìn)行年齡推斷的研究不斷深入,目前已經(jīng)發(fā)現(xiàn)了一些可以用于多種組織的aDMP,但還需要在更多的組織中驗(yàn)證這些位點(diǎn)并篩選更多此類位點(diǎn),機(jī)器學(xué)習(xí)方法的應(yīng)用為建立更精確的推斷模型提供了良好的基礎(chǔ)。未成年人的推斷準(zhǔn)確性似乎遠(yuǎn)高于成年人,但是這方面的研究還比較有限。許多疾病都會(huì)影響年齡推斷的準(zhǔn)確性,尤其是癌癥和年齡相關(guān)疾病的早發(fā)型,因此在今后的研究中,要盡量避免選擇疾病相關(guān)的CpG位點(diǎn)。增加檢測(cè)位點(diǎn)可以產(chǎn)生相對(duì)較低的推斷誤差,但是對(duì)成本和檢材的要求也就越高,這就需要進(jìn)一步驗(yàn)證合適的位點(diǎn)數(shù)量以平衡二者之間的矛盾。由于DNA甲基化位點(diǎn)在不同種群中存在差異,故有必要進(jìn)一步研究不同群體中的年齡特異性甲基化位點(diǎn),并盡可能篩選出在群體間差異小的位點(diǎn),作為核心位點(diǎn)。