許冬 劉聰慧 蘇芳慧 邱思崢 童會(huì)霞
腦卒中是世界范圍內(nèi)第二大死亡原因,也是致殘的主要原因之一[1]。由于人口老齡化,其發(fā)病率正在隨之增加。腦卒中的發(fā)病率和死亡率因國(guó)家、種族、區(qū)域不同而異,大多數(shù)腦卒中的風(fēng)險(xiǎn)因素是可控可防的,如高血壓、糖尿病、高脂血癥等[2],但也有其他難以改變的風(fēng)險(xiǎn)因素,如年齡、性別和遺傳等。針對(duì)相關(guān)危險(xiǎn)因素的預(yù)防和治療措施在過(guò)去的數(shù)十年間顯著減少了腦卒中的發(fā)病率和復(fù)發(fā)率[3,4],因此持續(xù)探索腦卒中的相關(guān)風(fēng)險(xiǎn)因素與防控措施具有重要意義。近年來(lái),重金屬污染被認(rèn)為是心腦血管損害的一個(gè)危險(xiǎn)因素而成為研究熱點(diǎn),但是目前文獻(xiàn)中對(duì)重金屬和腦卒中的相關(guān)研究仍較少。
重金屬是自然界中廣泛存在的一類(lèi)物質(zhì),與人體健康相關(guān)的尤以鉛(Pb)、汞(Hg)、鎘(Cd)等為代表,目前已有很多研究揭示了它們對(duì)人體健康產(chǎn)生的負(fù)面影響[5,6]。隨著全球工業(yè)化和城市化進(jìn)程不斷加快,環(huán)境中富含這些重金屬物質(zhì)的化合物污染與日俱增,中國(guó)也難以避免地受到重金屬污染的影響[7,8]。因此探索這些重金屬與腦卒中的關(guān)系,為預(yù)防腦卒中的發(fā)生發(fā)展提供新方向便顯得尤為重要。
本研究試圖通過(guò)機(jī)器學(xué)習(xí)識(shí)別模型的方法,分析人群中重金屬與腦卒中的相關(guān)性,將重金屬含量特征融入傳統(tǒng)的影響因素中,為利用血樣中重金屬含量評(píng)價(jià)腦卒中風(fēng)險(xiǎn)提供有效的科學(xué)依據(jù)。
1.1 研究人群本研究數(shù)據(jù)來(lái)自于美國(guó)國(guó)家衛(wèi)生與營(yíng)養(yǎng)檢查調(diào)查(National Health and Nutrition Examination Survey,NHANES)橫斷面研究?;谠摍M斷面研究可以為公共衛(wèi)生政策和干預(yù)提供新的方向和幫助,目前已有很多研究通過(guò)NHANES 探究心腦血管疾病的危險(xiǎn)因素[9,10],但對(duì)重金屬含量和腦卒中風(fēng)險(xiǎn)的相關(guān)影響的研究仍較少。本研究選取了2009~2018 年調(diào)查統(tǒng)計(jì)的49 693 人的相關(guān)數(shù)據(jù)(https://www.cdc.gov/nchs/nhanes/)。按照研究設(shè)定排除標(biāo)準(zhǔn):①?zèng)]有明確的關(guān)于是否患有腦卒中的結(jié)論;②未進(jìn)行血液鉛(Pb)、鎘(Cd)、汞(Hg)和錳(Mn)含量的檢測(cè);③年齡<20 歲;④缺少其他必要的相關(guān)問(wèn)卷調(diào)查或?qū)嶒?yàn)室檢查結(jié)果。最終本研究納入13 323 人。研究人群的基線特征見(jiàn)表1。
表1 NHANES 數(shù)據(jù)庫(kù)2009~2018 年調(diào)查人群中非腦卒中組與腦卒中組基線資料
NHANES 數(shù)據(jù)收集相關(guān)方案均已得到NCHS研究倫理審查委員會(huì)批準(zhǔn),所有參與者均同意并簽署書(shū)面知情同意書(shū)。
1.2 重金屬檢測(cè)方法首先進(jìn)行樣本稀釋?zhuān)瑢?duì)整個(gè)樣本進(jìn)行混合(渦流)以使得細(xì)胞成分均勻分布,在稀釋樣品制備完成后,使用質(zhì)譜法直接測(cè)量全血樣品中的鉛(Pb)、鎘(Cd)、汞(Hg)和錳(Mn)含量。
1.3 協(xié)變量的選擇收集協(xié)變量包括性別(男、女);年齡(歲);種族(墨西哥裔美國(guó)人、其他西班牙裔、非西班牙裔白人、非西班牙裔黑人和其他種族);糖尿病(是、否);高膽固醇血癥(是、否);高血壓(是、否);教育程度(高中以下、高中、大學(xué)及以上);家庭收入貧困比率。
1.4 數(shù)據(jù)預(yù)處理我們從NHANES 數(shù)據(jù)庫(kù)中下載提取出研究數(shù)據(jù),從中選出和腦卒中相關(guān)的部分風(fēng)險(xiǎn)因素以及血液中重金屬的含量。通過(guò)觀察數(shù)據(jù)分布,可以得知按照腦卒中與否分類(lèi)的數(shù)據(jù)集為不平衡數(shù)據(jù)集。因此,我們考慮使用隨機(jī)降采樣或合成少數(shù)類(lèi)過(guò)采樣技術(shù)(Synthetic Minority Over-sampling Technique,SMOTE)的方法來(lái)平衡樣本的分布。但經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn)該研究數(shù)據(jù)使用SMOTE 方法增加樣本數(shù)量有導(dǎo)致模型過(guò)擬合的趨勢(shì),因此在本實(shí)驗(yàn)中選擇隨機(jī)降采樣方法來(lái)平衡正負(fù)樣本數(shù)量。按照7:3的比例將重采樣后的樣本隨機(jī)劃分為訓(xùn)練集和測(cè)試集,用以訓(xùn)練和評(píng)估機(jī)器學(xué)習(xí)模型。
1.5 機(jī)器學(xué)習(xí)模型與shap 可解釋性選擇三種較有代表性的機(jī)器學(xué)習(xí)算法來(lái)構(gòu)建模型,分別是支持向量機(jī)(Support Vector Machine,SVM)、隨機(jī)森林(Random Forest,RF)、梯度提升決策樹(shù)(Gradient Boosting Decision Tree,GBDT)。SVM 算法可以對(duì)線性和非線性數(shù)據(jù)進(jìn)行分類(lèi),首先將每個(gè)樣本映射到n 維特征空間,其中n 是特征的數(shù)量;然后,將樣本分為兩個(gè)類(lèi)的超平面,同時(shí)最大化兩個(gè)類(lèi)的邊緣距離并最小化分類(lèi)誤差從而實(shí)現(xiàn)分類(lèi)。RF 則是一種由許多決策樹(shù)組成的集成分類(lèi)器,RF 的不同決策樹(shù)使用訓(xùn)練數(shù)據(jù)集的不同部分進(jìn)行訓(xùn)練,最后通過(guò)決策樹(shù)投票或平均的方式給出結(jié)果。由于RF 算法考慮了許多不同的決策樹(shù)的結(jié)果,因此它可以降低考慮相同數(shù)據(jù)集的單個(gè)決策樹(shù)所產(chǎn)生的方差。GBDT 也是一種集成學(xué)習(xí)算法,與RF 不同的是它繼承了boosting 的方法,即通過(guò)串行訓(xùn)練一系列的CART 回歸樹(shù)來(lái)優(yōu)化損失函數(shù)。每一棵樹(shù)的訓(xùn)練都是在之前所有樹(shù)預(yù)測(cè)結(jié)果的基礎(chǔ)上學(xué)習(xí)當(dāng)前殘差,并根據(jù)負(fù)梯度方向來(lái)進(jìn)行優(yōu)化,從而得到最終的結(jié)果。
與此同時(shí),想要正確解讀模型是一件重要且復(fù)雜的任務(wù),我們選擇使用Shapley 加性解釋即shap值方法(Shapley additive explanations,shap),為預(yù)測(cè)模型中的每個(gè)特征提供一致且局部準(zhǔn)確的加性特征歸因值[11]。對(duì)于每個(gè)預(yù)測(cè)樣本,模型都產(chǎn)生一個(gè)預(yù)測(cè)值,shap 值就是該樣本中每個(gè)特征所分配到的數(shù)值。計(jì)算shap 值按照如下公式定義:
1.6 統(tǒng)計(jì)學(xué)分析計(jì)量資料中呈正態(tài)分布的使用均數(shù)±標(biāo)準(zhǔn)差表示,并使用兩獨(dú)立樣本t檢驗(yàn)進(jìn)行組間比較;呈偏態(tài)分布的使用中位數(shù)和四分位數(shù)間距表示,并使用Wilcoxon 秩和檢驗(yàn)進(jìn)行組間比較。計(jì)數(shù)資料使用頻率與百分比表示,并使用卡方檢驗(yàn)進(jìn)行組間比較。P<0.05 為差異有統(tǒng)計(jì)學(xué)意義。為了評(píng)估機(jī)器學(xué)習(xí)模型的判別準(zhǔn)確度,我們使用混淆矩陣計(jì)算每個(gè)模型的假陰性(FN)、假陽(yáng)性(FP)、真陰性(TN)和真陽(yáng)性(TP),計(jì)算準(zhǔn)確度(Accuracy)、精確度(Precision)、敏感度(Sensitivity)、特異度(Specificity),并繪制計(jì)算受試者工作特征曲線(Receiver operating characteristic curve,ROC)和曲線下面積(Area under curve,AUC)。最后按照前述公式定義的shap 值方法繪制各特征在RF 模型中shap 值的散點(diǎn)圖、決策線圖以及熱圖,從而直觀地展示各特征對(duì)模型預(yù)測(cè)的貢獻(xiàn)度,增強(qiáng)模型的可解釋性。所有統(tǒng)計(jì)和作圖均使用python3.11.3 完成。
2.1 腦卒中影響因素的單因素分析將患者按照是否患有腦卒中分為腦卒中組和非腦卒中組,單因素分析結(jié)果顯示:年齡、種族、教育程度、家庭貧困收入比、是否患有糖尿病、高血壓、高膽固醇血癥、全血中重金屬含量(鎘、鉛、錳、汞)兩組比較,差異均有統(tǒng)計(jì)學(xué)意義(P<0.001)。而性別因素在本研究人群的兩組中則差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05),見(jiàn)表1。
2.2 各機(jī)器學(xué)習(xí)模型預(yù)測(cè)比較分析根據(jù)混淆矩陣我們使用以下評(píng)估指標(biāo)來(lái)評(píng)判各模型的性能,由假陰性(FN)、假陽(yáng)性(FP)、真陰性(TN)和真陽(yáng)性(TP)可得:準(zhǔn)確度=,精確度=,敏感度=,特異度=。
對(duì)三個(gè)機(jī)器學(xué)習(xí)模型的評(píng)估結(jié)果可以看出,SVM 在敏感度上略勝一籌,但其在準(zhǔn)確度和特異度表現(xiàn)不佳。而GBDT 則僅特異度優(yōu)于SVM,其他各項(xiàng)指標(biāo)則表現(xiàn)不佳。RF 模型則在本數(shù)據(jù)集上有更為平衡的表現(xiàn),其準(zhǔn)確度、精確度、敏感度、特異度值分別達(dá)到了0.7580、0.7305、0.7625、0.7541,具有較為準(zhǔn)確的預(yù)測(cè)和判別能力,見(jiàn)表2。
表2 各機(jī)器學(xué)習(xí)模型準(zhǔn)確度、精確度、靈敏度、特異度
為了進(jìn)一步對(duì)比三個(gè)機(jī)器學(xué)習(xí)模型總體的診斷效能,我們使用三個(gè)模型對(duì)每個(gè)樣本的預(yù)測(cè)概率值與樣本真實(shí)值繪制ROC 曲線,見(jiàn)圖1??梢钥闯鯮F 模型取得了最佳的AUC(0.8087)。
圖1 各機(jī)器學(xué)習(xí)模型的ROC 曲線
2.3 模型的可解釋性為了使得模型具有較強(qiáng)的可解釋性,我們以最優(yōu)RF 模型為例,使用前述的shap值的方法并繪制圖像來(lái)直觀顯示RF 模型中各特征的重要程度,并以此解釋模型,見(jiàn)圖2。
圖2 基于shap 值繪制RF 模型各特征散點(diǎn)圖
為進(jìn)一步觀察模型如何得到最終結(jié)果,我們隨機(jī)抽取80 個(gè)樣本繪制了shap 決策圖,見(jiàn)圖3,其中判斷錯(cuò)誤的樣本決策線以虛線表示。
圖3 RF 模型shap 值決策圖
最后,我們抽取了500 個(gè)樣本的shap 值繪制了熱圖,來(lái)總體表征和說(shuō)明模型對(duì)每個(gè)樣本的預(yù)測(cè)過(guò)程中特征使用程度,見(jiàn)圖4。
圖4 RF 模型shap 值熱圖
本研究探討血液中重金屬含量與卒中的相關(guān)性,并嘗試以構(gòu)建機(jī)器學(xué)習(xí)預(yù)測(cè)模型結(jié)合基于博弈論的shap 值的形式來(lái)分析卒中相關(guān)變量的相對(duì)重要性。機(jī)器學(xué)習(xí)模型的優(yōu)點(diǎn)在于可自動(dòng)選擇使用及組合一些特征,無(wú)需過(guò)多的人工干預(yù)即可達(dá)到較為泛化的識(shí)別和預(yù)測(cè)效果??山忉屝詫?duì)于機(jī)器學(xué)習(xí)的研究來(lái)說(shuō)至關(guān)重要,較高的可解釋性意味著模型的可控性較高,同時(shí)也更容易推廣至臨床。一些現(xiàn)代算法尤其是機(jī)器學(xué)習(xí)算法會(huì)使用成百上千甚至數(shù)百萬(wàn)的高維特征來(lái)產(chǎn)生最佳預(yù)測(cè)結(jié)果,但這容易因此降低模型的可解釋性[12],從而使得模型無(wú)法得到進(jìn)一步的研究和推廣。
我們通過(guò)構(gòu)建三種不同算法類(lèi)型的機(jī)器學(xué)習(xí)模型(隨機(jī)森林、支持向量機(jī)、梯度提升樹(shù)),從ROC圖以及AUC 值可以發(fā)現(xiàn)隨機(jī)森林模型表現(xiàn)最佳,我們選擇結(jié)合shap 值來(lái)增強(qiáng)其可解釋性。從shap值可以看出,在所有重金屬元素中,鉛的影響最大,較高的血鉛含量會(huì)增加模型預(yù)測(cè)為卒中的概率。鉛主要通過(guò)呼吸系統(tǒng)或消化系統(tǒng)吸收,然后會(huì)在骨骼、血液和器官(如腦、腎和肝臟)中蓄積[13]。近年來(lái)的研究認(rèn)為,鉛的蓄積會(huì)導(dǎo)致活性氧引起的氧化應(yīng)激增加、抗氧化能力的減低以及脂質(zhì)過(guò)氧化的增加[14]。另有臨床研究表明,無(wú)論是較低還是較高的血鉛水平都會(huì)對(duì)血管產(chǎn)生不利影響,從而導(dǎo)致腦卒中等心血管疾病的風(fēng)險(xiǎn)增加[15]。血鎘含量在模型特征重要性上僅次于血鉛,Borné 等[16]的研究中,對(duì)4 156 名沒(méi)有腦卒中病史的受試者測(cè)量了血清鎘水平,患者平均隨訪16.7 年,其中221 例發(fā)生缺血性腦卒中,分析數(shù)據(jù)結(jié)果發(fā)現(xiàn)血清鎘濃度與腦卒中的發(fā)病率呈正相關(guān)。Chen 等[17]的研究則發(fā)現(xiàn)尿鎘濃度與缺血性腦卒中風(fēng)險(xiǎn)同樣存在正相關(guān)關(guān)系,這些都與本次研究結(jié)果相符。
對(duì)于錳元素而言,曾有病例報(bào)道1 名長(zhǎng)期缺少防護(hù)的電焊工體內(nèi)的高濃度錳使其表現(xiàn)出了神經(jīng)毒性,并且出現(xiàn)了腦卒中相關(guān)癥狀[18]。但本研究中錳在機(jī)器學(xué)習(xí)模型的預(yù)測(cè)過(guò)程中貢獻(xiàn)值較低,尚無(wú)法得到較為充分的證據(jù),因此其對(duì)腦卒中的影響仍需更大樣本及更長(zhǎng)時(shí)間的觀察。
以往有研究表明,汞可能通過(guò)增加氧化應(yīng)激、自由基的產(chǎn)生和血管炎癥的機(jī)制導(dǎo)致動(dòng)脈粥樣硬化的形成[19,20]。但從本研究shap 散點(diǎn)圖可以看出,不同濃度血汞的分布對(duì)于模型的預(yù)測(cè)能力確實(shí)起到了一定的作用,但其貢獻(xiàn)分布方向與年齡和其他重金屬變量相反,說(shuō)明高濃度的血汞含量與腦卒中呈現(xiàn)負(fù)相關(guān),這與我們基于理論推測(cè)的預(yù)期并不相符。近年來(lái)也有相關(guān)研究支持這一結(jié)論,如Lin 等[21]的單中心獨(dú)立樣本研究發(fā)現(xiàn),較高的血汞與尿汞水平和急性腦梗死的發(fā)生呈現(xiàn)負(fù)相關(guān),但該研究存在單中心及樣本數(shù)量較小的缺點(diǎn)。另有研究表明[22],在女性人群中隨著血汞水平的升高,缺血性腦卒中發(fā)病率降低,并且在中低水平暴露程度人群中,未發(fā)現(xiàn)汞暴露與缺血性腦卒中相關(guān)聯(lián)的證據(jù)。值得注意的是,汞和腦卒中的因果關(guān)系尚無(wú)具體定論,還需要今后進(jìn)一步研究。
目前關(guān)于血液重金屬含量與腦卒中的相關(guān)性仍需進(jìn)一步研究,且未有利用機(jī)器學(xué)習(xí)構(gòu)建血液重金屬含量對(duì)腦卒中的識(shí)別判斷的相關(guān)研究。本研究則較為創(chuàng)新地利用機(jī)器學(xué)習(xí)的方法并結(jié)合博弈論中shap 值的思路,構(gòu)建出了圍繞血液重金屬含量與腦卒中相關(guān)性且具有高度可解釋性的機(jī)器學(xué)習(xí)模型。但本研究存在一定的不足,如由于數(shù)據(jù)來(lái)源為NHANES 數(shù)據(jù)庫(kù),未能統(tǒng)計(jì)分析中國(guó)相關(guān)人群數(shù)據(jù),之后我們將嘗試使用國(guó)內(nèi)人群數(shù)據(jù)來(lái)進(jìn)一步考察模型的泛化能力和驗(yàn)證本次研究的結(jié)論。
本研究重點(diǎn)關(guān)注血液中重金屬含量與腦卒中的相關(guān)性,利用機(jī)器學(xué)習(xí)算法強(qiáng)大的判別和預(yù)測(cè)能力,結(jié)合博弈論中shap 值理論,構(gòu)建出可解釋的腦卒中預(yù)測(cè)機(jī)器學(xué)習(xí)模型?;诒狙芯康慕Y(jié)果,可以考慮拓展一些具有加速生物體內(nèi)重金屬清除功能的螯合劑的作用域,為腦卒中的初級(jí)預(yù)防提供一些新思路。未來(lái)仍需要更大樣本的前瞻性研究,通過(guò)更為嚴(yán)謹(jǐn)?shù)呐R床研究前期設(shè)計(jì),進(jìn)一步闡明重金屬與腦卒中的相關(guān)關(guān)系。