王 娟,張 贊,郝 佩,王秀政,崔苗苗,王珍珍,張美霞,李 俠
(1.空軍軍醫(yī)大學(xué)西京醫(yī)院神經(jīng)外科,陜西 西安 710032;2.長(zhǎng)安大學(xué)電子與控制工程學(xué)院,陜西 西安 710064;3.空軍軍醫(yī)大學(xué)西京醫(yī)院護(hù)理處,陜西 西安 710032)
腦膜瘤是常見顱內(nèi)良性腫瘤,發(fā)病率約8/10萬,在65歲以上人群中的發(fā)病率顯著升高[1-2]。雖然總體預(yù)后良好,但由于老年患者身體機(jī)能普遍下降,對(duì)疾病及癥狀的耐受能力減弱,許多在年輕患者中被忽視的癥狀卻很可能對(duì)老年患者造成非常嚴(yán)重的不良影響[3-4]。睡眠障礙是多種腦疾患的非特異癥狀,而老年人本身又常常睡眠質(zhì)量不佳,因此老年腦膜瘤患者并發(fā)的睡眠障礙及由此引發(fā)的次生臨床問題發(fā)生率高,如不能有效防治,會(huì)直接影響患者預(yù)后[3-4]。傳統(tǒng)研究模式主要通過簡(jiǎn)單線性模型篩選出可能影響疾病相關(guān)睡眠障礙的潛在因素,并通過對(duì)這些因素的提前干預(yù)來改善其負(fù)面效應(yīng)[5-7]。然而,在疾病的真實(shí)世界中,各個(gè)影響因素的作用往往是相互交織、相互牽制的,其間的復(fù)雜關(guān)系很難通過簡(jiǎn)單的線性模型來展現(xiàn),需要基于高通量、大數(shù)據(jù)的研究方法來加以研究。近年來迅猛發(fā)展的人工智能技術(shù),特別是不斷更新的機(jī)器學(xué)習(xí)算法,為模擬、描述、再現(xiàn)真實(shí)臨床場(chǎng)景中各因素間復(fù)雜的相互關(guān)系提供了強(qiáng)有力的解決方案[8]。本研究擬通過聯(lián)合基于決策樹的集成學(xué)習(xí)lightGBM算法和基于SHAP框架的模型解釋算法探討老年腦膜瘤患者人口學(xué)及臨床特征與睡眠障礙發(fā)生間的可能關(guān)系,為改善該類患者睡眠障礙、提高整體治療水平提供新的思考維度。
1.1 研究對(duì)象 選取2020年1月至12月空軍軍醫(yī)大學(xué)第一附屬醫(yī)院神經(jīng)外科收治的老年腦膜瘤患者71例為研究對(duì)象。病例納入標(biāo)準(zhǔn):接受手術(shù)治療且病理學(xué)診斷為腦膜瘤;年齡≥65歲;患者或家屬簽署知情同意書。排除標(biāo)準(zhǔn):存在嚴(yán)重的肝腎、血液系統(tǒng)、心血管系統(tǒng)疾病或其他嚴(yán)重影響患者日?;顒?dòng)和生活質(zhì)量的疾病;患有精神疾病或認(rèn)知功能障礙,不能配合調(diào)查。本研究符合2013版《赫爾辛基宣言》相關(guān)要求,研究實(shí)施獲醫(yī)院倫理委員會(huì)批準(zhǔn)(倫理批件號(hào):KY20191067-F-1)。
1.2 研究方法
1.2.1 人口學(xué)及臨床資料收集:人口學(xué)資料包括年齡、性別、體重指數(shù)(BMI)、居住地、婚姻狀態(tài)、教育程度、醫(yī)療保險(xiǎn)、吸煙飲酒史以及是否日常鍛煉(平均每天散步、慢跑或其他有氧運(yùn)動(dòng)不小于30 min)。臨床資料包括診斷至入院時(shí)間、基礎(chǔ)疾病、首發(fā)癥狀、卡氏評(píng)分(Karnofsky Performance Score,KPS)、疼痛程度[采用數(shù)字疼痛評(píng)分量表(NRS)[9]評(píng)估過去1周內(nèi)患者的主觀疼痛程度,評(píng)分范圍0~10分,0分為完全無痛,分?jǐn)?shù)越高表示主觀疼痛感受越重]、腫瘤直徑大小(采用CT或MRI測(cè)量最大直徑)、腫瘤位置以及WHO分級(jí)等。
1.2.2 睡眠質(zhì)量評(píng)估:采用匹茲堡睡眠質(zhì)量指數(shù)量表(PSQI)[10]在手術(shù)前24 h內(nèi)評(píng)估患者近期睡眠質(zhì)量。該量表包含7個(gè)模塊,分別為睡眠質(zhì)量、入睡時(shí)間、睡眠時(shí)間、睡眠效率、睡眠障礙、催眠藥物、日間功能障礙等,共18個(gè)問題。每題分?jǐn)?shù)范圍0~3分,各模塊得分累計(jì)為PSQI總分,范圍0~21分,睡眠障礙者PSQI總分≥8分。PSQI采集者均經(jīng)過標(biāo)準(zhǔn)化培訓(xùn),采用統(tǒng)一的量表格式及用語對(duì)患者進(jìn)行調(diào)查、指導(dǎo)和收集;確保量表由患者獨(dú)立或在其監(jiān)護(hù)人幫助下完成;當(dāng)出現(xiàn)對(duì)題目不理解或其他爭(zhēng)議時(shí),確?,F(xiàn)場(chǎng)做出解釋;完成量表后現(xiàn)場(chǎng)核對(duì)資料,發(fā)現(xiàn)空缺立即填補(bǔ)。
1.2.3 機(jī)器學(xué)習(xí)模型構(gòu)建與解釋:選取lightGBM算法,利用老年腦膜瘤隊(duì)列的人口學(xué)及臨床資料對(duì)患者是否存在睡眠障礙進(jìn)行預(yù)測(cè)建模,其中發(fā)生睡眠障礙者為正例;采用5折交叉驗(yàn)證進(jìn)行模型優(yōu)化;設(shè)定F1值達(dá)到最大值時(shí)的截?cái)嘀禐槎诸惸P偷淖罴验撝礫11]。采用準(zhǔn)確率、精確率、召回率、F1值及受試者工作特征(ROC)曲線下面積(AUC)評(píng)估模型性能,各指標(biāo)的具體意義參照文獻(xiàn)[8]。采用SHAP模型對(duì)lightGBM預(yù)測(cè)模型中老年腦膜瘤患者睡眠障礙影響因素進(jìn)行解釋分析。本研究采用的Python版本為3.7.13。
2.1 人口學(xué)及臨床資料 71例患者中,男性19例,女性52例;平均年齡(73.58±6.01)歲;平均身高(1.65±0.08)m;平均體重(64.19±5.30)kg;平均體重指數(shù)(23.66±2.87)kg/m2;平均診斷至入院時(shí)間(15.60±8.12)d;平均最大腫瘤直徑(4.08±1.22)cm;平均NRS評(píng)分(0.70±1.10)分;平均KPS評(píng)分(88.59±5.15)分;城市23例,農(nóng)村48例;已婚49例,其他22例;教育程度≤9年10例,>9年61例;有退休工資25例,無退休工資46例;有醫(yī)療保險(xiǎn)67例,無醫(yī)療保險(xiǎn)4例;有吸煙史23例,無吸煙史48例;有飲酒史25例,無飲酒史46例;有日常鍛煉35例,無日常鍛煉36例;有高血壓病史36例,無高血壓病史35例;有糖尿病病史18例,無糖尿病病史53例;首發(fā)癥狀中,顱內(nèi)高壓癥狀(頭痛、惡心等)40例,癲癇4例,神經(jīng)功能障礙20例,其他7例;腫瘤位側(cè)中,左側(cè)36例,右側(cè)32例,雙側(cè)3例;腫瘤位置中,顱底19例,非顱底52例;WHO分級(jí)中,Ⅰ級(jí)63例,Ⅱ級(jí)8例。
2.2 不同睡眠質(zhì)量組人口學(xué)及臨床資料比較 見表1。根據(jù)PQSI總分進(jìn)行睡眠質(zhì)量分組,34例患者PQSI評(píng)分≥8分,劃入睡眠障礙組,其余37例患者劃入睡眠良好組。單因素分析顯示,兩組BMI、日常鍛煉狀態(tài)、NRS評(píng)分及KPS評(píng)分比較差異有統(tǒng)計(jì)學(xué)意義(均P<0.05)。
表1 不同睡眠質(zhì)量組人口學(xué)及臨床資料比較
2.3 基于lightGBM睡眠障礙預(yù)測(cè)模型構(gòu)建及預(yù)測(cè)價(jià)值 見圖1、2。基于lightGBM框架,將所有入組患者人口學(xué)及臨床資料作為輸入特征,用于構(gòu)建該群體是否發(fā)生睡眠障礙的預(yù)測(cè)模型。所有輸入特征根據(jù)數(shù)據(jù)類型劃分為:數(shù)值型和分類型。采用5折交叉驗(yàn)證優(yōu)化后,lightGBM模型預(yù)測(cè)老年腦膜瘤患者發(fā)生睡眠障礙的平均AUC為0.973±0.02。當(dāng)F1值最大時(shí)(0.930)確定二分類模型,此時(shí)該模型預(yù)測(cè)睡眠障礙的準(zhǔn)確率為0.930,精確率為0.892,召回率為0.971,圖2為lightGBM二分類模型的混淆矩陣圖。
圖1 5折交叉驗(yàn)證優(yōu)化后lightGBM預(yù)測(cè)模型ROC曲線
圖2 lightGBM二分類模型混淆矩陣圖
2.4 基于SHAP框架的解釋性分析 見圖3。根據(jù)各個(gè)輸入特征對(duì)睡眠障礙預(yù)測(cè)模型的貢獻(xiàn)重要性進(jìn)行排序后發(fā)現(xiàn),診斷至入院時(shí)間、NRS評(píng)分、日常鍛煉狀態(tài)、年齡、身高、體重、BMI、腫瘤直徑大小及位置、首發(fā)癥狀、高血壓病史以及飲酒史等均對(duì)模型存在貢獻(xiàn)度,而教育程度、居住地、婚姻狀態(tài)、KPS評(píng)分、退休工資、醫(yī)療保險(xiǎn)、吸煙史及糖尿病病史等無模型貢獻(xiàn)度。在排名靠前的數(shù)值型特征中,診斷至入院時(shí)間、NRS評(píng)分及年齡與睡眠障礙發(fā)生呈線性關(guān)系,即當(dāng)診斷至入院時(shí)間越長(zhǎng)、NRS評(píng)分越高及年齡越大時(shí),老年腦膜瘤患者發(fā)生睡眠障礙的可能性越高;其他數(shù)值型特征(如身高、BMI、體重、腫瘤直徑大小等)與睡眠障礙發(fā)生呈現(xiàn)復(fù)雜的非線性關(guān)系。在排名靠前的分類型特征中,無日常鍛煉、腫瘤發(fā)生于右側(cè)半球、既往有高血壓病史、首發(fā)癥狀為神經(jīng)功能障礙或其他以及有飲酒史時(shí),老年腦膜瘤患者發(fā)生睡眠障礙的可能性更高。
圖3 SHAP特征分析
睡眠障礙是腦膜瘤患者的常見伴隨癥狀,由于其隱匿性、緩慢性和非特異性,常常被醫(yī)生甚至患者本人所忽略[1-3]。睡眠障礙可導(dǎo)致痛覺敏感、記憶力和注意力缺失、心理社會(huì)功能惡化等改變,干擾正常的臨床診療[12]。因此,尋找老年腦膜瘤患者睡眠障礙的影響因素并制定相應(yīng)的臨床干預(yù)方案對(duì)提高其預(yù)后水平具有重要意義。傳統(tǒng)的回顧性單因素分析、Logistic回歸等研究方法曾用于探究影響睡眠障礙的可能因素[2-3,6,13-14]。然而,在疾病的真實(shí)世界中,影響睡眠障礙發(fā)生的因素往往是紛繁復(fù)雜且相互牽制的,單純通過簡(jiǎn)單線性模型無法展現(xiàn)各因素間復(fù)雜的相互關(guān)系,因而也無法最終揭示疾病相關(guān)睡眠障礙的關(guān)鍵原因。
近年來,人工智能技術(shù)飛速發(fā)展,眾多先進(jìn)的機(jī)器學(xué)習(xí)算法被應(yīng)用于醫(yī)療大數(shù)據(jù)分析,在疾病篩查、診斷、治療和預(yù)測(cè)中開始嶄露頭角[15-19]。以lightGBM為代表的基于決策樹模型的各類集成算法更是在醫(yī)療健康領(lǐng)域取得重要進(jìn)展。本研究應(yīng)用lightGBM算法成功構(gòu)建老年腦膜瘤患者睡眠障礙的預(yù)測(cè)模型,通過輸入病例入院時(shí)的基本信息,能夠準(zhǔn)確判斷該患者是否存在睡眠障礙(準(zhǔn)確率達(dá)93%)。需要指出的是,我們構(gòu)建預(yù)測(cè)模型的意義并非在于簡(jiǎn)單預(yù)估睡眠障礙是否發(fā)生,而在于揭示老年腦膜瘤患者人口學(xué)及臨床特征與睡眠障礙間復(fù)雜且密切的關(guān)系。然而,由于lightGBM模型的復(fù)雜性極高,使得該模型幾乎成為黑箱模型,醫(yī)學(xué)科學(xué)家很難解釋各因素對(duì)模型預(yù)測(cè)結(jié)果的貢獻(xiàn)度和方向性。
2017年,隨著SHAP框架的提出,科學(xué)家們才找到能夠解釋復(fù)雜機(jī)器學(xué)習(xí)模型的工具。SHAP框架源自于博弈論,能夠量化每個(gè)特征對(duì)模型預(yù)測(cè)所做的貢獻(xiàn)。本研究中,我們通過SHAP框架解釋lightGBM模型,發(fā)現(xiàn)診斷至入院時(shí)間、NRS評(píng)分、日常鍛煉以及年齡等可能是影響老年腦膜瘤患者睡眠障礙的重要特征。具體來講,當(dāng)患者診斷至入院時(shí)間越長(zhǎng)、NRS評(píng)分越高、年齡越大以及缺乏日常鍛煉時(shí),其發(fā)生睡眠障礙的可能性越高。與單因素分析結(jié)果(BMI、日常鍛煉、NRS評(píng)分及KPS評(píng)分)相比較,SHAP框架能夠充分采納更多影響因素的信息,并根據(jù)不同因素的模型貢獻(xiàn)度進(jìn)行排序。因此,理論上更具優(yōu)勢(shì)。通過SHAP框架進(jìn)行模型特征解釋更重要的意義在于可通過對(duì)潛在重要因素的提前干預(yù)來降低患者睡眠障礙發(fā)生率,如縮短診斷至入院時(shí)間、重點(diǎn)關(guān)注高齡患者并進(jìn)行睡眠障礙相關(guān)宣教、鼓勵(lì)患者術(shù)后堅(jiān)持鍛煉、重視患者主觀疼痛感受變化并積極給予鎮(zhèn)痛處理等。此外,部分因素(包括身高、BMI、腫瘤直徑大小等)亦對(duì)睡眠障礙的發(fā)生存在貢獻(xiàn),但其影響方式呈現(xiàn)復(fù)雜非線性關(guān)系。由于本組納入的樣本還較少,暫無法清晰地展現(xiàn)這些因素與睡眠障礙間的關(guān)系特征,有待未來大樣本量的進(jìn)一步研究。
綜上所述,本研究通過融合lightGBM和SHAP框架發(fā)現(xiàn),診斷至入院時(shí)間、NRS評(píng)分、日常鍛煉以及年齡可能是影響老年腦膜瘤患者睡眠質(zhì)量的重要因素。針對(duì)上述因素的詳細(xì)評(píng)估和早期干預(yù)可能有助于改善該類患者的睡眠質(zhì)量,提高整體治療效果和預(yù)后水平。