產(chǎn)后抑郁預(yù)測模型的分類與比較

2022-12-28 12:22王永劍齊偉靜王翼鵬黃莎李叢魏娜胡潔

中國全科醫(yī)學(xué) 2022年24期

王永劍，齊偉靜，王翼鵬，黃莎，李叢，魏娜，胡潔*

產(chǎn)后抑郁（postpartum depression，PPD）是女性分娩后最常見的情緒障礙，會造成產(chǎn)婦、伴侶和嬰兒出現(xiàn)多種精神健康問題，進(jìn)而對家庭和社會產(chǎn)生深遠(yuǎn)的影響。PPD的發(fā)生通常涉及生物學(xué)、心理和社會環(huán)境等多維度的危險(xiǎn)因素[1-4]。臨床預(yù)測模型[5]是指對具有某些特征表型的特定群體應(yīng)用多因素回歸建立統(tǒng)計(jì)模型進(jìn)行評估，預(yù)測（診斷）疾病的存在或預(yù)測（診斷）疾病未來某種結(jié)局事件的發(fā)生概率。模型構(gòu)建后可以通過評估偏差風(fēng)險(xiǎn)對預(yù)測模型的準(zhǔn)確性和適用性進(jìn)行評價(jià)及驗(yàn)證[6]。近年來，臨床預(yù)測模型被廣泛應(yīng)用于醫(yī)學(xué)領(lǐng)域，醫(yī)護(hù)人員基于患者當(dāng)前的健康狀態(tài)，可量化患者未來患某病的風(fēng)險(xiǎn)，為患者提供個體化醫(yī)療建議，有利于降低醫(yī)療成本，甚至影響患者的診斷與結(jié)局[7]。

女性自妊娠至分娩這一特殊時期時間跨度較長，通常伴隨著心理困擾，并會產(chǎn)生較大的心理應(yīng)激反應(yīng)[8]，而負(fù)面的心理應(yīng)激反應(yīng)與PPD息息相關(guān)，因此產(chǎn)前應(yīng)用臨床預(yù)測模型對PPD的發(fā)生風(fēng)險(xiǎn)進(jìn)行預(yù)測可為早期識別和干預(yù)PPD提供時間和空間，并有利于促進(jìn)臨床醫(yī)療決策和減少不良結(jié)局的發(fā)生。本文旨在對不同類型的PPD預(yù)測模型進(jìn)行分類與比較，以期為PPD研究提供一個更廣泛的視角，為產(chǎn)前預(yù)防及干預(yù)工作提供科學(xué)依據(jù)。

1 文獻(xiàn)檢索策略

本研究檢索了PubMed和中國學(xué)術(shù)期刊全文（CNKI）數(shù)據(jù)庫。采用醫(yī)學(xué)主題標(biāo)題（MesH）、標(biāo)題和摘要中的單詞以及關(guān)鍵詞的組合，以“post-natal depression/post-partum depression/postnatal depression/postpartum depression”和“risk prediction/prediction model/predictive model”為英文檢索詞，以“產(chǎn)后抑郁/產(chǎn)后抑郁癥”和“風(fēng)險(xiǎn)預(yù)測/預(yù)測模型”為中文檢索詞。采用主題詞和關(guān)鍵詞相結(jié)合的方式進(jìn)行檢索，并對納入文獻(xiàn)的參考文獻(xiàn)進(jìn)行手工檢索。英文檢索式：post-natal depression or postpartum depression OR postnatal depression or postpartum depression AND risk prediction OR prediction model OR predictive model ；中文檢索式：“產(chǎn)后抑郁”O(jiān)R“產(chǎn)后抑郁癥” AND “風(fēng)險(xiǎn)預(yù)測”O(jiān)R“預(yù)測模型” 。納入標(biāo)準(zhǔn)：（1）研究對象為年齡≥18歲的孕產(chǎn)婦；（2）研究內(nèi)容為產(chǎn)后抑郁發(fā)生風(fēng)險(xiǎn)的預(yù)測模型，具有完整的模型建立、驗(yàn)證和評價(jià)過程；（3）研究類型包括前瞻性隊(duì)列研究、回顧性隊(duì)列研究、病例對照研究和橫斷面研究。排除標(biāo)準(zhǔn)：（1）僅為產(chǎn)后抑郁預(yù)測因素、影響因素研究，未構(gòu)建預(yù)測模型；（2）述評、系統(tǒng)綜述、Meta分析、理論研究等類型的研究；（3）重復(fù)發(fā)表、質(zhì)量較差、缺乏可用的原始數(shù)據(jù)的研究；（4）模型包含的預(yù)測變量少于2個。

2 PPD的概述

PPD的概念由PITT[9]在1968年首次提出，并將PPD歸類于分娩后非典型抑郁癥狀。美國精神醫(yī)學(xué)學(xué)會出版的第4版《精神疾病診斷與統(tǒng)計(jì)手冊》（The Diagnostic and statistical Manual of Mental Disorders，DsM-4）中將PPD定義為既往無精神疾病史的女性在產(chǎn)后4周內(nèi)出現(xiàn)明顯的抑郁癥狀或伴有典型的抑郁發(fā)作，至少持續(xù)兩周，造成產(chǎn)婦嚴(yán)重的功能障礙，通常需要專業(yè)治療[10]。DsM-5中增加了圍產(chǎn)期抑郁的概念，并界定抑郁癥狀發(fā)生在妊娠期間或分娩后的前4周內(nèi)[11]，使得PPD的概念及診斷更具有科學(xué)性和現(xiàn)實(shí)意義。

一項(xiàng)涵蓋全球56個國家、296 284例產(chǎn)婦的系統(tǒng)綜述表明，17.7%的產(chǎn)婦患有PPD[12]。由于新型冠狀病毒肺炎（COVID-19）的全球大流行，超過四分之一的孕婦在COVID-19流行期間出現(xiàn)比以往更多的臨床抑郁癥狀，圍產(chǎn)期抑郁患病率高達(dá)25.6%[13]。發(fā)展中國家由于財(cái)政資源不足、衛(wèi)生系統(tǒng)薄弱等多種因素，PPD的患病率比發(fā)達(dá)國家更高[14]。近年來，中國大陸女性圍產(chǎn)期抑郁綜合患病率為16.3%，其中產(chǎn)前抑郁（prenatal depression，PND）患病率為19.7%，PPD的患病率為14.8%[15]，且呈現(xiàn)逐年上升趨勢[16]。

作為世界上人口最多的國家，我國為了積極應(yīng)對人口老齡化、進(jìn)一步優(yōu)化生育政策，實(shí)施了“二孩”“三孩”政策，這有利于改善人口結(jié)構(gòu)，但也意味著產(chǎn)后女性可能承擔(dān)更多的養(yǎng)育任務(wù)，面臨著更大的家庭和工作壓力，存在著心理健康風(fēng)險(xiǎn)。同時由于缺乏本土化的PPD診斷標(biāo)準(zhǔn)及指南來指導(dǎo)孕期心理健康，心理咨詢服務(wù)的可及性仍然有限[17]，因此PPD的發(fā)病率逐年升高。進(jìn)行PPD的早期預(yù)測、為孕產(chǎn)婦提供有效的預(yù)防和治療服務(wù)對制訂具有本土文化背景的醫(yī)療制度及保健政策提供重要循證信息顯得格外重要。

3 PPD預(yù)測模型的分類

PPD的發(fā)生涉及生物-心理-社會多維度因素的共同作用，隨著醫(yī)學(xué)模式的轉(zhuǎn)變，個體化醫(yī)學(xué)的進(jìn)一步推進(jìn)，面對孕婦海量的診療信息以及不同的臨床癥狀和體征，選取密切相關(guān)的危險(xiǎn)因素納入預(yù)測模型及選取最合適的模型構(gòu)建方法對PPD個體化精準(zhǔn)預(yù)測尤為關(guān)鍵。構(gòu)建PPD參數(shù)化預(yù)測模型一般使用傳統(tǒng)邏輯回歸方法，例如Logistic回歸分析，預(yù)測內(nèi)容包括PPD的診斷和預(yù)后[18]。隨著大數(shù)據(jù)挖掘和分析的發(fā)展，應(yīng)用非參數(shù)化模型即非參數(shù)化的機(jī)器學(xué)習(xí)算法構(gòu)建預(yù)測模型越來越受歡迎。機(jī)器學(xué)習(xí)算法一般包含決策樹、支持向量機(jī)（support vector machine，sVM）和 K- 近鄰算法（KNN）等[19]。應(yīng)用機(jī)器學(xué)習(xí)算法構(gòu)建PPD預(yù)測模型為PPD的早期預(yù)測提供了新的途徑。

3.1 PPD的參數(shù)化模型目前大部分PPD參數(shù)化預(yù)測研究將是否發(fā)生PPD作為二分類結(jié)局變量，進(jìn)而采用Logistic回歸分析方法探討PPD的危險(xiǎn)因素，根據(jù)危險(xiǎn)因素預(yù)測PPD的發(fā)生概率，并通過OR值分析預(yù)測因素與PPD的關(guān)聯(lián)強(qiáng)度。

參數(shù)化模型可以根據(jù)PPD相關(guān)變量的偏回歸系數(shù)構(gòu)建風(fēng)險(xiǎn)評分公式，根據(jù)公式可以計(jì)算PPD的發(fā)生風(fēng)險(xiǎn)，以早期識別有PPD傾向的產(chǎn)婦。MARACY等[20]根據(jù)伊朗農(nóng)村地區(qū)保健中心收集的6 627例產(chǎn)婦的橫斷面自我報(bào)告問卷資料，使用參數(shù)化Logistic回歸模型分析問卷中的變量，結(jié)果顯示抑郁史、受教育程度和意外妊娠等是影響PPD的主要危險(xiǎn)因素。根據(jù)這些危險(xiǎn)因素構(gòu)建的風(fēng)險(xiǎn)評分公式形式簡單，易于理解，醫(yī)護(hù)人員可以方便使用。由此可見，應(yīng)用參數(shù)化模型對PPD進(jìn)行預(yù)測具有較好的可解釋性，對衛(wèi)生保健專業(yè)人員評估PPD是否發(fā)生提供了證據(jù)支持。

參數(shù)化模型也可以通過計(jì)算危險(xiǎn)因素與PPD之間的關(guān)聯(lián)強(qiáng)度，預(yù)測其對PPD的影響程度。NAKANO等[21]于2020年回顧性分析了日本愛知縣婦幼保健服務(wù)機(jī)構(gòu)2013年7月至2015年6月1 050例孕產(chǎn)婦在妊娠第11周、分娩后14 d內(nèi)、分娩后1個月及分娩后3個月的數(shù)據(jù)，并進(jìn)行Logistic回歸分析，暴露因素與PPD之間的關(guān)聯(lián)由OR值和95%可信區(qū)間確定，結(jié)果顯示，PPD產(chǎn)前預(yù)測因素包括產(chǎn)前患有精神疾病〔OR=4.84，95%CI（2.09，11.19）〕、缺乏社會支持〔OR=4.93，95%CI（1.54，15.74）〕、年齡＜24歲〔OR=2.43，95%CI（1.37，4.30）〕。通過對危險(xiǎn)因素與PPD的關(guān)聯(lián)強(qiáng)度進(jìn)行分析，可以及時篩選出PPD的高危人群，為有針對性地進(jìn)行預(yù)防及干預(yù)奠定基礎(chǔ)。

值得注意的是，構(gòu)建參數(shù)化預(yù)測模型時還要考慮模型的使用條件以及變量之間的相關(guān)性，避免出現(xiàn)過度擬合的情況[22]。?ANKAYA[23]采用前瞻性隊(duì)列研究設(shè)計(jì)，收集研究對象孕晚期及產(chǎn)后6～8周的一般人口學(xué)資料及孕期社會心理健康評估量表（PPHAs）評分，構(gòu)建兩個時間點(diǎn)的Logistic回歸模型；結(jié)果顯示在妊娠期間遭受丈夫或其他家庭成員的暴力，存在婚姻問題，產(chǎn)前出現(xiàn)抑郁、焦慮和高度感知壓力的產(chǎn)婦患PPD的風(fēng)險(xiǎn)較高，可以作為PPD的預(yù)測因素，其中妊娠期間遭受丈夫或其他家庭成員暴力的女性PPD發(fā)生率高于未受暴力影響的女性〔OR=0.056，95%CI=（0.014，0.236）〕。但由于研究中使用的PPHAs量表總分與其他變量之間具有高度相關(guān)性〔r≥ 0.800，P＜0.001，方差膨脹因子（VIF ）≥3 000〕，即存在多重共線性，因此并未納入Logistic回歸模型。參數(shù)化模型不可解決非線性問題，對變量各水平上數(shù)據(jù)分布不平衡的問題也難以處理，而是否存在多重共線性決定著自變量是否被納入回歸模型。對于參數(shù)化回歸模型變量篩選存在多重共線性的解決方法之一便是應(yīng)用正則化技術(shù)中的嶺回歸、Lasso回歸[24]以及彈性網(wǎng)絡(luò)的方法。

3.2 PPD的非參數(shù)化模型近年來非參數(shù)化機(jī)器學(xué)習(xí)算法成為醫(yī)療預(yù)測領(lǐng)域研究的熱門方法。臨床醫(yī)學(xué)研究數(shù)據(jù)具有量大、混雜及隨機(jī)性的特點(diǎn)，利用傳統(tǒng)的統(tǒng)計(jì)方法預(yù)測疾病的發(fā)生過程常存在一定的局限性，非參數(shù)化機(jī)器學(xué)習(xí)算法可以根據(jù)數(shù)據(jù)類型全自動或半自動地尋找數(shù)據(jù)中的目標(biāo)內(nèi)容，挖掘有用知識，反復(fù)多次總結(jié)規(guī)律，幫助研究者做出決策或預(yù)測。這種通過大數(shù)據(jù)挖掘?qū)膊∵M(jìn)行預(yù)測的方法符合循證醫(yī)學(xué)和精準(zhǔn)醫(yī)療的要求。目前應(yīng)用非參數(shù)化機(jī)器學(xué)習(xí)算法建立PPD預(yù)測模型的方法包括基于決策樹的算法、基于樸素貝葉斯的算法、基于支持向量機(jī)的算法和基于人工神經(jīng)網(wǎng)絡(luò)的算法。

3.2.1 基于決策樹的算法決策樹[25]是一種簡單但廣泛使用的分類器，因類似于流程圖的樹結(jié)構(gòu)、可以模仿人類做出決策的過程而命名。構(gòu)建決策樹可以對新的數(shù)據(jù)進(jìn)行分類。隨機(jī)森林（random forest，RF）[26]是專門為決策樹分類器設(shè)計(jì)而成的集成學(xué)習(xí)方法，包含多個決策樹，每棵“樹”的分布相同，其預(yù)測結(jié)果綜合了多個決策樹的分類結(jié)果，因此最終結(jié)果會更加可靠[27]。同時RF也能較好地處理數(shù)據(jù)的缺省值問題，具有較高的分類精度[28]，因此RF算法更受到研究者的青睞。肖美麗等[29]采用RF算法對406例孕婦按照是否發(fā)生PPD進(jìn)行決策分類，綜合人口學(xué)資料、生物-心理-社會等多個維度的影響因素，按照變量重要性評分進(jìn)行排序，列舉了排在前10位的重要預(yù)測變量，且該模型預(yù)測準(zhǔn)確率為80.10%。

除了RF算法外，梯度提升樹（gradient boosting decision tree，GBDT）算法也是一種基于決策樹的集成學(xué)習(xí)方法，該算法同樣由多棵決策樹組成，但最終結(jié)果為所有決策樹預(yù)測結(jié)論的累積，因此通過GBDT算法構(gòu)建的模型更為復(fù)雜。為了控制模型的復(fù)雜程度，CHEN等[30]以GBDT為框架，對目標(biāo)函數(shù)加入了正則化項(xiàng)，建立了極端梯度提升（XGBoost）算法。HOCHMAN等[31]根據(jù)以色列最大保健組織的電子健康記錄數(shù)據(jù)庫，通過使用XGBoost算法構(gòu)建預(yù)測模型并評估分娩后1年內(nèi)患PPD的風(fēng)險(xiǎn)，結(jié)果顯示：ROC曲線下面積（AUC）為0.712〔95%CI（0.690，0.733）〕，提示該模型具有中等水平的預(yù)測性能。應(yīng)用XGBoost算法可以自動解釋自變量之間的交互作用，同時可以通過處理每個決策樹分支的丟失數(shù)據(jù)評估不同子集的模型性能。通過XGBoost算法構(gòu)建PPD預(yù)測模型、分析PPD預(yù)測因素的重要性并進(jìn)行排序可以將產(chǎn)婦按照不同的風(fēng)險(xiǎn)群體進(jìn)行分層，有助于進(jìn)行早期PPD的檢測和干預(yù)。

3.2.2 基于樸素貝葉斯的算法樸素貝葉斯[32]發(fā)源于古典數(shù)學(xué)理論，是一種穩(wěn)定、結(jié)構(gòu)簡單且十分高效的分類算法，其原理基于條件獨(dú)立性假設(shè)，即所有預(yù)測變量之間相互獨(dú)立，當(dāng)面對高維度、多分類的數(shù)據(jù)集時，樸素貝葉斯可快速對數(shù)據(jù)集進(jìn)行分類。JIMéNEZ-sERRANO等[33]使用西班牙7所綜合醫(yī)院1 397例孕婦的產(chǎn)前資料作為數(shù)據(jù)集，選取其中11個變量構(gòu)建模型并用于預(yù)測分娩后第1周是否發(fā)生PPD，結(jié)果在訓(xùn)練集中樸素貝葉斯模型實(shí)現(xiàn)了靈敏度、特異度和準(zhǔn)確性之間的良好平衡，AUC為0.75，呈現(xiàn)了最佳預(yù)測性能。樸素貝葉斯算法簡單，能夠處理多分類任務(wù)，執(zhí)行速度快且易于解釋，但樸素貝葉斯算法在變量分布不平衡時分類效果較差，因此使用樸素貝葉斯算法前需要考慮變量分布的平衡性以避免預(yù)測效果不佳問題[34]。

3.2.3 基于sVM的算法 sVM具有強(qiáng)大的學(xué)習(xí)功能[35]，是機(jī)器學(xué)習(xí)中最常用的一種線性與非線性分類方法，其基本原理是利用適當(dāng)?shù)暮撕瘮?shù)找到一個超平面，對數(shù)據(jù)類別進(jìn)行分隔，使訓(xùn)練集的點(diǎn)與超平面之間存在最大可能的距離，以達(dá)到數(shù)據(jù)分類的目的。ZHANG等[36]通過收集508例孕婦孕期的信息，分別采取兩種特征選擇方法：專家函詢和Filter過濾法，開發(fā)了基于sVM的PPD預(yù)測模型；結(jié)果顯示該預(yù)測模型篩選出的最重要的3個預(yù)測因素是心理適應(yīng)能力、孕晚期抑郁和月收入水平。兩種特征選擇方法在模型預(yù)測性能的有效性方面沒有明顯差異，但采用Filter過濾法進(jìn)行特征選擇的sVM模型預(yù)測效果更好（靈敏度=0.69，特異度=0.83，AUC=0.78）。除了特征選擇方法外，樣本量的大小也影響著PPD預(yù)測模型的性能，而由于sVM是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則的算法，因此當(dāng)樣本量較小時，采用sVM算法可以避免過度擬合。除此之外，使用sVM算法構(gòu)建預(yù)測模型具有較好的泛化能力[37]。

3.2.4 基于人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò)（artificial neural network，ANN）是從信息處理角度理解和抽象了人腦的神經(jīng)元網(wǎng)絡(luò)[38]，可建立簡單模型并按不同的連接方式組成不同的網(wǎng)絡(luò)。多層感知器（multilayer perceptron，MLP）是一種前饋人工神經(jīng)網(wǎng)絡(luò)模型[39]，其在單層神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上引入了一到多個隱藏層，采取標(biāo)準(zhǔn)反向傳播算法（backpropagation algorithm，BP）[40]訓(xùn)練多層感知器，使多層神經(jīng)元協(xié)同工作，并從數(shù)據(jù)集中進(jìn)行學(xué)習(xí)。FATIMA等[41]提出了一種通過社交媒體平臺上用戶的文本信息預(yù)測PPD的新方法，使用“語言探索與字詞計(jì)數(shù)”（linguistic inquiry and word count，LIWC）軟件提取社交媒體上生成的語言特征，利用MLP算法并基于語言特征對一般性討論、PPD和非PPD內(nèi)容進(jìn)行分類及PPD人群預(yù)測，結(jié)果顯示，MLP預(yù)測模型的準(zhǔn)確性為80.36%，精準(zhǔn)性為75.11%。MLP能夠基于輸入特征集導(dǎo)出高級特征，并且已經(jīng)發(fā)現(xiàn)該算法更適用于從海量、復(fù)雜的數(shù)據(jù)中篩選出有價(jià)值的信息[39]。

4 PPD預(yù)測模型的比較

4.1 基于機(jī)器學(xué)習(xí)算法的PPD預(yù)測模型的比較sHIN等[42]通過選取美國疾病控制和預(yù)防中心PRAMs 2012—2013年的28 755例孕產(chǎn)婦的孕期數(shù)據(jù)，采用9種不同的機(jī)器學(xué)習(xí)算法構(gòu)建PPD預(yù)測模型，包括RF、隨機(jī)梯度提升（gradient boosting model，GBM）、sVM、遞歸分隔與回歸樹（RPART）、樸素貝葉斯、k-NN、自適應(yīng)提升算法（adaptive boosting，AdaBoost算法）、Logistic回歸和ANN，并采用了10倍交叉驗(yàn)證進(jìn)行評估；結(jié)果顯示：9種預(yù)測模型AUC均大于0.5，展現(xiàn)出良好的預(yù)測效果，其中RF算法AUC較高，為0.884（靈敏度=0.732，特異度=0.865），其次是sVM，AUC為0.864（靈敏度=0.791，特異度=0.788）。ANDERssON等[43]基于瑞典一項(xiàng)群體隊(duì)列研究中4 277例婦女的數(shù)據(jù)（包括人口學(xué)數(shù)據(jù)、臨床及心理測量數(shù)據(jù)），通過機(jī)器學(xué)習(xí)算法建立PPD預(yù)測模型，模型包括：嶺回歸、Lasso回歸、GBM、分布式RF、極端隨機(jī)樹（XRT）、樸素貝葉斯和堆疊組合模型（stacked ensembles models），并評估了不同機(jī)器學(xué)習(xí)算法預(yù)測模型的性能。所選機(jī)器學(xué)習(xí)算法的分類性能在準(zhǔn)確性、陰性預(yù)測值、AUC方面沒有明顯差異。然而，在靈敏度、特異度和陽性預(yù)測值方面差異較為明顯。XRT提供了高精度、均衡的靈敏度和特異度的預(yù)測性能（準(zhǔn)確性：73%，靈敏度：72%，特異度：75%，陽性預(yù)測值：33%，陰性預(yù)測值：94%，AUC：81%）。通過XRT篩選出相對貢獻(xiàn)高于0.9的主要影響因素為妊娠期間的抑郁和焦慮。采用不同機(jī)器學(xué)習(xí)算法構(gòu)建預(yù)測模型的選擇是個復(fù)雜過程，應(yīng)使用統(tǒng)計(jì)軟件并通過性能指標(biāo)判斷預(yù)測模型的預(yù)測準(zhǔn)確度，同時也需要結(jié)合醫(yī)療專業(yè)知識和臨床實(shí)際情況進(jìn)行判斷，考慮模型實(shí)施的多方面因素。

4.2 PPD參數(shù)化和非參數(shù)化預(yù)測模型的比較應(yīng)用參數(shù)化和非參數(shù)化機(jī)器學(xué)習(xí)算法構(gòu)建PPD預(yù)測模型均能夠有效預(yù)測產(chǎn)婦PPD發(fā)生風(fēng)險(xiǎn)，并且大部分預(yù)測模型的準(zhǔn)確度較高，有利于醫(yī)護(hù)人員及時進(jìn)行醫(yī)療決策。傳統(tǒng)的參數(shù)化模型包括線性回歸和邏輯回歸，可通過描述結(jié)局指標(biāo)與一個或多個解釋性變量之間的關(guān)系對預(yù)測結(jié)果進(jìn)行分析[44]。參數(shù)化模型形式簡單、易于理解，具有較好的解釋性，通過預(yù)測因素的權(quán)重可以看到不同預(yù)測因素對PPD的影響程度。PPD參數(shù)化預(yù)測模型以概率的形式輸出結(jié)果，可以對不同類型的孕產(chǎn)婦進(jìn)行風(fēng)險(xiǎn)分層，有針對性地進(jìn)行輔助決策，因此更適用于醫(yī)護(hù)人員臨床應(yīng)用，但使用參數(shù)化模型需要考慮數(shù)據(jù)的分布及共線性問題。

由于妊娠期至產(chǎn)后時間跨度較長、PPD的影響因素眾多、數(shù)據(jù)結(jié)構(gòu)復(fù)雜，因此利用傳統(tǒng)的參數(shù)化建模方法預(yù)測PPD的發(fā)生可能存在很大的局限性。此時，面對變量的復(fù)雜情況，非參數(shù)化預(yù)測模型更具優(yōu)勢。非參數(shù)機(jī)器學(xué)習(xí)算法眾多，基于決策樹的算法是一種分類精度高、表現(xiàn)形式相對簡單的算法[45]，而且可以用圖形展示，增加了臨床適用性，但無法給出明確的公式，且由于對數(shù)據(jù)的變化非常敏感，導(dǎo)致穩(wěn)定性相對于參數(shù)化模型較差。另一種廣泛應(yīng)用的非參數(shù)分類模型是樸素貝葉斯模型，其算法比較簡單，執(zhí)行速度更快，但是需要計(jì)算先驗(yàn)概率，如果變量之間存在關(guān)聯(lián)則其預(yù)測效果較差。若數(shù)據(jù)存在非線性問題，可采用sVM算法，其算法相對復(fù)雜，數(shù)據(jù)量大時訓(xùn)練時間較長，因此sVM更適合對小樣本量數(shù)據(jù)提供高效的計(jì)算，并避免了過度擬合，從而產(chǎn)生更好的預(yù)測結(jié)果[46]。相對于Logistic回歸、決策樹等算法，ANN是一種復(fù)雜的非參數(shù)化算法，通常需要大量的參數(shù)，種類繁多且不易于解釋，難以得出醫(yī)學(xué)結(jié)論來支持臨床決策，但ANN對于大樣本臨床資料的整合功能有較強(qiáng)優(yōu)勢，診斷的準(zhǔn)確性及分類的準(zhǔn)確度較高，具有高速運(yùn)算的能力，可以快速尋找一個復(fù)雜問題的優(yōu)化解。此外，ANN還可以通過影像學(xué)資料篩選出有診斷和鑒別意義的特征，因此未來的研究可以通過ANN聯(lián)合影像學(xué)特征對PPD進(jìn)行預(yù)測。

對于PPD預(yù)測模型的建立，關(guān)鍵是對于數(shù)據(jù)的處理、特征分析以及模型的選擇和算法的應(yīng)用。由于研究方法、評估標(biāo)準(zhǔn)有所不同，不同機(jī)器學(xué)習(xí)算法預(yù)測模型的預(yù)測效果有所差別，因此評估每個模型的效果并選擇最佳預(yù)測模型顯得至關(guān)重要。未來的研究應(yīng)基于研究隊(duì)列對最終模型進(jìn)行外部驗(yàn)證，并對模型的臨床有效性進(jìn)行分析。值得注意的是，將機(jī)器學(xué)習(xí)算法應(yīng)用于PPD預(yù)測的多數(shù)研究納入的預(yù)測因子涉及社會人口學(xué)及心理社會因素，但很少有研究聯(lián)合生物遺傳學(xué)因素進(jìn)行預(yù)測。因此，結(jié)合PPD生物-心理-社會三個維度的因素進(jìn)行模型構(gòu)建至關(guān)重要。同時應(yīng)注意，使用大數(shù)據(jù)集可降低估計(jì)方差，從而提供更好的預(yù)測性能，而應(yīng)用預(yù)測因素?cái)?shù)量少且不改變預(yù)測性能的預(yù)測模型意味著可以減輕收集信息的負(fù)擔(dān)，因而此類預(yù)測模型更容易實(shí)施和推廣?？傊S著信息科學(xué)技術(shù)不斷發(fā)展，數(shù)據(jù)不斷完善，在未來的研究中可以聯(lián)合生物-心理-社會三個維度的預(yù)測因素，使用機(jī)器學(xué)習(xí)算法開發(fā)PPD的綜合預(yù)測模型作為產(chǎn)后抑郁的精準(zhǔn)預(yù)測工具。

5 研究展望

現(xiàn)階段PPD預(yù)測模型的研究如火如荼，“二胎”及“三胎”政策背景下，高危孕產(chǎn)婦數(shù)量將不斷增多，對參數(shù)化、非參數(shù)化PPD預(yù)測模型進(jìn)行分類與比較對選擇合適的模型構(gòu)建方法至關(guān)重要。值得注意的是，筆者在比較參數(shù)化與非參數(shù)化模型的過程中發(fā)現(xiàn)，無論哪種模型，均有其相應(yīng)的適用范圍，在選擇合適的模型時也應(yīng)考慮到模型的實(shí)用性。因此，建議在未來研究中構(gòu)建PPD預(yù)測模型時注意以下事項(xiàng)。

首先，預(yù)測變量的維度影響著PPD預(yù)測模型的穩(wěn)定性與準(zhǔn)確性。一方面，由于PPD影響因素復(fù)雜多樣，納入模型的預(yù)測因素參差不齊，模型擬合及篩選最優(yōu)模型存在差異，可能遺漏某些重要影響因素，因此全面、多維度確定納入的預(yù)測因子至關(guān)重要。另一方面，采取高維度預(yù)測變量會導(dǎo)致模型過于復(fù)雜、預(yù)測變量缺乏代表性、實(shí)際應(yīng)用中難以獲取，將不利于相關(guān)預(yù)測模型在孕產(chǎn)婦中的推廣使用。因此，進(jìn)行多維預(yù)測變量的選擇時應(yīng)考慮變量是否存在嚴(yán)重的信息重疊，采取合適的方法（如正則化技術(shù)）進(jìn)行降維?？紤]到妊娠期至產(chǎn)后的時間跨度較長，還應(yīng)動態(tài)監(jiān)測孕產(chǎn)婦妊娠期至產(chǎn)后的社會環(huán)境、心理及相關(guān)生物學(xué)預(yù)測因素，設(shè)置更多獲取孕產(chǎn)婦資料的測量時間點(diǎn)，深入探討預(yù)測變量之間的作用機(jī)制，以期納入最佳的預(yù)測變量。

其次，樣本量的準(zhǔn)確估計(jì)是PPD預(yù)測模型可靠性和可重復(fù)性的重要保證。無論使用哪種模型，樣本量不足時均容易出現(xiàn)過度擬合的情況，即基于小樣本量構(gòu)建的PPD預(yù)測模型難以到更大的人群中進(jìn)行驗(yàn)證。對于PPD預(yù)測模型的開發(fā)，選取大樣本、多中心的數(shù)據(jù)有利于提高PPD預(yù)測模型的預(yù)測效果及泛化能力，但也應(yīng)考慮到研究效率與成本等現(xiàn)實(shí)問題，因此樣本量的確定應(yīng)同時兼顧有效性及可行性。在樣本量計(jì)算方面，RILEY等[47]為如何計(jì)算臨床預(yù)測模型所需的樣本量提供了方法學(xué)指導(dǎo)，且不建議進(jìn)行數(shù)據(jù)拆分，而應(yīng)采用重采樣的方法進(jìn)行內(nèi)部驗(yàn)證。除了計(jì)算樣本量，研究納入的孕產(chǎn)婦的代表性也需引起重視，而孕產(chǎn)婦群體特征偏差對PPD預(yù)測模型的影響有待進(jìn)一步研究。

最后，模型驗(yàn)證是實(shí)施預(yù)測的必要環(huán)節(jié)，即對模型的區(qū)分度、校準(zhǔn)度進(jìn)行評價(jià)。完整的預(yù)測模型應(yīng)包含對模型的內(nèi)部驗(yàn)證與外部驗(yàn)證，而目前的大多數(shù)PPD預(yù)測模型研究僅通過隨機(jī)拆分?jǐn)?shù)據(jù)進(jìn)行內(nèi)部驗(yàn)證，這種方法減少了開發(fā)隊(duì)列的樣本量，可能降低模型的性能，顯示較高的變異度[48]。更好的內(nèi)部驗(yàn)證方法為k-倍折疊交叉驗(yàn)證以及Bootstrap法，但這兩種方法在很多PPD預(yù)測模型中常被忽略。同時，內(nèi)部驗(yàn)證本身并不能保證結(jié)果的可推廣性，因此還需要大樣本量的外部驗(yàn)證，以更好地驗(yàn)證模型的性能[49]。

綜上所述，選擇合適的模型構(gòu)建方法至關(guān)重要。參數(shù)化模型易于解釋，側(cè)重于對線性變量的預(yù)測，而非參數(shù)化模型在非線性變量預(yù)測方面具有更好的優(yōu)勢，對于文本及圖像數(shù)據(jù)，應(yīng)用深度學(xué)習(xí)算法進(jìn)行分析可能是更好的選擇。因此，模型的選擇應(yīng)結(jié)合各種算法的功能及特性，考慮研究目的、變量類型、維度、樣本量、預(yù)測因素與結(jié)局指標(biāo)之間關(guān)系的復(fù)雜程度等。在PPD預(yù)測方面，研究者更應(yīng)關(guān)注孕產(chǎn)婦PPD發(fā)生風(fēng)險(xiǎn)預(yù)測模型，注重模型的泛化能力，在考慮模型準(zhǔn)確度的同時，也應(yīng)根據(jù)臨床的適用性、實(shí)際應(yīng)用的方便性選擇合適的模型，避免一味追求統(tǒng)計(jì)學(xué)的優(yōu)化，采用了沒有必要的復(fù)雜模型。

作者貢獻(xiàn)：王永劍提出研究方向，進(jìn)行論文的構(gòu)思與設(shè)計(jì)，負(fù)責(zé)撰寫論文；王翼鵬負(fù)責(zé)檢索文獻(xiàn)，收集及匯總資料；黃莎、李叢及魏娜負(fù)責(zé)審查矯正，對論文進(jìn)行修改；齊偉靜、胡潔負(fù)責(zé)論文的總體質(zhì)量控制，對文章整體負(fù)責(zé)；所有作者共同確認(rèn)了論文的最終稿。