楊安妮 李琦 李湘平
南方醫(yī)科大學(xué)南方醫(yī)院耳鼻咽喉頭頸外科(廣州 500515)
突發(fā)性聾(簡(jiǎn)稱(chēng)突聾)是一種常見(jiàn)的耳科疾病。其定義為72小時(shí)以?xún)?nèi)突然發(fā)生的、原因不明的感音神經(jīng)性聽(tīng)力損失,至少在相鄰的兩個(gè)頻率聽(tīng)力下降≥20dB[1],發(fā)病率約為每年5-27/10萬(wàn)人[2]。其病因不明,主要以激素治療為主,但患者的預(yù)后存在差異[2]。探索能夠準(zhǔn)確預(yù)測(cè)突聾預(yù)后的因素及模型對(duì)于疾病防治、減輕公共醫(yī)療負(fù)擔(dān)有重要意義。既往研究報(bào)道了許多可能影響突聾預(yù)后的因素:臨床特征、炎癥指標(biāo)、凝血功能等,但關(guān)于預(yù)后模型的研究較少。近年來(lái),逐漸有學(xué)者開(kāi)始運(yùn)用機(jī)器學(xué)習(xí)(Machine Learning,ML)構(gòu)建預(yù)測(cè)突聾預(yù)后模型。本文將就目前已報(bào)道的可能影響突聾預(yù)后的因素以及預(yù)后模型相關(guān)研究進(jìn)展做一綜述。
患者臨床特征作為最易收集的指標(biāo),已被廣泛應(yīng)用于疾病預(yù)后因素的研究中。相關(guān)研究已經(jīng)證明突聾預(yù)后與患者的年齡、發(fā)病至就診的時(shí)間及聽(tīng)力損失的程度相關(guān),與是否伴有耳鳴、眩暈的相關(guān)性仍存在爭(zhēng)議,而與伴有糖尿病、高血壓等并不存在顯著的相關(guān)性[3,4]。因此,就目前研究而言,是否患有糖尿病和(或)高血壓對(duì)判斷突聾預(yù)后的指導(dǎo)意義不大。
中性粒細(xì)胞與淋巴細(xì)胞比值(Neutrophil-to-Lymphocyte Ratio,NLR),血小板與淋巴細(xì)胞比值(Platelets-to-Lymphocyte Ratio,PLR)是反應(yīng)炎癥的標(biāo)志物[5]。而炎癥會(huì)改變紅細(xì)胞的產(chǎn)生,使未成熟紅細(xì)胞釋放入血,導(dǎo)致紅細(xì)胞分布寬度(Red Cell Distribution Width,RDW)升高,因此RDW也被視為反應(yīng)炎癥水平的一個(gè)指標(biāo)[6]。多項(xiàng)對(duì)突聾的回顧性研究表明,NLR及PLR與聽(tīng)力恢復(fù)呈負(fù)相關(guān),與健康對(duì)照組相比,突聾患者的NLR及PLR顯著升高[5,7-8]。提示NLR及PLR與突聾的病因及預(yù)后存在相關(guān)性。一項(xiàng)回顧性研究發(fā)現(xiàn)RDW與突聾患者的聽(tīng)力恢復(fù)相關(guān)[6]。降鈣素原(Procalcitonin,PCT)、C反應(yīng)蛋白(C-reactive Protein,CRP)也是常用的監(jiān)測(cè)體內(nèi)炎癥反應(yīng)的指標(biāo),但僅有少數(shù)研究報(bào)道治療前突聾患者與對(duì)照組間的PCT統(tǒng)計(jì)學(xué)差異顯著,目前其與預(yù)后的相關(guān)性仍不明確[9,10]。目前研究報(bào)道,炎癥可能是突聾的病因,炎癥指標(biāo)NLR及PLR與突聾預(yù)后有較強(qiáng)相關(guān)性,而RDW、PCT及CRP與突聾預(yù)后的關(guān)聯(lián)需要更多研究證實(shí)。
血脂代謝異常是引起動(dòng)脈粥樣硬化、微循環(huán)障礙的重要原因,而高甘油三酯(Triglycerides,TG)、高總膽固醇(Total cholesterol,TC)可以通過(guò)誘導(dǎo)早期炎癥反應(yīng)和微血栓形成而引起血管內(nèi)皮功能損傷[11]。既往研究發(fā)現(xiàn),TG、TC水平與突聾療效相關(guān)[12],而納入94例突聾患者的回顧性研究也表明預(yù)后不同的患者間TC水平統(tǒng)計(jì)學(xué)差異顯著[13]。盡管相關(guān)研究提示血脂水平與突聾預(yù)后相關(guān),但研究較少,缺乏有力的臨床證據(jù)支持。
凝血功能障礙、高纖維蛋白原血癥被認(rèn)為是突聾的病因之一,研究表明凝血指標(biāo)中的活化部分凝血酶時(shí)間(Activated Partial Thrombin Time,APTT)及纖維蛋白原(Fibrinogen,FIB)與突聾預(yù)后相關(guān)。一項(xiàng)對(duì)高頻下降型突聾的研究發(fā)現(xiàn),預(yù)后不同的患者間APTT統(tǒng)計(jì)學(xué)差異顯著[14]。多項(xiàng)研究也表明,有效組突聾患者FIB治療前后都低于無(wú)效組[15,16]。這不僅提示突聾的預(yù)后可能與凝血功能有關(guān),還為使用巴曲酶及肝素等治療突聾提供了支持。
miRNA是基因表達(dá)的重要調(diào)節(jié)因子,也是目前公認(rèn)非常有研究前景的生物標(biāo)志物[17]。我們?cè)谙惹暗难芯恐校状卫肦NA測(cè)序技術(shù)及生物信息學(xué)分析,發(fā)現(xiàn)了突聾患者與健康志愿者外周血中差異性表達(dá)的7個(gè)關(guān)鍵miRNA(Hsa-miR-34a/15a/23a/210/18b/548n/143),提示miRNA與突聾的發(fā)生有一定的關(guān)聯(lián)[18]。而今年一項(xiàng)研究分析了21例突聾患者的miRNA的表達(dá)情況,認(rèn)為其與突聾患者的聽(tīng)力水平及治療結(jié)局相關(guān)[19]。而miRNA在突聾中的研究才剛剛起步,其在突聾的病因及預(yù)后中存在一定研究?jī)r(jià)值,非常值得學(xué)者關(guān)注。
2018年我國(guó)的研究首次報(bào)道了在突聾中應(yīng)用ML構(gòu)建預(yù)后模型可行性[20]。目前僅檢索到3篇文獻(xiàn)報(bào)道了利用ML構(gòu)建突聾預(yù)后預(yù)測(cè)模型。下文將就已應(yīng)用到建立突聾預(yù)后預(yù)測(cè)模型中的算法做一綜述(具體算法見(jiàn)表1)。
表1 應(yīng)用機(jī)器學(xué)習(xí)預(yù)測(cè)突聾預(yù)后的文獻(xiàn)摘要Table 1 Summary Articles with Machine-Learning Applications for Prediction of the prognosis of Sudden Sensorineural Hearing Loss.
LR是一種以線性回歸為基礎(chǔ)的分類(lèi)算法。已廣泛應(yīng)用于疾病的診斷、預(yù)后因素分析、預(yù)后模型構(gòu)建中[23,24]。研究報(bào)道,含11個(gè)預(yù)測(cè)變量的LR預(yù)后模型,預(yù)測(cè)突聾預(yù)后的準(zhǔn)確度為73.44%,AUC=0.79,95% CI=0.74-0.84[20]。LR在預(yù)測(cè)二元結(jié)局時(shí)的準(zhǔn)確度較高,但對(duì)多元結(jié)局,LR模型的預(yù)測(cè)能力可能劣于其他算法。
已報(bào)道的兩篇文獻(xiàn)中均使用了SVM及MLP算法。SVM算法基本思想是在二次規(guī)劃的基礎(chǔ)上不斷迭代尋找支持向量的線性分類(lèi)器[25]。而MLP是使用反向傳播方法進(jìn)行訓(xùn)練的前饋神經(jīng)網(wǎng)絡(luò),既可以用于分類(lèi),也可以用于回歸問(wèn)題[22]。文獻(xiàn)報(bào)道,納入不同預(yù)測(cè)變量的SVM及MLP的準(zhǔn)確度都能達(dá)到70%以上,AUC均大于0.70[20,22]。最優(yōu)MLP預(yù)測(cè)模型納入了三個(gè)指標(biāo):初始聽(tīng)力水平、聽(tīng)力圖類(lèi)型、發(fā)病至就診時(shí)間(準(zhǔn)確度:74.03%,AUC=0.81)。臨床醫(yī)生在接診患者時(shí),利用該模型結(jié)合純音測(cè)聽(tīng)就能對(duì)預(yù)后進(jìn)行一個(gè)比較準(zhǔn)確的初步判斷。
DBN是深度學(xué)習(xí)中的重要模型,由多層無(wú)監(jiān)督的受限玻爾茲曼機(jī)和一層有監(jiān)督的反向傳播網(wǎng)絡(luò)組成[26]。Bing,D等[20]報(bào)道的納入1220例單側(cè)突聾患者的研究中,納入149個(gè)預(yù)測(cè)變量的DBN模型準(zhǔn)確度最高(準(zhǔn)確度=77.58%,AUC=0.84,95%CI=0.8 1-0.87)[20]。隨后,在其進(jìn)一步研究中,納入 288個(gè)預(yù)測(cè)變量以二分類(lèi)結(jié)局構(gòu)建的DBN預(yù)測(cè)模型同樣的得了較高的準(zhǔn)確度(準(zhǔn)確度=76.25%,AUC=0.806),但準(zhǔn)確度及AUC不高于納入149個(gè)預(yù)測(cè)變量的DBN模型,同時(shí)該研究指出對(duì)預(yù)后有影響的特征主要集中于凝血指標(biāo)、血液學(xué)相關(guān)指標(biāo)、一般人口學(xué)指標(biāo)及治療前聽(tīng)力水平[21]。這些指標(biāo)與先前的研究報(bào)道的影響突聾的預(yù)后因素是一致的,因此,選擇研究中已經(jīng)報(bào)道過(guò)的相關(guān)預(yù)后因素作為預(yù)測(cè)變量,對(duì)提高預(yù)測(cè)模型的準(zhǔn)確度有很大意義。
RF包括一系列決策樹(shù),可以考慮變量間的相互作用以避免過(guò)度擬合,并對(duì)樣本進(jìn)行分層(圖1)[27]。韓國(guó)對(duì)突聾一項(xiàng)研究中[22],納入15個(gè)預(yù)測(cè)變量的RF模型較其他預(yù)后模型的準(zhǔn)確度更高且AUC值更大(準(zhǔn)確度73.91%,AUC=0.75,95%CI=0.64-0.85),證明了其在預(yù)測(cè)突聾預(yù)后中的研究?jī)r(jià)值。同時(shí),因?yàn)槠浞蔷€性分類(lèi)器的特點(diǎn),RF模型可能更加適用于多元結(jié)局的預(yù)測(cè)。在韓國(guó)的研究中也利用RF對(duì)預(yù)測(cè)變量的重要性(Importance)進(jìn)行計(jì)算,對(duì)預(yù)測(cè)變量進(jìn)行排序,篩選更有意義的預(yù)測(cè)變量[22]。其研究中利用RF算法優(yōu)化預(yù)測(cè)變量選擇,僅納入15個(gè)預(yù)測(cè)變量的SVM模型準(zhǔn)確度達(dá)到75.36,AUC達(dá)到0.75。
圖1 隨機(jī)森林簡(jiǎn)化示意圖Fig.1 Random Forests simplified diagram
KNN是基于數(shù)據(jù)集中的觀測(cè)值與其他具有類(lèi)似屬性的觀測(cè)值緊密相鄰的假設(shè)統(tǒng)計(jì)模式識(shí)別中一種非參數(shù)的分類(lèi)算法,能夠找到測(cè)試觀察值K最近的觀測(cè)值,并通過(guò)多數(shù)表決確定其類(lèi)別[22]。具有對(duì)于未知分布和非正態(tài)分布的數(shù)據(jù)集分類(lèi)準(zhǔn)確率較高及概念清晰等優(yōu)點(diǎn)[28]。納入15個(gè)預(yù)測(cè)變量的KNN突聾預(yù)后預(yù)測(cè)模型,準(zhǔn)確度為65.22%,AUC=0.65,均低于其他算法,提示KNN對(duì)建立突聾預(yù)后模型的適用性可能劣于其他算法,但這只是基于一項(xiàng)研究的報(bào)道,考慮到KNN在處理未知分布的數(shù)據(jù)集分類(lèi)準(zhǔn)確度高的優(yōu)點(diǎn),其仍存在很大的應(yīng)用價(jià)值。
AdaBoost算法是一種運(yùn)行高效且實(shí)際應(yīng)用最廣泛的boosting集成算法[22]。韓國(guó)的研究表明,納入15個(gè)預(yù)測(cè)變量的AdaBoost突聾預(yù)后預(yù)測(cè)模型能達(dá)到與MLP模型一致的準(zhǔn)確度(72.46%,AUC分別為0.74和0.73)。先前的研究建立的這兩種模型預(yù)測(cè)性能基本一致,提示我們AdaBoost也可以作為一個(gè)預(yù)測(cè)突聾預(yù)后的有效算法,但如何利用AdaBoost構(gòu)建準(zhǔn)確度更高的預(yù)后模型仍有待研究發(fā)現(xiàn)。
突聾的治療以激素為主,但患者預(yù)后卻不同。因此,學(xué)者致力于研究影響突聾預(yù)后的因素,目前研究報(bào)道了影響突聾預(yù)后的多種指標(biāo),其中年齡、發(fā)病至就診的時(shí)間、眩暈、NLR、PLR、APTT、FIB等與突聾的預(yù)后相關(guān)性較高。合并糖尿病和(或)高血壓對(duì)突聾預(yù)后的影響可能不大。而血脂、RDW等與突聾預(yù)后的相關(guān)性需要進(jìn)一步證實(shí)。在已有報(bào)道中,準(zhǔn)確性較高的預(yù)后預(yù)測(cè)模型均納入了年齡、發(fā)病至就診時(shí)間間隔、眩暈等三項(xiàng)指標(biāo),表明其對(duì)于建立突聾預(yù)后模型可能是必不可少的。
據(jù)文獻(xiàn)報(bào)道,在變量極少時(shí),使用MLP及LR建立的模型準(zhǔn)確度較高。當(dāng)僅有純音測(cè)聽(tīng)檢查結(jié)果時(shí),MLP模型可對(duì)患者的預(yù)后進(jìn)行簡(jiǎn)單的初步判斷,但需要更多的樣本訓(xùn)練模型,以實(shí)現(xiàn)更高的準(zhǔn)確度?;谀壳暗难芯?,針對(duì)多元結(jié)局,LR模型劣于RF、MLR等其他算法。而納入288個(gè)預(yù)測(cè)變量的DBN模型準(zhǔn)確度低于納入149個(gè)預(yù)測(cè)變量的模型,增加樣本量可能更有利于提高DBN模型的準(zhǔn)確度。
同時(shí),既往研究發(fā)現(xiàn),對(duì)同一樣本采用相同的算法構(gòu)建預(yù)后模型,納入預(yù)測(cè)變量不同,預(yù)測(cè)準(zhǔn)確度也存在差異,增加預(yù)測(cè)變量數(shù)目不一定能增加模型準(zhǔn)確度。已有較成熟的運(yùn)用ML實(shí)現(xiàn)模型中預(yù)測(cè)因子重要性的算法,可計(jì)算預(yù)測(cè)變量在預(yù)測(cè)模型中的重要性并據(jù)將排序,從而篩選更有意義的預(yù)測(cè)變量;而韓國(guó)學(xué)者的研究也已經(jīng)應(yīng)用了該算法,即使在預(yù)測(cè)變量較少時(shí),也可以建立準(zhǔn)確度較高的預(yù)測(cè)模型。除將已報(bào)道的與突聾預(yù)后相關(guān)性較高的年齡、眩暈等指標(biāo)納入預(yù)后模型中,臨床醫(yī)生應(yīng)該增加納入變量的種類(lèi)及數(shù)目,運(yùn)用ML進(jìn)一步篩選重要指標(biāo)。如MiRNA作為最新報(bào)道的與突聾預(yù)后相關(guān)的指標(biāo),目前研究較少,且并未納入預(yù)后模型中,其對(duì)突聾預(yù)后的影響,相關(guān)miRNA的表達(dá)是否能夠作為重要變量提高預(yù)測(cè)模型的準(zhǔn)確度,值得進(jìn)一步研究。
基于ML不會(huì)預(yù)先對(duì)數(shù)據(jù)的分布做假設(shè)的特點(diǎn),其能夠?qū)?shù)據(jù)本身進(jìn)行分析,從中挖掘出該數(shù)據(jù)的特有規(guī)律。而臨床數(shù)據(jù)往往復(fù)雜且未知分布特性,運(yùn)用ML挖掘出數(shù)據(jù)本身的規(guī)律,建立的預(yù)測(cè)模型與現(xiàn)實(shí)情況的擬合度更高,更符合臨床實(shí)際情況。
就目前突聾預(yù)后的研究進(jìn)展而言,miRNA似乎是一個(gè)非常有研究前景的標(biāo)志物,而ML建立預(yù)后模型也提高預(yù)測(cè)準(zhǔn)確性,指導(dǎo)治療方案調(diào)整,并改善預(yù)后提供了新的可能。