王雨露,李 飛,楊 震,黃 山,張 罡,詹 曙
(1.大數(shù)據(jù)知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室(合肥工業(yè)大學(xué)),安徽 合肥 230601;2.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230601;3.安徽醫(yī)科大學(xué)第二附屬醫(yī)院,安徽 合肥 230601)
人體表面積BSA(Body Surface Area)是一個(gè)十分重要的生理參數(shù),在許多醫(yī)學(xué)應(yīng)用中有著至關(guān)重要的作用。一方面,它作為標(biāo)準(zhǔn)化的衡量標(biāo)準(zhǔn),在腫瘤治療中細(xì)胞毒性和細(xì)胞抑制藥物的劑量等方面起著決定性作用[1,2]。有研究證明了基于BSA的治療藥物劑量計(jì)算的有效性,并強(qiáng)調(diào)了其最重要的好處是患者存活率的提高[3]。在燒傷的情況下也需要使用BSA來評(píng)估皮膚損傷的嚴(yán)重程度,用來預(yù)測患者的生存幾率[4]。另一方面,BSA在臨床上廣泛用于計(jì)算腎小球?yàn)V過率[5,6],是腎病綜合癥治療中的主要變量。BSA在腎移植術(shù)后受者早期腎功能康復(fù)領(lǐng)域受到了廣泛的關(guān)注[7,8]。但是,由于人體形態(tài)的復(fù)雜性和不規(guī)則性,通過實(shí)際測量來獲取BSA是不現(xiàn)實(shí)的。因此,如何有效地計(jì)算BSA是十分有意義的。在過去的兩百年里,人們從未停止過對(duì)人體表面積的探索。1848 年,Bergmann和Rubner首次提出動(dòng)物體熱的產(chǎn)生與體表面積成正比,在此之后人體表面積的研究開始一步步向前發(fā)展。Meeh[9]提出了第1個(gè)可以使用的BSA計(jì)算方法,但其只考慮了體重這一變量。Du Bois等[10]提出的BSA計(jì)算方法引入了一個(gè)新變量—高度。隨后,許多研究人員為了獲取更準(zhǔn)確的BSA值而不斷改進(jìn)Du Bois方法的系數(shù)。為得到中國人BSA計(jì)算方法,Stevenson[11]對(duì)Du Bois公式進(jìn)行了修正。隨著時(shí)間推移,胡詠梅等[12]指出Stevenson方法已經(jīng)不再適用于當(dāng)代中國人體表面積的計(jì)算,提出了一種新的中國人BSA計(jì)算方法。隨著3D激光表面掃描和CT掃描等技術(shù)的發(fā)展,三維測量技術(shù)已應(yīng)用到BSA測量的研究中。有研究表明,三維測量BSA時(shí)的掃描誤差在1%范圍內(nèi),與傳統(tǒng)人工測量方法相比,三維人體測量更精確、更穩(wěn)定[13],因此可借助三維掃描得到的體表面積來推導(dǎo)BSA計(jì)算方法。目前已經(jīng)有多種通過三維掃描技術(shù)推導(dǎo)出的BSA計(jì)算方法。Tikuisis等[14]借助三維全身掃描和三維建模軟件提出了分別適用于男性和女性的BSA計(jì)算方法。Schlich等[15]提出了新的分別適用于男性和女性的BSA計(jì)算方法。Yu等[16]通過3D掃描技術(shù)研究出男女性通用的BSA計(jì)算方法。隨著3D掃描技術(shù)的發(fā)展,Yu等[17]提出了新的分別適應(yīng)于男性和女性的BSA計(jì)算方法。Kuehnapfel等[18]也提出了新的男女通用的BSA計(jì)算方法。表1展示了近一百年來的部分BSA計(jì)算方法(W:體重,H:身高)。
目前基于三維測量技術(shù)的人體表面積計(jì)算方法已有多種[13,19],但仍存在以下3個(gè)問題:(1)只考慮了人體少量的參數(shù)(身高和體重,在一些特別的情況中還考慮了性別和年齡);(2)通過匹配特定的簡單函數(shù)估計(jì)模型參數(shù);(3)臨床上也認(rèn)為現(xiàn)有的BSA計(jì)算方法誤差較大,對(duì)臨床治療影響較大。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,多種神經(jīng)網(wǎng)絡(luò)應(yīng)用于回歸預(yù)測中。醫(yī)生也希望借助深度學(xué)習(xí)的方法來計(jì)算人體表面積。基于此,本文提出了基于深度前饋神經(jīng)網(wǎng)絡(luò)DFNN(Deep Feedforward Neural Network)的多因子人體表面積計(jì)算模型,模型由2部分組成:首先是特征選擇,通過相關(guān)性和顯著性分析的方法選擇與人體表面積相關(guān)性最高的人體影響因子;其次是深度前饋神經(jīng)網(wǎng)絡(luò)回歸。本文研究基于安徽醫(yī)科大學(xué)第二附屬醫(yī)院提供的104組數(shù)據(jù),與傳統(tǒng)BSA計(jì)算方法和3種其它方法進(jìn)行實(shí)驗(yàn)對(duì)比。實(shí)驗(yàn)結(jié)果表明,本文方法可以得到更好的效果,證明該模型是有效的。
Table 1 Body surface area formulas
本文研究使用的體表數(shù)據(jù)由安徽醫(yī)科大學(xué)第二附屬醫(yī)院提供,自2020年10月至2021年1月收集,共104組,男女比例為61∶43。在室溫下進(jìn)行身高、體重和胸圍等人體數(shù)據(jù)測量。測量身高和體重等數(shù)據(jù)時(shí),要求受試者站直并伸展身體。進(jìn)行CT掃描時(shí)要求受試者將手臂盡量與身體分開一定距離,雙腿分開。CT掃描獲得人體切片數(shù)據(jù)后生成3D模型,得到3D人體模型的體表面積。
2.2.1 特征變量選取
對(duì)于輸入變量來說,數(shù)量過多會(huì)導(dǎo)致回歸方法過于復(fù)雜,且如果引入的是無關(guān)變量,回歸方法的泛化能力會(huì)降低。因此,需要選擇合適的特征變量用于建立多元回歸方法。本文通過皮爾遜相關(guān)系數(shù)和顯著性檢驗(yàn)來進(jìn)行特征變量的選擇。相關(guān)系數(shù)絕對(duì)值越大,相關(guān)度越高。因?yàn)橄嚓P(guān)系數(shù)是一個(gè)隨機(jī)變量,取值具有一定的偶然性,2個(gè)不相關(guān)的變量,相關(guān)系數(shù)也可能較高,因此需要顯著性檢驗(yàn)來輔助,只有當(dāng)顯著性水平顯著時(shí),相關(guān)系數(shù)才是可信的。
2.2.2 數(shù)據(jù)預(yù)處理
由于各個(gè)特征變量及人體表面積的數(shù)值差異較大,在建立回歸方法之前要先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,即利用式(1)對(duì)數(shù)據(jù)進(jìn)行歸一化。
(1)
其中,xmin為數(shù)據(jù)最小值,xmax為數(shù)據(jù)最大值,xi為第i個(gè)數(shù)據(jù),xR為xi歸一化后的結(jié)果。
2.2.3 深度前饋神經(jīng)網(wǎng)絡(luò)
深度前饋神經(jīng)網(wǎng)絡(luò)DFNN是一種典型的深度學(xué)習(xí)方法[21],又稱為多層感知機(jī)。DFNN的目標(biāo)是將數(shù)據(jù)通過多個(gè)轉(zhuǎn)換層[22],以分層的方式學(xué)習(xí)數(shù)據(jù)的復(fù)雜抽象表示。DFNN一般由輸入層、隱含層和輸出層這3部分組成,每一層都有若干相互關(guān)聯(lián)的處理單元。DFNN的結(jié)構(gòu)如圖1所示。
Figure 1 Structure of deep feedforward neural network圖1 深度前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
在DFNN中,每一層對(duì)其輸入進(jìn)行非線性轉(zhuǎn)換,并在這一層的輸出中表示。第m層第n個(gè)神經(jīng)元的計(jì)算公式如式(2)所示:
(2)
2.2.4 建立深度前饋神經(jīng)網(wǎng)絡(luò)
深度前饋神經(jīng)網(wǎng)絡(luò)中參數(shù)的設(shè)置如表2所示。
Table 2 Parameters setting of DFNN
輸入變量為根據(jù)相關(guān)性分析選擇出的6個(gè)特征變量。本文DFNN包含3個(gè)隱含層,每個(gè)隱含層包含42個(gè)節(jié)點(diǎn)。DFNN采用Adam(Adaptive moments estimation)算法作為優(yōu)化器,均方誤差MSE(Mean Square Error)作為損失函數(shù)來進(jìn)行DFNN的優(yōu)化更新。對(duì)于激活函數(shù)的選擇,在神經(jīng)網(wǎng)絡(luò)反向傳播誤差的過程中,反向傳播是逐層對(duì)激活函數(shù)的偏導(dǎo)進(jìn)行相乘,但隨著神經(jīng)網(wǎng)絡(luò)的層數(shù)不斷增加,容易出現(xiàn)梯度消失問題。為了改善DFNN的性能,本文使用修正線性單元ReLU(Rectified Linear Unit)激活函數(shù)來解決梯度消失的問題。因?yàn)镽eLU函數(shù)的偏導(dǎo)是1,它的許多特性使網(wǎng)絡(luò)容易用基于梯度的方法進(jìn)行優(yōu)化。對(duì)于深層網(wǎng)絡(luò),ReLU可以更快地進(jìn)行學(xué)習(xí),且允許訓(xùn)練深度監(jiān)督網(wǎng)絡(luò)而不需要無監(jiān)督的預(yù)訓(xùn)練[23]。ReLU的數(shù)學(xué)公式如式(3)所示:
(3)
2.2.5 評(píng)價(jià)方法
為了避免網(wǎng)絡(luò)模型在訓(xùn)練中出現(xiàn)過擬合和欠擬合等問題,也為了驗(yàn)證方法對(duì)隨機(jī)劃分?jǐn)?shù)據(jù)的可行性,本文采用5-折交叉驗(yàn)證和測試集驗(yàn)證2種方法進(jìn)行實(shí)驗(yàn)[24]。5-折交叉驗(yàn)證將數(shù)據(jù)集等分為5個(gè)子數(shù)據(jù)集,每個(gè)驗(yàn)證過程將其中一組子數(shù)據(jù)集作為驗(yàn)證集,其余4組作為訓(xùn)練集構(gòu)建模型,每個(gè)子數(shù)據(jù)集都要作為驗(yàn)證集驗(yàn)證1次,最后5次驗(yàn)證的平均得分作為方法的最終得分。5-折交叉驗(yàn)證原理圖如圖2所示。測試集驗(yàn)證將數(shù)據(jù)集按7∶3的比例劃分為訓(xùn)練集與測試集,在測試集上測試獲得模型評(píng)價(jià)得分。
Figure 2 Five-fold cross validation圖2 5-折交叉驗(yàn)證
本文使用決定系數(shù)R2評(píng)價(jià)方法的學(xué)習(xí)能力,其值越接近1,方法的學(xué)習(xí)能力越強(qiáng),模擬效果越好。采用均方誤差MSE、平均絕對(duì)誤差MAE(Mean Absolute Error)以及平均絕對(duì)誤差百分比MAPE(Mean Absolute Percentage Error)3個(gè)評(píng)價(jià)指標(biāo)來對(duì)預(yù)測方法進(jìn)行評(píng)價(jià)。預(yù)測誤差越小,表明方法精度越高。R2、MSE、MAE和MAPE的定義分別如式(4)~式(7)所示:
(4)
(5)
(6)
(7)
2.2.6 Bland-Altman分析法
在方法的一致性評(píng)價(jià)方面,研究表明僅用決定系數(shù)評(píng)價(jià)方法一致性是片面的[25]。因此本文研究采用Bland-Altman分析[26]評(píng)價(jià)方法的一致性。Bland-Altman分析是一種評(píng)價(jià)2種測量結(jié)果一致性的新方法,通過繪制散點(diǎn)圖預(yù)測結(jié)果的一致性界限,根據(jù)散點(diǎn)圖的一致性界限大小及落在一致性界限外的散點(diǎn)數(shù)來評(píng)價(jià)方法一致性。
本文借助SPSS軟件對(duì)體表數(shù)據(jù)與人體表面積進(jìn)行相關(guān)性與顯著性分析,分析結(jié)果如表3所示(其中顯著性0.000指小于0.01,相關(guān)性顯著)。
Table 3 Correlation and significance analysis of characteristic variables
根據(jù)表3內(nèi)容選取相關(guān)性最高的身高、體重、腰圍、臀圍、手臂圍和大腿圍 6個(gè)變量作為輸入變量。
對(duì)學(xué)生而言,利用EDA技術(shù)進(jìn)行設(shè)計(jì)和仿真,不僅能提高學(xué)生的學(xué)習(xí)興趣,鞏固課堂所學(xué)知識(shí),而且還能提高學(xué)生的動(dòng)手能力,提高學(xué)生電子實(shí)驗(yàn)技能的應(yīng)用水平。在電子行業(yè)中,傳統(tǒng)的設(shè)計(jì)過程是:首先提出設(shè)計(jì)方案,然后設(shè)計(jì)電路,制作線路板,焊接元件,最后調(diào)試,有問題時(shí)再重新設(shè)計(jì)制作,這樣不但費(fèi)時(shí)費(fèi)力,而且會(huì)造成大量資金的浪費(fèi)。利用EDA技術(shù)可以避免這些問題的出現(xiàn),提高工作效率。利用EDA技術(shù)進(jìn)行實(shí)驗(yàn)教學(xué)具有縮短設(shè)計(jì)周期,節(jié)省設(shè)計(jì)、實(shí)驗(yàn)費(fèi)用,提高設(shè)計(jì)質(zhì)量等優(yōu)點(diǎn),因而得到了越來越多的應(yīng)用[4]。
為驗(yàn)證3層前饋神經(jīng)網(wǎng)絡(luò)的合理性,本節(jié)分別選取包含2層、4層、5層和6層隱含層的前饋神經(jīng)網(wǎng)絡(luò)與3層前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行性能對(duì)比。首先進(jìn)行5-折交叉驗(yàn)證,結(jié)果對(duì)比如表4所示。再將104名受試者按7∶3的比例劃分訓(xùn)練集與測試集,各個(gè)方法的預(yù)測結(jié)果如表5所示。
Table 4 Performance comparison of DFNN under five-fold cross validation
Table 5 Performance comparison of DFNN on test set
從表4和表5可以看出,與其他層數(shù)的前饋神經(jīng)網(wǎng)絡(luò)相比,3層前饋神經(jīng)網(wǎng)絡(luò)的R2均為最大,MSE、MAE和MAPE的值均為最小。當(dāng)網(wǎng)絡(luò)深度由2層變?yōu)?層時(shí),決定系數(shù)R2增大,MSE、MAE和MAPE的值均減小。而當(dāng)網(wǎng)絡(luò)深度由3層開始逐漸增加時(shí),決定系數(shù)R2在逐漸減小而MSE、MAE和MAPE的值呈逐漸增大的趨勢。因此,當(dāng)網(wǎng)絡(luò)深度為3層時(shí)預(yù)測效果最好。
3.3.1 與傳統(tǒng)方法比較
為驗(yàn)證DFNN的效果,首先比較DFNN與傳統(tǒng)BSA計(jì)算方法的預(yù)測結(jié)果:對(duì)DFNN使用5-折交叉驗(yàn)證,選取最新的Yu和Kuehnapfel傳統(tǒng)方法進(jìn)行5-折交叉驗(yàn)證來對(duì)比,結(jié)果如表6所示。再將104名受試者按7∶3的比例劃分訓(xùn)練集與測試集,在測試集上的預(yù)測結(jié)果如表7所示。
Table 6 Performance comparison with traditional methods under five-fold cross validation
Table 7 Performance comparison with traditional methods on test set
從表6和表7可以看出,無論是在交叉驗(yàn)證實(shí)驗(yàn)中,還是在測試集實(shí)驗(yàn)中,與傳統(tǒng)的Yu等計(jì)算方法和Kuehnapfel等計(jì)算方法相比,DFNN模型獲得的預(yù)測精度最高,不但決定系數(shù)R2增大,同時(shí)3個(gè)誤差評(píng)價(jià)指標(biāo)也都得到了一定程度的減小。DFNN模型獲得了最大的R2值以及最小的MSE、MAE與MAPE值,這意味著DFNN的效果最好。
圖3為測試集真實(shí)值與各個(gè)方法預(yù)測值的折線對(duì)比圖??梢钥闯?,Kuehnapfel等方法的預(yù)測值在一些點(diǎn)處與真實(shí)值變化規(guī)律相反;Yu等方法的預(yù)測值與真實(shí)值的差值與其他2種方法相比較大;DFNN模型預(yù)測值更貼合真實(shí)值,變化規(guī)律更相近,預(yù)測結(jié)果更準(zhǔn)確。
Figure 3 Comparison of real value and predicted values by traditional methods on test set圖3 測試集真實(shí)值與傳統(tǒng)方法預(yù)測值對(duì)比
3.3.2 與其它方法比較
under five-fold cross validation
Table 9 Performance comparison with other methods on test set
從表8和表9可以看出,在構(gòu)建的4種網(wǎng)絡(luò)預(yù)測方法中,神經(jīng)網(wǎng)絡(luò)模型與多元線性回歸模型的預(yù)測效果均好于隨機(jī)森林回歸模型的;DFNN的決定系數(shù)R2最大,MSE、MAE和MAPE的值均為最小,交叉驗(yàn)證與測試集驗(yàn)證方法下均是如此。DFNN的決定系數(shù)R2更接近1,模擬效果更好,預(yù)測值更接近實(shí)測值,DFNN的各項(xiàng)誤差更小,表示方法精度更高,預(yù)測值更加可信。因此,與BP神經(jīng)網(wǎng)絡(luò)、MLR模型和隨機(jī)森林相比,DFNN預(yù)測的效果最好、精度最高。
圖4為測試集真實(shí)值與各個(gè)方法預(yù)測值的折線對(duì)比圖。可以看出,雖然各個(gè)方法預(yù)測效果與真實(shí)值走向均大體相同,但隨機(jī)森林的預(yù)測值與真實(shí)值偏差最大且在某些點(diǎn)處走向不同,BP神經(jīng)網(wǎng)絡(luò)和MLR預(yù)測值與真實(shí)值偏差較大,而DFNN預(yù)測值折線最貼合真實(shí)值折線,變化規(guī)律更相近,預(yù)測結(jié)果最準(zhǔn)確。
Figure 4 Comparison of real value and predicted values by other methods on test set圖4 測試集真實(shí)值與其它方法預(yù)測值對(duì)比
3.3.3 一致性分析
為了更準(zhǔn)確地分析各BSA預(yù)測方法的一致性,本文采用Bland-Altman分析法,以每種方法的人體表面積預(yù)測值與人體表面積真實(shí)值的均值為橫坐標(biāo),兩者之間的差值為縱坐標(biāo),繪制Bland-Altman分析散點(diǎn)圖。DFNN預(yù)測方法與其它對(duì)比BSA預(yù)測方法的散點(diǎn)圖如圖5所示,圖中方法名稱均代表使用此方法得出的體表面積。由散點(diǎn)圖可以看出,在所有的對(duì)比方法中,DFNN預(yù)測方法的95%一致性界限范圍最小,這意味著DFNN方法的一致性最好。
Figure 5 Bland Altman scatter plots 圖5 Bland-Altman散點(diǎn)圖
BSA在醫(yī)學(xué)等領(lǐng)域有著極其重要的應(yīng)用價(jià)值,在用藥劑量選擇、計(jì)算腎小球?yàn)V過率以及燒傷評(píng)估等方面起著十分重要的作用。然而現(xiàn)有BSA計(jì)算方法只考慮了人體少量參數(shù),另外通過匹配特定的簡單函數(shù)來估計(jì)方法參數(shù),誤差較大。三維測量獲得的BSA更精確穩(wěn)定,但三維測量大多昂貴且耗費(fèi)時(shí)間較多,且這些測量(例如CT掃描)對(duì)人體輻射較大。本文提出了一種有效的方法來實(shí)現(xiàn)BSA臨床計(jì)算,幫助醫(yī)生更快更精確地獲得病人體表面積,并通過多個(gè)實(shí)驗(yàn)證明了其有效性。首先,通過相關(guān)性分析選出6個(gè)與BSA相關(guān)性最高的影響因子,與之前的BSA計(jì)算方法相比,增加了幾種不同的特征,這是降低體表面積計(jì)算誤差的重要措施;然后,建立DFNN預(yù)測方法,實(shí)現(xiàn)BSA自動(dòng)預(yù)測。
在與傳統(tǒng)方法的比較中,本文選擇了最新的Yu和Kuehnapfel計(jì)算方法進(jìn)行對(duì)比。從實(shí)驗(yàn)結(jié)果可以看出,3種方法中DFNN的精度最高,誤差最小,預(yù)測效果最好。這主要是因?yàn)榻柚嚓P(guān)性分析選取了與BSA相關(guān)性最高的特征變量,增加了人體參數(shù),提高了預(yù)測精度。此外,神經(jīng)網(wǎng)絡(luò)不僅可以學(xué)習(xí)特征變量與BSA之間的關(guān)聯(lián),還可以自動(dòng)從簡單特征中學(xué)習(xí)提取到更深層、復(fù)雜的特征,既避免了傳統(tǒng)的復(fù)雜計(jì)算也提高了BSA預(yù)測方法的精度,從而獲得了更加精確的預(yù)測值。
在與其它方法的比較中,本文對(duì)DFNN、BP神經(jīng)網(wǎng)絡(luò)、MLR和隨機(jī)森林進(jìn)行BSA回歸模型構(gòu)建。結(jié)果表明,DFNN回歸方法預(yù)測結(jié)果優(yōu)于BP神經(jīng)網(wǎng)絡(luò)、MLR和隨機(jī)森林模型的。DFNN使用ReLU激活函數(shù),避免了梯度消失問題,通過使用帶標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練,誤差自上到下傳播,利用誤差來調(diào)整各層之間的權(quán)重,使得4種方法中DFNN獲得了最高預(yù)測精度。根據(jù)Bland-Altman散點(diǎn)圖也可以看出,DFNN在所有方法中95%一致性界限范圍最小,一致性最好。
本文使用的樣本數(shù)據(jù)量較小,還需要收集更多的體表數(shù)據(jù)以進(jìn)一步優(yōu)化模型。未來,隨著樣本數(shù)據(jù)增加,在大數(shù)據(jù)條件下選擇構(gòu)建合適的方法進(jìn)行訓(xùn)練,以獲得更高的BSA計(jì)算精度,提出更全面、適合不同種族的BSA計(jì)算方法。
為得到BSA的精確預(yù)測值,本文研究針對(duì)以往BSA計(jì)算方法指示性狀較少的問題進(jìn)行改進(jìn),借助相關(guān)性分析選擇6個(gè)相關(guān)性較高的影響因子參與BSA預(yù)測計(jì)算,同時(shí)引入DFNN來構(gòu)建回歸模型計(jì)算BSA。在交叉驗(yàn)證與測試集驗(yàn)證的情況下,深度前饋神經(jīng)網(wǎng)絡(luò)分別與2種傳統(tǒng)計(jì)算方法和3種其它方法進(jìn)行比較,并進(jìn)行了一致性分析。所有實(shí)驗(yàn)結(jié)果表明,本文所提出的回歸方法能獲得最高精度的預(yù)測值,能最準(zhǔn)確地計(jì)算BSA,給予臨床醫(yī)學(xué)最好的幫助。