楊 友
某些神經(jīng)心理發(fā)育障礙兒童的眼睛特征可能具有重要的臨床價(jià)值,如孤獨(dú)癥譜系障礙(ASD)。臨床兒科醫(yī)生對(duì)ASD兒童的眼睛特征有一些描述[1-4],如缺乏持續(xù)的眼神交流,眼神飄忽不定,斜著眼睛看人,躲避眼神對(duì)視等。除ASD外,情緒障礙、述情障礙和視覺(jué)障礙也會(huì)影響兒童眼神交流[5-7]。這些常見(jiàn)的神經(jīng)心理發(fā)育障礙主要表現(xiàn)為社會(huì)交往功能缺陷,并呈現(xiàn)出一些相似的眼神特征。早期干預(yù)可以極大改善預(yù)后,因此需要進(jìn)行早期篩查。隨著人工智能的發(fā)展,機(jī)器學(xué)習(xí)越來(lái)越多地應(yīng)用于醫(yī)學(xué)圖像分析,如計(jì)算機(jī)輔助診斷[8, 9]。筆者既往研究顯示臉部表情可以應(yīng)用于兒童發(fā)育神經(jīng)心理障礙的早期篩查[10]。單純靜態(tài)眼睛圖像是否具有同樣的價(jià)值,值得進(jìn)一步探討。
1.1 知情同意和倫理 本研究經(jīng)上海交通大學(xué)醫(yī)學(xué)院附屬上海兒童醫(yī)學(xué)中心(我中心)倫理委員會(huì)批準(zhǔn)(批準(zhǔn)號(hào):SCMCIRB-W2020002)。本研究為回顧性資料收集,無(wú)法找到受試者,無(wú)法取得知情同意,且研究項(xiàng)目不涉及個(gè)人隱私和商業(yè)利益,獲取我中心免知情同意。
1.2 雙眼圖像采集 應(yīng)用Google人臉圖片搜索引擎進(jìn)行圖片搜索,以“autism and child/autistic child”和“normal child/healthy child”關(guān)鍵詞搜索到的圖片分別歸為神經(jīng)心理發(fā)育障礙組和對(duì)照組。圖片選擇參照既往發(fā)表的文獻(xiàn)[10]。人工刪除完全重復(fù)的照片、卡通照片、有面部畸形的照片、沒(méi)有兒童臉的照片和有多個(gè)兒童臉部的照片;當(dāng)照片中包含成人的臉時(shí),應(yīng)用繪圖工具去除成人臉。應(yīng)用圖像工具識(shí)別和挖取每張兒童人臉照片中的雙眼圖像。生成的眼睛圖像調(diào)整至128×28分辨率(8位灰度)。
1.3 卷積神經(jīng)網(wǎng)絡(luò)(CNN) 由LeCun等設(shè)計(jì)的多層人工神經(jīng)網(wǎng)絡(luò)確立了CNN的現(xiàn)代結(jié)構(gòu)[11]。CNN是一種深度學(xué)習(xí)模型或類(lèi)似于人工神經(jīng)網(wǎng)絡(luò)的多層感知器,常用來(lái)分析視覺(jué)圖像?;谝慌_(tái)安裝了Kera、Scipy和Python成像庫(kù)(PIL)的Windows 7計(jì)算機(jī),采用二進(jìn)制交叉熵?fù)p失函數(shù)和RMSprop算法優(yōu)化器對(duì)模型進(jìn)行訓(xùn)練。
1.4 評(píng)估分類(lèi)效果
1.4.1 深度學(xué)習(xí)模型 采用CNN模型機(jī)器基于神經(jīng)心理發(fā)育障礙組和對(duì)照組的眼睛特征深度學(xué)習(xí)。將圖像數(shù)據(jù)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。運(yùn)用深度學(xué)習(xí)訓(xùn)練模型結(jié)果對(duì)測(cè)試集進(jìn)行預(yù)測(cè)分類(lèi)。神經(jīng)心理發(fā)育障礙組測(cè)試分?jǐn)?shù)>0.5為分類(lèi)正確,對(duì)照組≤0.5為分類(lèi)正確。因?yàn)樵撃P洼^小,所以任意選擇了一個(gè)訓(xùn)練次數(shù),并且使用了激進(jìn)的dropout率。為避免過(guò)度擬合,及早停止訓(xùn)練(訓(xùn)練次數(shù)在25次)。根據(jù)既往報(bào)道[12],本研究所提出的CNN人眼分類(lèi)器以良好的準(zhǔn)確性排除了數(shù)據(jù)的過(guò)度擬合。
1.4.2 深度學(xué)習(xí)訓(xùn)練模型的準(zhǔn)確性和損失率 以分組檢索結(jié)果為“金標(biāo)準(zhǔn)”,以深度學(xué)習(xí)訓(xùn)練模型分組為待測(cè)標(biāo)準(zhǔn)。①準(zhǔn)確率=(真陽(yáng)性例數(shù)+真陰性例數(shù))/(真陽(yáng)性例數(shù)+真陰性例數(shù)+假陽(yáng)性例數(shù)+假陰性例數(shù));②損失率,通過(guò)訓(xùn)練集和驗(yàn)證集來(lái)計(jì)算。應(yīng)用交叉熵?fù)p失函數(shù)計(jì)算正確標(biāo)簽的似然對(duì)數(shù)。交叉熵的計(jì)算公式為:L=-[y× log(p)+(1-y) × log(1-p)],其中y為樣本標(biāo)簽,正確為1,錯(cuò)誤為0,p為預(yù)測(cè)正確概率。通過(guò)損失函數(shù)的計(jì)算,更新模型參數(shù),減小模型的經(jīng)驗(yàn)風(fēng)險(xiǎn)。
1.5 生成眼睛照片 CNN特征提取采用深度學(xué)習(xí)訓(xùn)練模型,提取的特征通過(guò)支持向量機(jī)(SVM)訓(xùn)練。特征圖像由卷積圖層的可視化生成(詳情見(jiàn)網(wǎng)站:https://github.com/wepe)。
1.6 統(tǒng)計(jì)學(xué)方法和受試者工作特征(ROC)曲線 計(jì)量資料以xˉ±s表示,計(jì)數(shù)資料以n(%)表示,P<0.05為差異有統(tǒng)計(jì)學(xué)意義。應(yīng)用SPSS 24.0軟件錄入數(shù)據(jù)、進(jìn)行統(tǒng)計(jì)分析和繪制ROC曲線。
2.1 一般資料 采集到826張兒童眼睛圖像,神經(jīng)心理發(fā)育障礙組413張,對(duì)照組413張。訓(xùn)練集736張(89.1%),神經(jīng)心理發(fā)育障礙組和對(duì)照組各368張;驗(yàn)證集44張(5.3%),神經(jīng)心理發(fā)育障礙組和對(duì)照組各22張;測(cè)試集46張(5.6%),神經(jīng)心理發(fā)育障礙組和對(duì)照組各23張。
2.2 訓(xùn)練集和驗(yàn)證集的準(zhǔn)確率和損失率 表1顯示,訓(xùn)練集和驗(yàn)證集準(zhǔn)確率隨訓(xùn)練次數(shù)增加呈升高趨勢(shì),訓(xùn)練集和驗(yàn)證集損失率隨訓(xùn)練次數(shù)增加而逐漸下降。
表1 不同迭代次數(shù)訓(xùn)練和驗(yàn)證準(zhǔn)確率和損失率比較(xˉ±s)
2.3 深度學(xué)習(xí)訓(xùn)練模型的特異度和敏感度 深度學(xué)習(xí)訓(xùn)練結(jié)果顯示,神經(jīng)心理發(fā)育障礙組和對(duì)照組測(cè)試分?jǐn)?shù)分別為0.66±0.20和0.20±0.15,差異有統(tǒng)計(jì)學(xué)意義(t=9.03,P<0.001),正確分類(lèi)例數(shù)分別為18/23例(78.3%)和22/23例(95.6%)。準(zhǔn)確率為87.0%,敏感度為78.3%(95%CI:58.1%~90.3%),特異度為95.6%(95%CI:79.0%~99.2%)。深度學(xué)習(xí)訓(xùn)練模型ROC曲線顯示,AUC=0.962(圖1)。
圖1 眼睛照片分類(lèi)器ROC曲線
2.4 特征性眼睛圖像生成 由CNN卷積圖層的可視化生成神經(jīng)心理發(fā)育障礙組(圖2A)和對(duì)照組(圖2B)的特征性眼睛照片。神經(jīng)心理發(fā)育障礙兒童和正常兒童眼間距像素(圖像顯示的基本單位)數(shù)為分別90和70。
圖2 眼睛照片生成結(jié)果
本研究首次通過(guò)深度學(xué)習(xí)訓(xùn)練模型為神經(jīng)心理發(fā)育障礙和正常兒童提供了眼睛特征的初步證據(jù)。結(jié)果表明,通過(guò)深度學(xué)習(xí)訓(xùn)練模型可以獲得眼睛特征,有利于通過(guò)眼部特征改善兒童神經(jīng)心理發(fā)育障礙的早期篩查。
眼睛區(qū)域包含人臉識(shí)別最重要的視覺(jué)信息[13]。與其他任何特征相比,人們更喜歡看眼睛[14,15]。本研究主要側(cè)重于眼睛特征的篩選,有別于以往通過(guò)表情刺激獲取的情緒體驗(yàn)[16],使用源于網(wǎng)絡(luò)的826張眼睛圖像通過(guò)深度學(xué)習(xí)訓(xùn)練模型進(jìn)行分類(lèi),結(jié)果表明,區(qū)分神經(jīng)心理發(fā)育障礙組和正常對(duì)照組兒童眼睛圖像,具有較高的真陽(yáng)性率和較低的假陽(yáng)性率,由于為計(jì)算機(jī)判讀,不存在人為主觀判斷的偏差。鑒于人眼也很難通過(guò)觀察眼睛圖片來(lái)推斷人的社會(huì)心理特征,結(jié)果是可接受的,深度學(xué)習(xí)訓(xùn)練模型可以將兩組眼睛照片進(jìn)行恰當(dāng)分類(lèi)(表1和圖1)。需要說(shuō)明的是,與通過(guò)人臉進(jìn)行篩查測(cè)試的結(jié)果相比[10],眼睛特征深度學(xué)習(xí)訓(xùn)練模型的準(zhǔn)確率略低,可能是由于忽略了臉部其他部位的信息所致,這也符合人類(lèi)的認(rèn)知實(shí)踐,缺乏背景參考信息會(huì)增加再認(rèn)的難度,比如辨認(rèn)戴口罩和帽子的人臉時(shí)往往更加困難。另外,也可能與及早停止訓(xùn)練有關(guān)。為避免過(guò)度擬合,眼睛照片的訓(xùn)練次數(shù)為25次,而以往全臉照片的訓(xùn)練次數(shù)為200次[10]。
深度學(xué)習(xí)訓(xùn)練模型在生成的兩組眼睛的圖像中,眼間距存在肉眼可識(shí)別的差異。神經(jīng)心理發(fā)育障礙組較正常對(duì)照組兒童眼間距寬,兩組眼間距相差20個(gè)像素?cái)?shù)。該結(jié)果符合一般臨床實(shí)際,如最常見(jiàn)的21-三體綜合征、18-三體綜合征等。另外,神經(jīng)心理發(fā)育障礙特征性眼睛圖片可見(jiàn)眼神分散、游離,可能和眼間距寬有關(guān);而正常兒童特征性眼睛圖片眼神更加聚集,有凝視感??傮w而言,對(duì)照組的眼神較神經(jīng)心理發(fā)育障礙組更有交流的欲望,與以前的研究結(jié)果一致[17,18]。
本研究的局限性:①基于互聯(lián)網(wǎng)檢索的圖像數(shù)據(jù)進(jìn)行分類(lèi),增加樣本量有助于提高結(jié)果的可靠性。②缺乏拍攝靜態(tài)圖像時(shí)的情景信息。至少控制以上因素可能會(huì)進(jìn)一步減少研究的實(shí)驗(yàn)偏差。