章楓葉欣,王 駿,賈修一,潘 祥,鄧趙紅,施 俊,王士同
1.江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無(wú)錫214122
2.上海大學(xué) 通信與信息工程學(xué)院,上海200444
3.南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,南京210094
自閉癥譜性障礙(autism spectrum disorder,ASD)是一系列復(fù)雜的神經(jīng)發(fā)展障礙性疾病,其臨床表現(xiàn)主要為社會(huì)交往障礙、言語(yǔ)交流障礙和動(dòng)作刻板重復(fù)等。美國(guó)疾控中心數(shù)據(jù)統(tǒng)計(jì)顯示,美國(guó)兒童的自閉癥患病率高達(dá)1∶59。這表明自閉癥已經(jīng)成為一個(gè)相當(dāng)嚴(yán)重的健康問(wèn)題,迫切需要開(kāi)發(fā)一種有效的方法進(jìn)行及時(shí)診斷。但是由于自閉癥的生理原因并不明朗,醫(yī)學(xué)診斷只能根據(jù)患者的癥狀及反饋、定性/定量的檢測(cè)信息、醫(yī)師的個(gè)人經(jīng)驗(yàn)等,具有很大的不確定性。因此,借助計(jì)算機(jī)進(jìn)行自閉癥的輔助診斷具有重要的意義。
研究表明,自閉癥譜系障礙與患者的腦功能異常有關(guān),而通過(guò)使用血氧依賴水平反映患者在靜息狀態(tài)下腦部代謝活動(dòng)等功能性變化的靜息態(tài)功能性核磁共振圖像(resting-state functional magnetic resonance imaging,rs-fMRI)已成為量化大腦神經(jīng)活動(dòng)的有力工具,逐漸成為ASD 等腦部疾病研究的重要手段之一。以此為診斷依據(jù),研究者們提出了多種借助計(jì)算機(jī)的自閉癥輔助診斷算法。如,Chen 等使用高階功能性連接矩陣進(jìn)行自閉癥的輔助診斷,Aggarwal等提出多元圖學(xué)習(xí)進(jìn)行自閉癥的輔助診斷,Heinsfeld 等通過(guò)深度學(xué)習(xí)探求腦區(qū)之間的相關(guān)性進(jìn)行自閉癥的輔助診斷等。但是這些方法僅能處理二分類問(wèn)題,而在臨床中,自閉癥譜性障礙包括若干與發(fā)育障礙相關(guān)的疾病,如自閉癥(autism)、亞斯伯格癥候群(Asperger's disorder)和無(wú)特異性的普遍發(fā)育障礙(pervasive developmental disorder not otherwise specified,PDD-NOS)等。已有的大多數(shù)自閉癥輔助診斷模型僅能解決二分類問(wèn)題,無(wú)法同時(shí)區(qū)別ASD 的若干相關(guān)疾病。此外,這些方法也沒(méi)有對(duì)標(biāo)記噪聲進(jìn)行有針對(duì)性的處理。
標(biāo)記噪聲是多分類ASD 輔助診斷涉及的一個(gè)挑戰(zhàn),對(duì)分類器性能有著嚴(yán)重的不良影響。標(biāo)記噪聲指訓(xùn)練樣本的目標(biāo)標(biāo)記和對(duì)應(yīng)實(shí)例的真實(shí)標(biāo)記的偏差。標(biāo)記噪聲的產(chǎn)生有多方面的因素,例如:標(biāo)注過(guò)程中具有主觀性,待標(biāo)記樣本本身可辨識(shí)度低,通信/編碼問(wèn)題等。在自閉癥診斷場(chǎng)景中,標(biāo)記噪聲普遍存在。診斷過(guò)程中的主觀性,診斷標(biāo)準(zhǔn)的不統(tǒng)一以及ASD 各子類的界限模糊這些特點(diǎn)造成了標(biāo)記噪聲。
高維特征下的類不平衡問(wèn)題是多分類ASD 輔助診斷涉及的另一個(gè)挑戰(zhàn)。通常用于ASD 輔助診斷的神經(jīng)影像數(shù)據(jù)動(dòng)輒成百上千個(gè)特征,加之訓(xùn)練樣本數(shù)目非常有限,在進(jìn)行分類器訓(xùn)練時(shí)容易導(dǎo)致過(guò)擬合問(wèn)題。而且用于構(gòu)造ASD 分類器的樣本存在類別不平衡問(wèn)題,導(dǎo)致分類預(yù)測(cè)結(jié)果往往偏向多數(shù)類。
針對(duì)上述問(wèn)題,本文提出了一種代價(jià)敏感的標(biāo)記分布支持向量回歸學(xué)習(xí)來(lái)進(jìn)行ASD 的輔助診斷。首先,多分類ASD 輔助診斷面臨著標(biāo)記噪聲問(wèn)題,而標(biāo)記分布獨(dú)有的標(biāo)記形式,通過(guò)不同標(biāo)記對(duì)于同一樣本的描述度,能夠更好地克服標(biāo)記噪聲對(duì)分類器的影響,從而精確表達(dá)標(biāo)記之間的相關(guān)程度。這就使學(xué)習(xí)過(guò)程蘊(yùn)含了更加豐富的語(yǔ)義信息,可以更好地區(qū)分多個(gè)標(biāo)記的相對(duì)重要性差異,對(duì)ASD 輔助診斷中的標(biāo)記噪聲問(wèn)題有較好的針對(duì)性。同時(shí),支持向量回歸引入了核方法,通過(guò)核方法的非線性映射,使得原始輸入空間中線性不可分的數(shù)據(jù)可以映射入一個(gè)線性可分的特征空間,提供更多的可鑒別信息。最后,為了克服類別不平衡問(wèn)題,引入了代價(jià)敏感機(jī)制,通過(guò)引入現(xiàn)實(shí)中存在的不同類別的誤判代價(jià)的不平衡性,使得算法能在一定程度上適應(yīng)實(shí)際應(yīng)用的需求,較公平地對(duì)待少數(shù)類和多數(shù)類。
標(biāo)記分布學(xué)習(xí)(label distribution learning,LDL)是近幾年興起的一種機(jī)器學(xué)習(xí)方法,它是在單標(biāo)記和多標(biāo)記學(xué)習(xí)的基礎(chǔ)之上,引入了標(biāo)記分布的概念。在多標(biāo)記的場(chǎng)景下,一個(gè)樣本如果與多個(gè)標(biāo)記相關(guān),這些標(biāo)記對(duì)于該樣本的重要程度一般會(huì)有所區(qū)別,標(biāo)記分布就是描述不同標(biāo)記對(duì)于同一樣本的重要程度的標(biāo)記形式。標(biāo)記分布學(xué)習(xí)就是以標(biāo)記分布為學(xué)習(xí)目標(biāo)的一種機(jī)器學(xué)習(xí)方法,已經(jīng)被應(yīng)用于諸多領(lǐng)域。例如,Gao 等提出了結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和標(biāo)記分布學(xué)習(xí)的深度標(biāo)記學(xué)習(xí)(deep label distribution learning)算法通過(guò)人臉估計(jì)年齡,Zhou 等提出了基于普魯契克情感色輪(Plutchik's wheel of emotions)的情感分布學(xué)習(xí)(emotion distribution learning)算法來(lái)從文本中自動(dòng)識(shí)別用戶的情緒狀態(tài),Geng等提出了基于多變量標(biāo)記分布(multivariate label distribution)的算法實(shí)現(xiàn)頭部姿勢(shì)檢測(cè)。但是用于腦疾病的輔助診斷目前尚未見(jiàn)報(bào)導(dǎo)。
標(biāo)記分布學(xué)習(xí)要求訓(xùn)練數(shù)據(jù)包含標(biāo)記分布信息。然而,現(xiàn)實(shí)生活中人們往往以單標(biāo)記或多標(biāo)記的形式來(lái)標(biāo)記樣本,使得難以直接得到標(biāo)記分布信息。盡管如此,這些數(shù)據(jù)的標(biāo)簽中仍然包含標(biāo)記分布的相關(guān)信息。標(biāo)記增強(qiáng)通過(guò)隱含在不同樣本標(biāo)記之間的相關(guān)性,強(qiáng)化樣本的監(jiān)督信息,進(jìn)而在標(biāo)記分布學(xué)習(xí)中獲得更好的效果。例如,Xu 等提出了標(biāo)記增強(qiáng)作為標(biāo)記分布學(xué)習(xí)的輔助算法,用于挖掘訓(xùn)練集中的蘊(yùn)含的標(biāo)記重要性信息,將原始的邏輯標(biāo)記提升為標(biāo)記分布,輔助標(biāo)記分布學(xué)習(xí)。Shao 等提出了標(biāo)記增強(qiáng)多標(biāo)記學(xué)習(xí)(label enhanced multi-label learning)從邏輯標(biāo)記中重建潛在的標(biāo)記重要性信息來(lái)改善標(biāo)記分布學(xué)習(xí)的性能。
本文提出的面向多分類自閉癥輔助診斷的標(biāo)記分布學(xué)習(xí)算法,其流程如圖1 所示。首先,對(duì)rs-fMRI圖像進(jìn)行預(yù)處理,在此基礎(chǔ)上構(gòu)建功能連接矩陣,并基于功能連接矩陣得到每個(gè)樣本的功能連接特征向量。同時(shí),結(jié)合邏輯標(biāo)記數(shù)據(jù)和功能連接特征進(jìn)行標(biāo)記增強(qiáng),獲得樣本的標(biāo)記分布形式。最后,進(jìn)行基于代價(jià)敏感的標(biāo)記分布學(xué)習(xí)建模,從而得到面向自閉癥輔助診斷的多分類模型。
圖1 代價(jià)敏感的標(biāo)記分布支持向量回歸的流程圖Fig.1 Flowchart of cost sensitive label distribution support vector regression
標(biāo)記分布學(xué)習(xí)通過(guò)引入描述度來(lái)刻畫(huà)每個(gè)標(biāo)記和樣本的相關(guān)程度,因此它可以從數(shù)據(jù)中得到比多標(biāo)記更加豐富的語(yǔ)義信息,更加準(zhǔn)確地表述同一個(gè)樣本的多個(gè)標(biāo)記的相對(duì)重要性差異。然而,標(biāo)記分布學(xué)習(xí)的基本要求是要有標(biāo)記分布的數(shù)據(jù)集,這一點(diǎn)在現(xiàn)實(shí)中往往很難滿足要求。可以通過(guò)標(biāo)記增強(qiáng)方法對(duì)給定的多標(biāo)記形式樣本進(jìn)行轉(zhuǎn)化得到標(biāo)記分布形式數(shù)據(jù)。采用基于FCM(fuzzy C-means)和模糊運(yùn)算的標(biāo)記增強(qiáng)方法,基本思路如下:
(1)利用FCM 把個(gè)樣本分為個(gè)模糊聚類,并求每個(gè)聚類的中心,使得所有訓(xùn)練樣本到聚類中心的加權(quán)距離之和最小,式(1)列出了具體的加權(quán)距離公式。
(2)構(gòu)造標(biāo)記和聚類之間的關(guān)聯(lián)矩陣,矩陣中的元素即代表了標(biāo)記和聚類的關(guān)聯(lián)度,關(guān)聯(lián)矩陣的計(jì)算方法如式(2)。
式中,A為矩陣的第行,A即第個(gè)類的樣本的隸屬度向量之和,行歸一化之后,關(guān)聯(lián)矩陣可以視作一個(gè)聚類和標(biāo)記的模糊關(guān)系矩陣。
(3)根據(jù)模糊邏輯推理機(jī)制,將關(guān)聯(lián)矩陣和隸屬度進(jìn)行模糊合成運(yùn)算,得到樣本對(duì)標(biāo)記的隸屬度,歸一化后,即為標(biāo)記分布。
基于FCM 和模糊運(yùn)算的標(biāo)記增強(qiáng)引入聚類分析作為橋梁,通過(guò)樣本對(duì)聚類的隸屬度和聚類對(duì)標(biāo)記的隸屬度這兩者之間的復(fù)合運(yùn)算,得到樣本對(duì)標(biāo)記的隸屬度,即標(biāo)記分布。在這一過(guò)程中,通過(guò)模糊聚類挖掘樣本空間的拓?fù)潢P(guān)系,并且通過(guò)關(guān)聯(lián)矩陣將這種關(guān)系投影到標(biāo)記空間,從而使得簡(jiǎn)單的邏輯標(biāo)記產(chǎn)生了更豐富的語(yǔ)義信息,轉(zhuǎn)變?yōu)闃?biāo)記分布。
面向ASD 輔助診斷進(jìn)行標(biāo)記分布學(xué)習(xí)建模,需要重點(diǎn)考慮以下兩個(gè)關(guān)鍵問(wèn)題:首先,ASD 數(shù)據(jù)樣本的各類分布不平衡。研究表明,在有監(jiān)督的機(jī)器學(xué)習(xí)任務(wù)中,類別不平衡會(huì)對(duì)訓(xùn)練產(chǎn)生不利影響。它既影響訓(xùn)練階段的收斂,也影響測(cè)試集上模型的泛化能力。因此,本文在標(biāo)記分布支持向量回歸的基礎(chǔ)上引入了代價(jià)敏感機(jī)制,從而平衡多數(shù)類和少數(shù)類對(duì)目標(biāo)函數(shù)的影響。其次,ASD 數(shù)據(jù)集大多是多分類數(shù)據(jù),而指導(dǎo)標(biāo)記分布學(xué)習(xí)訓(xùn)練的數(shù)據(jù)應(yīng)該是標(biāo)記分布的數(shù)據(jù)。為此,引入了標(biāo)記增強(qiáng),將每個(gè)訓(xùn)練樣本的標(biāo)記轉(zhuǎn)化為標(biāo)記分布。標(biāo)記增強(qiáng)的過(guò)程在2.3 節(jié)中有簡(jiǎn)要描述。
假定樣本對(duì)應(yīng)的標(biāo)記分布可以由樣本在特征空間的投影線性表示:
(u)是關(guān)于w、b的凸函數(shù)。
證明式(5)是凸函數(shù),即證明(u) 關(guān)于w、b的二階導(dǎo)數(shù)恒大于等于0:
其中,(w,(x))是關(guān)于w、(x)的函數(shù)。顯然式(8)恒大于等于0,同理可證(u)關(guān)于b非負(fù),定理得證。
本文使用擬牛頓迭代法(iterative quasi-Newton method)優(yōu)化式(4)。首先,本文將式(4)的第二部分進(jìn)行泰勒級(jí)數(shù)展開(kāi),取其線性部分作為近似值,在第次迭代中,近似值如下:
其中,是一個(gè)與,無(wú)關(guān)的常量。式(10)分別對(duì)w、b求偏導(dǎo),并令偏導(dǎo)數(shù)的值為0,可以得到公式:
其中,K=(x,x)=(x)(x),K為矩陣的第行第列的元素值,(x,x)即核函數(shù)。至此,將、代入式(3),預(yù)測(cè)函數(shù)可以更新為:
即可從樣本的輸入特征空間計(jì)算得相應(yīng)的標(biāo)記分布。標(biāo)記分布的結(jié)果即ASD 及其子類對(duì)于同一樣本的重要程度,取最大可能標(biāo)記作為結(jié)果:
CSLDSVR
輸入:自閉癥數(shù)據(jù),標(biāo)記分布,權(quán)重系數(shù),核函數(shù)類型,不敏感區(qū)大小,核帶寬。
輸出:預(yù)測(cè)模型、。
本文同時(shí)使用標(biāo)記分布的評(píng)估指標(biāo)和多分類任務(wù)的評(píng)估指標(biāo)進(jìn)行算法評(píng)估。所有評(píng)估指標(biāo)及計(jì)算公式如表1 所示,前六種為標(biāo)記分布學(xué)習(xí)的評(píng)估指標(biāo),后兩種為多分類任務(wù)的評(píng)估指標(biāo)。指標(biāo)名后帶有“↑”表示數(shù)值越大,算法效果越好;帶有“↓”,表示數(shù)值越小,算法效果越好。
表1 評(píng)估指標(biāo)Table 1 Evaluation measures
表1 中,P為第類的Precision,為異或計(jì)算,代表距離(Distance),代表相似度(Similarity),代表宏平均正確率(macro-averaging precision)。
本文使用的所有rs-fMRI 數(shù)據(jù)集均來(lái)自ABIDE網(wǎng) 站(Autism Brain Imaging Data Exchange,http://fcon_1000.projects.nitrc.org/indi/abide/)。表2 給出各數(shù)據(jù)集中各類樣本的組成情況。以NYU(New York University)數(shù)據(jù)集為例,NYU 數(shù)據(jù)集數(shù)據(jù)采集機(jī)構(gòu)為紐約大學(xué)。采集過(guò)程中,被試者始終保持靜息狀態(tài),不執(zhí)行任何動(dòng)作。具體參數(shù)如表2 所示。
表2 數(shù)據(jù)集的統(tǒng)計(jì)信息Table 2 Statistics of datasets
表2 中,UM 代表密歇根大學(xué),KKI代表肯尼迪克里格研究所,Leuven 代表魯汶大學(xué),UCLA 代表加利福尼亞大學(xué)洛杉磯分校。
雖然大腦各腦區(qū)在空間上相互隔離,但它們之間的神經(jīng)活動(dòng)相互影響。本文使用腦區(qū)之間的腦功能連接矩陣作為分類特征。功能連接矩陣的計(jì)算步驟(即預(yù)處理步驟)如下:
(1)根據(jù)靜息態(tài)功能磁共振成像數(shù)據(jù),使用DPARSF(data processing assistant for resting-state fMRI)工具提取出各腦區(qū)的平均時(shí)間序列信號(hào),計(jì)算腦區(qū)之間的Pearson 系數(shù),得到功能連接矩陣。
(2)將功能連接矩陣的每一行作為各腦區(qū)的特征描述,取功能連接矩陣的上三角陣,按行串聯(lián),得到對(duì)應(yīng)的特征向量。
將提出的CSLDSVR 方法和6 個(gè)現(xiàn)有LDL 算法以及兩個(gè)多分類算法進(jìn)行對(duì)比。兩個(gè)多分類算法為決策樹(shù)(decision tree)和最近鄰(-nearest neighbor,NN),這兩種算法均為經(jīng)典的多分類算法。6 個(gè)現(xiàn)有LDL 算法為:PT-SVM、PT-BAYES、AA-NN、AA-BP(back propagation)、SA-IIS(improved iterative scaling)、LDSVR,其中,“PT”表示問(wèn)題轉(zhuǎn)化(problem transformation),“AA”表示算法改造(algorithm adaptation),“SA”表示專用算法(specialized algorithm)。對(duì)比算法的具體說(shuō)明如表3 所示。
表3 對(duì)比算法Table 3 Comparison algorithms
本文提出的CSLDSVR 算法有4 個(gè)參數(shù),即權(quán)重系數(shù)、核函數(shù)的類型、不敏感區(qū)大小、高斯核的核帶寬。參數(shù)具體的范圍如表4 所示。使用十折交叉驗(yàn)證來(lái)計(jì)算結(jié)果。具體操作步驟如下:將數(shù)據(jù)集隨機(jī)劃分為10 等份,在每一折交叉驗(yàn)證中,取1 份作為測(cè)試集,剩下9 份作為訓(xùn)練集。重復(fù)上述過(guò)程10次,取10 次結(jié)果的均值作為評(píng)價(jià)指標(biāo)。
表4 參數(shù)范圍Table 4 Range of parameters
表5 匯總了6 個(gè)標(biāo)記分布學(xué)習(xí)算法和CSLDSVR在5 個(gè)不同的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果以均值±標(biāo)準(zhǔn)差的形式記錄。其中,加粗的為每一個(gè)指標(biāo)在當(dāng)前數(shù)據(jù)集上不同方法中的最佳數(shù)值。顯然可見(jiàn),在和標(biāo)記分布學(xué)習(xí)算法的對(duì)比中,CSLDSVR 在多數(shù)情況下都表現(xiàn)出了優(yōu)異的效果,在UM、UCLA、KKI 數(shù)據(jù)集上更為明顯。在標(biāo)記分布的指標(biāo)中,KL散度是描述兩個(gè)分布的差異的指標(biāo),而且作為對(duì)比的LDL 算法都是以KL 散度作為目標(biāo)函數(shù)的,CSLDSVR 的預(yù)測(cè)結(jié)果的KL 散度可以做到最小,說(shuō)明新算法預(yù)測(cè)的標(biāo)記分布總體上和真實(shí)數(shù)據(jù)分布最相近,優(yōu)于對(duì)比算法。
表5 CSLDSVR 和標(biāo)記分布算法的性能比較Table 5 Performance comparison of CSLDSVR and LDL algorithms
圖2 匯總了CSLDSVR 和標(biāo)記分布算法多分類指標(biāo)Precision 和mAP 的結(jié)果,在最重要的兩個(gè)多分類指標(biāo)上,CSLDSVR 都表現(xiàn)較佳。有些算法正確率高,宏平均卻很低,這是因?yàn)檫@些算法沒(méi)有考慮類別不平衡問(wèn)題,模型分類偏向多數(shù)類。CSLDSVR 使用了核技巧,可以在更具有鑒別能力的特征空間中解決問(wèn)題,而且CSLDSVR 考慮了每個(gè)類的大小,從而有效解決了因類別不平衡而帶來(lái)的問(wèn)題。
圖2 CSLDSVR 和標(biāo)記分布算法的分類效果對(duì)比Fig.2 Comparison of classification performance of CSLDSVR and label distribution algorithms
為了驗(yàn)證代價(jià)敏感機(jī)制對(duì)性能的提升,將本文算法與沒(méi)有代價(jià)敏感機(jī)制的LDSVR 進(jìn)行對(duì)比。如表5 所示,在多數(shù)情況下,本文算法CSLDSVR 的學(xué)習(xí)效果較好;此外,結(jié)果的標(biāo)準(zhǔn)差基本都維持在一個(gè)較低的水準(zhǔn),即算法的穩(wěn)定性有所提高。而LDSVR未引入代價(jià)敏感機(jī)制,算法所得結(jié)果的標(biāo)準(zhǔn)差較大且波動(dòng),例如在UCLA 和KKI的Canberra 指標(biāo)標(biāo)準(zhǔn)差都超過(guò)了0.1。
表6 CSLDSVR 和多分類算法的性能比較Table 6 Performance comparison of CSLDSVR and multi-classification algorithms
本節(jié)研究參數(shù)的變化對(duì)算法CSLDSVR 性能的影響,圖3 給出了在5 個(gè)不同數(shù)據(jù)集上,參數(shù)、取不同值時(shí),評(píng)估指標(biāo)Precision 和KL 散度的變化。對(duì)照研究同一參數(shù)不同指標(biāo)的兩張圖,例如圖3(a)和圖3(c),可以發(fā)現(xiàn)同一個(gè)數(shù)據(jù)集的曲線走勢(shì)基本是相反的,Precision 取最大值的點(diǎn)一般KL 散度也恰好為最小值,這也與前文對(duì)KL 散度的分析相照應(yīng),說(shuō)明在KL 散度較小時(shí),兩者的標(biāo)記分布更為相似,分類的結(jié)果也更加準(zhǔn)確。
圖3 參數(shù)C、ε 在5 個(gè)數(shù)據(jù)集上的敏感度分析Fig.3 Sensitivity analysis of parameters C and ε on 5 datasets
發(fā)現(xiàn)對(duì)于不同數(shù)據(jù)集,取到最優(yōu)解的參數(shù)值并不相同,這也表明了在自閉癥診斷中,不同數(shù)據(jù)中心的數(shù)據(jù)分布不同,構(gòu)建模型的參數(shù)也應(yīng)該不同。而且發(fā)現(xiàn)樣本數(shù)量越少的數(shù)據(jù)集,結(jié)果對(duì)參數(shù)的變化越敏感,例如僅有48 個(gè)樣本的KKI 數(shù)據(jù)集,在參數(shù)值變化時(shí)波動(dòng)最大。
由此可見(jiàn),CSLDSVR 算法的參數(shù)應(yīng)針對(duì)數(shù)據(jù)集的特點(diǎn),設(shè)定相應(yīng)的參數(shù)值構(gòu)建模型,在參數(shù)設(shè)置合理的情況下,CSLDSVR 可以克服自閉癥數(shù)據(jù)集的高維度和類別不平衡問(wèn)題,取得更好的分類效果。
ASD 患者的腦功能異于正常人,而rs-fMRI 是反映大腦活動(dòng)的有效工具,本文基于從rs-fMRI 中提取的功能連接特征,提出了一種代價(jià)敏感的標(biāo)記分布支持向量回歸的ASD 輔助診斷方法。標(biāo)記分布學(xué)習(xí)的引入,克服了基于多分類的ASD 輔助診斷的標(biāo)記噪聲問(wèn)題。而且新的方法在標(biāo)記分布支持向量回歸的方法基礎(chǔ)上,引入了類別平衡,平衡了多數(shù)類和少數(shù)類對(duì)目標(biāo)函數(shù)的影響。新的方法克服了多數(shù)類和少數(shù)類對(duì)結(jié)果的影響的不平衡性,可以有效解決ASD 診斷中的不平衡數(shù)據(jù)問(wèn)題,但是改進(jìn)模型還是一定程度地偏向多數(shù)類,要進(jìn)一步地改善不平衡數(shù)據(jù)問(wèn)題,可以嘗試改進(jìn)數(shù)據(jù)的采樣方法或使用合成少數(shù)類樣本方法等,這值得進(jìn)一步的研究;同時(shí),損失函數(shù)可以改用更復(fù)雜的距離度量方式,歐氏距離平等對(duì)待每個(gè)特征,因此能夠體現(xiàn)個(gè)體特征數(shù)值上的絕對(duì)差異。但引入相對(duì)高級(jí)的距離也有其必要性,不過(guò)這需要更多的先驗(yàn)知識(shí)。目前沒(méi)有使用更多的先驗(yàn)知識(shí),因此使用歐式距離。其他高級(jí)距離有其優(yōu)勢(shì),在今后的研究中將進(jìn)一步改進(jìn)本文工作。