鄭德重, 楊媛媛, 謝 哲, 倪揚(yáng)帆, 李文濤
(1. 中國科學(xué)院上海技術(shù)物理研究所 醫(yī)學(xué)影像信息學(xué)實(shí)驗(yàn)室, 上海 200080;2. 中國科學(xué)院大學(xué), 北京 100049; 3. 復(fù)旦大學(xué)附屬腫瘤醫(yī)院, 上海 200032)
近年來,深度學(xué)習(xí)技術(shù)在許多領(lǐng)域取得了巨大的成功,從計(jì)算機(jī)視覺、網(wǎng)絡(luò)搜索、社交內(nèi)容的協(xié)同過濾、電子商務(wù)的推薦系統(tǒng),到消費(fèi)產(chǎn)品中的圖像識別、人臉識別等方面的應(yīng)用都獲得了顯著提高.深度學(xué)習(xí)是一種多層次結(jié)構(gòu)化的計(jì)算模型,可以從數(shù)據(jù)中學(xué)習(xí)多種不同層次的抽象表達(dá)[1].僅從數(shù)據(jù)中學(xué)習(xí)就可以獲得數(shù)據(jù)不同抽象層次的特征表示,而不需要依賴于特定領(lǐng)域知識進(jìn)行手工設(shè)計(jì)是深度學(xué)習(xí)技術(shù)進(jìn)步的核心[2-3].在訓(xùn)練深度學(xué)習(xí)模型時,數(shù)據(jù)常常被劃分成多塊用于交叉驗(yàn)證,在模型開發(fā)中此過程是十分常見又重要的一個環(huán)節(jié),因?yàn)榻徊骝?yàn)證通??梢员WC其良好的泛化性能.但對中等規(guī)模的數(shù)據(jù)而言,在進(jìn)行交叉驗(yàn)證時,劃分出來用于測試和驗(yàn)證的子集質(zhì)量會在一定程度上對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練產(chǎn)生一定影響,不良地數(shù)據(jù)劃分會導(dǎo)致所獲得的模型不準(zhǔn)確,并有可能在交叉驗(yàn)證過程中產(chǎn)生較大的偏差[4-5].小樣本數(shù)據(jù)更是如此,這種規(guī)模的數(shù)據(jù)較難滿足統(tǒng)計(jì)意義上的普適性和一般隨機(jī)性.例如,隨著人為數(shù)據(jù)采集的方式和習(xí)慣的變化,采集來的數(shù)據(jù)可能包含著隨時間變化的趨勢和傾向性特點(diǎn).因此在使用有限數(shù)據(jù)時,數(shù)據(jù)的統(tǒng)計(jì)規(guī)律是可變的.當(dāng)數(shù)據(jù)規(guī)模不是足夠大時,簡單地以隨機(jī)方式對數(shù)據(jù)進(jìn)行劃分是不可取的.另一方面,在收集數(shù)據(jù)的過程中,數(shù)據(jù)很少是沒有噪聲的,并且采集來可用的有效數(shù)據(jù)可能僅僅只占其中一小部分,并不能包含模型構(gòu)建所需要的全部信息[4].盡管可以通過增加樣本量來適當(dāng)緩解這些問題,但是在一些特定條件下產(chǎn)生的稀有樣本并不是那么容易獲得的.因此在數(shù)據(jù)有限的情況下,簡單地隨機(jī)劃分?jǐn)?shù)據(jù)容易導(dǎo)致測試數(shù)據(jù)域和訓(xùn)練數(shù)據(jù)域的漂移,訓(xùn)練所得到的模型是不穩(wěn)定的.
依據(jù)統(tǒng)計(jì)學(xué)的知識和經(jīng)驗(yàn)容易知道,準(zhǔn)確了解數(shù)據(jù)和目標(biāo)的分布特點(diǎn)將有助于理解數(shù)據(jù)的內(nèi)在本質(zhì),從而合理地劃分訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù).由于深度學(xué)習(xí)技術(shù)具有強(qiáng)大的特征提取能力,可以提取與分類目標(biāo)相關(guān)的多種層次的特征.在此基礎(chǔ)上,分析樣本在特征空間的分布特點(diǎn)有助于更好地理解數(shù)據(jù)本身,從而合理地劃分?jǐn)?shù)據(jù).本文提出一種基于Gaussian混合模型的距離度量學(xué)習(xí)模型(DML-GMM)劃分?jǐn)?shù)據(jù).該方法不依賴于任何特定的特征提取器,在特征提取方面,可以使用任何主流特征提取模型,如ResNet、DenseNet和SENet等模型,在性能方面強(qiáng)于簡單隨機(jī)采樣、自組織映射等其他方法.
綜上所述,本文做出了如下貢獻(xiàn):
(1) 提出一種新的數(shù)據(jù)劃分方法,與其他數(shù)據(jù)劃分方法相比,使用完全相同的模型結(jié)構(gòu)進(jìn)行訓(xùn)練能得到更高的準(zhǔn)確率、更低的偏差與方差.
(2) 提供一種度量樣本相似性方法.通過此方法,可以在分類任務(wù)中更準(zhǔn)確地了解所采集樣本的顯著程度和樣本分布特點(diǎn).
(3) 所提出的度量方法還提供了一種在分類任務(wù)中獲取小概率稀有樣本的途徑.
合理的數(shù)據(jù)劃分問題可以視為統(tǒng)計(jì)采樣問題,因此,可以使用各種經(jīng)典的統(tǒng)計(jì)采樣技術(shù)來劃分?jǐn)?shù)據(jù).在以往的研究中,采用的數(shù)據(jù)劃分方法大致分為以下幾種:簡單隨機(jī)采樣、系統(tǒng)采樣、DUPLEX采樣和分層采樣.
簡單隨機(jī)采樣是最常使用的方法,其具有高效且易于實(shí)現(xiàn)的特點(diǎn).該方法隨機(jī)選擇分布均勻的樣本,每個樣本具有同等的選中概率.這種方法的優(yōu)點(diǎn)是所獲得的模型具有低偏差[4].但是,對于更復(fù)雜(非均勻分布)的數(shù)據(jù)集,若劃分出來的子數(shù)據(jù)集不能完全覆蓋數(shù)據(jù)分布的特點(diǎn)會導(dǎo)致模型具有較大的方差[4, 6].
試錯法試圖通過重復(fù)多次隨機(jī)采樣然后取平均來克服SRS中高方差的不足之處[7].簡單的試錯法表明,在有相同代表性的數(shù)據(jù)集上,其偏差具有相似的統(tǒng)計(jì)特性.為了最小化這種統(tǒng)計(jì)差異,使用較為復(fù)雜的策略,例如循環(huán)優(yōu)化搜索以尋找潛在的可能拆分組合.使用各種統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn),例如均值、方差和Kolmogorov-Smirnov統(tǒng)計(jì).這些方法的主要缺點(diǎn)是計(jì)算量大且理論基礎(chǔ)模糊,無疑在這種情況下所獲得的神經(jīng)網(wǎng)絡(luò)性能并不穩(wěn)定.
系統(tǒng)采樣是為含有自然序的數(shù)據(jù)集進(jìn)行采樣的一種確定性方法.一種方法是沿著輸出變量的維度對樣本數(shù)據(jù)進(jìn)行排序,以獲取能夠代表輸出變量分布的樣本[8].此方法易于實(shí)現(xiàn),因?yàn)槠浼俣梢詫⑤敵鲎兞坑成涞轿ㄒ坏妮斎霠顟B(tài).但是,當(dāng)有多個輸入狀態(tài)產(chǎn)生相同的輸出時,此假設(shè)可能不適用,并且這種做法不能保證采集得到的樣本能夠完全代表所有可能的輸入和輸出組合,因?yàn)橹挥休敵鲎兞勘豢紤]到了其中.同時對于大多數(shù)類型的數(shù)據(jù)集(例如多媒體數(shù)據(jù)、基因序列等)而言,很難找到一種合適的排序.對于無序數(shù)據(jù),系統(tǒng)采樣的結(jié)果與SRS存在相同的問題.系統(tǒng)采樣的另一個缺點(diǎn)是對數(shù)據(jù)集的周期性較為敏感.
DUPLEX采樣方法是由Snee[9]提出的基于歐幾里德距離的數(shù)據(jù)劃分方法.應(yīng)用該方法時,將在歐幾里德距離上最遠(yuǎn)的兩個點(diǎn)分配給第1個數(shù)據(jù)集,再將列表中剩余的樣本之間相距最遠(yuǎn)的下一對點(diǎn)分配到第2個數(shù)據(jù)集中;重復(fù)此過程,直至所有數(shù)據(jù)分配至要劃分的兩個數(shù)據(jù)集中.May等[4]對原始DUPLEX算法進(jìn)行了修改,將數(shù)據(jù)劃分為3個數(shù)據(jù)集,分別為由人工神經(jīng)網(wǎng)絡(luò)模型開發(fā)生成訓(xùn)練、驗(yàn)證和測試數(shù)據(jù)三部分.
分層采樣的基本思想是探索數(shù)據(jù)集的內(nèi)部結(jié)構(gòu)和分布,并使用其來劃分相對統(tǒng)一的樣本組(層、簇).該方法可以確保訓(xùn)練子集完全覆蓋輸入空間的所有區(qū)域.另一方面,對于分布均勻的數(shù)據(jù)集,可以將分層采樣與SRS進(jìn)行比較.各種聚類算法[10]可用于數(shù)據(jù)劃分,包括C-means聚類,模糊C-means聚類和自組織映射(SOM)[11].May等[4]提出基于自組織映射分層采樣(SBSS)兩步數(shù)據(jù)分割方法具有很強(qiáng)的穩(wěn)健性,可以生成更好的人工神經(jīng)網(wǎng)絡(luò)模型,比其他技術(shù)更有效,在多元和非均勻數(shù)據(jù)集中更明顯.
圖1 DML-GMM框架Fig.1 Framework of DML-GMM
距離度量學(xué)習(xí)問題在機(jī)器學(xué)習(xí)產(chǎn)生時就存在,數(shù)據(jù)和數(shù)據(jù)間的相似度差異是可以度量的.因此,距離相近的數(shù)據(jù)將被視為相似,而相距較遠(yuǎn)的數(shù)據(jù)將被視為是不同的[12].樣本之間的這種相似性度量需要在一個合理并且可測的空間中進(jìn)行.May等[4]使用自組織映射方法將原始數(shù)據(jù)映射到新的嵌入空間,然后通過分層采樣對數(shù)據(jù)進(jìn)行劃分,從而改善訓(xùn)練模型的偏差和方差.Fernndez等[13]通過簡單的前饋神經(jīng)網(wǎng)絡(luò)將樣本轉(zhuǎn)換到嵌入空間,通過計(jì)算嵌入空間特征向量的相似度來減少樣本冗余并加快訓(xùn)練過程.Baglaeva等[14]通過多層感知機(jī)對嵌入空間中的原始數(shù)據(jù)進(jìn)行重新劃分,建立更精確的空間分布模型,用于模擬城市化地區(qū)表層土壤中Cr元素的含量.將樣本轉(zhuǎn)換到嵌入空間進(jìn)行描述有助于更準(zhǔn)確地理解樣本的特征,并且嵌入空間中樣本之間的相似性可以進(jìn)行度量.受此啟發(fā),DML-GMM方法的距離度量學(xué)習(xí)網(wǎng)絡(luò)主要分為2個階段:第1階段為特征提取,可以使用常見的分類模型進(jìn)行特征提取;第2階段為嵌入過程,將提取獲得的特征圖映射到一個可以度量的空間.該過程包括以下兩部分,如圖2所示.其中,左側(cè)虛線框圖為特征提取模塊,可以使用常見的卷積網(wǎng)絡(luò)提取數(shù)據(jù)的特征,如ResNet50;右側(cè)虛線框圖為特征映射模塊,通過兩層全連接將提取的特征映射到嵌入高維空間中,進(jìn)而進(jìn)行特征轉(zhuǎn)換.第1層全連接層用于輸出樣本的向量表示,第2層全連接層用于輸出預(yù)測結(jié)果向量.
在基于內(nèi)容的圖像檢索和人臉識別等方面獲得具有穩(wěn)健性高且有區(qū)分度的特征表示非常重要.但是,在特征學(xué)習(xí)中通過監(jiān)督學(xué)習(xí)的交叉熵?fù)p失函數(shù)優(yōu)化并不能學(xué)習(xí)到足夠的區(qū)分度,因?yàn)槠鋬H注重于找到?jīng)Q策邊界以分離不同類別的形狀,而沒有考慮特征的類內(nèi)緊湊性[15].為了解決這個問題,目前有許多深度度量學(xué)習(xí)算法損失函數(shù)被提出.首先,介紹兩種重要且常用的損失函數(shù):三重?fù)p失和中心損失.三重?fù)p失在學(xué)習(xí)特征表示時,將具有相同類別樣本點(diǎn)之間的特征距離拉得比具有不同類別樣本點(diǎn)之間的特征距離更近.在人臉識別問題中,為了學(xué)習(xí)更多可鑒別性特征,中心損失被提出作為交叉熵的輔助損失函數(shù)一起配合使用.中心損失的主要目標(biāo)是為每個類別的特征學(xué)習(xí)一個合適的中心,并將同一類別的樣本更緊密地拉到相應(yīng)的中心.三重?fù)p失和中心損失的作用效果如圖3所示.由于三重?fù)p失處理時需要將數(shù)據(jù)重新組合,構(gòu)造起來相對復(fù)雜,所以本文借鑒了人臉識別中采用的中心損失來優(yōu)化以提取特征的距離度量學(xué)習(xí)網(wǎng)絡(luò).該優(yōu)化過程中同時需要用到樣本特征向量表示和輸出預(yù)測結(jié)果,即嵌入過程中第1層全連接的輸出v和第2層全連接的輸出y(見圖2).由此,可以通過中心損失獲得更好的樣本向量表示,其損失函數(shù)Lc可表示為
(1)
式中:czi∈Rd為類zi樣本通過網(wǎng)絡(luò)得到的高維特征向量的向量中心;d為特征維數(shù);f(xi)為樣本xi映射的高維向量,f為映射網(wǎng)絡(luò);函數(shù)D(·)為歐氏距離的平方;N為樣本數(shù)量.
圖2 DML-GMM中的DML網(wǎng)絡(luò)示意圖Fig.2 Schematic diagram of DML network in DML-GMM
圖3 中心損失和三重?fù)p失作用示意圖Fig.3 Schematic diagram of central loss and triple loss
機(jī)器學(xué)習(xí)算法常常將數(shù)據(jù)轉(zhuǎn)換到合適的度量空間,然后使用聚類算法來衡量兩者之間的相似性.Alonso[16]和Silva等[17]使用 Gaussian混合聚類模型通過對數(shù)據(jù)進(jìn)行距離估計(jì)來補(bǔ)充缺失數(shù)據(jù).還有研究人員將Gaussian混合模型與深度編碼器組合在一起,通過深度編碼器將樣本投射到另一個空間,保留其中異常檢測所需的關(guān)鍵信息,將Gaussian混合模型用于估計(jì)和檢測異常數(shù)據(jù)[18-20].由于Gaussian混合模型在高維空間中對于樣本的分布和相似表示方面具有良好的性能,所以使用Gaussian混合模型來估計(jì)樣本在高維嵌入空間中的分布.樣本的分布特點(diǎn)可以通過其似然概率來描述,然后通過這種分布估計(jì)來進(jìn)行分層采樣以獲得更好的數(shù)據(jù)劃分.Gaussian混合模型由M個加權(quán)Gaussian概率密度函數(shù)和所形成的模型,可表示為
(2)
(3)
Gaussian混合模型的估計(jì)過程是通過期望最大化(EM)算法實(shí)現(xiàn)的,該算法僅能保證到達(dá)局部最優(yōu)點(diǎn),不能保證該局部最優(yōu)也是全局最優(yōu)點(diǎn).因此,如果算法從不同的初始化點(diǎn)開始優(yōu)化,容易生成不同的估計(jì).考慮到這種不確定性的情況,對其進(jìn)行多次擬合,并結(jié)合評價指標(biāo)的平均值和標(biāo)準(zhǔn)偏差來選擇合理的參數(shù).這里使用Bayesian信息準(zhǔn)則(BIC)來預(yù)測實(shí)際擁有的數(shù)據(jù),此準(zhǔn)則可以對Gaussian混合模型擬合的好壞程度進(jìn)行評估.BIC越低,則用于實(shí)際預(yù)測的數(shù)據(jù)(進(jìn)而擴(kuò)展到真實(shí)的、未知的分布)模型效果就越好[21-22].
采用幾種不同數(shù)據(jù)劃分方法分別在手寫數(shù)字?jǐn)?shù)據(jù)集MNIST(類似于MNIST數(shù)據(jù)集的時尚產(chǎn)品圖片數(shù)據(jù)集)、Fashion-MNIST、CIFAR-10這3個開源數(shù)據(jù)集,以及醫(yī)院實(shí)際采集的臨床肺腺癌高分辨率電子計(jì)算機(jī)斷層掃描 (HRCT)圖像4個不同的數(shù)據(jù)集上對于圖像分類任務(wù)的結(jié)果進(jìn)行比較.上文討論的各種不同的數(shù)據(jù)劃分方法中,簡單隨機(jī)采樣是一種最常用的方法,試錯法由于其理論模糊不便于比較,系統(tǒng)采樣較難找到一個合理的排序,自組織映射分層采樣法相較于DUPLEX法在受到數(shù)據(jù)分布有顯著影響的某些網(wǎng)絡(luò)上是一種更佳的采樣方法[4].因此,本文將比較以下幾種數(shù)據(jù)劃分的方法,即SRS、SBSS、DML-GMM.
(1) MNIST:來自美國國家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)手寫數(shù)字開源數(shù)據(jù)庫,該數(shù)據(jù)包含訓(xùn)練集6×104個示例,測試集1×104個示例,其是NIST數(shù)據(jù)集合的子集.這些數(shù)字已進(jìn)行尺寸標(biāo)準(zhǔn)化,并在固定尺寸的圖像中央.
(2) Fashion-MNIST:Fashion-MNIST數(shù)據(jù)集是德國Zalando公司提供的服飾圖像開源數(shù)據(jù)集,包含6×104個樣本的訓(xùn)練集和1×104個樣本的測試集.每個樣本都是28像素×28像素的灰度圖像,與10個類別的標(biāo)簽相關(guān)聯(lián).
(3) CIFAR-10:CIFAR-10數(shù)據(jù)集由10個類的 6×104張32像素×32像素的彩色圖像組成的開源數(shù)據(jù)集,每個類有6×103張圖像,有5×104張訓(xùn)練圖像和1×104張測試圖像.
(4) 肺腺癌HRCT:為了結(jié)合實(shí)際情況進(jìn)一步分析數(shù)據(jù)劃分對小樣本數(shù)據(jù)訓(xùn)練的影響,采集來自一家三甲醫(yī)院的肺腺癌影像臨床數(shù)據(jù).該HRCT圖像一共包含 1 622 個樣本的兩種類型數(shù)據(jù),即715例浸潤性肺腺癌CT圖像和907例非浸潤性腺癌CT圖像.
交叉驗(yàn)證是一種用于評估模型的統(tǒng)計(jì)方法,也是一個重采樣過程,可在有限數(shù)量的數(shù)據(jù)樣本上評估學(xué)習(xí)到的模型.通過計(jì)算5折交叉驗(yàn)證的平均準(zhǔn)確率、平均方差和平均偏差來比較不同數(shù)據(jù)分區(qū)方法的性能.具體流程如下:
(1) 使用不同的劃分方法將數(shù)據(jù)分為5組;
(2) 進(jìn)行5折交叉驗(yàn)證,取其中之一作為測試集,并隨機(jī)選擇其余4組中的1組作為驗(yàn)證;
(3) 確定模型訓(xùn)練的終止點(diǎn),其余3組作為訓(xùn)練集訓(xùn)練模型.
(4)
(5)
(6)
為每個樣本分類問題預(yù)測輸出的正確性,h(xj)為樣本的預(yù)測標(biāo)簽;yj為樣本的標(biāo)簽.
(7)
式中:AUCi為第i次實(shí)驗(yàn)中ROC曲線下面積.
(1) 所有樣本放入DML網(wǎng)絡(luò)中訓(xùn)練50次,并將樣本轉(zhuǎn)換為嵌入空間中的高維特征向量.
(2) 數(shù)據(jù)按SRS、SBSS、DML-GMM 3種不同方法劃分,將數(shù)據(jù)劃分為訓(xùn)練集、驗(yàn)證集和測試集以進(jìn)行模型訓(xùn)練.驗(yàn)證集用于判斷模型訓(xùn)練的終點(diǎn),訓(xùn)練結(jié)構(gòu)完全相同的網(wǎng)絡(luò)進(jìn)行比較.
(3) 采用5折交叉驗(yàn)證方法比較訓(xùn)練得到的模型性能指標(biāo).
3.4.1MNIST 對于MNIST數(shù)據(jù),SRS方法可以直接通過隨機(jī)采樣的方式劃分?jǐn)?shù)據(jù)集,而SBSS和DML-GMM方法需要先將樣本通過度量網(wǎng)絡(luò)(6層卷積層和2層全連接層)將樣本轉(zhuǎn)換成高維可度量向量,再按照其對應(yīng)的方法進(jìn)行數(shù)據(jù)劃分,將重新劃分好的數(shù)據(jù)放入相同的網(wǎng)絡(luò)中進(jìn)行訓(xùn)練.由于MNIST數(shù)據(jù)質(zhì)量比較高,使用相對較淺層的多層卷積網(wǎng)絡(luò)就能得到比較好的效果,所以為了更明顯地觀察出數(shù)據(jù)劃分帶來的影響,沒有使用特征提取能力更強(qiáng)的網(wǎng)絡(luò)模型(如ResNet50)來分類效果驗(yàn)證,這里同樣僅使用了一個6層卷積層和2層全連接層構(gòu)成網(wǎng)絡(luò)來比較分類效果.分別使用3種不同的方法劃分?jǐn)?shù)據(jù)后,訓(xùn)練結(jié)構(gòu)完全相同的網(wǎng)絡(luò),采用5折交叉得到的模型性能指標(biāo)如圖4所示,其在MNIST數(shù)據(jù)集上的性能對比如表1所示.
表1 不同方法在MNIST數(shù)據(jù)集上的性能對比
圖4 在MNIST數(shù)據(jù)集上由5折交叉驗(yàn)證得到的模型性能指標(biāo)Fig.4 Model performance indicators obtained by 5 folder cross-validation on MNIST dataset
3.4.2Fashion-MNIST 對于Fashion-MNSIT數(shù)據(jù)集,基于ResNet50模型通過交叉熵?fù)p失函數(shù)和中心損失函數(shù)提取高維特征,再通過兩層全連接層將特征轉(zhuǎn)到嵌入空間,分別使用SBSS和DML-GMM方法重新劃分樣本,對比SRS方法訓(xùn)練相同ResNet50模型得到的模型性能指標(biāo)如圖5所示,其在Fashion-MNIST數(shù)據(jù)集上的性能對比見表2.
圖5 在Fashion-MNIST數(shù)據(jù)集上由5折交叉驗(yàn)證得到的模型性能指標(biāo)Fig.5 Model performance indicators obtained by 5 folder cross-validationon on Fashion-MNIST dataset
表2 不同方法在Fashion-MNIST數(shù)據(jù)集上的性能對比
3.4.3CIFAR-10 對于CIFAR-10數(shù)據(jù)集,使用交叉熵?fù)p失函數(shù)和中心損失損失函數(shù)提取特征,嵌入后分別使用SBSS和DML-GMM方法重新劃分樣本,對比SRS方法訓(xùn)練相同ResNet50網(wǎng)絡(luò)得到的模型性能指標(biāo)如圖6所示,其在CIFAR-10數(shù)據(jù)集上的性能對比如表3所示.由表3可知,在CIFAR-10數(shù)據(jù)集上,使用交叉熵?fù)p失函數(shù)提取樣本特征嵌入后, 使用SBSS方法劃分?jǐn)?shù)據(jù)相較于SRS方法訓(xùn)練出來的模型偏差和方差略微小一些,模型性能更好.而使用DML-GMM方法得到的偏差和方差更小,模型性能進(jìn)一步提升.使用中心損失提取樣本特征使用SBSS和DML-GMM方法比交叉熵提取樣本特征得到的模型性能進(jìn)一步有所提高.
表3 不同方法在CIFAR-10數(shù)據(jù)集上的性能對比
圖6 在CIFAR-10數(shù)據(jù)集上由5折交叉驗(yàn)證得到的模型性能指標(biāo)Fig.6 Model performance indicators obtained by 5 folder cross-validationon on CIFAR-10 dataset
3.4.4肺腺癌HRCT 對于肺腺癌HRCT數(shù)據(jù)集,在提取特征方面使用的是3D ResNet50模型,損失函數(shù)分別使用的是交叉熵和中心損失函數(shù),嵌入后分別使用SBSS和DML-GMM方法重新劃分樣本,對比SRS方法訓(xùn)練相同3D ResNet50模型得到的性能指標(biāo)如圖7所示,其在肺腺癌HRCT數(shù)據(jù)集上的性能對比如表4所示.由表4可知,在肺腺癌HRCT數(shù)據(jù)集上,使用交叉熵?fù)p失函數(shù)提取樣本特征嵌入后,使用SBSS方法劃分?jǐn)?shù)據(jù)相較于SRS方法訓(xùn)練出來的模型偏差和方差略小一些,模型性能更好.而使用DML-GMM方法得到的偏差和方差更小,模型性能進(jìn)一步提升.使用中心損失提取樣本特征使用SBSS和DML-GMM方法比交叉熵提取樣本特征得到的模型性能進(jìn)一步有所提高.
通過上述4個數(shù)據(jù)集的實(shí)驗(yàn)可以看到,在特征提取環(huán)節(jié)使用中心損失函數(shù)相較于交叉熵?fù)p失函數(shù)可以獲得區(qū)分度更高的嵌入空間,更加有利于對樣本之間差異性的度量.使用SBSS方法劃分樣本相較于SRS方法中簡單的處理樣本可以提高訓(xùn)練得到的性能更好、穩(wěn)定性更佳的模型,而使用DML-GMM方法其模型性能可以進(jìn)一步獲得提升.
表4 不同方法在肺腺癌HRCT 數(shù)據(jù)集上的性能對比
圖7 在肺腺癌HRCT數(shù)據(jù)集上由5折交叉驗(yàn)證得到的模型性能指標(biāo)Fig.7 Model performance indicators obtained by 5 folder cross-validation on adenocarcinoma HRCT dataset
綜上,通過使用Gaussian混合模型來估計(jì)在嵌入空間中的樣本,可計(jì)算出每個樣本的對數(shù)似然,并用其似然概率描述分布特點(diǎn)和樣本的典型性,進(jìn)而發(fā)現(xiàn)特征不明顯的稀有樣本.根據(jù)如下步驟進(jìn)行實(shí)驗(yàn):① 使用SRS方法隨機(jī)從MNIST數(shù)據(jù)集中抽取20%作為測試數(shù)據(jù),將剩余80%用于訓(xùn)練一個分類網(wǎng)絡(luò)(6層卷積層和2層全連接層);② 提取用于訓(xùn)練分類網(wǎng)絡(luò)的樣本向量表示,將其特征的高維向量表示通過Gaussian混合模型描述其樣本分布;③ 將測試數(shù)據(jù)輸入訓(xùn)練好的網(wǎng)絡(luò),標(biāo)記出正確分類和錯誤分類的樣本,并放入②中建立好的Gaussian混合模型中計(jì)算測試樣本的對數(shù)似然.所得結(jié)果如圖8所示,將測試數(shù)據(jù)中10類對數(shù)似然最高和最低的樣本顯示出來(見圖8(a)).由圖8可知,對數(shù)似然值越高的樣本其典型性越高,其特征也越顯著、越容易正確分類.樣本對數(shù)似然值越低其特征顯著程度也越低,越不容易分類正確.將具有某一個相同標(biāo)簽的測試數(shù)據(jù)嵌入到2D空間并用熱圖對其概率密度進(jìn)行描述(見圖8(b)),可以看到其對數(shù)似然值越大,其樣本分布在越密集的位置,其對數(shù)似然值越低,樣本分布在越稀疏的位置.將正確分類和錯誤分類樣本的對數(shù)似然用核密度函數(shù)描述直方圖分布情況(見圖8(c)).其中:ρ為樣本密度;lnp為對數(shù)似然概率.由圖8(c)可見,正確分類的樣本其 lnp越大,錯誤分類的樣本其 lnp相對更低.因此在實(shí)踐中,當(dāng)采集新的樣本時,將該樣本通過已有樣本建立的Gaussian混合模型,計(jì)算其 lnp就可以量化樣本的顯著程度和稀有程度,進(jìn)而判斷是否需對已有模型進(jìn)行迭代更新,以提高模型的泛化能力.
圖8 在MNIST數(shù)據(jù)集上,通過GMM獲取的樣本對數(shù)似然分布及其示意圖Fig.8 Log-likelihood distribution and schematic diagram of samples by GMM on MNIST dataset
本文提出一種基于Gaussian混合模型的距離度量學(xué)習(xí)數(shù)據(jù)集劃分方法.首先,將所有樣本通過DML網(wǎng)絡(luò)訓(xùn)練,將樣本從圖像空間轉(zhuǎn)換到高維特征嵌入空間;然后通過Gaussian混合模型描述其分布后,分層采樣劃分?jǐn)?shù)據(jù)集進(jìn)行模型訓(xùn)練.通過該方法可以更加準(zhǔn)確地了解數(shù)據(jù)分布的特點(diǎn),在這樣的條件下劃分?jǐn)?shù)據(jù)相比于其他方法能訓(xùn)練出偏差、方差更小,準(zhǔn)確率更高,泛化性能更好的模型.另外,該方法還可以更好地理解樣本的顯著性,更清楚地了解哪些是最重要的樣本,哪些是稀有樣本.