国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于增強圖卷積神經(jīng)網(wǎng)絡的病毒形態(tài)識別方法研究

2022-04-18 09:41:26哈艷袁偉珵孟翔杰田俊峰
中國全科醫(yī)學 2022年14期
關鍵詞:錯誤率分類樣本

哈艷,袁偉珵,孟翔杰,田俊峰

致病病毒嚴重威脅人類的生命健康,如新型冠狀病毒肺炎全球大流行,造成了不可挽回的損失,但同時提高了人們對病毒傳播、致病和治療等的認知及重視程度。在病毒爆發(fā)的過程中,對病毒及時進行早期診斷則是遏制病毒傳播的最佳手段。目前利用透射電子顯微鏡(transmission electron microscope,TEM)對病毒進行形態(tài)觀察是對病毒早期診斷的重要檢測方式,通過TEM可以獲得病毒的高分辨率圖像,能夠表達病毒超微結構的更多細節(jié)[1-2],因此TEM成為病毒形態(tài)學診斷的有力工具[3]。

在臨床檢測中,傳統(tǒng)的TEM檢測方法常依靠專家手工識別,存在步驟繁瑣、耗時長、效率低等缺陷,并且需要經(jīng)驗豐富的病毒專家才能進行精準判斷。由于專業(yè)訓練的病毒專家屬于非常昂貴的人力資源,世界各地能夠使用TEM進行病毒鑒定的機構非常少[4-5],導致發(fā)展中國家和落后地區(qū)等無法對新型或變異病毒進行及時檢測和診斷,嚴重影響了病毒傳染疾病的診治與防疫工作。近年來,隨著計算機輔助診斷技術的發(fā)展,很多研究工作利用機器學習方法,通過手工設計的特征構建分類器以開展TEM圖像中的病毒形態(tài)自動識別工作,有效緩解了病毒檢測與診斷的壓力[6]。但由于病毒結構多樣、背景復雜和TEM圖像中不可避免地出現(xiàn)噪聲,上述方法在病毒識別方面受到特征依賴性和場景泛化能力差的影響,其效果不能滿足實際應用的要求。

目前,深度學習技術由于其卓越的性能已被廣泛應用于醫(yī)學圖像識別任務,可以有效解決TEM病毒圖像手工檢測效率低和機器學習方法受背景噪聲影響大等問題。但已有的深度學習方法大多關注圖像像素級信息,使得提取的信息獨立表示該圖像的特征,忽略了不同病毒樣本之間的關系,導致模型過于關注圖像上的局部特征,而忽略了整體的形態(tài)特征差異關系,進而導致對病毒形態(tài)圖像識別準確率不高。

本文提出的增強圖卷積神經(jīng)網(wǎng)絡(Enhanced Graph Convolutional Network,EGCN)用于透射電子顯微鏡下的病毒形態(tài)自動識別。該方法不僅關注圖像的局部特征,而且指導模型學習不同病毒樣本之間的關系,從其鄰居樣本中獲得更全面的病毒形態(tài)信息。首先,利用卷積神經(jīng)網(wǎng)絡(CNN)提取病毒的像素級特征,獲得的CNN特征主要集中于不同病毒樣本的局部信息。然后使用K近鄰(K-Nearest Neighbor,KNN)算法將圖像之間的相關性融合到模型中。最后,在圖卷積網(wǎng)絡(GCN)分類器中引入群體超分類技術,從而提取到更全面的病毒結構特征,進行病毒形態(tài)的精準分類。

1 相關工作

1.1 顯微圖像分類 目前,與人工智能相關的顯微鏡圖像識別算法因其高效和效果良好而被廣泛應用[6-12]。比如,ABDALLA等[7]采用K近鄰和人工神經(jīng)網(wǎng)絡算法來識別顯微圖像數(shù)據(jù)中的細胞和寄生蟲。MARC等[8]提出了對利什曼原蟲的深度學習自動分割和識別算法。除此之外,LI等[9]設計了深度循環(huán)遷移學習模型來識別多種寄生蟲顯微圖像,通過引入寄生蟲相似樣本的宏觀目標樣本促進寄生蟲圖像的特征提取,由此提高了寄生蟲顯微圖像的識別效果。

在病毒形態(tài)識別領域,也有一些基于電子顯微鏡的研究。XIAO等[6]提出了用于病毒形態(tài)學診斷的殘差混合注意力網(wǎng)絡,將殘差結構和三個注意力模塊集成到一個端到端的模型中,完成了對電子顯微鏡中病毒識別任務。SINTORN等[10]提出了一種精細化的模板匹配方法來識別巨細胞病毒顆粒。ONG等[11]提出了一種基于雙譜特征的識別方法,通過獲取輪廓和紋理信息來識別胃腸病毒。WEN等[12]建立了一種通過多尺度主成分分析方法提取病毒特征的病毒識別模型。但是這些方法僅考慮病毒圖像樣本類別與圖像特征之間的關系,忽視了圖像樣本特征中的群體相似問題,因此在實際應用中效果還不理想。

1.2 GCN 由于GCN具有挖掘樣本特征之間關系的獨特能力,許多研究采用GCN作為特征學習方法[13-18]。如SAHBI等[13]為圖像特征建立了一個正交的連接矩陣,通過鄰域最優(yōu)地聚集特征節(jié)點,并結合輕量級GCN進行手勢識別;MIN等[14]提出了一種基于注意力圖網(wǎng)絡的車位檢測方法,其根據(jù)標記點周圍視圖的圖像建立圖結構,用單元化的圖神經(jīng)網(wǎng)絡來聚合樣本之間的鄰近信息。ZHOU等[15]通過GCN將動作特征和微表情特征聯(lián)合表示,實現(xiàn)微表情識別;XIAO等[16]提出了一種利用GCN將類間相似度知識整合到CNN模型的方法來解決圖像識別問題。此外,ADNAN等[17]通過兩階段表征學習框架識別了兩種肺癌亞型,該方法通過基于顏色的算法和圖神經(jīng)網(wǎng)絡將原始圖像映射為向量表示,并在圖池中引入注意力機制來推斷樣本之間的相關性。BAO等[18]提出的掩碼圖注意力網(wǎng)絡,該網(wǎng)絡通過CNN特征表示節(jié)點之間的相互信息傳輸,更有效地實現(xiàn)行人的再識別。

為了更好地解決病毒形態(tài)診斷問題,首先利用CNN提取圖像特征表示,然后將CNN特征和樣本之間的關系輸入GCN模塊,整個網(wǎng)絡由群體超分類損失和病毒分類交叉熵損失進行聯(lián)合優(yōu)化,進而提出了EGCN。

2 EGCN

2.1 方法總述 為了解決病毒形態(tài)分類問題,首先,使用CNN從原始圖像中提取視覺特征。然后,通過KNN算法計算一個鄰接矩陣來表示CNN特征的相關性。最后,將CNN特征和其他的相關性輸入到GCN中學習圖特征表示,并利用群體超分類和病毒分類損失進行網(wǎng)絡優(yōu)化,提出了一種端到端的EGCN。模型整體結構如圖1所示。首先,EGCN通過CNN對病毒圖片提取像素級特征,然后通過圖學習建立樣本特征之間的關系,并引入圖卷積神經(jīng)網(wǎng)絡進行圖特征學習,利用超分類損失提高網(wǎng)絡的特征提取能力,實現(xiàn)在像素級特征上提取更具魯棒性的樣本鑒別特征,最終通過主分類損失進行病毒形態(tài)識別。

圖1 EGCN算法模型整體結構Figure 1 Overall structure of EGCN algorithm model

2.2 像素級特征提取 CNN可以根據(jù)像素間的關系挖掘圖像的像素級特征信息,在分類問題上解決了許多挑戰(zhàn)性的問題[19]。因此,本文使用經(jīng)典的CNN模型RepVGG[20]作為像素級的特征提取器。給定原始數(shù)據(jù)X={x1,…,xi,…,xn},包括病毒圖像,通過以下公式提取CNN特征:Y=F(X)(1)。其中F(·)表示RepVGG-B3模型,Y表示像素級特征集合。RepVGG由5個階段組成,每個階段使用多個 卷積,不存在池化模塊。每個階段的第一層通過設置stride=2來改變圖像的大小。RepVGG的詳細信息見表1。

表1 RepVGG模型Table 1 The model of Rep VGG network

為解決內(nèi)部協(xié)變量移位問題,在每個卷積層后加入批歸一化公式:

其中xb,xb+1分別表示第b層批標準化層的輸入和輸出,ε(·)表示期望,V(·)表示方差,ε>0。

2.3 超分類圖嵌入學習 在提取CNN 特征后,將這些特征作為GCN的輸入,并結合樣本之間的關系進行圖特征表示,最終經(jīng)過分類層預測分類結果。該模塊包括兩部分,首先計算CNN特征之間的相關性構建鄰接矩陣,然后通過超分類GCN計算預測的概率分布。

2.3.1 圖構建算法 為了確定CNN特征之間的關系,采用KNN算法建立一個圖結構G(V,E),其中V表示圖的節(jié)點,E表示圖的邊。具體來說,將每個圖像的CNN特征假設為一個節(jié)點。KNN算法中對于每個節(jié)點,將其連接到最接近該節(jié)點的前K個節(jié)點,計算鄰接矩陣A=(Aij):

其中Nj表示樣本j的K個近鄰點的集合。樣本的近鄰點由歐幾里得距離決定:

2.3.2 超分類圖卷積算法 設Y={y1,…,yi,…,yn}∈Rn×d是n個d維的特征向量的集合,并且利用鄰接矩陣A表示病毒樣本之間的關系。給定特征Z0=Y和圖結構A,GCN[21]可以表示為:

其中M表示屬于每種類別的概率,G(Y)表示GCN,δ(·)表示激活函數(shù),如ReLU(·)=max(0,·)。針對每個隱含層,GCN可以用以下公式表示:

其中l(wèi){0,1,…L}并且Wl表示第l層GCN的可訓練參數(shù)。Zl和Zl+1分別表示第l層和第l+1層輸出的GCN特征。D=diag(d1,d2,…,dn)是一個對角矩陣,且為了確定概率分布,將GCN層的輸出輸入到softmax函數(shù)中:

其中Mi表示第i個GCN特征的概率分布,表示矩陣中的第i行第c列,C表示類別數(shù)。為此,本研究建立了兩個分類器,同時優(yōu)化兩個并列的GCN:

其中Gp表示病毒形態(tài)類別預測層,Ga表示超分類病毒形態(tài)預測層,即將每個病毒類別再次隨機劃分為兩類輔助網(wǎng)絡進一步提取特征。Mp={mp1,…,mpi,…mpn}和Ma={ma1,…,mai,…man}分別代表Gp和Ga的輸出。其中超分類網(wǎng)絡通過將一類病毒分為兩類來提高EGCN模型提取全局特征的能力。

2.4 算法優(yōu)化 假設CNN模型的可訓練參數(shù)為Wv,超分類GCN的參數(shù)為Wg。本文通過以下?lián)p失函數(shù)優(yōu)化權重集合W={Wv,Wg}。首先,考慮到病毒圖像樣本相關關系建立方法沒有使用真實標簽,所以GCN中的鄰接矩陣中可能會有很多噪聲。由此,本文提出一個圖校正損失來抑制圖中的噪聲:

其中H=(Hij)∈Rn×n表示一個分類矩陣,由下式?jīng)Q定:

其中Lcp表示GCN的病毒形態(tài)交叉熵分類損失,Lca表示GCN的增強超分類損失。和分別表示兩種分類層輸出的第i個標簽。為了更好地控制樣本間的距離,本文對GCN增加了對比損失,即:

其中η是一個可調(diào)參數(shù),用于控制不同類別樣本的約束程度。最后,通過如下?lián)p失函數(shù)優(yōu)化:

其中λ1,λ2和λ3表示不同損失之間的平衡系數(shù)。此為構建的EGCN。

3 實驗驗證

3.1 數(shù)據(jù)來源 本文的研究數(shù)據(jù)是基于15類病毒的TEM圖像集[21],其使用兩種不同的電子顯微鏡進行拍攝,包括一臺Tecnai10和一臺MegaViewIII相機,以及一臺LEO和一臺Morada相機。該數(shù)據(jù)集使用文獻[22]中描述的方法從分割的對象中自動提取樣本,每類有100個圖像(總共1 500個樣本)。每張圖片均是無損壓縮為16位PNG格式,大小為41×41。此外,從每類中隨機選擇數(shù)據(jù)作為測試集,所選圖像不用于訓練,訓練集與測試集的比例為3∶1。表2顯示了每個病毒類中的圖像數(shù)量以及相應的訓練和測試部分的圖像數(shù)量。

表2 TEM病毒數(shù)據(jù)集Table 2 TEM virus dataset.

3.2 實驗設計和評價指標 為了進行公平的病毒分類效果對比,本文使用PyTorch框架在GTX2080GPU上實現(xiàn)了EGCN算法和其他相關模型。在訓練前,EGCN將訓練樣本的大小統(tǒng)一為70×70像素,然后將其隨機裁剪為64×64像素,并進行隨機旋轉。測試集的大小統(tǒng)一為64×64像素。在訓練時,EGCN模型通過自適應矩估計法(Adaptive Moment Estimation,Adam)[23]進行優(yōu)化,其中學習率為1e-5和權重衰減率為5e-4。經(jīng)實驗驗證,設置最大Epoch次數(shù)為300,批處理規(guī)模為64。λ1,λ2和λ3分別為0.3、1.0和0.1。Lcom的參數(shù)η被設置為5。此外,本文算法中使用的RepVGG模型已經(jīng)在ImageNet上進行了預訓練,以便更好地提取病毒圖像特征。

為了定量評價病毒形態(tài)學診斷模型,本小節(jié)計算了EGCN在病毒圖像數(shù)據(jù)上的top-1錯誤率、top-2錯誤率、精確度和召回率作為性能指標,具體情況如下。

top-1錯誤率:該度量計算測試圖像中與真實標簽不同的預測標簽的比例。

top-2錯誤率:該度量計算測試圖像中正確標簽不在top-2預測標簽中的比例[24]。

精確度:該指標表示模型預測為正確的樣本中正確預測樣本的比例。

召回率:表示測試集中的樣本被正確分類的比例。

3.3 實驗結果 為了驗證本文提出的EGCN模型用于病毒形態(tài)學診斷的性能,本節(jié)將EGCN算法與相關方法進行了比較,包括 VGG-19[19],ResNet-50[25],DenseNet-101[26],RepVGG-B3[20]和殘差混合注意網(wǎng)絡(RMAN)[6]。其中,VGG-19,ResNet-50,DenseNet-101和RepVGG-B3是在具有挑戰(zhàn)性的圖像識別任務中取得最佳結果的監(jiān)督模型[27]。RMAN通過在深度網(wǎng)絡中加入改進的注意力模型,在病毒形態(tài)識別中取得了較好的效果。

不同模型在不同評價指標上的實驗效果顯示:EGCN方法分別達到了3.40%的top-1錯誤率,1.88%的top-2錯誤率,96.65%的精確度和96.60%的召回率。由于訓練集樣本數(shù)量較少,過深的網(wǎng)絡會因參數(shù)過多而導致過擬合問題。因此,在傳統(tǒng)監(jiān)督網(wǎng)絡的實驗中,VGG-19和RepVGG模型比更深的ResNet-50和DenseNet-101算法表現(xiàn)更好。與其他方法相比,EGCN算法在top-1錯誤率至少低1.27%,在top-2錯誤率至少低0.64%,精確度至少提高了1.24%,召回率至少提高了1.27%。表3得到的結果表明,EGCN算法在GCN的特征提取能力基礎上,群體超分類挖掘了更豐富的類別信息,和樣本級分類損失的聯(lián)合優(yōu)化在病毒形態(tài)診斷任務中可以獲得更好的結果。見表3。

表3 不同模型對病毒形態(tài)分類的定量分析結果匯總(%)Table 3 Summary of quantitative analysis results of virus morphological classification by different models

每個類別中的top-1錯誤率,橫軸表示病毒類別,縱軸表示預測結果top-1錯誤率,結果見圖2。從圖3可以看出腺病毒、星狀病毒、剛果出血熱病毒、流感病毒、馬爾堡病毒、諾如病毒、輪狀病毒和西尼羅河病毒其各自突出的形態(tài)特征均有著較低的錯誤率。相對而言,登革熱病毒、埃博拉病毒和拉沙病毒的形狀相似,容易混淆,導致錯誤率較高。此外,與其他方法相比,EGCN模型在其他所有病毒類別中達到了最低的識別錯誤率,證明了EGCN算法在病毒識別問題上的優(yōu)越性。

圖2 所有對比方法中每個類別的top-1錯誤率Figure 2 Top-1 error rates of each category in comparison methods

EGCN的混淆矩陣如圖3所示,其展示了EGCN算法對不同類別樣本的識別能力,EGCN算法對腺病毒、星狀病毒、剛果出血熱病毒、牛痘病毒、流感病毒、馬爾堡病毒、諾如病毒、輪狀病毒和西尼羅河病毒的分類是100.00%正確的?;煜仃嚨慕Y果表明,EGCN模型能夠正確區(qū)分大多數(shù)病毒類別,對于形狀相似的病毒可能會產(chǎn)生少量的混淆。

圖3 混淆矩陣Figure 3 The confusion matrix

此外,本小節(jié)利用二維t-分布隨機鄰域嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)圖來可視化網(wǎng)絡學習到的特征。該方法通過對高維特征表示的降維和可視化來展示高維特征在低維空間的分布,從而驗證了方法的特征提取能力。EGCN和對比算法的結果顯示,幾種傳統(tǒng)網(wǎng)絡的效果相對較差,RMAN模型可以清晰地分離出各種樣本,但仍然不如EGCN模型具有更好的特征分離度,見圖4。綜上,本文提出的EGCN方法在病毒形態(tài)識別問題上有很好的效果。

圖4 t-SNE可視化效果圖Figure 4 The t-SNE plots of our method and comparison algorithms

3.4 結果分析 圖5顯示了損失函數(shù)中平衡參數(shù)的影響。圖5(a)表明輔助交叉熵損失(Lca)的正則化作用可以幫助模型收斂到局部最優(yōu)。相比之下,較弱的約束會導致算法過分關注樣本的局部信息,影響方法的優(yōu)化效果。另外,圖修正損失對模型影響較小,當λ2為1時,top-1錯誤率最低。最后,對比損失幫助EGCN從另一個角度提取訓練集的樣本信息,其最優(yōu)平衡參數(shù)值為0.3。

圖5 損失函數(shù)中平衡參數(shù) 對EGCN算法的影響Figure 5 The influence of balance parameters in loss function on our EGCN algorithm

為了驗證EGCN算法中每個模塊對病毒識別任務的貢獻,本節(jié)設計了一系列的消融實驗,結果如表4所示。首先,本節(jié)提供了一種無數(shù)據(jù)增強的算法,并證明其正則化效果可以使EGCN的錯誤率降低0.77%。之后去掉了GCN模塊,直接使用CNN特征進行病毒識別,以驗證EGCN中GCN部分的效果。結果表明,能夠整合樣本間信息的GCN使錯誤率降低了8.87%。另外,去掉了超分類技巧來驗證這部分在算法中的貢獻。這證明了該超分類方法提高了EGCN模型提取圖像全局表示的能力,降低了0.56%的錯誤率。最后,本部分驗證了圖歸一化方法,結果表明,歸一化圖有效地防止了梯度爆炸的問題,降低了29.14%的top-1錯誤率。

表4 EGCN方法的消融實驗結果Figure 4 Ablation experimental results of EGCN method.

4 討論

本文針對多種病毒形態(tài)分類任務,設計了EGCN進行病毒TEM圖像分類特征的學習和樣本關系的挖掘,結合超分類損失提高模型的鑒別能力,達到了3.4%的top-1錯誤率,1.88%的top-2錯誤率,并且獲得了96.65%的精確度和96.6%的召回率。對于病毒形態(tài)分類任務,已有相關文獻展開過研究,比如文獻[28]對電子圖像中的自動病毒鑒別任務設計了深度學習算法,結合病毒的形態(tài)屬性和網(wǎng)絡的損失函數(shù)來對SRS、MERS、HIV和COVID-19四種病毒進行分類識別;文獻[29]通過引入CNN來檢測和識別病毒,實現(xiàn)數(shù)據(jù)標注、樣本成像和圖像增強,并提高模型的運行速度,取得了不錯的研究進展。與上述相關文獻相比,本文模型主要針對類別相似性較高的病毒種類識別,并設計了超分類損失來促進網(wǎng)絡對類別之間差異特征的學習,重點解決了多種病毒分類的復雜任務。

雖然本方法可以有效解決病毒類別分類問題,但在模型訓練過程中需要大量標注樣本,在實際應用中TEM病毒圖像的標注工作十分復雜,且耗時、耗力。本文提出的EGCN在無標記數(shù)據(jù)或者標記樣本較少的情況下效果如何有待進一步驗證。在未來的研究中,將重點研究半監(jiān)督學習和遷移學習在病毒分類問題中的應用問題,以便能夠在無標記樣本或標記樣本較少的情況下達到較好的病毒形態(tài)分類的效果。

針對電子顯微鏡下的病毒形態(tài)識別,本文提出了一個改進的EGCN來解決病毒形態(tài)分類問題。該方法首先采用CNN提取原始圖像的特征,然后采用KNN建圖方法連接相關樣本構建圖結構關系,最后將圖結構與提取的CNN特征相結合,輸入超分類GCN進行最終的病毒形態(tài)分類。實驗結果表明,EGCN在病毒識別方面優(yōu)于所有的對比方法,提高了識別準確率。從理論和實際應用的角度均綜合驗證了EGCN對于病毒形態(tài)識別的重要應用價值和研究意義,對病毒傳播過程中的早期診斷具有重要的實際應用潛力。

作者貢獻:哈艷、孟翔杰進行文章的構思與設計,研究的實施與可行性分析,數(shù)據(jù)整理;哈艷、田俊峰進行數(shù)據(jù)收集,論文的修訂,結果的分析與解釋;孟翔杰進行統(tǒng)計學處理;田俊峰撰寫論文,對文章整體負責,監(jiān)督管理;哈艷負責文章的質量控制及審校。

本文無利益沖突。

猜你喜歡
錯誤率分類樣本
限制性隨機試驗中選擇偏倚導致的一類錯誤率膨脹*
分類算一算
用樣本估計總體復習點撥
分類討論求坐標
推動醫(yī)改的“直銷樣本”
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
正視錯誤,尋求策略
教師·中(2017年3期)2017-04-20 21:49:49
隨機微分方程的樣本Lyapunov二次型估計
解析小學高段學生英語單詞抄寫作業(yè)錯誤原因
新民市| 泉州市| 赣榆县| 博白县| 汕尾市| 若羌县| 昌黎县| 屯留县| 商水县| 金寨县| 英超| 阜新| 松潘县| 天台县| 区。| 永州市| 瑞丽市| 顺昌县| 江永县| 盐源县| 陆良县| 喜德县| 大荔县| 沈阳市| 瑞昌市| 蒙城县| 扬中市| 泗洪县| 宁武县| 五台县| 晋中市| 蒲城县| 深州市| 兴隆县| 维西| 澄迈县| 庐江县| 施甸县| 玉环县| 开平市| 昌都县|