国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于遷移學(xué)習(xí)的心音心臟疾病檢測算法

2024-03-27 16:21:36馮辰凡陶青川
現(xiàn)代計算機(jī) 2024年1期
關(guān)鍵詞:心音領(lǐng)域深度

馮辰凡,陶青川

(四川大學(xué)電子信息學(xué)院,成都 610065)

0 引言

在當(dāng)今時代,機(jī)器學(xué)習(xí)、人工智能等技術(shù)已經(jīng)在各個領(lǐng)域產(chǎn)生了巨大的影響。研究者們不斷創(chuàng)造出高效且可靠的算法,將這些算法應(yīng)用到各行各業(yè),以解決各式各樣的現(xiàn)實問題。在健康領(lǐng)域中,尤其是醫(yī)學(xué)領(lǐng)域,先進(jìn)技術(shù)的應(yīng)用一直處于前沿。心臟疾病作為健康領(lǐng)域的一項重要挑戰(zhàn),早期的診斷對于患者的生存和健康至關(guān)重要[1]。近年來,越來越多的研究者開始將機(jī)器學(xué)習(xí)的知識應(yīng)用于實現(xiàn)高效、精確的心臟疾病檢測的目標(biāo)。例如,一些研究者嘗試使用心電圖(ECG)[2]或核磁共振儀的三維掃描結(jié)果[3]作為數(shù)據(jù)集和診斷依據(jù),并設(shè)計了相應(yīng)的算法。盡管這些方法在某些情況下取得了一定的成效,但這些儀器通常昂貴且耗時。相比之下,基于心音(PCG)的心臟疾病檢測算法因其器材開銷小,且數(shù)據(jù)集收集簡單而備受關(guān)注,成為當(dāng)前心臟病診斷領(lǐng)域的主要研究方向。

當(dāng)前,已經(jīng)存在許多心音識別方法。例如,Pantea 等[4]對傳統(tǒng)的機(jī)器學(xué)習(xí)算法,模糊推理系統(tǒng)(ANFIS)進(jìn)行了改進(jìn),取得了良好的識別結(jié)果。隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的興起,越來越多的研究人員開始采用深度學(xué)習(xí)方法來實現(xiàn)這一目標(biāo)。Potes 等[5]采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來進(jìn)行心音識別,而在Sujadevi 等[6]的研究中,構(gòu)建了長短期記憶網(wǎng)絡(luò)(LSTM)來實現(xiàn)同樣的目標(biāo)。在深度學(xué)習(xí)模型的眾多變種中,HTS-AT[7]網(wǎng)絡(luò)是最近引起廣泛關(guān)注的一種,它融合了Swin Transformer[8]架構(gòu)的優(yōu)點,同時高效提取了局部性特征,在聲音識別領(lǐng)域取得了顯著的成績。本文旨在對該網(wǎng)絡(luò)進(jìn)行改進(jìn)和優(yōu)化,提出了HTS-AT V2 模型,以提高模型的推理速度和其在特定領(lǐng)域或任務(wù)上的性能,尤其是在心音心臟疾病檢測算法的應(yīng)用方面。

此外,隨著任務(wù)復(fù)雜性的增加和跨領(lǐng)域的需求,單一領(lǐng)域訓(xùn)練的模型面臨一些挑戰(zhàn)。為了充分發(fā)揮深度學(xué)習(xí)的潛力,研究人員開始關(guān)注遷移學(xué)習(xí)(Transfer Learning)[9]方法。遷移學(xué)習(xí)允許在一個領(lǐng)域訓(xùn)練的模型在另一個領(lǐng)域進(jìn)行任務(wù)遷移,從而提高性能。本文將采用遷移學(xué)習(xí)方法,將知識從一個領(lǐng)域遷移到另一個領(lǐng)域,以提高模型的性能并減少訓(xùn)練過程中的損耗。

本文的結(jié)構(gòu)如下:

第一部分介紹了本文所用方法和模型的基礎(chǔ)理論;第二部分將詳細(xì)介紹本文提出的模型,即HTS-AT V2 的網(wǎng)絡(luò)結(jié)構(gòu),并探討相關(guān)評價指標(biāo)。我們將通過設(shè)計不同的實驗來證明模型的有效性,并探討遷移學(xué)習(xí)對于訓(xùn)練過程的優(yōu)化作用;第三部分將對本文的研究成果進(jìn)行總結(jié),并展望未來的研究方向。

1 論文涉及方法介紹

本部分主要對論文中使用到的方法理論進(jìn)行介紹,主要包括HTS-AT 網(wǎng)絡(luò)模型、Swin Transformer V2和遷移學(xué)習(xí)。

1.1 HTS-AT

HTS-AT(Hierarchical Token-Semantic Audio Transformer)是由Chen等[7]于2022年提出并發(fā)布的一種全新的聲音識別的方法。網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。可以看到,此方法分為三個部分:第一部分是以梅爾頻譜圖(Mel Frequency Cepstral Coefficient)為主要思想的語音特征提取編碼部分,用來提取聲音中重要特征,并將一維的時序數(shù)據(jù)編碼整合成滿足模型輸入要求的二維多通道數(shù)據(jù);第二部分則是模型的主干部分,從圖中可以看出,HTS-AT 借鑒了Swin Transformer的思路:使用層次化的金字塔設(shè)計,一共包含了4 個Group,每個Group 的末尾都會使用Patch-Merge 模塊縮小輸入圖像的分辨率以達(dá)到逐層擴(kuò)大感受野、減少數(shù)據(jù)量的目的,而Group 中的核心部分則是直接使用了以Windows Attention 為核心的Swin Transformer Block;第三部分是模型的輸出部分,將第二部分的數(shù)據(jù)解碼并映射到目標(biāo)類型上,以滿足任務(wù)對數(shù)據(jù)格式的需要。

1.2 Swin Transformer V2

Swin Transformer V2 是由Liu 等[10]在Swin Transformer V1提出八個月后提出的,Swin Transformer 網(wǎng)絡(luò)的2.0 版本。經(jīng)過改進(jìn),相較于V1,V2 使得模型規(guī)模更大并且能適配不同分辨率的圖片和不同尺寸的窗口。Swin Transformer V2 和Swin Transformer V1的對比如圖2所示。在V1的基礎(chǔ)上,作者提出了一種新的歸一化方式,稱為殘差后歸一化(residual-post-normalization)。該方法將歸一化層從每個殘差分支的開始移到末尾,這樣每個殘差分支的輸出在合并回主分支之前都會被歸一化,當(dāng)層數(shù)加深時,主分支的幅度將不會被累加,這種新的歸一化方式使得網(wǎng)絡(luò)各層的激活值變得更加溫和。同時,為了緩解V1 中某些層的注意力權(quán)重會被幾個特定的點支配的問題,作者還提出了縮放的余弦注意力機(jī)制(scaled cosine attention),它可以取代之前的點乘注意力機(jī)制。在縮放的余弦注意力機(jī)制中,自注意力的計算與輸入的幅值無關(guān),從而可以產(chǎn)生更平衡的注意力權(quán)重。

圖1 HTS-AT網(wǎng)絡(luò)結(jié)構(gòu)圖

圖2 Swin Transformer V1與Swin Transformer V2對比圖

1.3 遷移學(xué)習(xí)

遷移學(xué)習(xí)(Transfer Learning)是一種機(jī)器學(xué)習(xí)方法,其主要思想是將從一個任務(wù)中學(xué)到的知識或模型應(yīng)用到另一個相關(guān)任務(wù)中,以提高學(xué)習(xí)性能。遷移學(xué)習(xí)的概念最早在領(lǐng)域自適應(yīng)(Domain Adaptation)和多任務(wù)學(xué)習(xí)(Multi-Task Learning)的研究中有所體現(xiàn)。領(lǐng)域自適應(yīng)關(guān)注如何將一個領(lǐng)域中學(xué)到的知識遷移到另一個相關(guān)領(lǐng)域,而多任務(wù)學(xué)習(xí)關(guān)注如何同時學(xué)習(xí)多個相關(guān)任務(wù),以提高性能。在當(dāng)前的深度學(xué)習(xí)領(lǐng)域,遷移學(xué)習(xí)可以幫助模型加快收斂、學(xué)習(xí)的過程,也能夠提高模型的泛化能力和適應(yīng)能力,從而在目標(biāo)領(lǐng)域數(shù)據(jù)稀缺或噪聲較多的情況下,也能取得較好的訓(xùn)練效果。在由Tan 等[11]提出的綜述中,將深度學(xué)習(xí)中的遷移學(xué)習(xí)分成了四個類型:基于實例的深度遷移學(xué)習(xí)、基于映射的深度遷移學(xué)習(xí)、基于網(wǎng)絡(luò)的深度遷移學(xué)習(xí)和基于對抗的深度遷移學(xué)習(xí)。

2 基于遷移學(xué)習(xí)的HTS-AT V2算法

本節(jié)主要介紹HTS-AT V2 的網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練過成、評價指標(biāo)以及實驗結(jié)果。

2.1 本文方法介紹

本文是對Chen 等[7]提出的HTS-AT 進(jìn)行改進(jìn),改進(jìn)后的新網(wǎng)絡(luò)命名為HTS-AT V2。主要的改進(jìn)是:在主干網(wǎng)絡(luò)中添加了Liu等[10]所提出的Swin Transformer V2 Block,網(wǎng)絡(luò)結(jié)果如圖3所示,圖中模型的主體,也就是Training部分,原來使用的是Swin Transformer Block,而經(jīng)過改進(jìn),本文使用了更加優(yōu)越的Swin Transformer V2 Block。相比之下,V2版本通過引入殘差后歸一化和縮放的余弦注意力機(jī)制,讓模型更加穩(wěn)定,注意力權(quán)重更加平衡。

同時,由于本文所使用到的數(shù)據(jù)集為心音數(shù)據(jù)集,相比于文獻(xiàn)[6]中的數(shù)據(jù)集,心音最大的特點為其周期性,所以對原網(wǎng)絡(luò)的Encode 部分進(jìn)行改進(jìn),對聲音使用小波變換去噪后,按心動周期進(jìn)行切割,再將切割后的聲音分別進(jìn)行編碼后進(jìn)行合并。而且,由于心音數(shù)據(jù)集中的數(shù)據(jù)類型較少,識別場景較為簡單,所以在合并后通過二維卷積的方式來減少通道數(shù)量,以實現(xiàn)參數(shù)量的減少。

改進(jìn)后的編碼方式,不僅幫助網(wǎng)絡(luò)在訓(xùn)練時更好地利用心音周期性的特點,減少無用特征的干擾;而且通過減少通道數(shù)降低了網(wǎng)絡(luò)訓(xùn)練時的參數(shù)量,提高了心音識別的實時性。另外,為了進(jìn)一步提高模型的泛化能力、減少訓(xùn)練過程的開銷,本文的訓(xùn)練過程還使用了基于網(wǎng)絡(luò)的深度遷移學(xué)習(xí)[11]。HTS-AT V2 網(wǎng)絡(luò)會先在“源領(lǐng)域”,即ESC-50 數(shù)據(jù)集上進(jìn)行訓(xùn)練,之后會在“目標(biāo)領(lǐng)域”,也就是心音數(shù)據(jù)集上進(jìn)行微調(diào),以適應(yīng)心音數(shù)據(jù)集的數(shù)據(jù)分布和任務(wù),以提高在這個領(lǐng)域上的性能。

2.2 數(shù)據(jù)集介紹

本文涉及到的數(shù)據(jù)集主要有兩個:ESC-50數(shù)據(jù)集和心音數(shù)據(jù)集。

ESC-50 數(shù)據(jù)集是著名的聲音數(shù)據(jù)集,該數(shù)據(jù)集由5 s 長的記錄組成,這些記錄被組織成了50 個不同的語義類,松散地排列成5 個主要類別,總共有2000 條數(shù)據(jù)。本文用該數(shù)據(jù)集作為遷移學(xué)習(xí)過程中的“源領(lǐng)域”數(shù)據(jù)集。

心音數(shù)據(jù)集是本文自制的數(shù)據(jù)集,從成都、綿陽、自貢三個城市,五家不同的醫(yī)院、醫(yī)療機(jī)構(gòu)收集而來。其中共3500 條數(shù)據(jù),2500 條正常心音,1000 條異常心音,包括了兒童、青少年、成年人、老年人不同年齡階段的心音數(shù)據(jù)。詳細(xì)的數(shù)據(jù)集信息見表1,表中的“其他”表示患者不只患有一種疾病,或存在心臟疾病但暫無法確定具體病種。

圖3 HTS-AT V2網(wǎng)絡(luò)結(jié)構(gòu)圖

表1 數(shù)據(jù)集種類及數(shù)量

2.3 評價指標(biāo)

心音識別作為多分類任務(wù)的一種,本文主要以宏平均(Marco Average)的F1-Score 作為關(guān)注的指標(biāo)。對于二分類的分類問題,可以將樣本分為四類,即真陽性(TP)、假陽性(FP)、真陰性(TN)和假陰性(FN)?;诜诸惤Y(jié)果的矩陣見表2所示。

表2 二分類任務(wù)結(jié)果矩陣

基于表2 的基本屬性,我們可以分別得出準(zhǔn)確率(Accuracy)、精確率(Precision)和召回率(Recall)的公式:

為了更全面地反映模型的性能,我們一般會考慮F-Score 作為模型進(jìn)一步的評價指標(biāo)。由于精確率和召回率指標(biāo)有時會出現(xiàn)矛盾,因此需要F-Score指標(biāo)來對這兩者進(jìn)行加權(quán)和平均。

一般,我們?nèi)= 1,此時,我們稱其為F1-Score。

F1-Score 結(jié)合了精確度和召回率,當(dāng)F1 較高時,我們認(rèn)為該方法更有效。

在多分類的任務(wù)上,為了能夠獲得模型在多組數(shù)據(jù)上總體的性能,一般使用宏平均(Marco Average)來做評價指標(biāo)。宏平均是根據(jù)每個類的F1-Score 求得的算數(shù)平均,相比于微平均(Micro Average),其可以更平等地對待每一個類別,而數(shù)據(jù)集中各個類別的重要性相同,故用作此次任務(wù)的評價指標(biāo)。

2.4 實驗結(jié)果

2.4.1 實驗環(huán)境

本文代碼使用的操作系統(tǒng)為ubuntu18.04,框架環(huán)境為PyTorch 1.8.1、Python 3.8、Cuda 11.1。在硬件環(huán)境方面,主處理器為12 vCPU Intel(R)Xeon(R)Silver 4214R CPU @ 2.40GHz,運(yùn)行內(nèi)存20 GB,使用的顯卡為RTX 3090,單卡,顯存24 GB。

2.4.2 結(jié)果與分析

改進(jìn)后,模型的實驗結(jié)果見表3。

表3 實驗結(jié)果

從表3可以看出,本文改進(jìn)后的HTS-AT V2算法,雖然在F1-Score 上只是略高于原版網(wǎng)絡(luò),但是在參數(shù)量和推理速度上,都取得了比較優(yōu)秀的結(jié)果。所以,本文提出的算法更加適合部署在邊緣設(shè)備上,便于進(jìn)行快速、便捷的心臟疾病的檢測。這與我們的研究初衷相符。

另外,為了更加準(zhǔn)確、可靠地對比遷移學(xué)習(xí)對于模型的影響,分別用遷移學(xué)習(xí)的訓(xùn)練方式和普通的訓(xùn)練方式對HTS-AT V2 額外進(jìn)行了10 次實驗,其最后的F1-Score 結(jié)果區(qū)間如圖4所示。

圖4 傳統(tǒng)訓(xùn)練和遷移學(xué)習(xí)實驗結(jié)果對比

從圖4 可以看出,在10 次實驗中,雖然在最好情況下遷移學(xué)習(xí)訓(xùn)練出來模型的F1-Score相比使用普通方式訓(xùn)練出來的模型只是略有提升,但是遷移學(xué)習(xí)訓(xùn)練的模型卻有著更好的穩(wěn)定性,其訓(xùn)練結(jié)果的波動要小于使用普通訓(xùn)練方式訓(xùn)練出來的模型,這也體現(xiàn)了遷移學(xué)習(xí)對于訓(xùn)練過程的優(yōu)化。

3 結(jié)語

本文針對心音識別任務(wù),對語音識別網(wǎng)絡(luò)HTS-AT 進(jìn)行了改進(jìn),將原本模型中使用的Swin Transformer 模型更新為Swin Transformer V2,同時對原網(wǎng)絡(luò)中聲音的特征提取進(jìn)行了改進(jìn),讓其更好地適應(yīng)心音數(shù)據(jù)集。在心音數(shù)據(jù)集上的訓(xùn)練結(jié)果表明,在識別效果略有提升的情況下,減少了模型的大小并提高了模型的推理速度,大大提高了心音識別算法的實時性,有助于將該模型部署于邊緣設(shè)備上。也使用了遷移學(xué)習(xí)這種特殊的訓(xùn)練方法,優(yōu)化了模型的訓(xùn)練過程。在未來,可以繼續(xù)根據(jù)心音的特性,對網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方式進(jìn)行進(jìn)一步的改進(jìn),從而進(jìn)一步提升算法效果。

猜你喜歡
心音領(lǐng)域深度
深度理解一元一次方程
領(lǐng)域·對峙
青年生活(2019年23期)2019-09-10 12:55:43
深度觀察
深度觀察
深度觀察
基于雙閾值的心音快速分段算法及其應(yīng)用研究
雙聲道心音能量熵比的提取與識別研究
基于香農(nóng)熵的心音信號檢測方法研究
新常態(tài)下推動多層次多領(lǐng)域依法治理初探
二維心音圖特征提取與識別方法的研究
永平县| 乌鲁木齐县| 柯坪县| 繁昌县| 进贤县| 鹰潭市| 凉城县| 康马县| 台州市| 沙雅县| 扶余县| 乡城县| 积石山| 周宁县| 兰考县| 平山县| 泰和县| 高青县| 惠来县| 会理县| 陕西省| 通州区| 旅游| 房产| 黎城县| 邵武市| 七台河市| 五原县| 安康市| 延津县| 泰兴市| 肃南| 民权县| 遵化市| 徐闻县| 台南县| 石门县| 灵台县| 灌云县| 桐城市| 承德市|