基于特征級聯(lián)的肺炎咳嗽聲識別

2022-09-09 03:17殷仁杰徐文龍

現(xiàn)代電子技術(shù) 2022年17期

殷仁杰，徐文龍

（中國計量大學(xué)，浙江杭州 310000）

0 引言

肺炎是在肺部產(chǎn)生炎癥影響的一種常見呼吸道疾病，其癥狀表現(xiàn)為持續(xù)的咳嗽和胸部疼痛等。根據(jù)2019 年國家衛(wèi)生健康委統(tǒng)計信息中心數(shù)據(jù)顯示，由主要感染性疾病導(dǎo)致死亡的概率中肺炎占比最高。文獻(xiàn)[2]指出不同疾病引發(fā)的咳嗽聲具有各種差異，根據(jù)差異對咳嗽聲進(jìn)行處理，達(dá)到識別肺炎的目的。當(dāng)前在識別肺炎方面常采用肺音、呼吸音等作為信息載體，但相比之下識別咳嗽聲具有非接觸性、設(shè)備成本低、操作簡單等優(yōu)點(diǎn)。

對肺炎咳嗽聲的識別研究主要是通過組合不同的淺層特征，或?qū)M合后的高維特征使用遺傳算法、主成分分析等降低維度保留良好特征，最后應(yīng)用機(jī)器學(xué)習(xí)模型實現(xiàn)識別。文獻(xiàn)[3]從咳嗽聲提取梅爾頻率倒譜系數(shù)等22 維特征，輸入到人工神經(jīng)網(wǎng)絡(luò)分類器，實現(xiàn)肺炎的識別。文獻(xiàn)[4]組合梅爾頻率倒譜系數(shù)以及時間序列的最大值、方差等統(tǒng)計參數(shù)來識別慢性阻塞性肺炎，并使用信息增益方法選擇特征，獲得了85.4%的識別準(zhǔn)確率。文獻(xiàn)[5]采用小波分析方法，對爆裂音、啰音、喘息等不同狀態(tài)的肺音，提取小波能量特征，在BP 神經(jīng)網(wǎng)絡(luò)上識別準(zhǔn)確率為82.5%。文獻(xiàn)[6]指出肺炎咳嗽聲含有裂紋信號，使用小波分析方法得到小波系數(shù)特征，與非高斯評分、雙譜評分、對數(shù)能量等30 維特征組合作為邏輯回歸模型輸入，得到88%的特異性。文獻(xiàn)[7]提出通過短時傅里葉變換將咳嗽聲轉(zhuǎn)換成語譜圖，通過圖像識別的方法達(dá)到對咳嗽聲的識別。使用深度網(wǎng)絡(luò)模型對語譜圖進(jìn)行特征提取，可以很好地得到咳嗽聲隱藏的深層特征。

本文通過特征級聯(lián)方法結(jié)合兩種層次特征，分別為小波包分解咳嗽聲提取出的淺層特征，以及特征提取模型從語譜圖保留的深層特征，實現(xiàn)同時保留咳嗽聲的淺層細(xì)節(jié)和深層抽象信息的目的，較使用單一特征有效提高了識別準(zhǔn)確率。

1 識別系統(tǒng)流程

肺炎咳嗽聲識別方法主要對咳嗽聲提取不同層次的特征，借助于信號處理和圖像識別技術(shù)，采用深度網(wǎng)絡(luò)模型作為分類器來識別肺炎。為患者提供一種自主檢測手段，降低就診成本，同時作為一種輔助型肺炎診斷方法。本文識別系統(tǒng)流程如圖1所示。

圖1 咳嗽聲識別流程圖

2 咳嗽聲處理

2.1 小波包分解

小波變換是一種時頻分析方法，在處理非平穩(wěn)信號領(lǐng)域被廣泛使用。小波變換使用可變的時頻窗，具有較高時頻分辨率。小波包分解方法是在小波變換基礎(chǔ)上改進(jìn)得到的，對每次分解得到的頻帶再次分解為低頻和高頻部分。

層小波變換僅把信號分解為(+1)段頻帶，小波包可以分解為2段頻帶，使分解的頻帶更為精細(xì)，能得到更高的頻率分辨率。

小波包分解公式中，將小波包系數(shù)d()分解為d()和d()。其中和代表層數(shù)和節(jié)點(diǎn)數(shù)，()和()分別保留信號低頻或高頻部分。

對小波包系數(shù)求平方得到小波包能量E，小波包能量占總頻帶能量的比值，即相對小波包能量，相對小波包能量可以體現(xiàn)出咳嗽聲信號在每個頻帶內(nèi)的能量分布情況。本文采用db3 小波對咳嗽聲信號進(jìn)行6 層小波包分解，使用相對小波包能量作為淺層特征。小波包能量E和相對小波包能量P計算公式如下：

2.2 生成語譜圖

語譜圖含有大量的時頻域特征，如基音周期、共振峰、能量密度、清音濁音等，超過了時域和頻域的信息總和，在信號分析領(lǐng)域具有重要作用；結(jié)合頻譜圖和波形圖兩者之間的優(yōu)點(diǎn)，使二維圖像可以表達(dá)出三維信息；其橫軸和縱軸方向分別代表時間和頻率，而圖上點(diǎn)的灰度值表示幅值的高低。

經(jīng)過對咳嗽聲信號進(jìn)行分幀、加窗、離散傅里葉變換等步驟處理，生成語譜圖。首先對咳嗽聲信號S()加窗分幀處理，幀移設(shè)為幀長的1 2，使用漢明窗()作為窗函數(shù)，窗長為。其次對預(yù)處理后的咳嗽聲信號求取傅里葉系數(shù)：

再求取傅里葉系數(shù)的對數(shù)能量：

最大最小值歸一化處理得到(,)：

圖2 正常與肺炎人群咳嗽聲的語譜圖

3 SELeNet-5 網(wǎng)絡(luò)模型

3.1 LeNet-5 特征提取模型

卷積神經(jīng)網(wǎng)絡(luò)是一種具有局部連接、權(quán)重共享等特性的深層前饋神經(jīng)網(wǎng)絡(luò)，主要使用在圖像分類和目標(biāo)檢測等方面。其中LeNet-5 是具有代表性的卷積神經(jīng)網(wǎng)絡(luò)之一，早期用于識別銀行手寫數(shù)字方面，本文將LeNet-5網(wǎng)絡(luò)模型用于對圖像進(jìn)行特征提取，能很好地得到語譜圖深層特征。LeNet-5 特征提取模型總共有7 層，由卷積層、池化層、全連接層交叉堆疊構(gòu)成。首先經(jīng)過卷積層通過卷積核對語譜圖的局部區(qū)域進(jìn)行特征提取，其中不同大小的卷積核相當(dāng)于使用不同的特征提取器；其次池化層起到降維的作用，對卷積層得到的特征降低維度，從而大大減少了網(wǎng)絡(luò)模型的參數(shù)數(shù)量，加快網(wǎng)絡(luò)模型的運(yùn)行速度；最后經(jīng)過全連接層選取保留下語譜圖深層特征。

LeNet-5 起始用于分類圖像方面，其輸入和輸出分別為32×32 的圖像以及10 個分類結(jié)果概率值。因此，對LeNet-5 網(wǎng)絡(luò)模型的初始參數(shù)和網(wǎng)絡(luò)層進(jìn)行修改，以達(dá)到對語譜圖特征提取的功能；將第一個全連接層神經(jīng)元參數(shù)設(shè)為64，與淺層特征數(shù)量保持相等；省略最后輸出層以達(dá)到特征提取的目的，最終將保留64 維深層特征。LeNet-5 特征提取模型結(jié)構(gòu)如圖3所示。

圖3 LeNet-5 特征提取模型結(jié)構(gòu)圖

3.2 特征級聯(lián)網(wǎng)絡(luò)層

依靠單一的網(wǎng)絡(luò)模型或特征，對于準(zhǔn)確率的提升往往有限，而級聯(lián)方法借助于級聯(lián)對象之間的差異大小，相比單一對象可以在一定程度上提高準(zhǔn)確率。根據(jù)級聯(lián)對象的不同，級聯(lián)可以分為特征級聯(lián)、分類器級聯(lián)兩種。特征級聯(lián)相比分類器級聯(lián)方法，可以有效利用特征之間的差異，發(fā)揮不同層次特征優(yōu)勢。

特征級聯(lián)方法主要是通過在網(wǎng)絡(luò)模型中添加Add或Concatenate 網(wǎng)絡(luò)結(jié)構(gòu)層實現(xiàn)，將來源不同的特征向量進(jìn)行合并，組合成一組新的特征向量，進(jìn)而輸入到分類器進(jìn)行識別。兩種特征級聯(lián)結(jié)構(gòu)層具有不同的合并特征方法，主要有以下區(qū)別：Add 網(wǎng)絡(luò)層屬于對特征通道內(nèi)部包含的信息進(jìn)行合并，并且保持特征通道數(shù)量不變；Concatenate 網(wǎng)絡(luò)層是對特征通道的合并，增加了特征通道數(shù)量，通道內(nèi)部包含的信息保持不變。本文選擇Concatenate 網(wǎng)絡(luò)結(jié)構(gòu)層作為特征級聯(lián)網(wǎng)絡(luò)層，有效增加特征通道數(shù)量，使咳嗽聲具有較多的特征表示，并在Concatenate 層后添加BN 層，可以有效加快收斂速度，防止過擬合。假設(shè),分別是淺層和深層特征，分別使用兩種特征級聯(lián)方法得到級聯(lián)特征，兩種特征級聯(lián)方法區(qū)別如下：

3.3 注意力機(jī)制網(wǎng)絡(luò)模塊

通過特征級聯(lián)網(wǎng)絡(luò)層結(jié)合淺層和深層特征，增加了特征通道數(shù)量，但各個特征通道對于識別結(jié)果的作用大小不同，無關(guān)特征會大大增加模型計算量，增加網(wǎng)絡(luò)模型的計算復(fù)雜度。注意力機(jī)制網(wǎng)絡(luò)模塊是采用犧牲較小的計算成本和時間，對特征通道的注意力進(jìn)行分配，將有限的計算資源聚焦于有效特征通道上，并帶來一定的性能提升。

注意力機(jī)制網(wǎng)絡(luò)模塊由一個全局池化層、兩個全連接層和Sigmoid 函數(shù)構(gòu)成，根據(jù)模型訓(xùn)練損失值來確定各個通道的重要程度。首先第一個全連接層將原始特征輸入降為其1 16維度；其次通過第二個全連接層將其升為原始維度，使其具有更多的非線性，得到通道之間的相關(guān)性；最終通過Sigmoid 函數(shù)歸一化權(quán)重，輸出新的特征通道權(quán)重集合。注意力機(jī)制網(wǎng)絡(luò)模塊結(jié)構(gòu)圖如圖4所示。

圖4 注意力機(jī)制網(wǎng)絡(luò)模塊結(jié)構(gòu)圖

圖4中，Scale 是將歸一化權(quán)重以矩陣相乘方法加權(quán)到原始特征通道，完成對原始特征通道上的權(quán)重更新。權(quán)重更新公式如下：

式中：代表特征通道權(quán)重集合；為128 維級聯(lián)特征的通道矩陣。

因此在特征級聯(lián)網(wǎng)絡(luò)層后加入注意力機(jī)制網(wǎng)絡(luò)模塊，調(diào)整特征級聯(lián)得到的128 維特征通道的權(quán)重大小，加大有效特征通道的權(quán)重大小，提高模型準(zhǔn)確率。將經(jīng)過注意力機(jī)制網(wǎng)絡(luò)模塊更新權(quán)重后的特征，通過兩個全連接層保留主要信息，輸入到Softmax 函數(shù)，輸出肺炎咳嗽聲識別結(jié)果。整體網(wǎng)絡(luò)模型命名為SELeNet-5 網(wǎng)絡(luò)模型，網(wǎng)絡(luò)架構(gòu)如圖5所示。

圖5 SELeNet-5 網(wǎng)絡(luò)結(jié)構(gòu)圖

4 實驗結(jié)果與分析

4.1 數(shù)據(jù)采集與處理

實驗所使用的肺炎咳嗽數(shù)據(jù)來源于醫(yī)院病房，采集前已征得受試者的同意，對其多次連續(xù)性采集咳嗽聲。采集設(shè)備為索尼PCM-D100 錄音器，錄音器采樣率設(shè)置為44.1 kHz。采集過程中保持相對安靜的環(huán)境，將錄音器放置在受試者嘴部大約40 cm 的位置，使受試者肺部充分吸氣，并多次主動性咳嗽。共獲得23 名（男18 名,女5 名）受試者樣本咳嗽聲數(shù)據(jù)，受試者所患疾病包括慢性阻塞性肺炎、支氣管肺炎等常見肺炎，且具有專業(yè)臨床醫(yī)生開具的臨床診斷。正常受試者咳嗽聲數(shù)據(jù)來源于課題組實驗室，采集方法與肺炎咳嗽聲的采集方法相同。為了保證數(shù)據(jù)分類的穩(wěn)定，同樣選取23名（男18名,女5 名）正常受試者作為樣本采集，且選取與肺炎咳嗽聲等量的片段作為正常咳嗽聲數(shù)據(jù)。

使用Audacity 音頻處理軟件，人工選取咳嗽聲并將其裁剪為等長320 ms 的片段，使每個片段均包含咳嗽聲。總共得到肺炎咳嗽聲片段和正?？人月暺胃?18 個。采用數(shù)據(jù)增強(qiáng)對咳嗽聲數(shù)據(jù)集進(jìn)行擴(kuò)充，避免數(shù)據(jù)集體量小，產(chǎn)生過擬合等問題。將音量調(diào)高為原始數(shù)據(jù)的1.5 倍，以及添加白噪聲生成新數(shù)據(jù)，數(shù)據(jù)擴(kuò)充后的數(shù)據(jù)量約為原始數(shù)據(jù)的2 倍。將數(shù)據(jù)擴(kuò)充前后的咳嗽聲片段混合，并隨機(jī)劃分為80%的訓(xùn)練集和20%的測試集。數(shù)據(jù)集組成如表1所示。

表1 咳嗽數(shù)據(jù)集組成段

4.2 實驗結(jié)果

為了體現(xiàn)特征級聯(lián)方法對肺炎咳嗽聲識別的有效性，采用不同層次特征進(jìn)行對比實驗。方法1 將相對小波包能量通過兩層全連接層輸出識別結(jié)果；方法2 將語譜圖輸入到LeNet-5 特征提取模型，再通過兩層全連接層輸出識別結(jié)果；方法3使用兩種特征輸入到SELeNet-5網(wǎng)絡(luò)模型實現(xiàn)識別。三種不同輸入特征對比實驗結(jié)果如圖6所示。

圖6 準(zhǔn)確率實驗結(jié)果

由圖6 得到：方法2 比方法1 的識別準(zhǔn)確率高3.89%，證明了深度網(wǎng)絡(luò)模型能很好地處理圖像問題，以圖像識別的形式可以較好地用于識別咳嗽聲；方法3相比方法1 和方法2 準(zhǔn)確率分別提高了6.81%和2.92%，表明通過特征級聯(lián)方法及使用注意力機(jī)制網(wǎng)絡(luò)模塊，可以有效地兼顧淺層和深層兩種特征，對于提高咳嗽聲識別方面是有效的。

5 結(jié) 語

當(dāng)前醫(yī)學(xué)上對于肺炎疾病識別方面，主要依賴于胸片檢查和專業(yè)醫(yī)生聽診等手段，存在成本高、專業(yè)要求高等缺點(diǎn)。本文提出的基于特征級聯(lián)的肺炎咳嗽聲識別方法，提供了一種非接觸性、低成本、較高準(zhǔn)確率的肺炎識別方法，采用特征級聯(lián)方法合并兩種不同層次特征，實現(xiàn)對肺炎咳嗽聲的識別。實驗結(jié)果表明，特征級聯(lián)方法可以有效提高肺炎咳嗽聲識別的準(zhǔn)確率。下一步將研究基于音頻識別出咳嗽聲并自動裁剪的方法，以及設(shè)計一套便攜式硬件系統(tǒng)用于識別肺炎咳嗽聲。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡