劉啟超,徐 紅,2,林卓勝,朱嘉健,劉慧琳,吳 欣,馮 躍**
(1.五邑大學(xué)智能制造學(xué)部 江門 529020;2.維多利亞大學(xué)可持續(xù)工業(yè)與宜居城市研究所 墨爾本 8001;3.上海中醫(yī)藥大學(xué)基礎(chǔ)醫(yī)學(xué)院 上海 201203)
脈診是中醫(yī)四診之一,對提示疾病的狀態(tài)有重要意義。脈診需要依靠醫(yī)生的經(jīng)驗(yàn)進(jìn)行判斷分析,主觀依賴性強(qiáng)[1]。為了推動脈診客觀化發(fā)展,許多研究者將機(jī)器學(xué)習(xí)和數(shù)據(jù)分析等人工智能技術(shù)應(yīng)用于脈診,展開了脈象信號數(shù)據(jù)釆集以及數(shù)據(jù)集構(gòu)建、提取脈象特征、分析與識別脈象信號等研究。
脈象信號數(shù)據(jù)是脈診客觀化的基礎(chǔ),然而在數(shù)據(jù)釆集以及數(shù)據(jù)集構(gòu)建中數(shù)據(jù)類別不平衡問題在醫(yī)學(xué)領(lǐng)域非常普遍。Zheng 等[2]對此使用SMOTE Tomek 算法加以緩解,在基于Stacking 融合模型中準(zhǔn)確率提升了4.21%。王若佳等[3]指出數(shù)據(jù)不平衡將影響模型的分類結(jié)果,導(dǎo)致樣本數(shù)量大的類別預(yù)測準(zhǔn)確率較高、反之則準(zhǔn)確率較低的情況。
目前,從時域、頻域、時頻域三部分提取脈象特征仍是研究的主要方向。張?jiān)娪甑萚4]對脈象信號進(jìn)行多尺度小波分解,根據(jù)所得高頻細(xì)節(jié)分量和低頻近似分量進(jìn)行閾值量化處理,利用welch 法對其進(jìn)行功率譜估計(jì),然后利用小波多尺度分析、經(jīng)驗(yàn)?zāi)B(tài)分解以及希爾伯特-黃變換3 種方法提取時-頻特征,最后在平脈、實(shí)脈、滑脈、弦脈4 種脈象數(shù)據(jù)中使用支持向量機(jī)(Support Vector Machines,SVM)和隨機(jī)森林(Random Forest,RF)精確率均達(dá)到93%。盡管這一方法在一定程度上提高了模型精確率,但是需要極其繁雜的特征提取和數(shù)據(jù)預(yù)處理,并對操作人員的專業(yè)背景要求高,在日常醫(yī)學(xué)應(yīng)用中常有眾多病人以及相應(yīng)的海量數(shù)據(jù),時間成本和操作難度都將是巨大挑戰(zhàn)。
針對上述不足,本文首先對于醫(yī)學(xué)輔助信息進(jìn)行探索性分析,并用熱圖形式呈現(xiàn),達(dá)到初步快速特征篩選得目的。此外,直接使用tsfresh 庫對巴特沃茲帶通濾波器處理后的脈象信號提取特征向量,簡化了提取過程。對于臨床數(shù)據(jù)不平衡問題,通過邊界合成少數(shù)類樣本過采樣技術(shù)(Borderline Synthetic Minority Oversampling Technique,Borderline SMOTE)解決。提出加權(quán)軟投票融合模型,其將LightGBM(Light Gradient Boosting Machine,LGBM)、RF、XGBoost、梯度提升決策樹(Gradien Boosting Decision Tree,GBDT)4 種機(jī)器學(xué)習(xí)算法進(jìn)行融合并根據(jù)權(quán)重得出結(jié)果。因?yàn)楸疚臄?shù)據(jù)集是表格數(shù)據(jù),具有特征不均勻、樣本量小等特點(diǎn),所以對于這類型數(shù)據(jù)集深度學(xué)習(xí)很難找到相應(yīng)的不變量,進(jìn)而對于這一領(lǐng)域的數(shù)據(jù)集常選用傳統(tǒng)機(jī)器學(xué)習(xí)方法[5-6],所構(gòu)建的模型有其優(yōu)勢所在。
投票法是通過多個模型集成進(jìn)而降低方差,不同算法集成可能會比單個算法獲得更好的效果[7]。軟投票(Soft Voting)是通過使用輸出類概率分類的投票法,為了進(jìn)一步提升精度加入權(quán)重操作,使得原本軟投票的普通加和操作,改為加權(quán)求和操作,拓?fù)浣Y(jié)構(gòu)如圖1所示。軟投票在模型構(gòu)建中越來越受重視,如任師攀等[8]采用軟投票策略對XGBoost 和LGBM 這兩個模型進(jìn)行融合,解決對客戶違約風(fēng)險評估的問題,最后在捷信集團(tuán)公開的大規(guī)模消費(fèi)信貸數(shù)據(jù)集上,取得了91.99%的準(zhǔn)確率。
圖1 加權(quán)軟投票算法拓?fù)浣Y(jié)構(gòu)
類別不平衡問題在醫(yī)學(xué)領(lǐng)域是普遍存在的且受到廣泛關(guān)注,眾多研究人員對此進(jìn)行深入研究。如王江月[9]提出基于局部信息的K 近鄰引力平衡算法,意在算法層面對脈象數(shù)據(jù)不平衡進(jìn)行解決。此外,在預(yù)測急性心肌梗死(AMI)<1 個月,全因死亡率<1 個月中使用了SMOTE和機(jī)器學(xué)習(xí)算法,同樣有效的緩解數(shù)據(jù)不平衡所帶來的精度問題[10]。所使用的Borderline SMOTE 是在SMOTE 基礎(chǔ)上改進(jìn)的過采樣算法,該算法通過邊界上少數(shù)類樣本合成新樣本,從而改善樣本分布極其不均衡的情況。
本文提出的脈象信號分類方法整體流程如圖2所示,將脈象信號先經(jīng)過預(yù)處理模塊進(jìn)行去噪處理,然后經(jīng)過特征提取模塊提取特征向量,此外,使用Borderline SMOTE 算法降低由于數(shù)據(jù)不平衡對于精度的影響,最后將所篩選出來的特征向量作為輸入使用加權(quán)軟投票模塊對其進(jìn)行分類,得出所屬脈象。
圖2 加權(quán)軟投票融合模型脈象信號分類實(shí)現(xiàn)流程
脈搏波是由心臟持續(xù)不斷地跳動,進(jìn)引起血液在血管中流動所造成脈的搏動,由于數(shù)據(jù)采集過程中易受外界干擾,所以需要對數(shù)據(jù)進(jìn)行預(yù)處理,本文采用巴特沃茲帶通濾波器對脈象信號進(jìn)行濾波,去除0.2-20 Hz以外的噪聲。
首先,將預(yù)處理模塊所得結(jié)果調(diào)用tsfresh 庫進(jìn)行特征提取操作,其會對濾波后的脈象信號進(jìn)行單周期分割,獲得脈象的單周期波形,進(jìn)而tsfresh庫會自動提取出如峰值、最大值和平均值等較為簡單的特征,同時也會提取出如時間反轉(zhuǎn)對稱統(tǒng)計(jì)量等較為復(fù)雜的特征,此外tsfresh 庫還可以通過假設(shè)檢驗(yàn)對特征進(jìn)行消減,得出最能解釋趨勢的特征。通過使用tsfresh 進(jìn)行特征提取和初步的特征篩選操作,得出468 列脈象特征構(gòu)成特征向量,其中包括脈搏波峰、波谷、最大值、最小值等特征。然后加入輔助醫(yī)學(xué)信息,但是其中蘊(yùn)含大量空值和無用特征向量,所以需要對其進(jìn)行特征列的空值處理和探索性分析,提高分類準(zhǔn)確率。使用tsfresh 庫從一維脈象信號中提取出468 列脈象特征,運(yùn)用探索性數(shù)據(jù)分析從輔助醫(yī)學(xué)信息中得出9 列醫(yī)學(xué)輔助特征,結(jié)合兩者輸出構(gòu)成477 列特征向量進(jìn)行特征篩選,選出重要性排名前21列特征向量作為輸入數(shù)據(jù),流程如圖3所示。
圖3 特征提取模塊
2.2.1 輔助醫(yī)學(xué)信息
為了充分利用中醫(yī)信息采集設(shè)備所提供的信息,本文除脈診信號外,還將周期(Periode)、脈象壓力類型(Pulse pressure type)、脈搏率(Pulse rate)等由舌面脈經(jīng)穴信息采集管理系統(tǒng)所提供的信息作為輔助醫(yī)學(xué)信息,這些信息均是由信息采集管理系統(tǒng)在脈象釆集過程中自動生成并以.xlsx 表格形式存儲,通過特征篩選操作得出對分類準(zhǔn)確率最有力的9列醫(yī)學(xué)輔助特征。在醫(yī)學(xué)診斷中一些輔助醫(yī)學(xué)信息往往對于最后的分類結(jié)果有較大幫助,如Le 等[11]進(jìn)行多模型融合后加入輔助信息使得最后結(jié)果得到提升,Wang 等[12]在模型中加入輔助信息RR間隔,在F1分?jǐn)?shù)中提高。
2.2.2 空值處理以及探索性數(shù)據(jù)分析
首先需對所有特征向量進(jìn)行空值處理,直接刪除空值占比大于30%的特征向量,小于30%大于0%則用中位數(shù)填充,避免影響之后的特征篩選步驟。其次,由于醫(yī)學(xué)輔助信息中蘊(yùn)含大量冗余和非必要特征向量,本文采用探索性分析達(dá)到初步特征篩選的目的,減輕特征篩選步驟中的操作復(fù)雜度。采用肯德爾相關(guān)系數(shù)(Kendall Correlation Coefficient,kendall’s r)繪制熱圖如圖4 中所示。相關(guān)性系數(shù)取值范圍包含-1-1,正值表示正相關(guān),負(fù)值表示負(fù)相關(guān),0 表示沒有相關(guān)性,數(shù)值越大表示相關(guān)性越強(qiáng)。對所有相關(guān)性系數(shù)取絕對值后,刪除與脈象信號類型(Pulse type)相關(guān)性數(shù)值小于0.05的特征向量,從22個初始醫(yī)學(xué)輔助信息中挑選出Pulse Pressure Type、Pulse Rate 等9列醫(yī)學(xué)輔助特征。
2.2.3 特征篩選
將提取到的468 列脈象信號特征向量和9 列醫(yī)學(xué)輔助特征,繪制成一個.xlsx格式文件,共477列特征向量。利用極度隨機(jī)樹(Extremely Randomized Trees Classifier ,ET)挑選出特征重要性排名前21 列特征向量,排名依據(jù)是該特征被使用的次數(shù)、使用該特征樹的平均信息增益以及使用該特征時的平均覆蓋率,結(jié)果如圖5所示。這種使用樹模型進(jìn)行特征篩選的方法已被越來越多人使用,如劉云翔等[13]采用基于RF的特征篩選算法,在保證精度的前提下將特征集縮小為1/2。
圖5 前21列特征向量,橫軸為重要性縱軸為最大值、中位數(shù)、Periode等特征向量
2.2.4 歸一化
為了使數(shù)據(jù)更具有適應(yīng)性,降低運(yùn)算過程中數(shù)值復(fù)雜度,采用公式(1)中的歸一化方法。其中Xmin表示每列中的最小值組成的行向量,Xmax表示每列中的最大值組成的行向量,max表示要映射到的區(qū)間,最大值默認(rèn)是1,min 表示要映射到的區(qū)間,最小值默認(rèn)是0,X表示每一個特征值,Xscale為歸一化后的特征值。
實(shí)驗(yàn)數(shù)據(jù)集存在明顯類別不平衡情況,最多類和最少類達(dá)到了1∶6.5 的比例,若采用不均衡樣本訓(xùn)練模型,將導(dǎo)致分類模型泛化能力差并且容易發(fā)生過擬合。本文對數(shù)據(jù)使用Borderline SMOTE 算法,其針對的目標(biāo)是和多數(shù)類混在一起的少數(shù)類樣本。需要注意的是算法不能用在整個數(shù)據(jù)集,不然會導(dǎo)致測試集和訓(xùn)練集的數(shù)據(jù)有關(guān)聯(lián),進(jìn)而干擾分類準(zhǔn)確率,因而所用的Borderline SMOTE算法只用在訓(xùn)練集上。
由于數(shù)據(jù)集為表格數(shù)據(jù),所以選用的是在表格數(shù)據(jù)中表現(xiàn)良好的機(jī)器學(xué)習(xí)算法RF、XGBoost、LGBM、GBDT 四種模型[14-17],每種模型構(gòu)建兩個總共8 個模型,并且內(nèi)置不同參數(shù),這是為了增加模型多樣性提升精度。然后,采用加權(quán)軟投票算法進(jìn)行融合,建立六類脈象信號的分類模型,并用測試集進(jìn)行分類性能檢驗(yàn),過程如圖6 所示。由于軟投票算法對于模型準(zhǔn)確率提升有巨大幫助,所以得到廣泛應(yīng)用,如Yoo[18]等通過使用RAKEL 算法對SE-ResNet-34應(yīng)用軟投票模型,準(zhǔn)確率達(dá)到88.49%。
圖6 加權(quán)軟投票模塊
本文使用的六類脈象實(shí)驗(yàn)數(shù)據(jù)一部分采集自600位參與者,由五邑大學(xué)智能醫(yī)學(xué)實(shí)驗(yàn)室5位經(jīng)專業(yè)醫(yī)師培訓(xùn)的科研助理在符合醫(yī)學(xué)倫理委員會的倫理標(biāo)準(zhǔn)下完成。所使用的脈象采集設(shè)備是天津慧醫(yī)谷科技具有二類醫(yī)療器械注冊證的舌面脈經(jīng)穴信息采集管理系統(tǒng)(型號MT-SM-01),系統(tǒng)對所采集數(shù)據(jù)自動標(biāo)注,標(biāo)注格式輸出為.xlsx 表格格式。另一部分脈象數(shù)據(jù)則由采集設(shè)備廠商提供。本文實(shí)驗(yàn)部分共使用1302 例樣本,其中數(shù)脈216 例、緩脈90 例、滑脈88例、沉脈433例、微脈63例、平脈412例,數(shù)據(jù)集文件是.xlsx文件格式存儲。由于使用Borderline SMOTE 算法合成少數(shù)類,均衡后的數(shù)據(jù)集總共包含2082 例數(shù)據(jù)。訓(xùn)練集、驗(yàn)證集和測試集,所占比例為6∶2∶2。
采用脈象分類模型研究中常用的準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1分?jǐn)?shù)(F1-score)4種指標(biāo)來評價模型的整體性能。
其中,TP 表示正樣本預(yù)測正確的個數(shù);FN 表示被錯分為負(fù)樣本的正樣本個數(shù);FP表示被錯分為正樣本的負(fù)樣本個數(shù);TN表示被正確預(yù)測的負(fù)樣本數(shù)。在這4 個評價指標(biāo)中,準(zhǔn)確率代表著整體預(yù)測準(zhǔn)確率,精確率代表對正樣本結(jié)果的預(yù)測準(zhǔn)確程度,召回率含義是在實(shí)際為正樣本中被預(yù)測為正樣本的概率,F(xiàn)1分?jǐn)?shù)則表示precision和recall調(diào)和平均值。
3.3.1 特征提取結(jié)果與分析
通過數(shù)據(jù)篩選得出對于分類結(jié)果大有裨益的重要性排名前21列特征向量,其中包含最大值、中位數(shù)、Periode、Pulse Pressure Type 等,這21 列特征向量便是模型輸入,輸出為具體脈象類別。此外醫(yī)學(xué)輔助信息的加入對于良好的分類準(zhǔn)確率也有巨大貢獻(xiàn),這主要是因?yàn)镻eriode、Pulse Rate 等都與脈象信息有直接關(guān)系。在表1 中展示了加入醫(yī)學(xué)輔助特征的RF 與未加醫(yī)學(xué)輔助特征的RF 進(jìn)行性能對比,加入之后的分類準(zhǔn)確率提高了43.21%,充分表明加入醫(yī)學(xué)特征是完全有必要的。此外,采用巴特沃茲帶通濾波器對脈象信號進(jìn)行去噪處理,然后直接使用tsfresh 庫提取特征向量,相比于現(xiàn)今復(fù)雜的特征提取過程無疑是相當(dāng)簡潔的操作。
表1 單一機(jī)器學(xué)習(xí)模型和加權(quán)軟投票融合模型性能對比
表2 各融合算法以及benchmark性能結(jié)果
為了驗(yàn)證特征篩選的有效性,將未經(jīng)篩選的477 列特征向量和經(jīng)過篩選的21 列特征向量在RF 上進(jìn)行測試,運(yùn)行時間從原本8 s 降到現(xiàn)在的1.3084 s,減少了6.6916 s 即降低83.65%,可以預(yù)見的是在加權(quán)軟投票融合模型上的訓(xùn)練時間會減少的更多,經(jīng)過特征篩選后確實(shí)有效的減少了運(yùn)算內(nèi)存占用和時間消耗。
在特征向量選取個數(shù)中進(jìn)行了實(shí)驗(yàn)對比,以耗時少、準(zhǔn)確率高作為綜合性能判定標(biāo)準(zhǔn),選擇重要性排名前21 列特征向量。其他特征向量在加權(quán)軟投票模型中的性能表現(xiàn)如圖7所示。其中,200列特征向量準(zhǔn)確率是87.36%,耗時641.7755 s;65列特征向量的準(zhǔn)確率是89.65%,耗時232.4023 s;10列特征向量的準(zhǔn)確率為87.11%,耗時66.9019 s。實(shí)驗(yàn)結(jié)果表明,其他三列特征向量數(shù)值相比于本文的90.04%的準(zhǔn)確率,以及65.9466 s的耗時,具有一定差距。
圖7 不同數(shù)量特征向量性能表現(xiàn)
為了驗(yàn)證Borderline SMOTE 算法有效性,在RF 分類器中進(jìn)行驗(yàn)證,所用數(shù)據(jù)集為訓(xùn)練集和驗(yàn)證集,分類準(zhǔn)確率由原本的86.20%上升為87.36%,如表1 所示,這一方式被證實(shí)是有效的。除了Borderline SMOTE 算法,還考慮使用其他合成少數(shù)類算法分別為:普通的過采樣SMOTE[19]、欠采樣Tomek Links、ENN算法,以及兩者的混合SMOTE+ENN 算法,但是由于本數(shù)據(jù)集的數(shù)據(jù)分布特點(diǎn)是與多數(shù)類混在一起的少數(shù)類較多,選擇使用Borderline SMOTE 算法,并比較了這幾類算法在RF 中的準(zhǔn)確率,Borderline SMOTE 算法取得最好的準(zhǔn)確率。
針對Borderline SMOTE 算法在平衡數(shù)據(jù)集中的性能表現(xiàn),以及加權(quán)軟投票融合模型在平衡數(shù)據(jù)集中的表現(xiàn),進(jìn)行表3 的實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)集是從原本的六類脈象數(shù)據(jù)集中選出沉脈和平脈兩類脈象數(shù)據(jù)進(jìn)行二分類,將433例沉脈刪除21例,使其與412例平脈數(shù)量相等,然后選擇在單一模型表現(xiàn)突出的5 種模型與本文所構(gòu)建的加權(quán)軟投票融合模型進(jìn)行對比實(shí)驗(yàn)。模型輸入是兩類脈象的21列特征向量,輸出為具體脈象類型。表3 中的實(shí)驗(yàn)結(jié)果表明,在平衡數(shù)據(jù)中加入Borderline SMOTE 算法并不會對模型性能有影響,這主要是因?yàn)樵撍惴▊?cè)重于合成少數(shù)類,而平衡數(shù)據(jù)集不存在少數(shù)類的說法,自然不能對模型結(jié)果產(chǎn)生影響。此外,由于數(shù)據(jù)集變小了很多,導(dǎo)致所有模型的性能普遍下降,但是加權(quán)軟投票融合模型仍能比GBDT準(zhǔn)確率高1.41%、比RF準(zhǔn)確率高2.83%。
表3 平衡數(shù)據(jù)模型性能
通過上述對脈象數(shù)據(jù)進(jìn)行的預(yù)處理與特征提取操作,可以得出對于模型分類結(jié)果最有幫助的21列特征向量,較好地反映出不同脈象中蘊(yùn)含的形態(tài)信息,且探索性數(shù)據(jù)分析和數(shù)據(jù)可視化使得數(shù)據(jù)間內(nèi)在關(guān)系得到充分挖掘,以清晰、準(zhǔn)確、高效的方式傳達(dá)數(shù)據(jù)模式以及洞察信息。此外,Borderline SMOTE 算法使得數(shù)據(jù)不平衡對于結(jié)果的影響得到有效緩解。
3.3.2 加權(quán)軟投票融合模型實(shí)驗(yàn)結(jié)果與分析
模型訓(xùn)練環(huán)境cpu為i5-12500H,使用的編譯器是pycharm,模型架構(gòu)是pytorch。選用3種機(jī)器學(xué)習(xí)的加權(quán)軟投票融合模型,其中的單一模型為RF、GBDT、XGBoost 和LGBM,選用這4 個模型是由于Grinsztajn等[20]進(jìn)行了大量實(shí)驗(yàn),結(jié)果證明對于表格數(shù)據(jù)集深度學(xué)習(xí)模型并沒有傳統(tǒng)機(jī)器學(xué)習(xí)模型中的樹模型性能好。隨后將12 種當(dāng)今熱門的機(jī)器學(xué)習(xí)模型應(yīng)用在訓(xùn)練集和驗(yàn)證機(jī)中,分別為邏輯回歸(Logistics regression,LR)、決 策 樹(Decision tree,DT)、RF、AdaBoost、XGBoost、LGBM、CatBoost、ET、K 最近鄰(KNearest Neighbor,KNN)、SVM、GBDT 以 及MLP(Multilayer Perceptron),實(shí)驗(yàn)結(jié)果如表1 所示,實(shí)驗(yàn)結(jié)果顯示樹模型的各項(xiàng)指標(biāo)比起其他傳統(tǒng)機(jī)器學(xué)習(xí)模型普遍更高。
此外,本文使用的是加權(quán)軟投票融合模型,表1的實(shí)驗(yàn)結(jié)果顯示該模型精確率達(dá)94.61%、平均召回率達(dá)93.55%、F1 分?jǐn)?shù)達(dá)94.04%、準(zhǔn)確率達(dá)90.04%,且耗時僅13.4836 s。為了增加加權(quán)軟投票融合算法的說服力與現(xiàn)今熱門的多種模型融合算法做實(shí)驗(yàn)對比,實(shí)驗(yàn)中使用了5折交叉驗(yàn)證分別評估每個模型在各性能指標(biāo)下的表現(xiàn)。與此同時,為了對比融合前后性能變化程度,選用了在單一模型中綜合性能表現(xiàn)最好的RF作為benchmark,與各融合模型進(jìn)行對比如表2 所示。實(shí)驗(yàn)結(jié)果顯示所使用的加權(quán)軟投票模型比未加權(quán)重的軟投票融合模型準(zhǔn)確率高0.77%,比添加權(quán)重的硬投票(Hard Voting)融合模型準(zhǔn)確率高0.39%,比基于Stacking 算法融合模型準(zhǔn)確率高0.77%,在六類脈象數(shù)據(jù)集上準(zhǔn)確率獲得90.04%的較好成績。實(shí)驗(yàn)結(jié)果表明加權(quán)軟投票融合模型在脈象分類數(shù)據(jù)集上具有優(yōu)越性。
加權(quán)軟投票融合模型模型的構(gòu)建主要分為兩步:第一步是構(gòu)建軟投票模型;第二步是設(shè)置權(quán)重。首先在驗(yàn)證集中分別得出XGBoost、RF、GBDT、LGBM 四種模型在評價指標(biāo)下的性能結(jié)果;其次,對模型進(jìn)行略微調(diào)參,過擬合模型融合后可能會加劇模型過擬合風(fēng)險,因此必須保證每個模型本身過擬合不嚴(yán)重,為此對模型進(jìn)行抗過擬合處理主要方法就是設(shè)置模型中的參數(shù),對RF 選擇加入max_depth,對于GBDT 則選擇加入max_features,對于XGBoost 選擇增加迭代次數(shù),對于LGBM 選擇設(shè)置max_depth。最后,將4 種模型分別各構(gòu)建兩個,形成內(nèi)置參數(shù)不同的8個模型,增加模型之間的復(fù)雜度,相互之間獨(dú)立性越強(qiáng),模型整體泛化能力越強(qiáng)。隨后,進(jìn)行模型權(quán)重設(shè)置,設(shè)置方法如下:①先將驗(yàn)證集中的準(zhǔn)確率作為權(quán)重;②如果準(zhǔn)確率沒有提高則稍微降低權(quán)重精度,由原來的小數(shù)點(diǎn)后四位變成現(xiàn)在的小數(shù)點(diǎn)后兩位;③加大精確率高的模型權(quán)重。
3.3.3 深度學(xué)習(xí)模型對比
不同于傳統(tǒng)機(jī)器學(xué)習(xí),深度學(xué)習(xí)的特征提取是直接由網(wǎng)絡(luò)結(jié)構(gòu)完成,這在一定程度上簡化了進(jìn)行特征提取的繁瑣性,但是相比于本文使用tsfresh 庫進(jìn)行的特征提取并無太多優(yōu)勢,此外在所對比的Resnet+LSTM+SE、Resnet+LSTM+CBAM、Resnet+LSTM+ ECA、Resnet+LSTM+SE+ECA+CBAM、 Resnet+LSTM+SE+ECA+CBAM+多通道融合、ConvNeXt_tiny5個神經(jīng)網(wǎng)絡(luò)中,訓(xùn)練時的模型參數(shù)都超過了百萬,這導(dǎo)致訓(xùn)練時間非常漫長,epoch 僅設(shè)置為500,在參數(shù)最少的Resnet+LSTM+SE 上使用五折交叉驗(yàn)證耗費(fèi)8 h。模型輸入與本文一致也是六類經(jīng)過巴特沃茲帶通濾波去噪的一維脈象信號和9 列經(jīng)過篩選的醫(yī)學(xué)輔助信息,文件以.xlsx 格式存儲,輸出為模型分類得出的具體脈象類型,所用損失函數(shù)為交叉熵,優(yōu)化器為adam,學(xué)習(xí)率設(shè)置為0.0001,實(shí)驗(yàn)結(jié)果如表4 所示??梢钥闯霰姸喈?dāng)今熱門的深度學(xué)習(xí)模型精度,與本文所用方法相比仍有較大差距。主要有兩點(diǎn)原因:首先,傳統(tǒng)機(jī)器學(xué)習(xí)中的樹模型相比于深度學(xué)習(xí)模型更能處理特征不均勻、樣本量小的數(shù)據(jù)[20],而通過加權(quán)軟投票算法將多模型融合的操作再次提升了模型性能;其次,本文設(shè)計(jì)了較為完善的特征提取、篩選流程,能夠得出對最終分類結(jié)果最為重要的特征向量。
表4 對比深度學(xué)習(xí)模型精度
綜上所述,本文采用六類一維脈象信號和輔助醫(yī)學(xué)信息作為數(shù)據(jù)集,利用tsfresh庫和探索性數(shù)據(jù)分析,分別得出脈象特征和醫(yī)學(xué)輔助特征,相結(jié)合后進(jìn)行特征篩選,將經(jīng)過特征篩選的21列特征向量直接作為加權(quán)軟投票融合模型的輸入,這一過程有效保留了脈象信號中的形態(tài)信息剔除其中冗余信息,并且簡單易操作的特征提取過程是一大優(yōu)勢。對于訓(xùn)練集采用Borderline SMOTE 算法解決數(shù)據(jù)不平衡問題,再構(gòu)建加權(quán)軟投票融合模型對算法處理后的數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建脈象分類模型,輸出具體脈象類型。再者,為了解Borderline SMOTE 算法用在平衡數(shù)據(jù)集中的作用進(jìn)行了實(shí)驗(yàn)驗(yàn)證,結(jié)果證明該算法對于平衡數(shù)據(jù)集并沒有實(shí)際意義,更多的是用來解決數(shù)據(jù)類別不平衡問題。該模型由4 種機(jī)器學(xué)習(xí)算法,共8 個模型融合而成,可以達(dá)到較好的分類效果。此外,構(gòu)建實(shí)驗(yàn)對比了當(dāng)今熱門的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如注意力+Resnet+LSTM、ConvNeXt 等,實(shí)驗(yàn)結(jié)果顯示本文所設(shè)計(jì)方法在各項(xiàng)評價指標(biāo)上仍有較大優(yōu)勢。
針對現(xiàn)存眾多文章脈象信號特征提取繁雜,往往需要用到小波變換去噪、基于能量比的自適應(yīng)級聯(lián)濾波器去漂移、希爾伯特-黃變換提取時-頻特征等方法,忽略了操作的復(fù)雜性和臨床醫(yī)學(xué)所需的實(shí)用性。此外,脈象信號數(shù)據(jù)不平衡問題一直是影響準(zhǔn)確度的重要因素。本文在特征提取領(lǐng)域選擇對去噪后的數(shù)據(jù)直接采用tsfresh 庫構(gòu)造特征向量的方法,避免復(fù)雜的特征提取流程,隨后加入選出的9 列醫(yī)學(xué)輔助特征提升準(zhǔn)確度。通過特征篩選得出重要性前21列特征向量,在簡化數(shù)據(jù)集的同時盡量保留更多的細(xì)節(jié)特征。使用Borderline SMOTE 算法運(yùn)用在訓(xùn)練集上,改善數(shù)據(jù)不平衡對分類準(zhǔn)確度的影響。最后所提出的加權(quán)軟投票融合模型,相比現(xiàn)存研究,在一定程度上緩解了單一模型的性能上限低和過擬合風(fēng)險高的問題,可以獲得更高的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,所提出的脈象分類方法是有效的,為脈象信號的分析與識別研究開辟了新的視角和方法。在后續(xù)工作中,將進(jìn)一步研究更具臨床實(shí)用性的脈象信號分析方法,提高脈象信號的識別率。