高 鈺,李 彬,房毅憲
齊魯工業(yè)大學(xué)(山東省科學(xué)院) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,濟(jì)南 250353
隨著社會(huì)的進(jìn)步與發(fā)展,大眾對(duì)智慧醫(yī)療服務(wù)需求的提升使傳統(tǒng)的醫(yī)療服務(wù)體系已經(jīng)無(wú)法滿(mǎn)足人民對(duì)醫(yī)療保健的迫切需要,結(jié)合大數(shù)據(jù)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等的智能醫(yī)療為此開(kāi)辟了新的路徑。心電圖信號(hào)識(shí)別問(wèn)題是醫(yī)學(xué)診斷與人工智能相結(jié)合的一個(gè)熱點(diǎn)問(wèn)題。ECG可以及早的檢測(cè)出心律不齊、早搏以及急性心肌梗死等多種心臟疾病,是心血管疾病診斷的重要依據(jù)。心電圖信號(hào)包含心臟病變的基本信息,特征是五個(gè)被稱(chēng)為基準(zhǔn)點(diǎn)的峰值,以字母P、Q、R、S和T表示,如圖1所示。QRS波是左右心室的去極化,用作信號(hào)分析的參考點(diǎn)。P波是心房去極化的結(jié)果,而心室引起其余的波峰。信號(hào)的篩查、診斷和檢測(cè)依賴(lài)于波的形態(tài),以及每個(gè)峰值的持續(xù)時(shí)間和組成它的片段。例如,當(dāng)QRS波變大變寬時(shí),可能發(fā)生室性早搏。
圖1 心電信號(hào)特征波段
深度學(xué)習(xí)和醫(yī)學(xué)的結(jié)合,已經(jīng)成為智能醫(yī)療領(lǐng)域的重要研究課題和新的發(fā)展趨勢(shì)。目前除了QRS波定位檢測(cè)算法已經(jīng)足夠成熟可靠外,其它波段的定位算法可靠性都不高。如果不能對(duì)這些波段進(jìn)行精準(zhǔn)定位,那將在很大程度上影響分類(lèi)器精度?,F(xiàn)在大多數(shù)采用傳統(tǒng)機(jī)器學(xué)習(xí)框架的論文都采用了這樣一種方法:使用一些數(shù)學(xué)變換處理ECG信號(hào),得到較少的系數(shù),用這些系數(shù)來(lái)表征心拍,從而實(shí)現(xiàn)對(duì)異常信號(hào)的檢測(cè)。王莉莎等[1]基于小波張量化與Tucker分解的ECG分類(lèi)算法:將心電信號(hào)分幀后進(jìn)行小波分解;張宇微等[2]采用了隨機(jī)森林、K-近鄰和C4.5三種傳統(tǒng)機(jī)器學(xué)習(xí)算法和卷積神經(jīng)網(wǎng)絡(luò)算法在MIT-BIH心律不齊數(shù)據(jù)庫(kù)上進(jìn)行了驗(yàn)證分析;孫夢(mèng)莉等[3]使用基于深度卷積網(wǎng)絡(luò)結(jié)合遷移學(xué)習(xí)的分類(lèi)判別算法,在小數(shù)據(jù)樣本中獲得了較好分類(lèi)性能;瞿文鳳等[4]將深度學(xué)習(xí)技術(shù)應(yīng)用于心電信號(hào)的分類(lèi)識(shí)別研究,提出基于DBN和CNN的心電信號(hào)分類(lèi)方法;Hasan等[5]利用經(jīng)驗(yàn)?zāi)J椒纸鈱?duì)ECG信號(hào)分解去噪,并使用一維卷積網(wǎng)絡(luò)對(duì)ECG信號(hào)特征進(jìn)行提取和分類(lèi)。上述方法也存在幾個(gè)主要不足:首先是僅使用深度學(xué)習(xí)模型,不能充分利用ECG信號(hào)特征的多樣性;其次是對(duì)心拍的分類(lèi)需要將ECG信號(hào)的心拍進(jìn)行分割[6],耗時(shí)長(zhǎng),效率低;最后是難以做到數(shù)據(jù)擴(kuò)充以提高精度,易受噪音干擾。針對(duì)以上問(wèn)題,本文提出一種基于語(yǔ)義對(duì)稱(chēng)分解哈希的快速ECG信號(hào)檢測(cè)模型。
哈希得益于逐位XOR操作,具有占用內(nèi)部存儲(chǔ)小、速度快、準(zhǔn)確率高等特點(diǎn),被廣泛地應(yīng)用于機(jī)器視覺(jué)當(dāng)中?;诠5臋z索方法旨在將具有高維特征、高存儲(chǔ)量的數(shù)據(jù)通過(guò)哈希編碼來(lái)表示,這既降低了存儲(chǔ)空間又提高了檢索的效率。基于監(jiān)督信息的哈希學(xué)習(xí)因利用監(jiān)督信息來(lái)進(jìn)行哈希學(xué)習(xí),往往具有更高的檢索精度,監(jiān)督離散哈希的目標(biāo)在于利用哈希函數(shù)將哈希碼回歸到其相應(yīng)的標(biāo)簽上來(lái)生成哈希編碼庫(kù),從而實(shí)現(xiàn)快速的檢索目的[7]。
雖然哈希計(jì)算簡(jiǎn)單,特別適合大規(guī)模數(shù)據(jù)檢索,但是由于其二值的離散約束,常常遭遇混合整數(shù)優(yōu)化難題。針對(duì)該問(wèn)題,很多文獻(xiàn)將哈希的離散約束松弛為連續(xù)變量,但是這會(huì)造成量化損失。部分離散的哈希方法[8]通過(guò)交替優(yōu)化和離散循環(huán)坐標(biāo)下降方法有效地解決了該難題,但是需要一碼一碼的學(xué)習(xí)哈希編碼,非常費(fèi)時(shí),效率很低。為此,我們提出一種快速的語(yǔ)義對(duì)稱(chēng)分解哈希算法(SSDH),利用ECG標(biāo)簽,生成語(yǔ)義相似矩陣,再借助于Hadamard矩陣對(duì)已有的標(biāo)簽進(jìn)行重排,無(wú)需任何的迭代和參數(shù)調(diào)節(jié)就能快速生成哈希編碼庫(kù)。最后設(shè)計(jì)相應(yīng)的哈希函數(shù),即可快速的實(shí)現(xiàn)ECG信號(hào)檢測(cè),具體的流程框圖如圖2所示。
圖2 快速的SSDH算法流程框
(1)
然后對(duì)語(yǔ)義相似S進(jìn)行離散的哈希分解,直接生成哈希庫(kù)B=[b1,b2,…,bn]T∈{-1,1}n×k,其中k表示預(yù)設(shè)的哈希編碼長(zhǎng)度,矩陣的每一行代表每個(gè)ECG信號(hào)的哈希編碼。具體目標(biāo)可以描述為:
s.t.BTB=nIk,B∈{-1,1}n×k.
(2)
其中,‖‖F(xiàn)表示矩陣Frobenius范數(shù),正交約束的目的是使得每一碼的哈希特征盡可能無(wú)關(guān)。
由于B的二值離散約束,上述目標(biāo)轉(zhuǎn)化為對(duì)稱(chēng)離散哈希分解問(wèn)題[9],其優(yōu)化是個(gè)NP難題。為此,本文借助Hadamard矩陣和已有的標(biāo)簽y直接生成離散哈希編碼數(shù)據(jù)庫(kù)B,無(wú)需任何的迭代過(guò)程,也無(wú)需調(diào)試任何的參數(shù)。
然后將原始ECG樣本進(jìn)行核化處理,將其映射至再生核希爾伯特空間,從而提升模型的非線(xiàn)性能力,本文采用高斯核函數(shù)對(duì)樣本進(jìn)行非線(xiàn)性核化處理:
(3)
其中[a1,…,ap]表示從m個(gè)原始樣本中隨機(jī)選取的p(p 具體算法流程為: 1)輸入ECG信號(hào)標(biāo)簽y=(y1,…,yn)T∈Nn; 2)預(yù)設(shè)哈希碼長(zhǎng)度為k; 3)根據(jù)公式(1)生成語(yǔ)義相似圖S; 4)根據(jù)公式(3)非線(xiàn)性核化處理ECG信號(hào); 5)隨機(jī)生成矩陣H=Hadamard(k); 6)利用信號(hào)標(biāo)簽y排列Hadamard矩陣H; 7)生成哈希編碼庫(kù)B = H(y,:)。 生成哈希庫(kù)之后,我們還需要設(shè)計(jì)一個(gè)哈希函數(shù)f建立原始心電信號(hào)數(shù)據(jù)的再生核希爾伯特空間K={φ(X)|φ(X)∈Rn×p}與潛在的海明空間H={B|B∈Rn×k}的映射關(guān)系,也為樣本外數(shù)據(jù)提供可用的哈希函數(shù)。常用的哈希函數(shù)一般可以分為三類(lèi):線(xiàn)性哈希函數(shù)、非線(xiàn)性哈希函數(shù)和深度哈希函數(shù)。限于篇幅原因,本文只采用前兩種哈希函數(shù)。 1)線(xiàn)性哈希函數(shù):假設(shè)P∈Rp×k為一個(gè)線(xiàn)嵌入,則線(xiàn)性分類(lèi)器可以通過(guò)最小化下列損失構(gòu)建: (4) 其中λ>0是防止過(guò)學(xué)習(xí)的正則化參數(shù)。利用最小二乘,公式4的封閉解可表示為: P=([φ(X)]Tφ(X)+λI)-1[φ(X)]TB (5) 對(duì)于任何一個(gè)查詢(xún)樣本xq,其哈希編碼可以由h(xq)=sign(PTφ(xq))生成。 2)非線(xiàn)性哈希函數(shù):本文采用邏輯回歸(logistic regression)函數(shù)作為非線(xiàn)性分類(lèi)器,采用一碼一碼的學(xué)習(xí)策略,也就是學(xué)習(xí)k個(gè)分類(lèi)器,一個(gè)分類(lèi)器對(duì)應(yīng)一碼,從而生成查詢(xún)樣本xq哈希編碼。針對(duì)第J個(gè)編碼J=W*j,可以通過(guò)最小化下列損失得到: (6) 其中γ是防止過(guò)學(xué)習(xí)正則化參數(shù)。樣本外數(shù)據(jù)xq利用哈希函數(shù)h(xq)=sign(WTφ(xq))即可生成哈希編碼。 為驗(yàn)證算法的有效性,本文在國(guó)際公共心律失常數(shù)據(jù)集MIT-BIH上進(jìn)行實(shí)驗(yàn)測(cè)試[10]。MIT-BIH數(shù)據(jù)集中主要包含四類(lèi)心電圖信號(hào),N(正常博動(dòng)信號(hào)),L(左束支傳導(dǎo)阻滯),R(右束支傳導(dǎo)阻滯)和V(室性早搏)。之前的ECG檢測(cè)方法大都按照信號(hào)的采集和預(yù)處理、ECG信號(hào)的波形分析與多域特征提取、模型訓(xùn)練與預(yù)測(cè)等步驟[11]進(jìn)行,比如基于前饋神經(jīng)網(wǎng)絡(luò)(feedforward neural network,FNN)的ECG檢測(cè)方法[12],基于支持向量機(jī)(support vector machines,SVM)SVM的檢測(cè)算法[13]或基于K最近鄰(K-nearest neighbor,KNN)的ECG檢測(cè)方法,但這些方法能檢測(cè)分類(lèi)的心電圖類(lèi)型有限并且在實(shí)際應(yīng)用中檢測(cè)性能相對(duì)較低。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)相較于前述方法,性能上有很大的提高[14]。 本文在MIT-BIH數(shù)據(jù)集中隨機(jī)選取8 000個(gè)樣本用于訓(xùn)練,2 000個(gè)樣本進(jìn)行測(cè)試,兩類(lèi)哈希函數(shù)的正則化參數(shù)統(tǒng)一設(shè)置為0.1。一般的,哈希編碼越長(zhǎng),準(zhǔn)確率越高,為了公平起見(jiàn),將哈希編碼長(zhǎng)度k確定為16。本文CNN算法和SSDH算法對(duì)上述N、L、R、V四類(lèi)心電圖信號(hào)識(shí)別準(zhǔn)確率結(jié)果如表1所示。 表1 CNN與SSDH算法的準(zhǔn)確率比較 % 實(shí)驗(yàn)結(jié)果表明,SSDH算法識(shí)別的準(zhǔn)確率達(dá)到了99.85%,訓(xùn)練時(shí)間僅僅需要2 s,相比于深度CNN測(cè)試結(jié)果的99.07%提高了接近0.8%,訓(xùn)練耗時(shí)也遠(yuǎn)低于7層CNN算法的2 min訓(xùn)練時(shí)長(zhǎng)。 圖3給出算法在哈希碼長(zhǎng)為16 bits時(shí)的準(zhǔn)確率和召回率曲線(xiàn)圖;圖4給出當(dāng)訓(xùn)練集上哈希碼長(zhǎng)為16時(shí),ECG哈希表示與哈希編碼庫(kù)的相似程度;圖5給出測(cè)試集上原始信號(hào)和提取的哈希表示的概率分布情況。簡(jiǎn)言之,SSDH算法在精度、查全率和計(jì)算時(shí)間方面優(yōu)于傳統(tǒng)方法。 圖4 ECG哈希表示與哈希編碼庫(kù)的相似對(duì)比 圖5 ECG哈希表示與原始信號(hào)的概率分布對(duì)比 本文創(chuàng)新性地提出一種高效離散語(yǔ)義對(duì)稱(chēng)分解哈希算法,快速實(shí)施ECG信號(hào)的檢測(cè)并且提高檢索的正確率。把任意長(zhǎng)度的ECG數(shù)據(jù)輸入通過(guò)哈希算法緊致的二進(jìn)制哈希表示,在海明空間內(nèi)實(shí)現(xiàn)信號(hào)的檢測(cè)與識(shí)別,既可以降低存儲(chǔ)空間又可以提升檢測(cè)的平均精度和最高精度。亮點(diǎn)在于該離散哈希算法不需要交替優(yōu)化算法,不需要迭代,不依賴(lài)于初始值。 經(jīng)過(guò)多年的發(fā)展,心電圖技術(shù)雖臨床應(yīng)用普遍,但由于心電信號(hào)本身的復(fù)雜性和變異性,傳統(tǒng)心電圖分析技術(shù)存在一定局限性,無(wú)法做到自動(dòng)、快速、準(zhǔn)確地分析,必須依靠專(zhuān)業(yè)醫(yī)生進(jìn)行分析解讀,而大部分醫(yī)療機(jī)構(gòu),特別是基層醫(yī)院,專(zhuān)業(yè)心電圖醫(yī)師資源匱乏,使得心電圖檢查疾病的應(yīng)用效果受到局限,大量基層心血管疾病患者無(wú)法獲得及時(shí)、準(zhǔn)確的診斷和防控治療。近些年來(lái),以CT、MRI以及PET為代表的醫(yī)學(xué)影像技術(shù)飛速發(fā)展,醫(yī)學(xué)影像已成為臨床精確診療的必需手段。隨著人工智能的逐漸普及,心電自動(dòng)診斷的重要性亦逐漸凸顯[15]。心電自動(dòng)診斷不但可以提供輔助診斷信息,也可以24 h實(shí)時(shí)監(jiān)控,這對(duì)于移動(dòng)醫(yī)療、遠(yuǎn)程診斷都大有裨益。 本文主要利用語(yǔ)義對(duì)稱(chēng)分解哈希的方法提高ECG檢索的正確率和速度,適用于智能醫(yī)療領(lǐng)域中通過(guò)高效準(zhǔn)確的ECG信息檢測(cè)來(lái)預(yù)測(cè)、識(shí)別和精確診療心血管異?,F(xiàn)象的情況,預(yù)計(jì)該技術(shù)將在如下領(lǐng)域得到廣泛應(yīng)用: 1) 大量基層醫(yī)院、個(gè)體診所、養(yǎng)老機(jī)構(gòu)等缺乏專(zhuān)業(yè)的心電醫(yī)生,此產(chǎn)品的應(yīng)用將實(shí)現(xiàn)患者在這些機(jī)構(gòu)的屬地化、快速化心電分析診斷。 2) 減輕大型醫(yī)院專(zhuān)業(yè)心電醫(yī)生的工作量。既提高工作效率,又提升診斷水平。 3) 心電監(jiān)測(cè)進(jìn)入家庭,使得患者在家中像監(jiān)測(cè)血壓、血糖一樣方便快捷地進(jìn)行靜態(tài)和動(dòng)態(tài)的心電監(jiān)控。 4) 將可穿戴設(shè)備的心電分析和診斷水平提升至專(zhuān)業(yè)醫(yī)生水平,強(qiáng)化穿戴設(shè)備(手表、手環(huán)等)的功能。 本文提出了一種基于語(yǔ)義對(duì)稱(chēng)分解哈希(SSDH)的監(jiān)督學(xué)習(xí)方法,根據(jù)ECG各個(gè)波段具有的不同特點(diǎn),來(lái)實(shí)施ECG檢索與信號(hào)匹配。SSDH算法對(duì)數(shù)據(jù)標(biāo)簽生成的語(yǔ)義相似進(jìn)行離散對(duì)稱(chēng)哈希分解,從而生成哈希編碼庫(kù),最后學(xué)習(xí)哈希函數(shù)建立海明空間與原始數(shù)據(jù)核化空間的映射關(guān)系。針對(duì)離散優(yōu)化需要通過(guò)交替優(yōu)化或離散循環(huán)坐標(biāo)下降等方法實(shí)施混合整數(shù)規(guī)劃問(wèn)題,SSDH算法借助語(yǔ)義標(biāo)簽排列Hadamard矩陣,無(wú)需迭代和任何參數(shù)的調(diào)試即可快速地生成哈希編碼庫(kù)。在已有的國(guó)際公共數(shù)據(jù)集MIT-BIH上進(jìn)行程序設(shè)計(jì)及仿真測(cè)試,結(jié)果表明SSDH算法在極少的訓(xùn)練時(shí)間下即可完成對(duì)大量ECG信號(hào)進(jìn)行快速分類(lèi)的任務(wù),識(shí)別精度也超過(guò)CNN深度模型。2.3 算法有效性驗(yàn)證
2.4 算法創(chuàng)新點(diǎn)
3 技術(shù)應(yīng)用
4 結(jié) 論