范秀琴,喻洪流,李素姣
1. 上海理工大學 康復工程與技術研究所(上海, 200093)
2. 上海康復器械工程技術研究中心(上海, 200093)
3. 民政部神經(jīng)功能信息與康復工程重點實驗室(上海, 200093)
表面肌電圖(surface electromyograms, sEMG)是通過放置在人體皮膚的表面電極采集骨骼肌的電活動從而反映肌肉活動信息。該信號在康復輔具領域(如:智能假肢和主動外骨骼)已經(jīng)得到了廣泛的應用[1-2]。當人產生運動意圖時,相應的神經(jīng)細胞被激活,同時刺激肌肉細胞產生電活動,使得骨骼肌收縮以產生相應的運動。sEMG可以記錄此時肌肉活動的電運動,因此sEMG攜帶著人腦發(fā)出的命令信息,是人運動意圖的直接表現(xiàn)[3]。傳統(tǒng)的機器學習主要側重于利用特征工程增加信號中包含信息的密度。為提高手勢識別的準確率,越來越多的生理信號分析和處理開始使用深度學習的方法。深度學習能夠有效地處理高維特征向量,不需要使用主成分分析等方法進行降維,可以在大型數(shù)據(jù)集上顯示出更高的效率。不僅如此,魯棒性、功能性和穩(wěn)定性是分類器設計的最終目標,作為傳統(tǒng)的常規(guī)算法和機器學習方法的改進技術,深度學習技術在這三個方面的表現(xiàn)也是優(yōu)異的[4]。
深度學習中,應用最廣泛的是卷積神經(jīng)網(wǎng)絡(convolution neural, network CNN)。利用它擅長層次或空間數(shù)據(jù)提取的特性,在sEMG模式識別領域CNN也被大量應用。然而,sEMG本質上是一種序列信號,使用CNN建模無法利用sEMG中的時間信息。針對CNN的不足,我們提出了一種新型的雙向長短期記憶(bidirectional long short term memory, biLSTM)神經(jīng)網(wǎng)絡架構用于實現(xiàn)基于sEMG的手勢識別,該模型不僅可以利用之前的序列信息預測當下時刻的狀態(tài),同時可以利用之后的信息預測當下時刻的狀態(tài),能夠完全利用序列之間的聯(lián)系進行建模。結果表明,該模型能夠有效地提取sEMG中的時間信息,實現(xiàn)良好的分類。
現(xiàn)階段也有大量的研究探索了深度學習在手勢識別中的有效性。2016年Park 和 Lee建立了一個CNN網(wǎng)絡,包含四個卷積層、四個子采樣層和兩個完全連接的層,并將引入自適應方法,以學習更好的特征進行受試者間評估[5]。 Atzori等[6]提出了一種基于LeNet的架構,并從包含空間和時間信息的sEMG圖像中提取高級特征,該方法成功應用于NinaPro數(shù)據(jù)庫中67名完整受試者和11名經(jīng)橈動脈截肢者的49個手部運動得數(shù)據(jù)。Geng等[7]首次使用高密度電極陣列獲取sEMG數(shù)據(jù),并提供了一種新穎的CNN模型。該模型使用了瞬時sEMG圖像,即從sEMG網(wǎng)格的瞬時值生成的圖像中提取空間信息,同時改進了dropout和批處理規(guī)范化技術,后處理使用多數(shù)投票,實現(xiàn)了很好的分類性能。Ding等[8]在使用二維卷積進行所有通道信號的分析之前,首先使用一維卷積獨立地處理每個通道中的sEMG信號,從而避免早期信號融合可能引起的錯誤。該體系結構對NinaPro數(shù)據(jù)集中18個手勢的平均準確度為78.86%。
由于,sEMG本質上是一種序列信號,RNN更合適于序列信息的建模。文獻[9]首次研究了門控循環(huán)單元(Gating Cycle Unit GRU)在手勢識別中的性能。該系統(tǒng)利用從表面肌電傳感器中提取的原始表面肌電信號來識別六種手勢,并能適應新的實驗對象。文獻[10]提出了一種新的預測手勢的RNN模型,該模型能夠在手勢運動開始后的每個采樣時間步輸出一個瞬時預測值。基于此,本研究采用兩級BiLSTM模型架構,先從sEMG不同的特征向量中提取深層特征,而后進行融合并實現(xiàn)手勢識別。
sEMG代表了肌肉活動的水平,當手的運動從一個手勢切換到另一種手勢時,肌肉會經(jīng)歷從活動狀態(tài)切換為放松狀態(tài),此時相應的肌肉會放松,sEMG的幅值會非常低,而后sEMG的幅值瞬間提高,肌肉再切換為活動狀態(tài)。該研究使用一種基于峰值檢測和短時能量結合的方法檢測肌肉活動的時間區(qū)域??紤]到表面肌電傳感器的每個通道對不同手勢的敏感程度不同,因此對所有通道進行平均操作以實現(xiàn)更高的可靠性。該方法是指將肌電信號用極小的時間間隔劃分,在每個時間間隔中檢測sEMG的峰值,并連成一條曲線。而后使用峰值計算該時間間隔內的短時能量,為:
其中,t為時間,c為通道,N為通道的總數(shù),E為sEMG的幅值, Eavg為所有通道sEMG幅值的平均值,ω為時間窗的長度,EMA為sEMG的平均短時能量值。根據(jù)(1)式計算t時刻多通道sEMG的平均幅值,根據(jù)(2)式計算每個時間窗內sEMG的短時能量。使用起始閾值和終止閾值進行活動檢測。
肌電信號是一個瞬時非平穩(wěn)信號,不同時間的變化是不同的,瞬時樣本無法準確地反映肌肉活動的狀態(tài),所以需要對肌電數(shù)據(jù)進行加窗處理,本研究中,使用時長200 ms,增量50 ms的滑動窗進行處理。為了從所有窗的信號中提取出的信息具有最優(yōu)性能,同時計算成本最低,需要設計合理的特征值,我們選擇了肌電信號的五個時域特征:均方根(root mean square, RMS)、絕對平均值(absolute mean value, MAV)、波形長度(waveform length, WL)、零交叉(zero crossing, ZC)、斜率符號變化(slope sign change, SSC)。圖1為特征提取過程。
圖1 特征提取Fig.1 Feature extraction
RNN是一種針對序列數(shù)據(jù)的神經(jīng)網(wǎng)絡,由于該網(wǎng)絡中存在反饋回路,允許當前的輸入處理之前的輸出,從而為該網(wǎng)絡提供了時間狀態(tài),并在每個步驟中融入了較早輸入的影響,如圖2所示。常規(guī)的RNN存在梯度消失的問題,很難學習輸入序列數(shù)據(jù)中的長期時間依賴性,采用長短期記憶神經(jīng)網(wǎng)絡(long short term memory, LSTM)可以有效解決這一問題。
LSTM包含一組用于控制序列數(shù)據(jù)輸入的門,包括輸入門、輸出門、遺忘門。圖2代表一個LSTM單元,LSTM只能學習數(shù)據(jù)對之前的數(shù)據(jù)的依賴性,而BiLSTM可以通過雙向的計算,同時學習數(shù)據(jù)對之前的數(shù)據(jù)的依賴性和數(shù)據(jù)對之后數(shù)據(jù)的依賴性,極大地改善了LSTM。圖3所示是所提算法模型圖。
圖2 LSTM單元結構示意圖Fig.2 Schematic diagram of LSTM unit structure
圖3 LSTM單元結構示意圖Fig.3 Schematic diagram of LSTM unit structure
本研究使用BiLSTM對sEMG進行識別。在分解階段,將原始sEMG經(jīng)過特征提取得到的5個特征向量作為獨立的輸入,輸入到BiLSTM層,BiLSTM層中隱藏層的數(shù)量是特征向量長度的一半。該層后面連接全連接層,為防止過擬合兩個層之間添加了Dropout層,并使用整流線性單元作為激活函數(shù)。
融合階段首先將從5個特征向量單獨學習的結果進行融合,然后再次連接Dropout層和Dense層。在融合階段的最后使用G-way全連接層和一個softmax分類器對結果進行分類,其中G等于手勢的數(shù)量。所有全連接層中的激活函數(shù)均為Relu。
為保證有足夠的樣本數(shù)量來訓練每個類別,模型采用分層的10倍交叉驗證用于劃分數(shù)據(jù)集,同時,本方法也能夠防止隨機劃分導致的模型不平衡。為了更好地優(yōu)化模型,使用Adam優(yōu)化器來更新模型權重,并使用交叉熵損失函數(shù)減小模型誤差。初始學習率設置為0.001,并使用學習率降低機制。為保證網(wǎng)絡合適的收斂速度,權重衰減為0.001。為防止網(wǎng)絡的過擬合并增強網(wǎng)絡的魯棒性,使用L2正則化技術。
根據(jù)所用電極的數(shù)量分類,基于sEMG的手勢識別通常分為兩類:稀疏的多通道sEMG[11-13]和高密度sEMG[14-17]。稀疏的多通道sEMG通常用一至十幾個傳感器附著在皮膚表面采集肌肉的電信號?,F(xiàn)存的幾種公開的數(shù)據(jù)集使用最多的是NinaPro[13]。NinaPro數(shù)據(jù)庫的一個子數(shù)據(jù)集由10個電極的sEMG構成的,來自27個受試者的總共52個手勢,包括9個腕部動作,8個手勢,12個手指動作以及23個抓握和功能動作。信號采樣頻率是100 Hz。
高密度sEMG通常指傳感器數(shù)量大于100個,這些傳感器以二維密集矩陣形式排列,并且覆蓋皮膚的某個特定區(qū)域。這種分類的準確率受傳感器位置影響相對較小,但是需要數(shù)據(jù)處理能力強的硬件。這種分類的公開數(shù)據(jù)集比較少,具有代表性的是CapgMyo[18]。該數(shù)據(jù)庫中的sEMG信號是用纏繞在受試者右前臂的8×16電極網(wǎng)絡記錄的,采樣率是1 000 Hz。CapgMyo數(shù)據(jù)庫分為三個子數(shù)據(jù)庫,分別表示為DB-a,DB-b和DB-c。DB-a中的數(shù)據(jù)來源于從23位受試者中的18位獲得的8個手勢。實驗過程中,每個手勢保持3~10 s,并重復10次。DB-a中的手勢對應于NinaPro數(shù)據(jù)庫中的13~20號。DB-b包含與DB-a中相同的手勢集,但是從23位受試者中的10位獲得的。DB-b中每個手勢在不同的日期進行了兩次測量,測量間隔大于一個星期。在這兩次中陣列的電極覆蓋的手臂位置會稍微不同。DB-c記錄的數(shù)據(jù)來源于從23位受試者中的10位獲得的12種手指基本運動。DB-c中的手勢對應于NinaPro數(shù)據(jù)庫中的1~12號。DB-b和DB-c中的每個手勢保持大約3s,重復10次。表1是數(shù)據(jù)庫CapgMyo DB-b中8種手勢。
表1 數(shù)據(jù)庫CapgMyo DB-b中8種手勢Tab. 1 Eight gestures in CapgMyo DB-b database
本研究中使用的數(shù)據(jù)來源于NinaPro DB1和CapgMyo DB-a兩個sEMG基準數(shù)據(jù)庫。表2中顯示了數(shù)據(jù)庫的有關信息。
表2 兩個sEMG基準數(shù)據(jù)庫的詳細信息Tab. 2 Details of the two sEMG benchmark databases
在該研究中,遵循相同的活動檢測、預處理和手勢識別的實驗過程。對于CapgMyo DB-a,有兩個數(shù)據(jù)集,原始數(shù)據(jù)集和預處理數(shù)據(jù)。出于本研究的目的,我們使用的是原始數(shù)據(jù)集。對于NinaPro DB1,我們選擇了和CapgMyo DB-a相同的8個手勢的數(shù)據(jù)。應用該研究所提出的模型分別對兩個數(shù)據(jù)集進行處理。
CapgMyo DB-a的分類準確率為99.2%,NinaPro DB1的分類準確率為88.5%。結果表明,我們提出的算法架構是完全可行的
在這項工作中,我們提出了一種新型的BiLSTM架構,用于基于sEMG的手勢識別,并分別在高密度sEMG數(shù)據(jù)庫和稀疏sEMG數(shù)據(jù)庫進行了驗證。本算法充分利用了肌電信號序列中不同時間段信息之間的序列相關性來處理一系列的輸入,在兩個數(shù)據(jù)庫中均獲得了較高的預測性能。
對比數(shù)據(jù)庫上的驗證結果顯示,ATZORI使用一種結構簡單的CNN網(wǎng)絡,在NinaProDB1數(shù)據(jù)庫上實現(xiàn)了90%的準確率[6]。Geng使用一種用于瞬時sEMG圖像的CNN架構,在CapgMyo DB-a和NinaProDB1分別實現(xiàn)了89.3%和78.9%的準確率[7]。Wei采用一種基于sEMG的兩階段多流CNN方法,在CapgMyo DB-a和NinaProDB1上分別實現(xiàn)了99.1%和85.0%的準確率[17],Ketykó采用一種基于域適應的兩階段RNN架構,在CapgMyo DB-a和NinaProDB1上分別實現(xiàn)了97.1%和90.7%的準確率[18]。本研究分別實現(xiàn)了99.2%和88.5%的準確率,這說明所提出的模型完全能應用于sEMG的處理,且在高密度sEMG上表現(xiàn)良好,在稀疏的多通道sEMG上表現(xiàn)相對有所不足。
本文提出的兩級BiLSTM模型架構,首先將不同的特征向量單獨的輸入到BiLSTM層挖掘其深層的序列信息,而后將單獨學習的結果進行融合并通過softmax分類器進行分類。本研究沒有直接將所有特征向量組成特征矩陣進行學習,而是利用不同特征在學習中占用的權重進行拼接。通過在CapgMyo DB-a和NinaPro DB1兩個基準數(shù)據(jù)庫上的實驗驗證,本研究的模型與現(xiàn)有文獻中的模型相比,在高密度sEME中能夠有效提高識別準確率,在稀疏的多通道sEMG中性能有所不足。下一步進一步將融入其他結構改善所提模型。