国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于高密度肌電的對稱位置發(fā)音肌肉對語音識別貢獻的研究

2020-02-10 01:44王小晨朱明星楊子健黃劍平陳世雄李光林
集成技術(shù) 2020年1期
關(guān)鍵詞:肌電電信號發(fā)音

王小晨 朱明星 楊子健 汪 鑫 黃劍平 陳世雄 李光林

1(中國科學(xué)院深圳先進技術(shù)研究院 深圳 518055)

2(中國科學(xué)院大學(xué)深圳先進技術(shù)學(xué)院 深圳 518055)

1 引 言

說話是人類特有的表達情感、傳遞信息、參與社會活動的交流方式[1],是人類正常生活中最重要的技能之一。無論是在生活還是在工作中,都不可避免地需要通過說話與他人交流。說話是一個非常復(fù)雜的面頸部多塊肌肉在中樞神經(jīng)系統(tǒng)的控制下協(xié)同收縮運動的過程,這伴隨著肌肉電信號的產(chǎn)生[2-3]。發(fā)不同的音時,發(fā)音肌肉的收縮模式、收縮力量和協(xié)同方式是不同的,對應(yīng)的肌肉電信號特征也會不同[4]。表面肌電圖法(Surface Electromyography,sEMG)是目前采集肌電信號的常用方法,能通過無創(chuàng)、簡單、穩(wěn)定的操作,檢測到可靠的肌肉電生理信息[5],因此被廣泛用于肌電語音識別研究。

早在 1985 年,第一個使用肌電信號進行語音識別的研究就在 Sugie 和 Tsunoda[6]的實驗室展開,他們采集口腔附近的肌電信號對 5 種日語元音字母進行分類。1989 年,Morse 等[7]提取sEMG 信號幅值、方差等特征值分類 10 個英文單詞,分類精度達到了 60%。2018 年,Srisuwan等[8]在受試者的面頸部共 6 個位置貼上肌電電極,以評估 14 個特征評估標(biāo)準(zhǔn)及 4 種分類器對單個泰語單詞進行分類時的性能,并找到一種接近最佳的標(biāo)準(zhǔn)和分類算法。Janke 等[9]對從受試者發(fā)音時面頸部 6 個位置采集到的肌電數(shù)據(jù)進行研究,捕捉到從發(fā)音肌肉運動時產(chǎn)生的 sEMG 信號到語音波形的映射。Jong 和 Phukpattaranont[10]招募 7 名健康受試者和 5 名構(gòu)音障礙受試者開發(fā)了一個語音識別系統(tǒng)。該系統(tǒng)使用從 12 名受試者臉部和頸部共 5 個通道里記錄的 sEMG 信號對 9 個泰國音節(jié)進行分類。Diener 等[11]使用sEMG 技術(shù)在語音識別方面做了大量工作,提出了使用深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)從表面肌電信號到目標(biāo)聲學(xué)語音輸出的映射。

上述研究中,設(shè)置的電極數(shù)量均較少,且選取的電極位置都不同,分類結(jié)果也有顯著差異。由于發(fā)音過程涉及到的肌肉多達 30 余塊[12],使用肌電信號進行語音分類時,電極的位置和數(shù)量會對分類準(zhǔn)確性產(chǎn)生重要影響[13]。而目前基于sEMG 的語音識別方法選取電極位置及數(shù)量時沒有一個客觀的指標(biāo),也不清楚與發(fā)音相關(guān)的面頸部左右兩側(cè)對稱位置電極對肌電語音識別的貢獻是否存在冗余[14-15]。

為解決后一個問題,本文提出使用幾乎覆蓋全部發(fā)音肌肉的高密度肌電電極,探究面、頸部左右兩側(cè)對稱位置電極對肌電語音識別的貢獻。首先,使用關(guān)于面中部、頸中部對稱的共 120 通道電極采集 8 名發(fā)音正常的受試者的表面肌電信號。其中,發(fā)音測試為 5 個中文單詞和 5 個英文單詞。然后,對信號預(yù)處理后分組提取 4 種時域特征輸入支持向量機(Support Vector Machine,SVM)分類器,進行語音分類。最后,對分類結(jié)果進行分析,比較面、頸部對稱位置肌電信號在語音識別時的貢獻程度。

2 實驗方法

2.1 信號采集方法

本研究共招募 8 名健康受試者(sub1~8),其中 6 名男生、2 名女生,年齡為 22~26 歲(平均年齡為 24 歲)。所有受試者均未患有可能影響實驗結(jié)果的說話和吞咽問題。實驗開始前,受試者均閱讀知情同意書并簽字,且允許出于科學(xué)目的公開發(fā)表他們的照片和數(shù)據(jù)。

本實驗使用荷蘭 TMS 公司研發(fā)的高密度肌電采集系統(tǒng)(REFA 128-model system),以 2 048 Hz采樣率采集面、頸部共 120 通道高密度肌電信號。其中,電極對稱放置于受試者面、頸部,分為面部左側(cè)(20 個通道)、面部右側(cè)(20 個通道)、頸部左側(cè)(40 個通道)、頸部右側(cè)(40 個通道)4 個區(qū)域,如圖 1(a)所示。通道以面、頸部中間位置為對稱軸左右對稱放置,行、列編號如圖 1(b)所示。實驗前,使用酒精棉擦拭電極位置,清除皮膚表面的油脂和角質(zhì)。實驗在屏蔽房中進行,以保證測試過程相對安靜,受試者發(fā)音不被影響。整個實驗過程符合中國科學(xué)院深圳先進技術(shù)研究院人體實驗倫理道德規(guī)范(審批編號為 SIAT-IRB-170815-H0178)。

圖1 高密度表面肌電電極在面頸部左右兩側(cè)的分布Fig.1 Distribution of the high density sEMG electrodes on the left and right sides of the face/neck regions

2.2 實驗過程

實驗時,受試者調(diào)整舒服的姿勢坐在椅子上,保持 40 s 的靜息狀態(tài)(不說話、也不做任何身體運動),記錄下此時的肌電信號作為基線(P11)。隨后,受試者按照平時說話的音量及音調(diào)進行 10 組發(fā)音任務(wù),包含英文 5 組單詞:“Thanks”(P1)、“Yes”(P2)、“No”(P3)、“Hello”(P4)和“Goodbye”(P5),以及對應(yīng)著相同含義的中文 5 組日常短語:“謝謝”(P6)、“是的”(P7)、“不是”(P8)、“你好”(P9)和“再見”(P10),具體如表 1 所示。每組任務(wù)包括1 s 的發(fā)音過程和 3 s 的休息,兩過程交叉連貫,共重復(fù) 6 次,以采集整個過程的表面肌電信號。

表1 5組英文和 5組中文發(fā)音任務(wù)Table 1 Speaking tasks of five Chinese words and five English words

2.3 信號處理

由于采集到的原始肌電信號不夠干凈,即混雜著心電、運動偽跡、工頻等各種噪聲,故分析肌電特征前需對信號做預(yù)處理工作。首先,使用30~500 Hz 的巴特沃斯帶通濾波器濾除大量心電干擾和面部偽跡;然后,設(shè)置 50 Hz 及其倍數(shù)頻率的陷波濾波器去除工頻干擾,得到較為干凈的肌電信號(數(shù)據(jù)維度為:120×信號長度)。

使用長度為 250 ms 的分析窗口對濾波后的各通道信號計算均方根(Root Mean Square,RMS),再利用計算出的高密度表面肌電信號的最大和最小 RMS 值對所有通道的 RMS 值進行歸一化得到歸一化均方根(Normalized Root Mean Square,NRMS),并畫出左右對稱位置的 NRMS疊加圖。由于一段發(fā)音過程持續(xù)時間較短,保留的特征點不足,故首先根據(jù)肌電信號原始波形,確定每段發(fā)音過程的起始點與結(jié)束點,對濾波后的信號進行人工截取,得到 14 段發(fā)音活動的肌電信號;然后,將這些信號進行拼接,得到整段全為發(fā)音過程的肌電信號,處理過程如圖 2 所示;最后,提取零交叉(Zero Crossing,ZC)、斜率符號變化(Slope Sign Change,SSC)、波形長度(Waveform Length,WL)和平均絕對值(Mean Absolute Value,MAV)4 個特征[16],得到11×4×N維度的數(shù)據(jù)。其中,11 為類別數(shù);4 為特征數(shù);N為通道數(shù)。四種特征的定義如下:

(1)零交叉(ZC)是在時域中定義 EMG 信號頻率信息的度量,為單位時間窗口內(nèi)信號通過零幅值的次數(shù),其定義如公式(1)~(2)所示。

其中,xi為i點的 EMG 信號;N為 EMG 信號的長度。

(2)斜率符號變化(SSC)記錄了在單位時間窗內(nèi) EMG 信號斜率的改變次數(shù),其定義如公式(3)~(4)所示。

圖2 肌電信號處理過程Fig.2 sEMG signal processing

(3)波形長度(WL)是 EMG 波形在某個時間段上的累計長度積分,其定義如公式(5)所示。

(4)平均絕對值(MAV)是 EMG 信號分析中最常用的一種時域特征,表示一段 EMG 信號幅值絕對值的平均值,可反映肌電的強度,其定義如公式(6)所示。

將特征值輸入 SVM 分類器作分類,使用 5倍交叉驗證方法來減少生成訓(xùn)練和測試數(shù)據(jù)的可變性。其中,SVM 是一種二分類模型,有兩大主要優(yōu)勢:更高的速度、用更少的樣本(千以內(nèi))取得更好的表現(xiàn)[17]。這使得該算法非常適合本文分類問題。另外,使用統(tǒng)計方法比較面部和頸部肌肉左右兩側(cè)對稱陣列的分類精度。

3 實驗結(jié)果

3.1 發(fā)音時面、頸部左右兩側(cè)肌肉間的相關(guān)程度

圖3 展示了一名受試者說一次“Hello”時的面部(a)、頸部(b)左右對稱通道疊加的 NRMS波形。圖中藍線表示面部/頸部左側(cè)的 NRMS 波形,而紅線則表示面部/頸部右側(cè)的 NRMS 波形。從圖 3 可以看出,所有的 NRMS 波形均呈現(xiàn)相同的特點:隨著發(fā)音過程慢慢上升,達到峰值后開始下降直至靜息時的水平,面部整體峰值低于頸部。面部和頸部左側(cè)的 NRMS 波形與右側(cè)的波形以相似的速率變化。

圖3 面、頸部左右兩側(cè)高密度肌電信號的 NRMS 波形疊加圖Fig.3 Superposition of NRMS waveforms of high density sEMG recordings from the left and right sides of the facial and neck muscles

相關(guān)系數(shù)是用于反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計指標(biāo),能夠刻畫兩個變量之間的相關(guān)程度,P值可以描述相關(guān)程度計算結(jié)果的“顯著程度”[18]。分析面部、頸部左右兩側(cè)肌肉之間的相關(guān)性有助于理解發(fā)音過程中面、頸部對稱位置的運動模式相似程度。使用相關(guān)系數(shù)、P值計算公式對面部、頸部對稱通道的 NRMS 波形相似性進行統(tǒng)計,結(jié)果如表 2 和 3 所示。表中的序號下標(biāo)分別對應(yīng)圖 3 波形疊加圖的行、列編號,如 F11 表示圖 3(a)中 1 行 1 列??梢钥闯?,面部左、右兩側(cè)對稱通道 NRMS 波形的相關(guān)系數(shù)范圍為 0.395 5~0.929 5,平均值和標(biāo)準(zhǔn)偏差為0.714 9±0.165 3;頸部對稱通道 NRMS 波形的相關(guān)系數(shù)范圍為 0.464 2~0.988 5,平均值和標(biāo)準(zhǔn)偏差為 0.840 5±0.150 6。顯然,面部左右兩側(cè)的相關(guān)性比頸部低,但整體上存在相關(guān)性。同時,只有 F21、F31、F41、N12、N13 這 5 個靠近面、頸部邊緣對稱位置的 NRMS 波形間無顯著相關(guān),其余位置的 NRMS 波形間均顯著相關(guān)。

3.2 使用面部左右兩側(cè)對稱位置肌電信號的語音分類精度對比

表4 和 5 分別為使用一名受試者面部左右兩側(cè)對稱位置的肌電信號進行語音分類的結(jié)果。表中對角線上加粗的數(shù)據(jù)是正確分類的精度,而其余數(shù)值則是誤識別為其他發(fā)音任務(wù)的概率。

從表 4 可以看出,靜息狀態(tài)(P11)的分類精度最高,為 1;P1、P3 和 P4 的分類準(zhǔn)確率較高,均超過 0.9;而 P6 的分類準(zhǔn)確率最低,為0.647 9。面部左側(cè)的平均分類精度和標(biāo)準(zhǔn)偏差值為 0.823 8±0.106 6。從表 5 可以看出,使用面部右側(cè)肌電信號的分類精度僅在 P1、P3 和 P11 識別任務(wù)處高于 0.8;有 6 個識別任務(wù)的分類精度低于 0.7,最低為 0.664 5(P9);無聲模式的分類精度同樣為 1。面部右側(cè)的平均分類精度和標(biāo)準(zhǔn)偏差為 0.752 8±0.108 8。由此可見,面部右側(cè)的平均分類精度較左側(cè)低,左右兩側(cè)的偏差范圍均大于 0.1,波動非常大。比較表 4 和 5 也能看出,除了 P6 外,其余發(fā)音任務(wù)的分類精度都是面部左側(cè)較高。

表2 面部左右兩側(cè)對稱通道 NRMS 波形的相關(guān)系數(shù)Table 2 Correlation coefficients of NRMS waveforms on the left and right sides of the facialmuscles

表3 頸部左右兩側(cè)對稱通道 NRMS 波形的相關(guān)系數(shù)Table 3 Correlation coefficients of NRMS waveforms on the left and right sides of the neckmuscles

由于大部分受試者靜息狀態(tài)(P11)的分類精度幾乎都達到了 1,故將它排除在外后,再對所有受試者的其余 10 個發(fā)音任務(wù)的分類精度進行統(tǒng)計,結(jié)果如圖 4 所示。圖中柱狀圖的高度代表受試者的 10 個發(fā)音任務(wù)分類精度的平均值,上下的垂直誤差條表示標(biāo)準(zhǔn)偏差范圍。藍色柱狀圖表示受試者面部左側(cè) 20 個通道肌電信號;紅色柱狀圖表示受試者面部右側(cè) 20 個通道肌電信號。從圖 4 可以看出,使用面部左側(cè)肌電信號的平均分類精度中只有 sub6 超過 0.8;面部右側(cè)肌電信號的平均分類精度中 sub4、sub7 都高于0.8。sub7 的垂直誤差條的長度最短,標(biāo)準(zhǔn)偏差不超過 0.1;其余的受試者波動范圍都大于 0.1。此外,sub2、sub4、sub6、sub7、sub8 的左右平均分類精度高度差較大,均高于 0.5。使用t檢驗方法對面部兩側(cè)平均分類精度進行比較發(fā)現(xiàn),sub2、sub4、sub6、sub7、sub8 的左右兩側(cè)間均存在顯著性差異。

表4 使用面部左側(cè)肌電信號的 11 種語音分類精度Table 4 Classification accuracies of 11 speaking tasks using the left side of facial SEMG signals

表5 使用面部右側(cè)肌電信號的 11 種語音分類精度Table 5 Classification accuracies of 11 speaking tasks using the right side of facial SEMG signals

3.3 使用頸部左右兩側(cè)對稱位置肌電信號的語音分類精度對比

圖4 所有受試者使用面部左、右側(cè)不同通道組合的平均分類精度與標(biāo)準(zhǔn)偏差Fig.4 Average classification accuracy and standard deviation for all subjects using different channels of facial muscles

使用同一受試者頸部左、右兩側(cè)對稱位置的肌電信號進行語音分類的結(jié)果如表 6 和 7 所示。與面部相同,靜息狀態(tài)的分類精度同樣為 1,可見靜息狀態(tài)與發(fā)音時的肌電特征有著顯著區(qū)別。從表 6 可以看出,使用頸部左側(cè)肌電信號對 11 類發(fā)音任務(wù)進行分類時,所有的單詞分類精度都超過 0.8,且 P3、P4 的分類精度超過 0.9;頸部左側(cè)的平均分類精度和標(biāo)準(zhǔn)偏差值為 0.877 9±0.059 8。從表 7 可以看出,使用發(fā)音任務(wù) P6、P9 和 P10在頸部右側(cè)處的肌電信號的分類精度較低,小于0.8,而 P2、P4 的分類精度高于 0.9;頸部右側(cè)的平均分類精度和標(biāo)準(zhǔn)偏差為 0.858 7±0.071 9。

與面部相似,使用受試者頸部左右兩側(cè)對稱位置的高密度表面肌電信號的同一單詞的分類精度并不完全相同。在 P1、P3、P6、P7、P9 和P10 中,使用頸部左側(cè)通道信號的分類精度高于使用頸部右側(cè)通道的分類精度,其余單詞則相反。但頸部的分類精度整體高于面部,且頸部兩側(cè)分類精度的差異略小于面部。

表6 使用頸部左側(cè)肌電信號的 11 種語音分類精度Table 6 Classification accuracies of 11 speaking tasks using the left side of neck SEMG signals

表7 使用頸部右側(cè)肌電信號的 11 種語音分類精度Table 7 Classification accuracies of 11 speaking tasks using the right side of neck SEMG signals

對所有受試者頸部左、右兩側(cè)的肌電信號進行分類,得到的分類精度如圖 5 所示。從圖 5 可以看出,只有使用 sub8 頸部右側(cè)的表面肌電信號進行分類時,平均分類精度低于 0.8;sub4 的兩側(cè)、sub5 的左側(cè)以及 sub8 的右側(cè)標(biāo)準(zhǔn)偏差均略高于 0.1,且只有 sub8 左右平均分類精度高度差大于 0.5,差異比較明顯。

圖5 所有受試者使用頸部左、右側(cè)不同通道組合的平均分類精度與標(biāo)準(zhǔn)偏差Fig.5 Average classification accuracy and standard deviation for all subjects using different channels of neck muscles

比較圖 4 和 5 可以發(fā)現(xiàn),頸部的平均分類精度比面部高,且標(biāo)準(zhǔn)偏差更低、差異更小,分類效果更穩(wěn)定。使用t檢驗方法對頸部左右兩側(cè)平均分類精度進行比較發(fā)現(xiàn),只有 sub8 左右兩側(cè)間存在顯著性差異。

4 討 論

語音的產(chǎn)生是一個面部和頸部肌肉共同運動的過程,而肌肉活動產(chǎn)生肌電信號[19]。因此,分析肌電信號對了解語音產(chǎn)生過程中肌肉活動的詳細信息非常有幫助。前人已經(jīng)使用 sEMG 技術(shù)在語音識別方面做了大量工作,但實驗設(shè)置的電極數(shù)量較少,選取的電極位置依賴實驗操作者的經(jīng)驗,分類結(jié)果也具有顯著差異[6-11],最高的分類精度是 Jong 和 Phukpattaranont[10]在 2019 年的研究中對健康受試者的泰語識別,為 0.945。由于面頸部肌肉結(jié)構(gòu)復(fù)雜,少數(shù)幾個電極不能完整覆蓋發(fā)音肌電活動。為精準(zhǔn)量化電極數(shù)量、確定電極位置,本文利用高密度電極對發(fā)音相關(guān)的面、頸部左右兩側(cè)對稱位置肌電在語音識別中的貢獻進行了初步考察。

本研究使用關(guān)于面中部、頸中部對稱的共120 通道高密度表面肌電電極采集 8 名發(fā)音正常的受試者分別發(fā) 5 個中文單詞和 5 個英文單詞時的表面肌電信號。首先,對面部、頸部左右對稱位置的 NRMS 波形進行分析比較發(fā)現(xiàn),面部和頸部左右兩側(cè)的 NRMS 波形具有相同的變化特性,但面部的波形相關(guān)性比頸部低。這說明面頸部左右兩側(cè)肌肉發(fā)音的規(guī)律是相同的,但面部左右差異更大。這可能與頸部肌肉活動是被動的,而面部肌肉可以主觀控制有關(guān)。然后,將不同通道肌電信號按照分布區(qū)域分為 4 組,提取 ZC、SSC、WL 和 MAV 四種特征值,并將其輸入 SVM 分類器進行 11 種語音模式的分類。結(jié)果顯示,所有通道電極的平均分類精度均可達0.98,高于 Jong 和 Phukpattaranont[10]研究成果中最高的 0.945,表明高密度電極相較于少數(shù)憑經(jīng)驗放置的電極能提升分類精度。同時,使用同一受試者面部左右兩側(cè)通道(各 20 個)信號對相同單詞的分類精度存在明顯差異,而頸部兩側(cè)的差異則略小。所有受試者面部、頸部左右兩側(cè)不同通道組合的平均分類精度與標(biāo)準(zhǔn)偏差顯示,頸部左右兩側(cè)的分類精度差異相較于面部對稱位置是比較小的,表明頸部對稱位置肌肉電活動對語音識別的一致性更高。因此,使用頸部對稱位置的sEMG 信號進行語音分類時的貢獻具有一致性。

5 結(jié) 論

本研究提出使用面、頸部對稱位置的高密度肌電信號對 11 種語音模式進行分類,以比較面、頸部對稱位置肌電信號在語音識別時的貢獻程度。結(jié)果表明,面、頸部左右兩側(cè)肌肉發(fā)音的規(guī)律是相同的,但面部左右兩側(cè)間差異更大。單獨使用頸部左右兩側(cè)的肌電信號分類結(jié)果差異不大,但單獨使用面部左右位置的肌電信號分類精度差異較明顯。因此,頸部對稱位置的 sEMG 信號對語音識別貢獻程度具有一致性,而面部則不具有。該實驗結(jié)果有助于減少記錄電極的數(shù)量,為選擇語音識別通道的最佳位置奠定了基礎(chǔ)。

猜你喜歡
肌電電信號發(fā)音
盆底肌電刺激聯(lián)合盆底肌訓(xùn)練治療自然分娩后壓力性尿失禁的臨床觀察
產(chǎn)后早期聯(lián)合應(yīng)用盆底肌電生物反饋儀、電刺激、針對性護理對盆底肌功能恢復(fù)的影響
基于聯(lián)合聚類分析的單通道腹部心電信號的胎心率提取
基于Code Composer Studio3.3完成對心電信號的去噪
基于隨機森林的航天器電信號多分類識別方法
Playing with h
女生穿運動鞋與高跟鞋步行腰背肌電比較
Playing with /eI/
基于生物電信號的駕駛疲勞檢測方法
Playing with u_e
偃师市| 乌恰县| 定西市| 苗栗市| 藁城市| 沿河| 景德镇市| 宁乡县| 调兵山市| 简阳市| 武乡县| 上林县| 高阳县| 张家口市| 东阿县| 合阳县| 铁岭县| 文登市| 武汉市| 望谟县| 永胜县| 伽师县| 佛坪县| 贵德县| 前郭尔| 黔南| 色达县| 兴化市| 镇宁| 昭平县| 郑州市| 历史| 桂阳县| 河间市| 织金县| 龙胜| 长宁区| 衡阳县| 南康市| 金坛市| 根河市|