国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙門限算法的端點檢測改進研究?

2017-12-18 06:21:54王滿洪張二華王明合
計算機與數(shù)字工程 2017年11期
關(guān)鍵詞:輔音端點門限

王滿洪 張二華 王明合

(南京理工大學模式識別與人工智能實驗室 南京 210094)

基于雙門限算法的端點檢測改進研究?

王滿洪 張二華 王明合

(南京理工大學模式識別與人工智能實驗室 南京 210094)

端點檢測技術(shù)是語音識別中的一個重要步驟,其準確性直接影響語音信號處理的效率,近年來對語音信號端點檢測技術(shù)的研究一直是語音信號處理的熱點。傳統(tǒng)的雙門限端點算法在實驗室環(huán)境下檢測結(jié)果較為準確,但在復雜信道環(huán)境下,正確率大大下降。針對傳統(tǒng)雙門限算法的局限性,論文提出了一種基于二級判決的改進方法。該算法采用短時振幅來構(gòu)造過零“帶”,增強復雜環(huán)境下過零率的抗干擾性。同時增設(shè)輔音能量閾值和疑似輔音閾值,解決清輔音丟失以及無聲段混入問題。實驗結(jié)果表明,該方法在復雜信道條件下端點檢測正確率有較大提高。

端點檢測;雙門限算法;短時能量;短時過零率;復雜信道

1 引言

一段語音信號通常可以分為靜音段、噪聲段、過渡段和有聲段。有聲段又分為濁音和輔音,說話人個性特征主要包含在濁音當中[1]。在語音信號處理中,要運用端點檢測技術(shù)對語音信號進行分割,從包含語音的一段信號中確定出語音的起點及結(jié)束點,提取有效語音段后,再進行特征提取等后續(xù)操作。這樣可以排除靜音或純噪聲段的干擾,減少語音系統(tǒng)的運算量并提高正確性。

常用的端點檢測方法有能量閾值、基音檢測、頻譜分析、倒譜分析及LPC預測等。其中基于能量和過零率的雙門限判決法最為常用[1]。在低信噪比的條件下,傳統(tǒng)的雙門限算法識別率大大下降,特別在復雜信道下的說話人識別中,識別結(jié)果很不理想。本文針對二級判決進行改進,以提高端點檢測結(jié)果的魯棒性。

2 時域參數(shù)

2.1 短時能量

短時能量是語音信號時域的一個重要特征參數(shù),反映能量隨時間的變化。對于語音信號x(n),第n幀短時能量定義為

其中h(n)=w(m)2,N為幀長,w(m)為窗函數(shù)。從式(1)可以看出,短時能量可以看做語音信號的平方經(jīng)過一個線性濾波器的輸出,濾波器的沖擊響為h(n)。故而窗函數(shù)的選擇決定了短時能量表示方法的特點。本文選擇主瓣變化較平滑的漢明窗。

由于濁音比清音能量大的多,短時能量可以用于有效區(qū)分清音和濁音;其次,可以用短時能量對有聲段和無聲段進行判定,對聲母和韻母分界等;也可當做一維特征參數(shù)用于語音識別系統(tǒng)中。

短時能量對高電平非常敏感,實現(xiàn)時容易產(chǎn)生溢出[2]??梢圆捎枚虝r平均振幅來替代,公式為:

2.2 短時平均過零率

短時平均過零率是指每幀內(nèi)信號通過零值的次數(shù)。對于連續(xù)語音信號,可以觀察其時域波形通過時間軸的情況;對于離散信號,短時平均過零率就是信號采樣點符號變化的次數(shù)。短時平均過零率仍可以在一定程度上反映其頻譜性質(zhì),可以通過短時平均過零率獲得譜特性的一種粗略估計。定義語音信號xn(m)的短時過零率為:

其中,sgn[]是符號函數(shù)。對于語音信號,清音的短時能量雖然低,易判為無聲段,但它的短時過零率明顯大于濁音部分,因此可以使用過零率來區(qū)分清音和濁音。

3 傳統(tǒng)雙門限算法

傳統(tǒng)的基于雙門限判決的端點檢測算法主要分為兩大步驟。第一步,設(shè)置兩個能量閾值:高能量閾值EH和低能量閾值EL。此時,語音信號可以劃分為無聲段、過渡段和語音段,如圖1所示。在無聲段,當能量參數(shù)超過低能量閾值EL時,標記為進入過渡段,過渡段一般為輔音,也就是漢語中的聲母;在過渡段,如果能量參數(shù)回落到低能量閾值EL以下時,標記為恢復到無聲段;若能量參數(shù)超過高能量閾值EH,則表示進入了語音段;在語音段,當能量參數(shù)回落到低能量閾值EL以下時,則標記為結(jié)束點。第二步,利用短時平均過零率對判決結(jié)果進行補充。由于清音的短時平均過零率要明顯高于濁音和靜音,因而使用短時平均過零率就可以很好的將清音和無聲段區(qū)分開來。

圖1 語音信號劃分圖

然而傳統(tǒng)的雙門限判決方法僅在高SNR環(huán)境下有較好結(jié)果,而在固定電話信道等復雜信道條件下識別效果大大降低。研究表明,一些突發(fā)性的隨機噪聲或背景噪聲往往會引起短時能量或短時過零率的數(shù)值很高,造成誤判或找不到語音段的起止端點[7]。下面將針對傳統(tǒng)雙門限的這種局限性作出改進。

4 改進的雙門限端點檢測算法

本章針對傳統(tǒng)雙門限算法的兩大判決閾值,短時能量和短時過零率,分別做出改進。然后給出改進后的雙門限端點檢測算法的判決步驟。

4.1 增設(shè)輔音能量閾值

對傳統(tǒng)雙門限端點檢測算法,實驗測試后發(fā)現(xiàn)其檢測輔音時僅考慮了短時過零率,只要滿足條件:過零率參數(shù)Z≥ZH,就判斷為了輔音,忽略了能量的限制,造成大量能量微弱的無聲段混入輔音,如圖2所示。

圖2 “這”字原始語音與時域特征參數(shù)

從圖2中可以看出,“這”字的前面無聲段部分過零率比較高,容易被判斷為輔音段。因此,增加一個輔音能量閾值Ec:

其中Eave為語音信號所有幀的平均能量,α1為0到1之間的變量。這樣,判斷一幀為可靠輔音的條件就修改為:當 EC≤E<EL,且Z≥ZH,即使用短時能量和短時過零率雙重檢測輔音。

4.2 增設(shè)疑似輔音閾值

實驗測試發(fā)現(xiàn),清輔音在起始階段能量較強,尾部接近元音時能量反而減弱,或者過零率迅速下降,導致誤判為無聲段,造成輔音與元音中斷,從而導致整個輔音段丟失,圖3為漢語中“去”字語音的短時能量與短時過零率:

圖3 “去”字原始語音與時域特征參數(shù)

從圖3可以看出,“去”字的聲母為清輔音,在接近元音部分時,能量參數(shù)和過零率參數(shù)極速下降,不利于端點檢測的判斷。因此,增加一個疑似輔音的能量閾值Es:

當滿足條件:ES≤E<EC且 Z≥ZH時,或者EC≤E<EL且 Z≤ZH時,即能量達標或過零率達標,則判斷為疑似輔音段。若二者均未達標,則作為無聲段予以排除。疑似輔音段在依靠輔音段的條件下可以合并到輔音中去。

4.3 改進過零率

在固定電話等噪聲環(huán)境下,信道隨機噪聲使短時過零率發(fā)生明顯變化。背景噪聲的短時過零率增大,容易將無聲段混入輔音段,嚴重影響檢測效果。

對于過零率不再以過“零”來計算,而應設(shè)置上下門限,將過零率修改為跨過正負門限的次數(shù)。過零率公式修改為

該公式的含義為:既跨了上門限T,也跨了下門限 -T,計算為1次過“零”;若只跨了上門限而未跨下門限,只算半次過“零”;同理,若只跨了下門限而未跨上門限,也只算半次過“零”。這樣計算的短時平均過零率有一定的抗干擾能力。即使存在較小的信道隨機噪聲,只要它不超過正負門限所約束的帶,就不會產(chǎn)生虛假的過零率。

圖4中每個折點為一個數(shù)據(jù)點,從樣本點 X1到X10,只算一次過零率,而不是傳統(tǒng)方法的6次過零率??梢姡^零“帶”能很好地解決信道隨機噪聲環(huán)境下端點檢測的困擾。

圖4 樣本信號擊穿過零“帶”示意圖

一般情況下,訓練語音開始部分存在一小部分無聲段,其中包含的就是背景噪聲信息。因此,可以用語音文件前N幀中振幅值最小的β幀平均值對端點檢測門限T賦初值。

圖5顯示的是固話條件下改進過零率前后過零率曲線對比,由于信道噪聲影響,圖5(a)中元音部分的過零率甚至低于靜音段,這就造成大量靜音段誤判為輔音。從圖5(b)可以看到,靜音段的過零率大大降低,無聲段與語音段的區(qū)分更明顯,更有利端點檢測正確的判斷。

圖5 固話條件下改進過零率前后過零率結(jié)果對比

4.4 改進算法判決準則

表1給出了雙門限算法改進后端點檢測的判決方法,其檢測步驟如下:

1)首先計算各幀的短時能量、短時過零率等時域特征參數(shù),初始化能量和過零率閾值。

2)第一次幀循環(huán),找出E≥EH的強振幅語音幀,這是能獨立存在的主音段,是過渡段以及標準輔音段的依賴。

3)第二次幀循環(huán),搜索EL≤E<EH的中振幅語音幀(無論過零率大?。?,主要為臨近主音段的過渡幀或標準輔音幀(這兩種語音幀可相互作為橋梁與主音段連通),將其合并至與其連續(xù)的主音段。

4)第三次幀循環(huán),尋找疑似輔音幀,若疑似輔音幀與右側(cè)中振幅語音幀連續(xù),則合并。

5)再次幀循環(huán),讀取各幀端點標記信號,查重補漏,完成整體語音段的端點檢測。

表1 語音段判斷方法

5 實驗結(jié)果與分析

5.1 實驗環(huán)境

實驗數(shù)據(jù)來自南京理工大學NJUST603語音庫,庫中含有423人錄音,男生210,女生213,每人有三段數(shù)字錄音,四段文本錄音。錄制時同時采用麥克風,固定電話和手機信道分別錄音。所以,每個說話人有三種信道下的7段錄音。采樣頻率為1.6kHz,采樣精度為16位,幀長 32ms,512個數(shù)據(jù)點,幀移16ms。在Win7系統(tǒng)VS平臺對三種信道下改進的端點檢測算法進行實驗。

5.2 結(jié)果分析

實驗抽取語音樣本中的一段“韓紀慶”作為本次實驗樣本,包括固定電話和麥克風兩種信道情況下的實驗測試。實驗結(jié)果圖中,用實線表示語音段的開始,虛線表示語音段的結(jié)束。實線到虛線,表示一個語音段,虛線到實線,表示靜音段。

圖6表示麥克風條件下雙門限端點檢測結(jié)果,從圖6(a)中可以看出,傳統(tǒng)雙門限大致可以檢測出語音端點,但并不準確,“韓”音節(jié)的輔音段前部分和元音段后部分都被丟棄一小部分,“紀”音節(jié)和“慶”音節(jié)的元音末尾也有一些丟失;但圖6(b)在同樣麥克風條件下,使用改進的雙門限端點檢測后,圖6(a)中存在的情況得到很好的改善,端點檢測結(jié)果非常理想。由圖6可以看出,改進雙門限算法后的優(yōu)勢很明顯,可以完整提取出語音的聲母和韻母。

圖6 麥克風條件下改進雙門限算法前后端點檢測結(jié)果對比

圖7 測試的是固定電話條件下的錄音信號。從語音信號波形上看,由于固話信道隨機噪聲的影響,固定電話錄音波形比麥克風錄音波形更稀疏,它的振幅更小,靜音部分比較粗糙。可以看到圖7(a)中,傳統(tǒng)雙門限檢測結(jié)果基本失效,這是因為固話信道條件下,隨機噪聲的大量增加,導致傳統(tǒng)過零率檢測方法檢測出來的結(jié)果已經(jīng)失去過零率的意義,靜音部分的過零率甚至超過了輔音段,必然會導致檢測結(jié)果的失敗。而圖7(b)中,在改進雙門限端點檢測方法后,可以完整識別出每一段語音,結(jié)果非常理想。

圖7 固定電話下改進雙門限算法前后端點檢測結(jié)果

圖8 表示的是手機信道下的雙門限端點檢測算法改進前后的實驗結(jié)果對比。從波形上看,特別是在無聲段部分,它比麥克風語音要粗糙,但比固話語音要清晰。在圖8(a)中傳統(tǒng)的雙門限算法能成功檢測出兩段語音,但是“紀”字被丟失。而在改進端點檢測算法檢測后,如圖8(b),可以完整并精確地找到每一段語音的起止點。

圖8 手機信道下改進雙門限算法前后端點檢測結(jié)果

為了進一步檢驗改進的雙門限端點檢測算法的性能,對三種信道下的端點檢測結(jié)果正確率進行計算并統(tǒng)計。端點檢測的正確率計算公式為:

表2為麥克風、固定電話和手機三種信道下的雙門限端點檢測算法改進前后識別率:

表2 不同信道下端點檢測結(jié)果對比 %

在固定電話,手機和麥克風三種信道下,隨機噪聲的影響逐漸減弱。傳統(tǒng)的雙門限法在麥克風條件下的實驗結(jié)果能達到82.5%,但表2中可以看到,在手機和固定電話下,識別結(jié)果大大下降。改進算法后,同樣可以看到,三種信道下的識別正確率都有很大的提高,魯棒性更強。

6 結(jié)語

復雜信道下的魯棒性說話人識別技術(shù)一直是語音識別研究的重難點[8~12],說話人的個性特征主要蘊含在濁音中,靜音段和噪聲段會降低識別結(jié)果。而端點檢測可以用來提取有效數(shù)據(jù)幀,所以,復雜信道下的端點檢測技術(shù)研究是很有必要的。文中通過改進傳統(tǒng)雙門限端點檢測技術(shù),經(jīng)大量數(shù)據(jù)測試,實驗效果理想。在實際應用中,需要調(diào)整不同信道下的參數(shù)閾值,以得到最佳實驗效果。把改進算法結(jié)合好復雜信道下的說話人識別將是下一步工作研究的重點[13]。

[1]韓紀慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學出版社,2004:32-50.HAN Jiqing,ZHANG Len,ZHEN Tieran.Speech Signal Processing[M].Beijing:Tsinghua university press,2004:32-50.

[2]胡光銳.語音處理與識別[M].上海:上海科學技術(shù)文獻出版社,1994:23-29.HU Guangrui.Speech Processing and Recognition[M].Shanghai:Shanghai science and Technology Literature press,1994:23-29.

[3]夏敏磊.語音端點檢測技術(shù)研究[C].杭州:浙江大學,2005:11-20.XIA Minlei.Research on speech endpoint detection technology[C].Hangzhou:Zhejiang university,2005:11-20.

[4]張志仁,崔慧娟.基于短時能量的語音端點檢測算法研究[J].電聲技術(shù),2005,52(7):51-62.ZHANG Zhiren,CUI Huijuan.Speech Endpoint Detection Algorithm Analyses Based on short-term Energy[J].Audio Engineering,2005:52(7):51-62.

[5]路青起,白燕燕.基于雙門限兩級判決的語音端點檢測方法[J].電子科技,2012,25(1):13-15.LU Qingqi,BAI Yanyan.A Speech Endpoint Detection Algorithm Based on Dual-threshold Two Sentence[J].Electronic Science and Technology,2012,25(1):13-15.

[6]Deller J R,Proakis J G,Hansen J H L.Discrete-Time Processing of Speech Signals[M].New York:Macmillan,1993:20-40.

[7]陳振華,徐波.基于子帶能量特征的最優(yōu)化語音端點檢測算法研究[J].聲學學報,2005,30(2):171-176.CHEN Zhenhua,XU Bo.Optimization of Speech endpoint detection base on sub-band energy feature[J].Acta Acustica,2005,30(2):171-176.

[8]WuGinDcr,Lin ChinTeng.Word boundary detection with mel-scale frequency bank in noisy environment[C]//IEEE Transactions on Speech and Audio Processing,2000,8(5):540-553.

[9]Wang HuanLian,Han jiqing,Lihaifeng.Robust endpoint detection based on feature weighted likelihood and dimension reduction[J].Acta Acoustica,2007,32(1):62-68.

[10]林興華,肖熙.基于多子帶能量和基音特征的語音端點檢測方法[D].北京:清華大學,2011,35(9):34-37.LIN Xinhua,XIAO Xi.Speech Endpoints Detection Method Based On Sub-bands Energy and Pitch Characteristics[D].Beijing:Tsinghua university,2011,35(9):34-37.

[11]Canny J.A computational approach to edge detection[C]//IEEE Trans on Pattern Analysis and Machine Intelligence,1986,8:677-695.

[12]冉國敬,夏秀渝,張鳳儀.信道失配環(huán)境下魯棒說話人識別[J].計算機系統(tǒng)應用,2015,24(3):1-5.RAN Guojing,XIA Xiuyu,ZHANG Fengyi.Robust Speaker Recognition Under Channel Mismatch Environment[J].Computer Systems and Application,2015,24(3):1-5.

[13]G.Suvarna Kumar,K.A.Prasad Raju,et al.Speaker Recognition Using GMM[J].International Journal of Engineering Science and Technology,2010,2 (6) :2428-2436.

Research and Improvement on Endpoint Detection Based on Dual-threshold Algorithm

WANG ManhongZHANG ErhuaWANG Minghe

(Laboratory of Pattern Recognition and Artificial Intelligence,Nanjing University of Science and Technology,Nanjing 210094)

The technology of endpoint detection which has been the focus of speech processing in recent years is an important step of speech recognition,and it has a great influence on speech processing,speech recognition and speaker identification etc.For clear speech,The traditional dual-threshold algorithm is accurate,however,it's greatly reduced while in the complex channel environment.Aiming at the limitations of the traditional dual-threshold algorithm,an improved method based on two sentences is proposed in this paper.In order to enhance the anti interference of zero rate in the complex environment,the short term amplitude is used to construct the zero band.At the same time,the energy thresholds of the consonants and suspected consonants are used to solve the problem of the loss of the voiceless consonants and the mixing of the silent voice segment.Experimental results prove that the proposed method can improve the endpoint accuracy obviously,although in the background of complex channel.

endpoint detection,dual-threshold,short-term energy,short-term zero rate,complex channel

TN912

10.3969/j.issn.1672-9722.2017.11.030

Class Number TN912

2017年5月13日,

2017年6月17日

王滿洪,男,碩士研究生,研究方向:語音信號處理。張二華,男,博士后,副教授,碩士生導師,研究方向:微地震檢測與語音信號處理。王明合,男,博士,研究方向:語音信號處理。

猜你喜歡
輔音端點門限
非特征端點條件下PM函數(shù)的迭代根
基于規(guī)則的HEV邏輯門限控制策略
地方債對經(jīng)濟增長的門限效應及地區(qū)差異研究
中國西部(2021年4期)2021-11-04 08:57:32
失去爆破和不完全爆破
BR Sounds
英語的輔音連綴
隨機失效門限下指數(shù)退化軌道模型的分析與應用
不等式求解過程中端點的確定
輔音連綴全接觸
參數(shù)型Marcinkiewicz積分算子及其交換子的加權(quán)端點估計
碌曲县| 江源县| 开鲁县| 合山市| 岱山县| 新晃| 高唐县| 沿河| 蓬安县| 邯郸县| 郁南县| 禄丰县| 策勒县| 右玉县| 商水县| 永州市| 秭归县| 岳阳县| 高安市| 广元市| 武宣县| 修水县| 新疆| 潞西市| 特克斯县| 礼泉县| 景德镇市| 天镇县| 历史| 三门峡市| 五常市| 理塘县| 河源市| 繁峙县| 宁城县| 宣城市| 桂林市| 安仁县| 微山县| 德安县| 博客|