摘 要:提出了一種時頻結合的帶噪語音端點檢測方法。選取時域短時能量和頻域熵構成一個新的特征,采用自適應門限進行端點檢測。實驗結果表明該方法在低信噪比環(huán)境下較傳統(tǒng)方法提高了端點檢測的準確率,魯棒性較好。
關鍵詞: 端點檢測 短時能量 頻域熵
中圖分類號:TN912 文獻標識碼:A 文章編號:1672-3791(2011)04(a)-0000-00
語音信號檢測(VAD)的目的是區(qū)分語音和背景噪聲,在自動語音識別系統(tǒng)中(ASR)尤為重要,正確的端點檢測能提高語音識別的速度和正確率。端點檢測方法有很多,大體可分為兩類。一類是門限法[1],這種方法是對每一幀語音信號選取一種特征參數(shù),采用一種判決準則來調整門限,從而檢測語音幀和非語音幀,達到端點檢測的目的。另一類是模式匹配法[2],估計出語音和噪聲信號的模型參數(shù),其檢測過程類似于識別過程。與模式匹配法相比,門限法更為簡單,快捷。門限法中,比較經典的有Rabiner L R[3]提出的用短時能量和短時過零率作為參數(shù),利用短時能量來檢測濁音,短時過零率來檢測清音,兩者配合實現(xiàn)端點檢測。但是,大量實驗表明,在低信噪比時,這兩個特征很容易受到干擾,且不穩(wěn)定,魯棒性較差。為了尋找魯棒性更好的特征參數(shù),Shen J L[4]首次提出基于熵的語音端點檢測方法。Shen的實驗表明,語音的熵與噪聲的熵存在很大的區(qū)別。譜熵法在機械類非平穩(wěn)噪聲下(volvo)和低信噪比下其效果比能量檢測更為有效。本文把時域短時能量和頻域熵結合起來對帶噪語音信號進行分析,提取短時能量和頻域熵的乘積(能量熵)作為新的特征參數(shù),并采用自適應門限進行帶噪語音端點檢測。實驗結果表明,此方法在低信噪比下能準確檢測到語音端點,魯棒性較好。
端點檢測方法
1.1 語音預加重
預加重的目的是提升高頻部分,使信號的頻譜平坦化,保持在低頻到高頻的整個頻帶中能用同樣的信噪比求頻譜,以便于頻譜分析和聲道參數(shù)分析。帶噪語音信號經一階FIR數(shù)字濾波器,以濾除50Hz的電源工頻干擾,然后進行分幀、加窗處理,得到語音信號序列。
1.2 特征參數(shù)
1.2.1 時域短時能量: (1)
其中為第i幀短時能量,N為一幀的采樣點數(shù)。
1.2.2 譜熵
熵,來源于統(tǒng)計熱力學,是紊亂程度的測度,在信息論中表示信源的不確定性。先對每一幀信號進行快速傅立葉變換,得到,從而完成由時域到頻域的轉變。
概率密度函數(shù):