唐 偉 張二華 張麗娜
(南京理工大學(xué)計算機(jī)科學(xué)與工程學(xué)院 南京 210094)
在某些多于一人說話的單聲道混合語音分離場景,僅依靠將單人的語音信號從背景噪聲中分離出來的技術(shù)是不能滿足現(xiàn)實需求的,還需要研究準(zhǔn)確將單人語音從多人說話的混合語音中提取出來的方法,本文嘗試?yán)脝稳思儍粽Z音各次諧波的頻率采樣點位置從雙人語音的頻譜中分離單人語音,為之后研究從單聲道雙人語音中分離清晰單人語音的方式提供分離效果對比的標(biāo)準(zhǔn)。
將單人語音從單聲道的含噪語音中分離出來,主要依靠語音信號的特征是隨時間變化的,但在一段較短的時間間隔內(nèi),語音信號保持平穩(wěn):在濁音段表現(xiàn)出周期信號的特征,在清音段表現(xiàn)出隨機(jī)噪聲的特征。由于濁音具有顯著的諧波結(jié)構(gòu),同時在漢語中,僅依靠濁音就能辨別大多數(shù)漢語語音的語義,故本文只研究濁音的分離。
如何進(jìn)行準(zhǔn)確的單聲道語音分離[1]是一個相當(dāng)復(fù)雜的問題,在嘈雜的環(huán)境中,人能夠有效地傾聽感興趣的聲音,甚至只用一只耳朵也能很好地辨別并專注于某個人的聲音,排除噪聲的干擾[2]。1953年,英國科學(xué)家E.Cherry將該現(xiàn)象稱為“雞尾酒會”問題[3]。盡管目前人們對雞尾酒會問題的機(jī)理還沒有完全了解清楚,但通過一些聽覺實驗[4],揭示了聽覺感知的一些線索。1990年,加拿大麥吉爾大學(xué)的Bregman提出了聽覺場景分析(auditory scene analysis,ASA)理論[5],ASA理論將聽覺感知聲音的過程分為兩個階段,第一階段是分段,將混合語音分解為一系列的聽覺片段,每個聽覺片段來自于同一個聲源,每一個聽覺片段都代表了一個重要的聽覺事件。第二階段是組合,通過組合把來自同一聲源的各個聽覺片段組合在一起,形成聽覺感知流,人對聲音的感知過程是對聲音分量的組合過程。
該理論沿用了視覺場景分析的概念,并對聽覺場景分析的一系列準(zhǔn)則進(jìn)行了歸納,ASA理論組合原則如圖1所示。
圖1 語音段的同時組合和時序組合示意圖
ASA組合原則主要包括兩點:時序組合原則與同時組合原則。
時序組合是指將來自同一個聲源在不同時間產(chǎn)生的聽覺片段按時間的先后順序組合到一個聲音流中,表現(xiàn)為圖1中的A與B兩組信號應(yīng)該屬于同一聲源,其依據(jù)為
1)在時頻平面上,距離越近的聽覺片段越可能被組合為同一聲源;
2)能夠形成連續(xù)或平滑時間軌跡的成分傾向于組合成同一聲源。
同時組合是將同一個聲源在同一時間產(chǎn)生的不同頻率的聲音分量組合在一起,表現(xiàn)為圖1中的B與C兩組信號應(yīng)該屬于同一聲源,其依據(jù)為
1)一組具有諧波關(guān)系的聲音成分傾向于被組合在一起;
2)“同步開始”的頻率成分傾向于組合在一起,“同步結(jié)束”的頻率成分也被看作來自同一聲源。
2006年美國俄亥俄州立大學(xué)的DeLiang Wang提出基于計算聽覺場景分析(Computational Auditory Scene Analysis,CASA)[6~8]的語音分離已成為該領(lǐng)域的主流方法。
通常,分離單人語音信號主要依據(jù)為根據(jù)語音信號的短時平穩(wěn)性,可將語音信號劃分為一系列的時窗進(jìn)行分析,在一個短時窗內(nèi)語音信號是平穩(wěn)的,一個時窗稱為一幀。將語音信號采樣序列劃分為一系列長度為10ms~32ms的幀,分幀提取語音信號的短時特征。為了使幀與幀之間平滑過渡,保持其連續(xù)性,相鄰幀之間需重合一部分,幀移即前一幀與后一幀的交疊部分。
與Hu和Wang檢測基音的方法不同[9],考慮到語音的濁音部分具有準(zhǔn)周期性,其頻譜分布有規(guī)律,體現(xiàn)在倒譜域存在明顯的峰值,本文利用倒譜域的峰值信息獲取基音周期,再通過基音周期獲取基音頻率,之后依據(jù)濁音信號的諧波頻率為基音頻率的整數(shù)倍這一規(guī)律進(jìn)行諧波拾取。重構(gòu)時,對所得的頻率信息進(jìn)行反傅里葉變換,由于幀移的存在,還將同一基音周期軌跡段內(nèi)的所有幀按語音幀的起始位置對齊后進(jìn)行疊加,并按參與疊加的語音幀個數(shù)取均值,其重構(gòu)過程如圖2所示,最后所得信號即是要分離的單人語音信號。
圖2 第k幀、第k+1幀等語音重構(gòu)過程示意圖
為了更好地研究語音分離技術(shù),本文嘗試?yán)L制語音的語譜圖與基音周期譜圖,考慮到幀移越大,繪制效果越好,但計算量也越大,故進(jìn)行繪制時,對采樣率16000Hz的語音,統(tǒng)一以幀長512個采樣點,幀移487個采樣點的標(biāo)準(zhǔn)進(jìn)行語譜圖與基音周期譜圖的繪制,確保一句完整的語音能顯示在一幅屏幕范圍內(nèi)的同時,擁有最佳的繪制效果。
語譜圖的繪制取語音信號進(jìn)行單幀傅里葉變換后,將所得的振幅譜數(shù)據(jù)映射到灰度值0~255之間。
對第m幀語音信號x(n)進(jìn)行短時傅里葉變換,得到短時頻譜,其中N為幀長,如式(1)所示:
單幀振幅譜數(shù)據(jù)如下,其中*表示復(fù)共軛運算,如式(2)所示:
將單幀振幅譜數(shù)據(jù)垂直繪制(低頻在下,高頻在上),每幀相距25個采樣點即可。
基音周期譜圖的繪制則是取單幀的倒譜振幅譜數(shù)據(jù)進(jìn)行映射,倒譜計算過程如式(3)所示:
基音周期譜圖的繪制方法與語譜圖相同。
女生語音“我不滿六周歲”與男生語音“那年正月新春”語譜圖與基音周期譜圖如圖3、圖4所示,混合語音的語譜圖與基音周期譜圖如圖5所示。
圖3 女生語音“我不滿六周歲”語譜圖與基音周期譜圖
圖4 男生語音“那年正月新春”語譜圖與基音周期譜圖
圖5 男女生混合語音語譜圖與基音周期譜圖
分析圖3、圖4可知,在單個說話人情況下,真實的基音周期軌跡同一時刻只會出現(xiàn)一條,故在圖5所顯示的雙人混合語音中,應(yīng)該會出現(xiàn)兩個人完整的基音周期軌跡。
但圖5顯示,在某些時間段,部分單人的基音周期軌跡發(fā)生了消失,這將導(dǎo)致借助倒譜提取相應(yīng)基音頻率存在難度,再考慮到雙人語音分離還涉及多個基音周期軌跡段之間分離語音的說話人匹配問題,故本文利用從單人語音信號中提取的基音頻率及其諧波信息,到雙人混合語音中分離重構(gòu)對應(yīng)的單人語音,以此作為雙人語音分離后,語音重構(gòu)效果的評判標(biāo)準(zhǔn)。
經(jīng)由傳統(tǒng)方法重構(gòu)后發(fā)現(xiàn),當(dāng)某一幀處出現(xiàn)兩者諧波頻率點重合,此時若不對該頻率成分幅值進(jìn)行預(yù)處理,直接將該幅值作為兩個聲源的頻率成分,會導(dǎo)致恢復(fù)后的單人語音中混雜著另一人的聲音,即竄音現(xiàn)象。
竄音現(xiàn)象具體表現(xiàn)在:根據(jù)線性疊加原則,圖5理論上會包含圖3、圖4大部分的諧波,而在進(jìn)行諧波提取時,如果某個諧波位置的功率頻譜值同時包含了兩個人的諧波振幅信息,而進(jìn)行語音重構(gòu)時直接將此值帶入計算,就會導(dǎo)致重構(gòu)語音不清晰,不能完全將單人聲音從雙人語音中分離出來。
前人的消除竄音現(xiàn)象的方法是調(diào)整諧波的異常幅值,對混合語音進(jìn)行傅里葉變換時,若將出現(xiàn)異常幅值的諧波進(jìn)行振幅上的調(diào)整,再進(jìn)行處理,會極大地消除竄音。
本文對此方法進(jìn)行了實驗,具體過程為:分別找到聲源一與聲源二的基音頻率及其諧波成分,進(jìn)行單人語音分離時使用混合語音的頻譜數(shù)據(jù),但當(dāng)兩個聲源的基音頻率及其諧波位置出現(xiàn)重合時,選取需要分離的聲源的頻譜數(shù)據(jù)作為此位置的頻譜數(shù)據(jù),之后直接對處理后的單幀數(shù)據(jù)進(jìn)行逆傅里葉變換后,再按照圖2所示過程進(jìn)行重構(gòu),發(fā)現(xiàn)竄音現(xiàn)象得到抑制。
以圖3中的女生“我不滿六周歲”與圖4中的男生“那年正月新春”的混合語音中分離男生語音的效果為例,語譜圖與基音周期軌跡圖如圖6所示。
圖6 調(diào)幅消除竄音法從雙人語音中分離重構(gòu)后的男生語音“那年正月新春”的語譜圖與基音周期譜圖
該方法消除竄音效果好,重構(gòu)后的語音也較清晰,但修改幅值需要依靠異常幅值周圍的正常幅值,實現(xiàn)上存在難度。實驗證明,人耳對聲音頻率的初始相位不敏感,但對于不同時序上的相位連續(xù)性非常敏感,故本文嘗試通過分離雙人混合語音的頻譜數(shù)據(jù)后,從相位角度進(jìn)行語音重構(gòu)。
現(xiàn)有的傳統(tǒng)方法重構(gòu)分離語音時,未考慮振幅和相位的分離、分配,即使考慮了振幅的平滑、分配,但相位難以分離。當(dāng)兩人混合語音中諧波的頻率點重合時,混合相位主要反映振幅較強的語音的相位,可以采用另一種方法避開相位分離。
根據(jù)已知的單人諧波位置從采樣率為16000HZ的雙人混合語音中提取的數(shù)據(jù)幀長為N個采樣點,幀移為N-T個采樣點的振幅譜數(shù)據(jù),先對單幀振幅譜數(shù)據(jù)按如下公式進(jìn)行處理,其中第i幀用于實部變換的數(shù)值如式(4)所示:
用于虛部變換的數(shù)值如式(5)所示:
隨后將實部與虛部進(jìn)行反傅里葉變換并將同一基音周期軌跡內(nèi)的所有幀按起始位置對齊后進(jìn)行疊加,按圖2所示方法進(jìn)行重構(gòu)。
本文進(jìn)行了多組實驗,以圖3中的女生“我不滿六周歲”與圖4中的男生“那年正月新春”從混合語音中分離重構(gòu)后的單人語音為例,對比兩種方法分離重構(gòu)的效果。
圖7 傳統(tǒng)方法從雙人語音中分離重構(gòu)后的女生語音“我不滿六周歲”語譜圖與基音周期譜圖
可以從重構(gòu)后的語譜圖,基音周期譜圖兩個角度對比兩種方法下的分離語音質(zhì)量,首先對比語譜圖發(fā)現(xiàn),傳統(tǒng)方法與新方法重構(gòu)的單人語音的語譜圖大體相同,考慮到新方法是對頻譜的相位進(jìn)行了調(diào)整,未改動頻譜幅值,故語譜圖相似存在合理性。
其次對比基音周期譜圖,無論傳統(tǒng)方法還是新方法,分離重構(gòu)的單人語音都基本保留了原本單人語音的基音軌跡信息,反映在分離重構(gòu)后的語音的基音軌跡與原本的基音軌跡基本一致。
圖8 新方法從雙人語音中分離重構(gòu)后的女生語音“我不滿六周歲”語譜圖與基音周期譜圖
圖9 傳統(tǒng)方法從雙人語音中分離重構(gòu)后的男生語音“那年正月新春”語譜圖與基音周期譜圖
但是兩種方法的結(jié)果反映,男生聲源的分離效果不如女生,且在分離男女生說的同一句話時,分離效果較差,以男生“我不滿六周歲”與女生“我不滿六周歲”從混合語音中分離重構(gòu)的效果為例。
圖10 新方法從雙人語音中分離重構(gòu)后的男生語音“那年正月新春”語譜圖與基音周期譜圖
圖11 男生語音“我不滿六周歲”語譜圖與基音周期譜圖
對比圖12與圖13,當(dāng)一對男女說話人同時說一句話時,考慮到兩段語音的的基音周期軌跡趨勢大致相同,導(dǎo)致通過基音周期尋找的基音頻率及其諧波存在著大量的重合。根據(jù)parseval定理[10~11],因為男生的基音頻率較低,導(dǎo)致其基音頻率及其相應(yīng)諧波的提取間隔更短,相應(yīng)地每條諧波的能量也更低;女生則正好相反,最終會因為頻率掩蔽效應(yīng)[12~13],導(dǎo)致女生聲音的重構(gòu)效果比男生聲音的好。
圖12 新方法從雙人語音中分離重構(gòu)后的男生語音“我不滿六周歲”基音周期譜圖
圖13 新方法從雙人語音中分離重構(gòu)后的女生語音“我不滿六周歲”基音周期譜圖
其二為主觀標(biāo)準(zhǔn)平均意見分方法,平均意見分(mean opinion scores,MOS)方法[14~15]是最常用的語音質(zhì)量評估法,MOS評分標(biāo)準(zhǔn)如表1所示,實驗參評人數(shù)為40且測評環(huán)境完全相同,嘗試分別對兩種方法重構(gòu)后的分離語音進(jìn)行打分,語音格式為“聲源信息_語音段”,例如,“M001_XX”代表001號男生語音,內(nèi)容為“XX”,將語音編號,其關(guān)系如表2所示。
表1 MOS評分標(biāo)準(zhǔn)
表2 語音段與編號的對應(yīng)關(guān)系
重構(gòu)語音的MOS評分表如表3所示,從MOS評分這一主觀角度看,聽覺實驗結(jié)果理想,新方法重構(gòu)后的單人語音保證了語音的語義[16],同時,從竄音消除的角度來講,新方法優(yōu)勢明顯,基本做到了竄音消除這一實驗?zāi)繕?biāo),最后,新方法恢復(fù)的語音存在著些許脈沖波,但基本不影響音質(zhì)。
表3 分離的單人語音分離結(jié)果MOS評分
CASA研究在雙人乃至多人說話場景下的語音分離研究還不足以達(dá)到實際應(yīng)用的程度。本文嘗試?yán)脝稳苏Z音模板分離雙人語音,為之后的單聲道雙人語音分離提供分離效果對比的標(biāo)準(zhǔn)。同時利用語譜圖、基音周期譜圖的繪制效果觀察傳統(tǒng)重構(gòu)方式與新方法的異同,最后利用MOS評分對兩種重構(gòu)方法得到的語音進(jìn)行打分,得出新方法比傳統(tǒng)方法更有效消除竄音,并得到清晰的單人分離語音這一結(jié)論。但是若想做到不依靠先驗的單人基音頻率及諧波信息,還需解決雙人混合語音中的某一聲源的倒譜峰值信息被壓制的問題,同時需要尋找新方法分離的語音中殘留脈沖波這一問題的解決方案。