国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于DS 證據(jù)理論多特征融合模型的說(shuō)話人分割聚類研究

2023-08-21 08:44:48令曉明郭亞龍
科技創(chuàng)新與應(yīng)用 2023年23期
關(guān)鍵詞:音頻語(yǔ)音聚類

項(xiàng) 羽,令曉明,2,郭亞龍

( 1.蘭州交通大學(xué) 光電技術(shù)與智能控制教育部重點(diǎn)實(shí)驗(yàn)室,蘭州 730070;2.蘭州交通大學(xué) 國(guó)家綠色鍍膜技術(shù)與裝備工程技術(shù)研究中心,蘭州 730070)

說(shuō)話人分割聚類( Speaker Diarization)是語(yǔ)音處理的一個(gè)研究方向, 主要是作為一種前端處理技術(shù)在語(yǔ)音處理領(lǐng)域使用。 是將一段連續(xù)的語(yǔ)音數(shù)據(jù)按不同說(shuō)話人分割成片段, 并給每段語(yǔ)音片段標(biāo)注上說(shuō)話人的身份信息,以解決“ 誰(shuí)在什么時(shí)候說(shuō)”的問(wèn)題[1]。 說(shuō)話人分割聚類在眾多領(lǐng)域都有著廣泛的應(yīng)用,如在錄音軟件中,可以通過(guò)說(shuō)話人分割聚類技術(shù)將錄音音頻的說(shuō)話人及其說(shuō)話時(shí)長(zhǎng)標(biāo)注出來(lái), 將其作為特征可以快速?gòu)谋姸嘁纛l中找到特定音頻;在會(huì)議場(chǎng)景中,結(jié)合說(shuō)話人分割聚類技術(shù)和語(yǔ)音識(shí)別技術(shù)可以生成一份包含發(fā)言人身份信息的會(huì)議記錄,便于參會(huì)人員回顧會(huì)議內(nèi)容;作為語(yǔ)音領(lǐng)域的前端處理技術(shù),還可以提升后續(xù)語(yǔ)音處理系統(tǒng)的性能,如語(yǔ)音識(shí)別系統(tǒng)在說(shuō)話人發(fā)生變化的時(shí)間點(diǎn)重置語(yǔ)音識(shí)別模型可以提高語(yǔ)音識(shí)別的準(zhǔn)確率。

最初的說(shuō)話人分割方法是基于能量的[2],這種方法是假設(shè)在兩人對(duì)話話語(yǔ)之間存在一個(gè)靜默區(qū)域, 通過(guò)設(shè)定能量閾值檢測(cè)說(shuō)話人轉(zhuǎn)換點(diǎn), 但是實(shí)際場(chǎng)景存在搶話現(xiàn)象導(dǎo)致分割結(jié)果并不理想。 目前比較主流的分割方法有2 種,分別是基于距離和基于模型的分割方法。 基于距離的分割方法不需要說(shuō)話人的先驗(yàn)信息,但需劃定門限,魯棒性較差。 常用的距離度量有貝葉斯信息準(zhǔn)則( Bayesian Information Criterion,BIC)、 歸一化交叉似然比( Normalized Cross Likelihood Ratio,NCLR)、T-Test度量距離等[3]。 常用的說(shuō)話人聚類方法是層次聚類,進(jìn)行層次聚類有2 種方法, 分別是自下而上和自上而下的方法[4],其中自下而上的方法魯棒性較差,而自上而下的方法區(qū)分性較差, 在分割聚類系統(tǒng)中自下而上的方法得到了更為廣泛的使用。

本文提出基于DS 證據(jù)理論多特征融合模型, 提取說(shuō)話人的嵌入特征用于說(shuō)話人分割聚類。 該模型相較于傳統(tǒng)單一特征或單一神經(jīng)網(wǎng)絡(luò), 說(shuō)話人分割聚類系統(tǒng)性能得以提升。

1 說(shuō)話人分割聚類系統(tǒng)

完整的說(shuō)話人分割聚類系統(tǒng)由預(yù)處理、有效語(yǔ)音檢測(cè)、說(shuō)話人轉(zhuǎn)換點(diǎn)檢測(cè)、說(shuō)話人聚類和二次分割幾部分組成,其示意圖如圖1 所示。

圖1 說(shuō)話人分割聚類系統(tǒng)框圖

1.1 預(yù)處理

音頻信號(hào)如果直接輸入說(shuō)話人分割聚類系統(tǒng),系統(tǒng)的性能會(huì)不理想。 因此在此之前需要對(duì)音頻信號(hào)進(jìn)行預(yù)加重、分幀、加窗等預(yù)處理,由此消除發(fā)聲器官本身和采集設(shè)備采集音頻所帶來(lái)的混疊、高次諧波失真、高頻等因素對(duì)音頻信號(hào)質(zhì)量的影響。

1.2 有效語(yǔ)音檢測(cè)

有效語(yǔ)音檢測(cè)的目的是將輸入的音頻信號(hào)中的語(yǔ)音與非語(yǔ)音分離,只保留說(shuō)話人的語(yǔ)音信號(hào)用于后續(xù)的分割聚類,這里的非語(yǔ)音指的是靜音區(qū)域、環(huán)境噪音、背景音樂(lè)音效等。 有效語(yǔ)音檢測(cè)模塊的存在有助于后續(xù)模塊專注于處理音頻信號(hào)的語(yǔ)音部分,由此而提高系統(tǒng)的性能。

1.3 說(shuō)話人轉(zhuǎn)換點(diǎn)檢測(cè)

說(shuō)話人轉(zhuǎn)換點(diǎn)檢測(cè)的目的是檢測(cè)出說(shuō)話人變化的時(shí)間點(diǎn),再根據(jù)這個(gè)時(shí)間點(diǎn)將語(yǔ)音信號(hào)分割成片段,使其成為只包含一個(gè)說(shuō)話人的音頻片段。 目前主流的分割方法有2 種,分別是基于距離和基于模型的方法?;诰嚯x的方法是選取大小相同相鄰的2 個(gè)滑動(dòng)窗,計(jì)算2 個(gè)窗內(nèi)的特征分布之間的距離作為說(shuō)話人分割的依據(jù),通過(guò)與預(yù)先設(shè)定的閾值或懲罰因子來(lái)進(jìn)行比較判斷2 個(gè)窗內(nèi)的語(yǔ)音是否來(lái)自同一說(shuō)話人[5]?;谀P偷姆椒ㄊ菍?duì)語(yǔ)音建立起說(shuō)話人模型,將語(yǔ)音分割成等長(zhǎng)的短語(yǔ)音片段,使用建立的說(shuō)話人模型對(duì)這些語(yǔ)音片段進(jìn)行分類,模型之間的邊界就是說(shuō)話人的轉(zhuǎn)換點(diǎn)。 除此之外還有基于深度神經(jīng)網(wǎng)絡(luò)的方法,其基本思想是通過(guò)深度神經(jīng)網(wǎng)絡(luò)來(lái)確定當(dāng)前語(yǔ)音幀和說(shuō)話人轉(zhuǎn)換點(diǎn)的相對(duì)位置,然后在所有語(yǔ)音幀中找到和理想的轉(zhuǎn)換點(diǎn)最匹配的語(yǔ)音幀作為說(shuō)話人轉(zhuǎn)換點(diǎn)。 基于深度神經(jīng)網(wǎng)絡(luò)的方法相較于前2 種方法準(zhǔn)確率會(huì)更高,但是計(jì)算量會(huì)更大。

1.4 說(shuō)話人聚類

說(shuō)話人聚類是將分割得到的語(yǔ)音片段按說(shuō)話人的身份信息進(jìn)行聚類,類別的數(shù)量就是說(shuō)話人的數(shù)量。常用層次聚類的方法進(jìn)行說(shuō)話人聚類, 進(jìn)行層次聚類有自下而上和自上而下2 種方法。 自下而上的方法是將每段語(yǔ)音片段都當(dāng)作一類,然后計(jì)算所有類別之間的相似度,接著合并2 個(gè)相似度最高的2 個(gè)類別, 合并后重新計(jì)算新類之間的相似度, 重復(fù)迭代這一過(guò)程直到完成聚類輸出結(jié)果[6]。自上而下的方法是將所有語(yǔ)音片段當(dāng)成一個(gè)整體類別,然后增加類別并重新分配語(yǔ)音片段,不斷重復(fù)迭代直至達(dá)到目標(biāo)類別數(shù)。 除了層次聚類之外還可以使用譜聚類等聚類方法進(jìn)行說(shuō)話人聚類, 譜聚類是通過(guò)距離矩陣和相似矩陣將聚類問(wèn)題轉(zhuǎn)化為平面上的帶權(quán)無(wú)向圖的切分問(wèn)題,使得切分得到的子圖之間的權(quán)重和最小,而每個(gè)子圖內(nèi)的權(quán)重和最大。

1.5 二次分割

說(shuō)話人聚類完成后就得到了說(shuō)話人分割聚類的初步結(jié)果,但是得到的結(jié)果可能不夠理想。二次分割就是對(duì)片段的邊界及聚類結(jié)果進(jìn)行進(jìn)一步處理, 得到更佳的聚類結(jié)果。二次分割會(huì)帶來(lái)額外的計(jì)算量,而且只能用于離線的說(shuō)話人分割聚類系統(tǒng),因此二次分割不是必須的。

2 基于DS 融合理論的說(shuō)話人嵌入特征提取

2.1 DS 證據(jù)理論

DS 證據(jù)理論是由Dempster 提出并由Shafer 完善的不確定性推理計(jì)算方法[7],是一種廣泛應(yīng)用于決策融合和信息融合上的多數(shù)據(jù)融合方法,在多分類器融合、不確定性推理、多準(zhǔn)則決策等領(lǐng)域都得到了廣泛的應(yīng)用。

在DS 證據(jù)理論中識(shí)別框架是不確定性問(wèn)題所有可能發(fā)生事件的集合[8],用Θ={A1,A2,…,An}來(lái)表示,Ai為識(shí)別框架Θ 的一個(gè)子集。 識(shí)別框架內(nèi)的子集兩兩之間相互排斥,其冪集用2Θ表示,表示的是所有可能的問(wèn)題組合。

基本概率分布是DS 證據(jù)理論對(duì)識(shí)別框架中的每一種可能發(fā)生事件的結(jié)果都分配了概率。 基本概率分布配置函數(shù)稱為mass 函數(shù),常用m 來(lái)表示。對(duì)于2Θ中的任何命題A,mass 函數(shù)在識(shí)別框架的冪集2Θ滿足以下條件

式中:? 為空集,表示不可能發(fā)生的命題;m( A)為A 的基本概率分配函數(shù),反映了證據(jù)對(duì)命題A 的支持程度。

組合規(guī)則是DS 證據(jù)理論的核心,DS 證據(jù)理論的融合基本策略就是將多個(gè)獨(dú)立證據(jù)函數(shù)m1,m2,…,mi進(jìn)行正交運(yùn)算,用⊕表示組合運(yùn)算,則

2 個(gè)證據(jù)體Ai和Bi的合成公式可以表示為

同理,多證據(jù)體的情況計(jì)算公式為

式中:1/( 1-k) 為歸一化因子;n 為發(fā)生事件的個(gè)數(shù);k 反映了證據(jù)體之間沖突程度的大小,值越大,沖突程度越大,取值范圍為[0,1]。

2.2 組合特征

原始的語(yǔ)音信號(hào)中有著大量的冗余信息,空間特征也較為復(fù)雜。 如果將原始的語(yǔ)音信號(hào)直接送入神經(jīng)網(wǎng)絡(luò)會(huì)導(dǎo)致網(wǎng)絡(luò)模型承擔(dān)額外的計(jì)算量,導(dǎo)致網(wǎng)絡(luò)訓(xùn)練的效果并不理想。 因此對(duì)原始語(yǔ)音信號(hào)進(jìn)行特征提取選取出具有代表的數(shù)據(jù)用于表征語(yǔ)音信號(hào)能減少包含的冗余信息,減輕網(wǎng)絡(luò)的負(fù)擔(dān),提高訓(xùn)練的效果。

本文選取了5 種聲學(xué)特征進(jìn)行組合,相較于單一特征能夠更加全面有效地表征語(yǔ)音信號(hào)。 這5 種特征分別是梅爾倒譜系數(shù)( Mel-scale Frequency Cepstral Coefficients,MFCC)、 對(duì)數(shù)梅爾頻譜( Logarithmic Mel Spectrum,Log-Mel)、 色度特征( Chroma)、 光譜對(duì)比度特征( Spectral Contrast)和調(diào)性網(wǎng)絡(luò)特征( Tonnetz)。 分別將MFCC 和Log-Mel 與其他3 種特征的譜圖垂直拼接得到MFCST 特征和LMCST 特征。 2 種組合特征的語(yǔ)譜圖如圖2 所示。

圖2 MFCST 與LMCST 語(yǔ)譜圖

2.3 密集卷積網(wǎng)絡(luò)

在卷積神經(jīng)網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)層數(shù)的加深,提取的像素特征就越準(zhǔn)確。但是網(wǎng)絡(luò)層數(shù)并不是越多越好,過(guò)多的網(wǎng)絡(luò)層數(shù)會(huì)帶來(lái)訓(xùn)練過(guò)程中前傳信號(hào)和梯度信號(hào)的消失問(wèn)題。 殘差網(wǎng)絡(luò)( ResNet)的出現(xiàn)解決了這一問(wèn)題,ResNet 的核心是通過(guò)建立前層與后層之間的連接,可以實(shí)現(xiàn)訓(xùn)練過(guò)程中梯度的反向傳播,可以訓(xùn)練出更深的卷積神經(jīng)網(wǎng)絡(luò)。密集卷積網(wǎng)絡(luò)( DenseNet)是基于ResNet 思想提出的一種網(wǎng)絡(luò)結(jié)構(gòu),與ResNet 相比是一種更密集的連接方式,將所有層都相互連接起來(lái)。 DenseNet 的這種連接方式會(huì)使得當(dāng)前層的輸入來(lái)自于前面所有層的輸出,而不是僅僅只有前一層的輸出。這樣的方式充分利用了可用的特征信息,并對(duì)特征進(jìn)行重用,大大減少了訓(xùn)練模型所需的參數(shù)量,同時(shí)還減輕了網(wǎng)絡(luò)加深梯度消失的問(wèn)題。

2.4 多分類器DS 融合

由于在現(xiàn)實(shí)環(huán)境中存在各種外界因素的干擾,采用單一神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練效果并不理想, 而基于DS證據(jù)理論的決策融合算法可以利用數(shù)據(jù)集訓(xùn)練不同的分類器進(jìn)行融合。 本文選取的網(wǎng)絡(luò)為DenseNet-121,將從語(yǔ)音數(shù)據(jù)提取到的2 種組合特征MFCST 和LMCST 分別作為2 個(gè)網(wǎng)絡(luò)的輸入, 從2 個(gè)網(wǎng)絡(luò)提取到softmax 層的輸出后,利用DS 證據(jù)理論進(jìn)行融合。 DS-DenseNet 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

圖3 基于DS 證據(jù)理論的網(wǎng)絡(luò)結(jié)構(gòu)

3 實(shí)驗(yàn)分析

為了驗(yàn)證本文提出的基于DS 證據(jù)理論多特征融合模型的有效性,從SAM 語(yǔ)料庫(kù)[9]中抽取了18 000 個(gè)語(yǔ)音片段作為訓(xùn)練集,模型在AVA 數(shù)據(jù)集上進(jìn)行測(cè)試。 對(duì)聲音片段進(jìn)行分幀處理,重疊率為87.5%。 利用Python 的librosa 庫(kù) 提 取MFCC、Log-Mel、Chroma、Spectral Contrast 和Tonnetz 特征。 為了研究特征維數(shù)的影響,組合特征分別使用了24 維、32 維和64 維的MFCC、Log-Mel 與8 維的Chroma、16 維的Tonnetz 和8 維的Spectral Con trast 進(jìn)行拼接,將拼接組合特征MFCST 和LMCST 輸入到網(wǎng)絡(luò)中,用于提取說(shuō)話人的嵌入特征,提取到說(shuō)話人的特征序列之后進(jìn)行層次聚類得到說(shuō)話人分割聚類的結(jié)果。

為了評(píng)估系統(tǒng)的性能,采用說(shuō)話人分割聚類錯(cuò)誤率( Diarization Error Rate,DER) 作為系統(tǒng)的評(píng)價(jià)指標(biāo),其定義如下

DER=MSR+FASR+Speaker Error,

式中:MSR 為漏警, 表示有效語(yǔ)音部分被誤判為非語(yǔ)音部分的比例;FASR 為虛警,表示非語(yǔ)音的部分被誤判為有效語(yǔ)音部分;Speaker Error 表示說(shuō)話人分類錯(cuò)誤,表示原來(lái)屬于某個(gè)說(shuō)話人的語(yǔ)音被誤判為另一說(shuō)話人語(yǔ)音的比例。這3 種錯(cuò)誤來(lái)源于說(shuō)話人分割聚類的不同步驟,MSR 和FASR 是有效語(yǔ)音檢測(cè)模塊產(chǎn)生的錯(cuò)誤,而Speaker Error 是說(shuō)話人轉(zhuǎn)換點(diǎn)檢測(cè)和說(shuō)話人聚類產(chǎn)生的錯(cuò)誤。

為了將組合特征與單特征進(jìn)行性能比較,首先使用了24 維的MFCC、Log-Mel 與其他3 種特征的組合,將單MFCC、Log-Mel 與2 種組合特征輸入DenseNet 網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)( 表1)。

表1 單特征與組合特征的DER

由表1 可知,組合特征相較于單特征用作網(wǎng)絡(luò)的輸入,在相同條件下能夠得到更為準(zhǔn)確的結(jié)果。為了測(cè)試進(jìn)行DS 理論融合結(jié)果及特征維度的影響, 分別將24 維、32 維和64 維的MFCC、Log-Mel 與其他3 種特征進(jìn)行組合,用于DS-DenseNet 的輸入進(jìn)行實(shí)驗(yàn)( 表2)。

表2 DS-DenseNet 下不同維度特征的DER

通過(guò)與表1 對(duì)比, 可以發(fā)現(xiàn)進(jìn)行DS 融合后系統(tǒng)的性能得到了提升,并且在本文選用的3 種特征維度中,32維的特征維度取得了最好的結(jié)果。

4 結(jié)束語(yǔ)

本文提出基于DS 證據(jù)理論多特征融合模型的說(shuō)話人分割聚類提高了分割聚類系統(tǒng)的性能。 與單一特征相比,2 種組合特征的系統(tǒng)準(zhǔn)確率得到了提升,將2 種組合特征使用DS 證據(jù)理論進(jìn)行融合后再作為分割聚類系統(tǒng)的輸入能進(jìn)一步提升系統(tǒng)的精度。 特征維度也對(duì)系統(tǒng)性能有一定影響, 其中在本文選取的3 種特征維度中,32維取得了最高的精度。

猜你喜歡
音頻語(yǔ)音聚類
魔力語(yǔ)音
基于MATLAB的語(yǔ)音信號(hào)處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
對(duì)方正在輸入……
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DBSACN聚類算法的XML文檔聚類
音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
Pro Tools音頻剪輯及修正
人間(2015年8期)2016-01-09 13:12:42
基于改進(jìn)的遺傳算法的模糊聚類算法
安溪县| 六安市| 金阳县| 铁岭市| 浦江县| 阿合奇县| 庄浪县| 内黄县| 宁德市| 长海县| 葵青区| 嵊泗县| 平远县| 芷江| 农安县| 弥勒县| 阿克陶县| 磴口县| 穆棱市| 铜鼓县| 乐山市| 道孚县| 鄂温| 突泉县| 灵石县| 海林市| 南通市| 抚远县| 建平县| 黔南| 华蓥市| 郧西县| 涟水县| 彝良县| 罗源县| 麟游县| 龙江县| 湄潭县| 延庆县| 桦南县| 奉化市|