基于DS 證據(jù)理論多特征融合模型的說(shuō)話人分割聚類研究

2023-08-21 08:44:48令曉明郭亞龍

科技創(chuàng)新與應(yīng)用 2023年23期

項(xiàng) 羽，令曉明，2，郭亞龍

（ 1.蘭州交通大學(xué) 光電技術(shù)與智能控制教育部重點(diǎn)實(shí)驗(yàn)室，蘭州 730070；2.蘭州交通大學(xué) 國(guó)家綠色鍍膜技術(shù)與裝備工程技術(shù)研究中心，蘭州 730070）

說(shuō)話人分割聚類（ Speaker Diarization）是語(yǔ)音處理的一個(gè)研究方向，主要是作為一種前端處理技術(shù)在語(yǔ)音處理領(lǐng)域使用。是將一段連續(xù)的語(yǔ)音數(shù)據(jù)按不同說(shuō)話人分割成片段，并給每段語(yǔ)音片段標(biāo)注上說(shuō)話人的身份信息，以解決“ 誰(shuí)在什么時(shí)候說(shuō)”的問(wèn)題[1]。說(shuō)話人分割聚類在眾多領(lǐng)域都有著廣泛的應(yīng)用，如在錄音軟件中，可以通過(guò)說(shuō)話人分割聚類技術(shù)將錄音音頻的說(shuō)話人及其說(shuō)話時(shí)長(zhǎng)標(biāo)注出來(lái)，將其作為特征可以快速?gòu)谋姸嘁纛l中找到特定音頻；在會(huì)議場(chǎng)景中，結(jié)合說(shuō)話人分割聚類技術(shù)和語(yǔ)音識(shí)別技術(shù)可以生成一份包含發(fā)言人身份信息的會(huì)議記錄，便于參會(huì)人員回顧會(huì)議內(nèi)容；作為語(yǔ)音領(lǐng)域的前端處理技術(shù)，還可以提升后續(xù)語(yǔ)音處理系統(tǒng)的性能，如語(yǔ)音識(shí)別系統(tǒng)在說(shuō)話人發(fā)生變化的時(shí)間點(diǎn)重置語(yǔ)音識(shí)別模型可以提高語(yǔ)音識(shí)別的準(zhǔn)確率。

最初的說(shuō)話人分割方法是基于能量的[2]，這種方法是假設(shè)在兩人對(duì)話話語(yǔ)之間存在一個(gè)靜默區(qū)域，通過(guò)設(shè)定能量閾值檢測(cè)說(shuō)話人轉(zhuǎn)換點(diǎn)，但是實(shí)際場(chǎng)景存在搶話現(xiàn)象導(dǎo)致分割結(jié)果并不理想。目前比較主流的分割方法有2 種，分別是基于距離和基于模型的分割方法。基于距離的分割方法不需要說(shuō)話人的先驗(yàn)信息，但需劃定門限，魯棒性較差。常用的距離度量有貝葉斯信息準(zhǔn)則（ Bayesian Information Criterion，BIC）、歸一化交叉似然比（ Normalized Cross Likelihood Ratio，NCLR）、T-Test度量距離等[3]。常用的說(shuō)話人聚類方法是層次聚類，進(jìn)行層次聚類有2 種方法，分別是自下而上和自上而下的方法[4]，其中自下而上的方法魯棒性較差，而自上而下的方法區(qū)分性較差，在分割聚類系統(tǒng)中自下而上的方法得到了更為廣泛的使用。

本文提出基于DS 證據(jù)理論多特征融合模型，提取說(shuō)話人的嵌入特征用于說(shuō)話人分割聚類。該模型相較于傳統(tǒng)單一特征或單一神經(jīng)網(wǎng)絡(luò)，說(shuō)話人分割聚類系統(tǒng)性能得以提升。

1 說(shuō)話人分割聚類系統(tǒng)

完整的說(shuō)話人分割聚類系統(tǒng)由預(yù)處理、有效語(yǔ)音檢測(cè)、說(shuō)話人轉(zhuǎn)換點(diǎn)檢測(cè)、說(shuō)話人聚類和二次分割幾部分組成，其示意圖如圖1 所示。

圖1 說(shuō)話人分割聚類系統(tǒng)框圖

1.1 預(yù)處理

音頻信號(hào)如果直接輸入說(shuō)話人分割聚類系統(tǒng)，系統(tǒng)的性能會(huì)不理想。因此在此之前需要對(duì)音頻信號(hào)進(jìn)行預(yù)加重、分幀、加窗等預(yù)處理，由此消除發(fā)聲器官本身和采集設(shè)備采集音頻所帶來(lái)的混疊、高次諧波失真、高頻等因素對(duì)音頻信號(hào)質(zhì)量的影響。

1.2 有效語(yǔ)音檢測(cè)

有效語(yǔ)音檢測(cè)的目的是將輸入的音頻信號(hào)中的語(yǔ)音與非語(yǔ)音分離，只保留說(shuō)話人的語(yǔ)音信號(hào)用于后續(xù)的分割聚類，這里的非語(yǔ)音指的是靜音區(qū)域、環(huán)境噪音、背景音樂(lè)音效等。有效語(yǔ)音檢測(cè)模塊的存在有助于后續(xù)模塊專注于處理音頻信號(hào)的語(yǔ)音部分，由此而提高系統(tǒng)的性能。

1.3 說(shuō)話人轉(zhuǎn)換點(diǎn)檢測(cè)

說(shuō)話人轉(zhuǎn)換點(diǎn)檢測(cè)的目的是檢測(cè)出說(shuō)話人變化的時(shí)間點(diǎn)，再根據(jù)這個(gè)時(shí)間點(diǎn)將語(yǔ)音信號(hào)分割成片段，使其成為只包含一個(gè)說(shuō)話人的音頻片段。目前主流的分割方法有2 種，分別是基于距離和基于模型的方法?；诰嚯x的方法是選取大小相同相鄰的2 個(gè)滑動(dòng)窗，計(jì)算2 個(gè)窗內(nèi)的特征分布之間的距離作為說(shuō)話人分割的依據(jù)，通過(guò)與預(yù)先設(shè)定的閾值或懲罰因子來(lái)進(jìn)行比較判斷2 個(gè)窗內(nèi)的語(yǔ)音是否來(lái)自同一說(shuō)話人[5]?；谀Ｐ偷姆椒ㄊ菍?duì)語(yǔ)音建立起說(shuō)話人模型，將語(yǔ)音分割成等長(zhǎng)的短語(yǔ)音片段，使用建立的說(shuō)話人模型對(duì)這些語(yǔ)音片段進(jìn)行分類，模型之間的邊界就是說(shuō)話人的轉(zhuǎn)換點(diǎn)。除此之外還有基于深度神經(jīng)網(wǎng)絡(luò)的方法，其基本思想是通過(guò)深度神經(jīng)網(wǎng)絡(luò)來(lái)確定當(dāng)前語(yǔ)音幀和說(shuō)話人轉(zhuǎn)換點(diǎn)的相對(duì)位置，然后在所有語(yǔ)音幀中找到和理想的轉(zhuǎn)換點(diǎn)最匹配的語(yǔ)音幀作為說(shuō)話人轉(zhuǎn)換點(diǎn)。基于深度神經(jīng)網(wǎng)絡(luò)的方法相較于前2 種方法準(zhǔn)確率會(huì)更高，但是計(jì)算量會(huì)更大。

1.4 說(shuō)話人聚類

說(shuō)話人聚類是將分割得到的語(yǔ)音片段按說(shuō)話人的身份信息進(jìn)行聚類，類別的數(shù)量就是說(shuō)話人的數(shù)量。常用層次聚類的方法進(jìn)行說(shuō)話人聚類，進(jìn)行層次聚類有自下而上和自上而下2 種方法。自下而上的方法是將每段語(yǔ)音片段都當(dāng)作一類，然后計(jì)算所有類別之間的相似度，接著合并2 個(gè)相似度最高的2 個(gè)類別，合并后重新計(jì)算新類之間的相似度，重復(fù)迭代這一過(guò)程直到完成聚類輸出結(jié)果[6]。自上而下的方法是將所有語(yǔ)音片段當(dāng)成一個(gè)整體類別，然后增加類別并重新分配語(yǔ)音片段，不斷重復(fù)迭代直至達(dá)到目標(biāo)類別數(shù)。除了層次聚類之外還可以使用譜聚類等聚類方法進(jìn)行說(shuō)話人聚類，譜聚類是通過(guò)距離矩陣和相似矩陣將聚類問(wèn)題轉(zhuǎn)化為平面上的帶權(quán)無(wú)向圖的切分問(wèn)題，使得切分得到的子圖之間的權(quán)重和最小，而每個(gè)子圖內(nèi)的權(quán)重和最大。

1.5 二次分割

說(shuō)話人聚類完成后就得到了說(shuō)話人分割聚類的初步結(jié)果，但是得到的結(jié)果可能不夠理想。二次分割就是對(duì)片段的邊界及聚類結(jié)果進(jìn)行進(jìn)一步處理，得到更佳的聚類結(jié)果。二次分割會(huì)帶來(lái)額外的計(jì)算量，而且只能用于離線的說(shuō)話人分割聚類系統(tǒng)，因此二次分割不是必須的。

2 基于DS 融合理論的說(shuō)話人嵌入特征提取

2.1 DS 證據(jù)理論

DS 證據(jù)理論是由Dempster 提出并由Shafer 完善的不確定性推理計(jì)算方法[7]，是一種廣泛應(yīng)用于決策融合和信息融合上的多數(shù)據(jù)融合方法，在多分類器融合、不確定性推理、多準(zhǔn)則決策等領(lǐng)域都得到了廣泛的應(yīng)用。

在DS 證據(jù)理論中識(shí)別框架是不確定性問(wèn)題所有可能發(fā)生事件的集合[8]，用Θ＝{A1，A2，…，An}來(lái)表示，Ai為識(shí)別框架Θ 的一個(gè)子集。識(shí)別框架內(nèi)的子集兩兩之間相互排斥，其冪集用2Θ表示，表示的是所有可能的問(wèn)題組合。

基本概率分布是DS 證據(jù)理論對(duì)識(shí)別框架中的每一種可能發(fā)生事件的結(jié)果都分配了概率。基本概率分布配置函數(shù)稱為mass 函數(shù)，常用m 來(lái)表示。對(duì)于2Θ中的任何命題A，mass 函數(shù)在識(shí)別框架的冪集2Θ滿足以下條件

式中：? 為空集，表示不可能發(fā)生的命題；m（ A）為A 的基本概率分配函數(shù)，反映了證據(jù)對(duì)命題A 的支持程度。

組合規(guī)則是DS 證據(jù)理論的核心，DS 證據(jù)理論的融合基本策略就是將多個(gè)獨(dú)立證據(jù)函數(shù)m1，m2，…，mi進(jìn)行正交運(yùn)算，用⊕表示組合運(yùn)算，則

2 個(gè)證據(jù)體Ai和Bi的合成公式可以表示為

同理，多證據(jù)體的情況計(jì)算公式為

式中：1/（ 1-k）為歸一化因子；n 為發(fā)生事件的個(gè)數(shù)；k 反映了證據(jù)體之間沖突程度的大小，值越大，沖突程度越大，取值范圍為[0，1]。

2.2 組合特征

原始的語(yǔ)音信號(hào)中有著大量的冗余信息，空間特征也較為復(fù)雜。如果將原始的語(yǔ)音信號(hào)直接送入神經(jīng)網(wǎng)絡(luò)會(huì)導(dǎo)致網(wǎng)絡(luò)模型承擔(dān)額外的計(jì)算量，導(dǎo)致網(wǎng)絡(luò)訓(xùn)練的效果并不理想。因此對(duì)原始語(yǔ)音信號(hào)進(jìn)行特征提取選取出具有代表的數(shù)據(jù)用于表征語(yǔ)音信號(hào)能減少包含的冗余信息，減輕網(wǎng)絡(luò)的負(fù)擔(dān)，提高訓(xùn)練的效果。

本文選取了5 種聲學(xué)特征進(jìn)行組合，相較于單一特征能夠更加全面有效地表征語(yǔ)音信號(hào)。這5 種特征分別是梅爾倒譜系數(shù)（ Mel-scale Frequency Cepstral Coefficients，MFCC）、對(duì)數(shù)梅爾頻譜（ Logarithmic Mel Spectrum，Log-Mel）、色度特征（ Chroma）、光譜對(duì)比度特征（ Spectral Contrast）和調(diào)性網(wǎng)絡(luò)特征（ Tonnetz）。分別將MFCC 和Log-Mel 與其他3 種特征的譜圖垂直拼接得到MFCST 特征和LMCST 特征。 2 種組合特征的語(yǔ)譜圖如圖2 所示。

圖2 MFCST 與LMCST 語(yǔ)譜圖

2.3 密集卷積網(wǎng)絡(luò)

在卷積神經(jīng)網(wǎng)絡(luò)中，隨著網(wǎng)絡(luò)層數(shù)的加深，提取的像素特征就越準(zhǔn)確。但是網(wǎng)絡(luò)層數(shù)并不是越多越好，過(guò)多的網(wǎng)絡(luò)層數(shù)會(huì)帶來(lái)訓(xùn)練過(guò)程中前傳信號(hào)和梯度信號(hào)的消失問(wèn)題。殘差網(wǎng)絡(luò)（ ResNet）的出現(xiàn)解決了這一問(wèn)題，ResNet 的核心是通過(guò)建立前層與后層之間的連接，可以實(shí)現(xiàn)訓(xùn)練過(guò)程中梯度的反向傳播，可以訓(xùn)練出更深的卷積神經(jīng)網(wǎng)絡(luò)。密集卷積網(wǎng)絡(luò)（ DenseNet）是基于ResNet 思想提出的一種網(wǎng)絡(luò)結(jié)構(gòu)，與ResNet 相比是一種更密集的連接方式，將所有層都相互連接起來(lái)。 DenseNet 的這種連接方式會(huì)使得當(dāng)前層的輸入來(lái)自于前面所有層的輸出，而不是僅僅只有前一層的輸出。這樣的方式充分利用了可用的特征信息，并對(duì)特征進(jìn)行重用，大大減少了訓(xùn)練模型所需的參數(shù)量，同時(shí)還減輕了網(wǎng)絡(luò)加深梯度消失的問(wèn)題。

2.4 多分類器DS 融合

由于在現(xiàn)實(shí)環(huán)境中存在各種外界因素的干擾，采用單一神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練效果并不理想，而基于DS證據(jù)理論的決策融合算法可以利用數(shù)據(jù)集訓(xùn)練不同的分類器進(jìn)行融合。本文選取的網(wǎng)絡(luò)為DenseNet-121，將從語(yǔ)音數(shù)據(jù)提取到的2 種組合特征MFCST 和LMCST 分別作為2 個(gè)網(wǎng)絡(luò)的輸入，從2 個(gè)網(wǎng)絡(luò)提取到softmax 層的輸出后，利用DS 證據(jù)理論進(jìn)行融合。 DS-DenseNet 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

圖3 基于DS 證據(jù)理論的網(wǎng)絡(luò)結(jié)構(gòu)

3 實(shí)驗(yàn)分析

為了驗(yàn)證本文提出的基于DS 證據(jù)理論多特征融合模型的有效性，從SAM 語(yǔ)料庫(kù)[9]中抽取了18 000 個(gè)語(yǔ)音片段作為訓(xùn)練集，模型在AVA 數(shù)據(jù)集上進(jìn)行測(cè)試。對(duì)聲音片段進(jìn)行分幀處理，重疊率為87.5%。利用Python 的librosa 庫(kù) 提取MFCC、Log-Mel、Chroma、Spectral Contrast 和Tonnetz 特征。為了研究特征維數(shù)的影響，組合特征分別使用了24 維、32 維和64 維的MFCC、Log-Mel 與8 維的Chroma、16 維的Tonnetz 和8 維的Spectral Con trast 進(jìn)行拼接，將拼接組合特征MFCST 和LMCST 輸入到網(wǎng)絡(luò)中，用于提取說(shuō)話人的嵌入特征，提取到說(shuō)話人的特征序列之后進(jìn)行層次聚類得到說(shuō)話人分割聚類的結(jié)果。

為了評(píng)估系統(tǒng)的性能，采用說(shuō)話人分割聚類錯(cuò)誤率（ Diarization Error Rate，DER）作為系統(tǒng)的評(píng)價(jià)指標(biāo)，其定義如下

DER=MSR+FASR+Speaker Error，

式中：MSR 為漏警，表示有效語(yǔ)音部分被誤判為非語(yǔ)音部分的比例；FASR 為虛警，表示非語(yǔ)音的部分被誤判為有效語(yǔ)音部分；Speaker Error 表示說(shuō)話人分類錯(cuò)誤，表示原來(lái)屬于某個(gè)說(shuō)話人的語(yǔ)音被誤判為另一說(shuō)話人語(yǔ)音的比例。這3 種錯(cuò)誤來(lái)源于說(shuō)話人分割聚類的不同步驟，MSR 和FASR 是有效語(yǔ)音檢測(cè)模塊產(chǎn)生的錯(cuò)誤，而Speaker Error 是說(shuō)話人轉(zhuǎn)換點(diǎn)檢測(cè)和說(shuō)話人聚類產(chǎn)生的錯(cuò)誤。

為了將組合特征與單特征進(jìn)行性能比較，首先使用了24 維的MFCC、Log-Mel 與其他3 種特征的組合，將單MFCC、Log-Mel 與2 種組合特征輸入DenseNet 網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)（表1）。

表1 單特征與組合特征的DER

由表1 可知，組合特征相較于單特征用作網(wǎng)絡(luò)的輸入，在相同條件下能夠得到更為準(zhǔn)確的結(jié)果。為了測(cè)試進(jìn)行DS 理論融合結(jié)果及特征維度的影響，分別將24 維、32 維和64 維的MFCC、Log-Mel 與其他3 種特征進(jìn)行組合，用于DS-DenseNet 的輸入進(jìn)行實(shí)驗(yàn)（表2）。

表2 DS-DenseNet 下不同維度特征的DER

通過(guò)與表1 對(duì)比，可以發(fā)現(xiàn)進(jìn)行DS 融合后系統(tǒng)的性能得到了提升，并且在本文選用的3 種特征維度中，32維的特征維度取得了最好的結(jié)果。

4 結(jié)束語(yǔ)

本文提出基于DS 證據(jù)理論多特征融合模型的說(shuō)話人分割聚類提高了分割聚類系統(tǒng)的性能。與單一特征相比，2 種組合特征的系統(tǒng)準(zhǔn)確率得到了提升，將2 種組合特征使用DS 證據(jù)理論進(jìn)行融合后再作為分割聚類系統(tǒng)的輸入能進(jìn)一步提升系統(tǒng)的精度。特征維度也對(duì)系統(tǒng)性能有一定影響，其中在本文選取的3 種特征維度中，32維取得了最高的精度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡