劉宓
(哈爾濱商業(yè)大學(xué)外語學(xué)院,黑龍江 哈爾濱 150028)
說話人聚類是通過一種無監(jiān)督的聚類方式,其重點在于將雜亂無序的說話人片段自動地組合在一起,是說話人分離技術(shù)中的一個重要環(huán)節(jié)。聚類后在理想情況下,不同類別中的片段屬于不同的說話人,且每個類別的片段僅屬于同一個說話人。在電話會議轉(zhuǎn)寫和語言識別中說話人聚類可以提高電話會議轉(zhuǎn)寫和語音識別的準(zhǔn)確度,提供更可靠的說話人模型給說話人自適應(yīng),并把相同的說話人語音段通過說話人聚類技術(shù)聚為一類,因此被較為廣泛的應(yīng)用在電話會議轉(zhuǎn)寫和語言識別中?;诰嚯x準(zhǔn)則的層次聚類方法是現(xiàn)有的說話人聚類通常所采用的,而信息瓶頸、歸一化似然比、廣義似然比、相對熵以及貝葉斯信息準(zhǔn)則為可選的相似性度量準(zhǔn)則。最早是用于說話人分割和聚類的就是貝葉斯信息準(zhǔn)則距離準(zhǔn)則。然而,BIC的單高斯模型隨著不斷增加的聚類時長,對于說話人數(shù)據(jù)的分布已經(jīng)不足以描述??梢栽谡f話人片段時長足夠的情況下得到較好結(jié)果的是基于通用背景模型和最大后驗估計的交叉似然比。針對誤差向上傳遞的情況由于傳統(tǒng)的說話人聚類算法而出現(xiàn),本文實現(xiàn)說話人聚類時結(jié)合了長時PLDA和短時BIC的優(yōu)異區(qū)分性,對說話人片段重新調(diào)優(yōu),利用了軟聚類方式,提出了相應(yīng)的改進(jìn)策略。不管是說話人純度還是聚類的類純度,經(jīng)過實驗表明都有了一定的提升。
基于長時概率線性制別分析和短時BIC融合的方法是基線所采用的[1]。其流程如下圖一所示,整個流程對PLDA對長時片段的區(qū)分性優(yōu)勢和BIC的單高斯對短時說話人片段的描述能力進(jìn)行了充分的利用。
圖一 基線系統(tǒng)實現(xiàn)框圖
說話人片段給定分割后,借助于自底向上的BIC層次聚類方式,不斷地合并可能屬于同一個人的片段,并合并后段的平均時長是否大于設(shè)定值進(jìn)行檢查,在滿足情況的條件下,對每個說話人片段建模時利用區(qū)分性更強(qiáng)的PLDA模型,并對兩兩之間的PLDA得分進(jìn)行計算,反之則繼續(xù)BIC層次聚類。根據(jù)大量實驗數(shù)據(jù)統(tǒng)計出的不同人和相同人之間的PLDA得分分布可以獲得其中說話人聚類的最終停止門限。
雖然在場景較為簡單的雙人對話中,基于說話人聚類基線搭建的完整的說話人分離系統(tǒng)可以達(dá)到完全實用的水平,然而當(dāng)遇到多人參與、重疊音、對話中含笑聲以及背景音較強(qiáng)等復(fù)雜場景時,其表現(xiàn)卻并不如人意[2]。初始時每個說話人片段的類純度在實際的聚類系統(tǒng)中不能夠得到保證則是其根本原因??捎眯畔⒃诖蠖鄶?shù)為1~2s的每個片段中包含較少?;贐IC距離準(zhǔn)則的層次聚類方式并不能保證全局最優(yōu),其本質(zhì)上是一種貪心算法,在出現(xiàn)聚類誤差也會向上一直傳遞到最終結(jié)果。此外,在短時上BIC的單高斯模型并非偏向于說話人信息,而是文本信息。本文提出的逐級算法處理機(jī)制是以原有系統(tǒng)為基礎(chǔ)來提升系統(tǒng)的聚類效果。首先預(yù)先設(shè)定某個值,當(dāng)BIC距離超過設(shè)定的門限值或者BIC層次聚類的類別數(shù)到達(dá)時,對所有的說話人片段借助于VB進(jìn)行全局調(diào)優(yōu),注冊數(shù)據(jù)則選擇屬于一個類別的所有片段,最后確定說話人個數(shù)時則根據(jù)得分門限。圖二所示為其改進(jìn)系統(tǒng)實現(xiàn)框圖。
圖二 改進(jìn)系統(tǒng)實現(xiàn)框圖
電話信道數(shù)據(jù)集為本次實驗的主要測試數(shù)據(jù)總共有每條時長約5min的2212條雙人對話語音。相比于基線系統(tǒng),平均說話人純度和平均類純度在說話人聚類層面上改進(jìn)后的系統(tǒng)分別提升了2.30%和1.68%。改進(jìn)后的系統(tǒng)在其他情況完全相同的條件下,可以讓最終的說話人分類錯誤率 DER也相對下降了27.6%。不管是一步 BIC層次聚類后還是隨機(jī)初始化每個片段的后驗概率,其效果相比與基線PL DA +BIC都要好。對于某個片段屬于某個說話人的可能性后者相當(dāng)于人為地加強(qiáng)或抑制,因此效果上會有所增加。而ACP和 ASP在V B改進(jìn)后的系統(tǒng)和基線中都不是太高。通過分析類純度較低的音頻后可以得出,其轉(zhuǎn)折點檢測即使在標(biāo)簽 VAD 下這些對話雙方音色比較接近的依舊存在誤差,而漏警也很容易產(chǎn)生,聚類結(jié)果也受到了直接的影響[3]。
綜上所述,針對基線中的 BIC+PLDA 說話人聚類方法,誤差向上傳遞在層次聚類時會出現(xiàn)的情況,本文提出了逐級算法增強(qiáng)處理機(jī)制。在對最優(yōu)化目標(biāo)函數(shù)進(jìn)行保證的情況下,根據(jù)短時片段上提取出的VB-I-vector,對每個短時片段調(diào)優(yōu)時則利用最大后驗估計方法。通過實驗可以得出,對于聚類效果這種 VB調(diào)優(yōu)策略有了一定的提升,且極大地提升了整個說話人分離系統(tǒng)的效果。然而,VB調(diào)優(yōu)涉及方差的計算和復(fù)雜的后驗均值,是一種迭代過程。所以,相對于基線系統(tǒng)而言,其計算的實時率會慢上很多。在電話信道上雖然本文所提出的方法可以有很大的改善,但是聚類效果在實際應(yīng)用中由于多人參與、重疊音、對話中含笑聲以及背景音較強(qiáng)等復(fù)雜場景都會受到直接的影響,從而使分離系統(tǒng)的性能受到影響。除此之外,未來工作的一個重點就是對說話人實際數(shù)目如何進(jìn)行精確的確定。