變分貝葉斯改進(jìn)視角下說話人聚類算法

2019-10-21 07:23劉宓

魅力中國 2019年21期

劉宓

（哈爾濱商業(yè)大學(xué)外語學(xué)院，黑龍江哈爾濱 150028）

說話人聚類是通過一種無監(jiān)督的聚類方式，其重點在于將雜亂無序的說話人片段自動地組合在一起，是說話人分離技術(shù)中的一個重要環(huán)節(jié)。聚類后在理想情況下，不同類別中的片段屬于不同的說話人，且每個類別的片段僅屬于同一個說話人。在電話會議轉(zhuǎn)寫和語言識別中說話人聚類可以提高電話會議轉(zhuǎn)寫和語音識別的準(zhǔn)確度，提供更可靠的說話人模型給說話人自適應(yīng)，并把相同的說話人語音段通過說話人聚類技術(shù)聚為一類，因此被較為廣泛的應(yīng)用在電話會議轉(zhuǎn)寫和語言識別中?；诰嚯x準(zhǔn)則的層次聚類方法是現(xiàn)有的說話人聚類通常所采用的，而信息瓶頸、歸一化似然比、廣義似然比、相對熵以及貝葉斯信息準(zhǔn)則為可選的相似性度量準(zhǔn)則。最早是用于說話人分割和聚類的就是貝葉斯信息準(zhǔn)則距離準(zhǔn)則。然而，BIC的單高斯模型隨著不斷增加的聚類時長，對于說話人數(shù)據(jù)的分布已經(jīng)不足以描述?？梢栽谡f話人片段時長足夠的情況下得到較好結(jié)果的是基于通用背景模型和最大后驗估計的交叉似然比。針對誤差向上傳遞的情況由于傳統(tǒng)的說話人聚類算法而出現(xiàn)，本文實現(xiàn)說話人聚類時結(jié)合了長時PLDA和短時BIC的優(yōu)異區(qū)分性，對說話人片段重新調(diào)優(yōu)，利用了軟聚類方式，提出了相應(yīng)的改進(jìn)策略。不管是說話人純度還是聚類的類純度，經(jīng)過實驗表明都有了一定的提升。

一、PLDA＋BIC基線系統(tǒng)

基于長時概率線性制別分析和短時BIC融合的方法是基線所采用的[1]。其流程如下圖一所示，整個流程對PLDA對長時片段的區(qū)分性優(yōu)勢和BIC的單高斯對短時說話人片段的描述能力進(jìn)行了充分的利用。

圖一基線系統(tǒng)實現(xiàn)框圖

說話人片段給定分割后，借助于自底向上的BIC層次聚類方式，不斷地合并可能屬于同一個人的片段，并合并后段的平均時長是否大于設(shè)定值進(jìn)行檢查，在滿足情況的條件下，對每個說話人片段建模時利用區(qū)分性更強(qiáng)的PLDA模型，并對兩兩之間的PLDA得分進(jìn)行計算，反之則繼續(xù)BIC層次聚類。根據(jù)大量實驗數(shù)據(jù)統(tǒng)計出的不同人和相同人之間的PLDA得分分布可以獲得其中說話人聚類的最終停止門限。

二、變分貝葉斯調(diào)優(yōu)系統(tǒng)

雖然在場景較為簡單的雙人對話中，基于說話人聚類基線搭建的完整的說話人分離系統(tǒng)可以達(dá)到完全實用的水平，然而當(dāng)遇到多人參與、重疊音、對話中含笑聲以及背景音較強(qiáng)等復(fù)雜場景時，其表現(xiàn)卻并不如人意[2]。初始時每個說話人片段的類純度在實際的聚類系統(tǒng)中不能夠得到保證則是其根本原因?？捎眯畔⒃诖蠖鄶?shù)為1～2s的每個片段中包含較少?；贐IC距離準(zhǔn)則的層次聚類方式并不能保證全局最優(yōu)，其本質(zhì)上是一種貪心算法，在出現(xiàn)聚類誤差也會向上一直傳遞到最終結(jié)果。此外，在短時上BIC的單高斯模型并非偏向于說話人信息，而是文本信息。本文提出的逐級算法處理機(jī)制是以原有系統(tǒng)為基礎(chǔ)來提升系統(tǒng)的聚類效果。首先預(yù)先設(shè)定某個值，當(dāng)BIC距離超過設(shè)定的門限值或者BIC層次聚類的類別數(shù)到達(dá)時，對所有的說話人片段借助于VB進(jìn)行全局調(diào)優(yōu)，注冊數(shù)據(jù)則選擇屬于一個類別的所有片段，最后確定說話人個數(shù)時則根據(jù)得分門限。圖二所示為其改進(jìn)系統(tǒng)實現(xiàn)框圖。

圖二改進(jìn)系統(tǒng)實現(xiàn)框圖

三、實驗過程及結(jié)果分析

電話信道數(shù)據(jù)集為本次實驗的主要測試數(shù)據(jù)總共有每條時長約5min的2212條雙人對話語音。相比于基線系統(tǒng)，平均說話人純度和平均類純度在說話人聚類層面上改進(jìn)后的系統(tǒng)分別提升了2.30%和1.68%。改進(jìn)后的系統(tǒng)在其他情況完全相同的條件下，可以讓最終的說話人分類錯誤率 DER也相對下降了27.6%。不管是一步 BIC層次聚類后還是隨機(jī)初始化每個片段的后驗概率，其效果相比與基線PL DA ＋BIC都要好。對于某個片段屬于某個說話人的可能性后者相當(dāng)于人為地加強(qiáng)或抑制，因此效果上會有所增加。而ACP和 ASP在V B改進(jìn)后的系統(tǒng)和基線中都不是太高。通過分析類純度較低的音頻后可以得出，其轉(zhuǎn)折點檢測即使在標(biāo)簽 VAD 下這些對話雙方音色比較接近的依舊存在誤差，而漏警也很容易產(chǎn)生，聚類結(jié)果也受到了直接的影響[3]。

綜上所述，針對基線中的 BIC＋PLDA 說話人聚類方法，誤差向上傳遞在層次聚類時會出現(xiàn)的情況，本文提出了逐級算法增強(qiáng)處理機(jī)制。在對最優(yōu)化目標(biāo)函數(shù)進(jìn)行保證的情況下，根據(jù)短時片段上提取出的VB-I-vector，對每個短時片段調(diào)優(yōu)時則利用最大后驗估計方法。通過實驗可以得出，對于聚類效果這種 VB調(diào)優(yōu)策略有了一定的提升，且極大地提升了整個說話人分離系統(tǒng)的效果。然而，VB調(diào)優(yōu)涉及方差的計算和復(fù)雜的后驗均值，是一種迭代過程。所以，相對于基線系統(tǒng)而言，其計算的實時率會慢上很多。在電話信道上雖然本文所提出的方法可以有很大的改善，但是聚類效果在實際應(yīng)用中由于多人參與、重疊音、對話中含笑聲以及背景音較強(qiáng)等復(fù)雜場景都會受到直接的影響，從而使分離系統(tǒng)的性能受到影響。除此之外，未來工作的一個重點就是對說話人實際數(shù)目如何進(jìn)行精確的確定。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

變分貝葉斯改進(jìn)視角下說話人聚類算法

一、PLDA＋BIC基線系統(tǒng)

二、變分貝葉斯調(diào)優(yōu)系統(tǒng)

三、實驗過程及結(jié)果分析

一、PLDA＋BIC基線系統(tǒng)

三、實驗過程及結(jié)果分析