国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

變分貝葉斯改進(jìn)視角下說話人聚類算法

2019-10-21 07:23劉宓
魅力中國 2019年21期
關(guān)鍵詞:后驗純度貝葉斯

劉宓

(哈爾濱商業(yè)大學(xué)外語學(xué)院,黑龍江 哈爾濱 150028)

說話人聚類是通過一種無監(jiān)督的聚類方式,其重點在于將雜亂無序的說話人片段自動地組合在一起,是說話人分離技術(shù)中的一個重要環(huán)節(jié)。聚類后在理想情況下,不同類別中的片段屬于不同的說話人,且每個類別的片段僅屬于同一個說話人。在電話會議轉(zhuǎn)寫和語言識別中說話人聚類可以提高電話會議轉(zhuǎn)寫和語音識別的準(zhǔn)確度,提供更可靠的說話人模型給說話人自適應(yīng),并把相同的說話人語音段通過說話人聚類技術(shù)聚為一類,因此被較為廣泛的應(yīng)用在電話會議轉(zhuǎn)寫和語言識別中?;诰嚯x準(zhǔn)則的層次聚類方法是現(xiàn)有的說話人聚類通常所采用的,而信息瓶頸、歸一化似然比、廣義似然比、相對熵以及貝葉斯信息準(zhǔn)則為可選的相似性度量準(zhǔn)則。最早是用于說話人分割和聚類的就是貝葉斯信息準(zhǔn)則距離準(zhǔn)則。然而,BIC的單高斯模型隨著不斷增加的聚類時長,對于說話人數(shù)據(jù)的分布已經(jīng)不足以描述??梢栽谡f話人片段時長足夠的情況下得到較好結(jié)果的是基于通用背景模型和最大后驗估計的交叉似然比。針對誤差向上傳遞的情況由于傳統(tǒng)的說話人聚類算法而出現(xiàn),本文實現(xiàn)說話人聚類時結(jié)合了長時PLDA和短時BIC的優(yōu)異區(qū)分性,對說話人片段重新調(diào)優(yōu),利用了軟聚類方式,提出了相應(yīng)的改進(jìn)策略。不管是說話人純度還是聚類的類純度,經(jīng)過實驗表明都有了一定的提升。

一、PLDA+BIC基線系統(tǒng)

基于長時概率線性制別分析和短時BIC融合的方法是基線所采用的[1]。其流程如下圖一所示,整個流程對PLDA對長時片段的區(qū)分性優(yōu)勢和BIC的單高斯對短時說話人片段的描述能力進(jìn)行了充分的利用。

圖一 基線系統(tǒng)實現(xiàn)框圖

說話人片段給定分割后,借助于自底向上的BIC層次聚類方式,不斷地合并可能屬于同一個人的片段,并合并后段的平均時長是否大于設(shè)定值進(jìn)行檢查,在滿足情況的條件下,對每個說話人片段建模時利用區(qū)分性更強(qiáng)的PLDA模型,并對兩兩之間的PLDA得分進(jìn)行計算,反之則繼續(xù)BIC層次聚類。根據(jù)大量實驗數(shù)據(jù)統(tǒng)計出的不同人和相同人之間的PLDA得分分布可以獲得其中說話人聚類的最終停止門限。

二、變分貝葉斯調(diào)優(yōu)系統(tǒng)

雖然在場景較為簡單的雙人對話中,基于說話人聚類基線搭建的完整的說話人分離系統(tǒng)可以達(dá)到完全實用的水平,然而當(dāng)遇到多人參與、重疊音、對話中含笑聲以及背景音較強(qiáng)等復(fù)雜場景時,其表現(xiàn)卻并不如人意[2]。初始時每個說話人片段的類純度在實際的聚類系統(tǒng)中不能夠得到保證則是其根本原因??捎眯畔⒃诖蠖鄶?shù)為1~2s的每個片段中包含較少?;贐IC距離準(zhǔn)則的層次聚類方式并不能保證全局最優(yōu),其本質(zhì)上是一種貪心算法,在出現(xiàn)聚類誤差也會向上一直傳遞到最終結(jié)果。此外,在短時上BIC的單高斯模型并非偏向于說話人信息,而是文本信息。本文提出的逐級算法處理機(jī)制是以原有系統(tǒng)為基礎(chǔ)來提升系統(tǒng)的聚類效果。首先預(yù)先設(shè)定某個值,當(dāng)BIC距離超過設(shè)定的門限值或者BIC層次聚類的類別數(shù)到達(dá)時,對所有的說話人片段借助于VB進(jìn)行全局調(diào)優(yōu),注冊數(shù)據(jù)則選擇屬于一個類別的所有片段,最后確定說話人個數(shù)時則根據(jù)得分門限。圖二所示為其改進(jìn)系統(tǒng)實現(xiàn)框圖。

圖二 改進(jìn)系統(tǒng)實現(xiàn)框圖

三、實驗過程及結(jié)果分析

電話信道數(shù)據(jù)集為本次實驗的主要測試數(shù)據(jù)總共有每條時長約5min的2212條雙人對話語音。相比于基線系統(tǒng),平均說話人純度和平均類純度在說話人聚類層面上改進(jìn)后的系統(tǒng)分別提升了2.30%和1.68%。改進(jìn)后的系統(tǒng)在其他情況完全相同的條件下,可以讓最終的說話人分類錯誤率 DER也相對下降了27.6%。不管是一步 BIC層次聚類后還是隨機(jī)初始化每個片段的后驗概率,其效果相比與基線PL DA +BIC都要好。對于某個片段屬于某個說話人的可能性后者相當(dāng)于人為地加強(qiáng)或抑制,因此效果上會有所增加。而ACP和 ASP在V B改進(jìn)后的系統(tǒng)和基線中都不是太高。通過分析類純度較低的音頻后可以得出,其轉(zhuǎn)折點檢測即使在標(biāo)簽 VAD 下這些對話雙方音色比較接近的依舊存在誤差,而漏警也很容易產(chǎn)生,聚類結(jié)果也受到了直接的影響[3]。

綜上所述,針對基線中的 BIC+PLDA 說話人聚類方法,誤差向上傳遞在層次聚類時會出現(xiàn)的情況,本文提出了逐級算法增強(qiáng)處理機(jī)制。在對最優(yōu)化目標(biāo)函數(shù)進(jìn)行保證的情況下,根據(jù)短時片段上提取出的VB-I-vector,對每個短時片段調(diào)優(yōu)時則利用最大后驗估計方法。通過實驗可以得出,對于聚類效果這種 VB調(diào)優(yōu)策略有了一定的提升,且極大地提升了整個說話人分離系統(tǒng)的效果。然而,VB調(diào)優(yōu)涉及方差的計算和復(fù)雜的后驗均值,是一種迭代過程。所以,相對于基線系統(tǒng)而言,其計算的實時率會慢上很多。在電話信道上雖然本文所提出的方法可以有很大的改善,但是聚類效果在實際應(yīng)用中由于多人參與、重疊音、對話中含笑聲以及背景音較強(qiáng)等復(fù)雜場景都會受到直接的影響,從而使分離系統(tǒng)的性能受到影響。除此之外,未來工作的一個重點就是對說話人實際數(shù)目如何進(jìn)行精確的確定。

猜你喜歡
后驗純度貝葉斯
一類傳輸問題的自適應(yīng)FEM-BEM方法
退火工藝對WTi10靶材組織及純度的影響
基于貝葉斯定理的證據(jù)推理研究
基于貝葉斯解釋回應(yīng)被告人講述的故事
基于貝葉斯理論的云模型參數(shù)估計研究
租賃房地產(chǎn)的多主體貝葉斯博弈研究
租賃房地產(chǎn)的多主體貝葉斯博弈研究
一種基于最大后驗框架的聚類分析多基線干涉SAR高度重建算法
間接滴定法測定氯化銅晶體的純度
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
宜丰县| 高安市| 册亨县| 青海省| 红原县| 沐川县| 莱芜市| 阳山县| 上饶县| 襄汾县| 宜良县| 桦甸市| 连平县| 祥云县| 洛阳市| 昌江| 新乡市| 石屏县| 土默特左旗| 密云县| 靖边县| 府谷县| 久治县| 木里| 宜川县| 塘沽区| 会理县| 平原县| 安福县| 文化| 金昌市| 汝阳县| 贵德县| 莲花县| 淳化县| 凌源市| 桑植县| 壤塘县| 尚志市| 青浦区| 梅河口市|