張翠玲 劉奔航
(1 西南政法大學(xué)刑事偵查學(xué)院 重慶 401120;2 重慶高校刑事科學(xué)技術(shù)重點(diǎn)實(shí)驗(yàn)室 重慶 401120)
隨著社會(huì)的不斷發(fā)展,網(wǎng)絡(luò)媒體及音視頻技術(shù)也越發(fā)普及。眾多網(wǎng)絡(luò)交流媒體平臺(tái)為人們提供巨大便捷的同時(shí),也帶來了較大的社會(huì)安全隱患。近年來,越來越多的不法分子利用網(wǎng)絡(luò)平臺(tái)從事違法犯罪活動(dòng)。2021年3月8日,最高人民檢察院發(fā)布的工作報(bào)告顯示,2020年共起訴網(wǎng)絡(luò)犯罪14.2萬人,在刑事案件總量下降背景下,網(wǎng)絡(luò)犯罪卻同比上升了47.9%[1]。典型的網(wǎng)絡(luò)犯罪包括諸如“殺魚盤”“殺豬盤”等詐騙案件,以及諸如“快播案”[2]等利用“抖音”“快手”等短視頻社交平臺(tái)實(shí)施造謠、傳播虛假信息類案件。隨著網(wǎng)絡(luò)媒體的井噴式發(fā)展,媒體平臺(tái)上的大量語音信息成為偵查破案的有利線索和重要證據(jù)。由此,網(wǎng)絡(luò)媒體語音數(shù)據(jù)也成為司法語音研究中的一類新的場景對象。
法庭說話人識(shí)別通過對檢材語音與樣本語音的分析比較,推斷二者的同源性[3]。司法實(shí)踐中,法庭說話人識(shí)別的基本方法可以大體分為兩類,即聽覺-聲學(xué)-語音學(xué)分析方法和自動(dòng)說話人識(shí)別方法。聽覺-聲學(xué)-語音學(xué)分析方法主要依靠人工專家,提取檢材語音和樣本語音中的相同音節(jié),進(jìn)行聽覺和聲學(xué)上的分析比較。該方法嚴(yán)重依賴專家的主觀經(jīng)驗(yàn),客觀性較差,對檢材語音和樣本語音的要求較高,且耗時(shí)費(fèi)力。比較而言,自動(dòng)說話人識(shí)別不僅對檢材語音和樣本語音的要求低,省時(shí)省力,而且客觀性、透明性、可重復(fù)性都很好。特別是面對存在大量涉案語音數(shù)據(jù)的復(fù)雜場景,自動(dòng)識(shí)別的優(yōu)越性則更加凸顯。此外,基于似然比框架的法庭說話人識(shí)別不僅可以量化評估語音證據(jù)的價(jià)值,還可以通過對反映案件現(xiàn)實(shí)條件的、相關(guān)背景語音數(shù)據(jù)的系統(tǒng)驗(yàn)證,測試該案件場景下系統(tǒng)識(shí)別的準(zhǔn)確性和可靠性[4],從而更好地滿足法庭對科學(xué)證據(jù)的標(biāo)準(zhǔn)要求[5-7]。
近年來,國際國內(nèi)都不同程度地開展了法庭說話人自動(dòng)識(shí)別系統(tǒng)的研究,并基于似然比框架方法對不同系統(tǒng)進(jìn)行了實(shí)驗(yàn)測試和性能驗(yàn)證。2016年,Morrison等人基于一起實(shí)際語音案件條件構(gòu)建了一個(gè)法庭語音評價(jià)數(shù)據(jù)庫(forensic_eval_01),并對國際上基于不同統(tǒng)計(jì)模型的10個(gè)說話人自動(dòng)識(shí)別系統(tǒng)開展了性能驗(yàn)證研究[8]。驗(yàn)證的結(jié)果表明,相對GMM-UBM(Gaussian Mixture Model-Universal Background Model)和i-vector PLDA(Probabilistic Linear Discriminant Analysis)模型來說,x-vector PLDA模型系統(tǒng)取得了最好的識(shí)別效果[9]。2021年,國際上13位法庭科學(xué)家和7位支持者聯(lián)名發(fā)表了關(guān)于法庭語音比較系統(tǒng)驗(yàn)證的共識(shí)聲明[10],建立了似然比框架下進(jìn)行法庭說話人識(shí)別系統(tǒng)驗(yàn)證的國際標(biāo)準(zhǔn)。該聲明明確提出,應(yīng)該使用反映案件現(xiàn)實(shí)條件的數(shù)據(jù)庫,基于似然比框架進(jìn)行系統(tǒng)的驗(yàn)證測試。在國內(nèi),張翠玲等也利用forensic_eval_01數(shù)據(jù)庫,對基于GMM-UBM模型的法庭說話人自動(dòng)識(shí)別系統(tǒng)BATVOX 3.1進(jìn)行了驗(yàn)證測試,結(jié)果表明其識(shí)別性能是所有參評系統(tǒng)中性能最差的[11]。張艷云等基于深度神經(jīng)網(wǎng)絡(luò)的x-vector模型系統(tǒng)和似然比框架方法,對較大規(guī)模的重慶方言標(biāo)準(zhǔn)采集語音數(shù)據(jù)進(jìn)行了法庭說話人識(shí)別測試,驗(yàn)證了該場景下自動(dòng)識(shí)別系統(tǒng)的良好性能[12]??偟膩砜矗瑖鴥?nèi)在這方面開展的研究還相對較少。此外,不同案件的場景不同,條件不一,涉及的語音數(shù)據(jù)的類型和特點(diǎn)也不盡相同。在同一案件場景和驗(yàn)證數(shù)據(jù)庫條件下,不同系統(tǒng)的識(shí)別性能會(huì)有所不同;而在不同案件場景和驗(yàn)證數(shù)據(jù)庫條件下,同一系統(tǒng)的識(shí)別性能也會(huì)有所差別。司法實(shí)踐中,不管使用任何系統(tǒng),都應(yīng)該進(jìn)行所涉案件現(xiàn)實(shí)條件下的系統(tǒng)驗(yàn)證,從而有利于證據(jù)價(jià)值的客觀評價(jià)和科學(xué)采信。因此,針對各類案件場景語音數(shù)據(jù)開展說話人識(shí)別系統(tǒng)的驗(yàn)證及其相關(guān)研究是十分必要的。
本文以網(wǎng)絡(luò)媒體語音為研究對象,基于似然比框架的法庭說話人自動(dòng)識(shí)別系統(tǒng),對不同特性和不同條件的語音數(shù)據(jù)進(jìn)行驗(yàn)證測試,評估該系統(tǒng)的性能表現(xiàn),分析研究其中的規(guī)律問題,進(jìn)而為法庭說話人自動(dòng)識(shí)別的司法實(shí)踐提供參考和依據(jù)。
本研究中使用的法庭說話人自動(dòng)識(shí)別系統(tǒng)(FREES lite 1.0)是基于深度神經(jīng)網(wǎng)構(gòu)建的x-vector[13]模型系統(tǒng)。系統(tǒng)首先對語音進(jìn)行預(yù)加重、分幀、加窗、短時(shí)傅里葉變換、Mel濾波,然后提取FBank(Filter Banks)作為前端語音特征。每個(gè)語音段提取23維的FBank特征,提取的幀長為25ms,幀移為10ms。
系統(tǒng)采用的說話人識(shí)別模型是基于embeddings方法的深度神經(jīng)網(wǎng)絡(luò)的DNN x-vector模型。這是目前說話人識(shí)別領(lǐng)域的一種主流模型,因其性能優(yōu)越而得到業(yè)內(nèi)普遍認(rèn)可。該模型基于時(shí)延神經(jīng)網(wǎng)絡(luò)(Time-delay Neural Network,TDNN)結(jié)構(gòu)[14],將每一幀的fbank特征放入TDNN網(wǎng)絡(luò)學(xué)習(xí),得到幀級(jí)別語音特征后,再通過池化層將各幀特征聚合為段級(jí)別語音特征,最后再連接2個(gè)全連接層和一個(gè)softmax層,將每個(gè)語音段映射到對應(yīng)的說話人標(biāo)簽。從第一個(gè)全連接層中提取出低維特征向量x-vector后,再使用線性判別分析[15]對embeddings進(jìn)行降維處理,將特征數(shù)據(jù)從512維降至128維。關(guān)于本系統(tǒng)模型的詳細(xì)介紹見文獻(xiàn)[12]。
系統(tǒng)使用概率線性判別分析(Probabilistic Linear Discriminant Analysis,PLDA)[16]模型作為分類器,進(jìn)行說話人識(shí)別打分,同時(shí)進(jìn)行跨信道補(bǔ)償。PLDA是概率形式的線性判別分析,具有良好的信道補(bǔ)償能力,可用于解決實(shí)際場景語音數(shù)據(jù)與已經(jīng)訓(xùn)練好的基礎(chǔ)模型之間的信道失配問題,有效提升系統(tǒng)的識(shí)別性能。
PLDA基于兩種假設(shè),計(jì)算兩段語音的比較得分。公式(1)為PLDA得分計(jì)算公式,其中,Hs為同一空間假設(shè),代表假設(shè)檢材語音與樣本語音的embeddings來自同一說話人;Hd為不同空間假設(shè),代表假設(shè)檢材語音與樣本語音的embeddings來自同一說話人。n1和n2分別為兩段語音的x-vector矢量。得到的對數(shù)似然比得分score值越大,檢材語音與樣本語音來自同一說話人的可能性越大。
通過PLDA算法得到得分score后,還要基于一定規(guī)模的相關(guān)背景人群語音數(shù)據(jù)庫進(jìn)行得分校準(zhǔn)。校準(zhǔn)過程也是似然比轉(zhuǎn)換過程,可以通過邏輯回歸算法將得分值轉(zhuǎn)換為似然比LR。LR值是證據(jù)強(qiáng)度的量化評價(jià)指標(biāo),以1為界限。LR值大于1,表明證據(jù)支持同一說話人假設(shè);LR值小于1,表明證據(jù)支持不同說話人假設(shè);LR值距離1越大或越小,表明證據(jù)支持對應(yīng)假設(shè)的力度越大,證據(jù)價(jià)值越高。LR值等于1,表明支持兩個(gè)競爭假設(shè)的程度相等,因而沒有價(jià)值。關(guān)于似然比框架的詳細(xì)介紹,參見文獻(xiàn)[17-18]。
本文的數(shù)據(jù)來源于“抖音”“快手”等網(wǎng)絡(luò)自媒體平臺(tái),通過這些自媒體軟件進(jìn)行開放視頻的下載。從“抖音”平臺(tái)和“快手”平臺(tái)上分別選擇了75名用戶,每名用戶下載10個(gè)視頻。視頻中的發(fā)音人均為男性,年齡在20-55歲之間,普通話發(fā)音,水平良好。發(fā)音人職業(yè)比較廣泛,包括教師、律師、主持人、醫(yī)生、自媒體從業(yè)者等。每個(gè)用戶的視頻均為室內(nèi)錄制,比較安靜,噪聲小。視頻錄制的時(shí)間間隔為幾天到一個(gè)月不等,視頻時(shí)長在一分鐘以上不等。對視頻進(jìn)音頻提取處理,采用格式工廠軟件(X64 5.6.0),將全部視頻中的音頻提取出來,保存為“PCM.wav”格式,總計(jì)提取到1500個(gè)音頻。
本文重點(diǎn)關(guān)注采樣率、校準(zhǔn)集規(guī)模、音頻數(shù)量及音頻時(shí)長對法庭說話人自動(dòng)識(shí)別的影響,因此測試內(nèi)容共有4項(xiàng),即分別測試不同采樣率、不同規(guī)模校準(zhǔn)集、不同音頻數(shù)量及不同音頻時(shí)長條件下系統(tǒng)識(shí)別的性能表現(xiàn)。由于測試的內(nèi)容各有不同,每項(xiàng)測試使用的數(shù)據(jù)集、數(shù)據(jù)類型、數(shù)據(jù)規(guī)模也有一定差別。關(guān)于每項(xiàng)測試中所使用測試集的音頻基本屬性、數(shù)據(jù)類型和數(shù)據(jù)規(guī)模,詳見表1。
表1 4項(xiàng)測試使用的音頻數(shù)據(jù)列表
開展說話人識(shí)別系統(tǒng)驗(yàn)證時(shí)一般使用3類語音數(shù)據(jù)集,即訓(xùn)練集、校準(zhǔn)集和測試集。訓(xùn)練集用于對PLDA模型做域自適應(yīng)訓(xùn)練,以解決測試集語音的言語風(fēng)格、方言特征、信道條件和錄制環(huán)境與已訓(xùn)練基礎(chǔ)模型不匹配的問題。校準(zhǔn)集用于對PLDA模型的打分結(jié)果進(jìn)行校準(zhǔn),需要使用人工標(biāo)定好的、已知真實(shí)來源的數(shù)據(jù)進(jìn)行。訓(xùn)練集和校準(zhǔn)集的使用,都是為了提高識(shí)別系統(tǒng)的準(zhǔn)確性。測試集用于對說話人識(shí)別系統(tǒng)的性能進(jìn)行測試,測試結(jié)果通過具體評測指標(biāo)進(jìn)行評價(jià)。
系統(tǒng)評價(jià)采用基于似然比框架的系統(tǒng)評測的標(biāo)準(zhǔn)指標(biāo)進(jìn)行。系統(tǒng)評價(jià)的數(shù)據(jù)指標(biāo)有兩個(gè),一個(gè)是對數(shù)似然比代價(jià)函數(shù)(Log likelihood ratio)[19],另一個(gè)是等誤率(Equal Error Rate,EER)。的表達(dá)式見下式(2):
3.3.2 EER值
EER是說話人識(shí)別測試中常用的評價(jià)指標(biāo),是指系統(tǒng)的錯(cuò)誤接受率和錯(cuò)誤拒絕率相等時(shí)的概率。EER值越低,系統(tǒng)的識(shí)別性能越好。
3.3.3 Tippett圖
Tippett圖,也稱可靠性函數(shù)圖,是似然比框架下法庭說話人識(shí)別系統(tǒng)驗(yàn)證的標(biāo)準(zhǔn)圖示[20]。Tippett圖的橫軸為以10為底的對數(shù)似然比(log10LR),縱軸為同一說話人和不同說話人比較的概率累計(jì)分布(見圖1)。Tippett圖中,向右上延伸的曲線代表同一說話人之間的比較,向左上延伸的曲線代表不同說話人之間的比較。兩條曲線交點(diǎn)處對應(yīng)的概率就是EER。兩條曲線分得越開,交叉點(diǎn)越低,系統(tǒng)識(shí)別的效果越好。
一般來說,語音的采樣率越高,代表語音的質(zhì)量越好,因而說話人識(shí)別的效果也就越好。然而,現(xiàn)實(shí)案件條件下,基于信道傳輸和存儲(chǔ)空間的考慮,通常情況下語音數(shù)據(jù)的采樣率保持在8KHz,如手機(jī)通話語音。采樣率降低會(huì)造成法庭說話人識(shí)別性能的下降,但是具體下降到何種程度還需要實(shí)驗(yàn)測試和量化評價(jià)。為此,我們將50人(每人10個(gè)音頻)的校準(zhǔn)集和50人的測試集(每人10個(gè)音頻)中的全部音頻進(jìn)行了采樣率調(diào)整,分成16KHz和8KHz兩個(gè)組別,音頻長度均為60秒。將兩組測試集數(shù)據(jù)分別輸入系統(tǒng)進(jìn)行說話人識(shí)別,利用相同采樣率的校準(zhǔn)集進(jìn)行校準(zhǔn),測試結(jié)果見表2。
表2 兩種不同采樣率條件下的說話人識(shí)別結(jié)果
從表2中的數(shù)據(jù)可以看出,總體上,兩種采樣率條件下的系統(tǒng)識(shí)別效果都很好。在8KHz采樣率條件下,值達(dá)到0.217,已經(jīng)充分表明了系統(tǒng)的有效性能。但是,相對于16KHz的采樣率組來說,8KHz采樣率組的識(shí)別性能大幅下降,值增加了103%,EER值增加了138%。這充分說明采樣率不同直接對系統(tǒng)識(shí)別的準(zhǔn)確性造成了較大影響,使其識(shí)別性能下降一倍還多。圖1為兩種采樣率條件下系統(tǒng)識(shí)別的Tippett圖。
圖1 8KHz和16KHz采樣率條件下說話人識(shí)別的Tippett圖
就本文采集的短視頻平臺(tái)語音來說,語音的采樣率都很高,絕大部分的音頻都能達(dá)到44KHz,這是網(wǎng)絡(luò)平臺(tái)對音質(zhì)要求較高的緣故。這為法庭說話人識(shí)別提供了非常好的數(shù)據(jù)質(zhì)量和識(shí)別性能。需要指出的是,過高的采樣率并不會(huì)帶來系統(tǒng)識(shí)別性能的顯著提升。對于8KHz頻率范圍的人類語音來說,16KHz的采樣率已經(jīng)足夠保證說話人識(shí)別的性能。而多數(shù)場景下8KHz采樣率的語音的說話人識(shí)別效果也在合理范圍。當(dāng)然,司法實(shí)踐中,有條件情況下還是要首選高采樣率語音數(shù)據(jù)。
校準(zhǔn)集的使用是法庭說話人自動(dòng)識(shí)別的一個(gè)標(biāo)準(zhǔn)步驟,可以有效提升說話人識(shí)別的效果。但是,究竟使用多大規(guī)模的校準(zhǔn)集最為合理,目前還沒有固定標(biāo)準(zhǔn)。校準(zhǔn)集過小,起不到應(yīng)有的效果;校準(zhǔn)集過大,又會(huì)給數(shù)據(jù)采集帶來較大困難。為了研究校準(zhǔn)集規(guī)模的大小對系統(tǒng)識(shí)別性能的影響,我們基于16KHz的采樣率數(shù)據(jù),在50人測試集(每人10個(gè)音頻)不變條件下,調(diào)整校準(zhǔn)集的大小分別進(jìn)行說話人識(shí)別測試。校準(zhǔn)集的規(guī)模從20人開始,依次遞增,每次增加10人,直到最后達(dá)到100人規(guī)模。10組校準(zhǔn)集規(guī)模的說話人識(shí)別結(jié)果見表3。
表3 9種不同規(guī)模校準(zhǔn)集條件下的說話人識(shí)別結(jié)果
圖2為不同規(guī)模校準(zhǔn)集的識(shí)別結(jié)果的折線圖,從中可以更為明顯地看到這種變化規(guī)律。值和EER值以60人規(guī)模為分界點(diǎn),逐漸趨于平穩(wěn),也就是說,60人規(guī)模處于拐點(diǎn)位置。由此,司法實(shí)踐中,可以考慮將60人規(guī)模的校準(zhǔn)集作為下限使用,至少在該類案件語音場景下可供參考。
圖2 不同規(guī)模校準(zhǔn)集條件下的系統(tǒng)識(shí)別性能圖
利用不同規(guī)模校準(zhǔn)集進(jìn)行說話人識(shí)別的Tippett圖,見圖3。
圖3 不同規(guī)模校準(zhǔn)集條件下說話人識(shí)別的Tippett圖
對于校準(zhǔn)集來說,一般要求每個(gè)人至少要有兩個(gè)以上音頻才可以實(shí)現(xiàn)校準(zhǔn)功能。校準(zhǔn)集中每個(gè)人的音頻數(shù)越多,校準(zhǔn)和識(shí)別的效果越好嗎?我們利用50人的校準(zhǔn)集,基于16KHz的采樣率數(shù)據(jù),將每個(gè)說話人的音頻數(shù)量分為2、3、5、7、10等5個(gè)組,然后對50人(每人10個(gè)音頻)的測試集進(jìn)行了說話人識(shí)別測試,結(jié)果見表4。
表4 不同音頻數(shù)量校準(zhǔn)集條件下的說話人識(shí)別結(jié)果
從表4可以得出,對校準(zhǔn)集進(jìn)行不同音頻數(shù)量的調(diào)整之后,系統(tǒng)識(shí)別的值、EER值發(fā)生了一定程度的變化,但整體上相差不大。就值來說,音頻數(shù)量為3個(gè)和7個(gè)時(shí)的值最低(0.091),但與音頻數(shù)量為5個(gè)的結(jié)果(0.092)沒有本質(zhì)差別。音頻數(shù)量為10個(gè)時(shí)的值最高(0.102),但與音頻數(shù)量為2個(gè)的結(jié)果(0.101)在同一水平。對于EER值來說,音頻數(shù)量為5個(gè)時(shí)的EER值最低(0.018),但是與音頻數(shù)量為7個(gè)和10個(gè)時(shí)的EER值基本保持在同一水平。音頻數(shù)量為2個(gè)和3個(gè)時(shí)的結(jié)果接近,都在0.02左右。綜合來看,校準(zhǔn)集中每個(gè)人音頻數(shù)量的持續(xù)增加并沒有帶來系統(tǒng)性能的穩(wěn)定性提高,加之各組指標(biāo)之間的變化幅度比較小,因此,基于系統(tǒng)性能和樣本采集成本的雙重考慮,我們認(rèn)為實(shí)踐中校準(zhǔn)集的每個(gè)人音頻數(shù)仍是至少兩個(gè),當(dāng)然有條件能夠采集3個(gè)更好。
利用不同音頻數(shù)量的校準(zhǔn)集進(jìn)行說話人識(shí)別的Tippett圖,見圖4。
圖4 不同音頻數(shù)量校準(zhǔn)集條件下說話人識(shí)別的Tippett圖
音頻時(shí)長會(huì)對說話人識(shí)別的效果造成較大的影響,因?yàn)閺睦碚撋现v,音頻時(shí)長越長,語音所含的特征信息越豐富,因而越有利于說話人的識(shí)別。但是,在案件現(xiàn)實(shí)條件下,檢材語音都比較短,特別是在刑事案件中,有的案件中檢材語音僅有幾秒鐘。為了探究較短時(shí)長語音對說話人自動(dòng)識(shí)別系統(tǒng)的影響程度,我們在50個(gè)人的測試集中,基于16KHz的采樣率數(shù)據(jù),從每人的10個(gè)音頻中隨機(jī)選取2個(gè)音頻進(jìn)行剪輯處理。前面的測試集中每個(gè)人均采用的是10個(gè)音頻,目的是為了增加測試的難度,該項(xiàng)測試中之所以選擇兩個(gè)音頻,主要是基于案件現(xiàn)實(shí)場景考慮。實(shí)際案件中,檢材語音和樣本語音各有一段的情況居多。
利用“Adobe Audition 2019”軟件對所有的音頻進(jìn)行批量剪輯,將全部音頻分別剪切為5s、10s、15s、20s 4個(gè)長度組別,然后進(jìn)行說話人識(shí)別測試,結(jié)果見表5。
表5 不同音頻時(shí)長條件下的說話人識(shí)別結(jié)果
表5中的數(shù)據(jù)表明,整體上,音頻時(shí)長的增加確實(shí)帶來了系統(tǒng)性能的改善,時(shí)長為15s時(shí)系統(tǒng)識(shí)別效果最佳。以15s為基準(zhǔn),當(dāng)時(shí)長從5s增加到15s時(shí),值降低了31%,EER值降低了38%,系統(tǒng)性能得到了明顯提升。當(dāng)時(shí)長從10s增加到15s時(shí),值降低了11%,EER值降低了44%,系統(tǒng)性能仍在提升。但是,當(dāng)時(shí)長由15s增加到20s時(shí),值未降反升,提高了15%,EER值也未改變。這意味著,音頻時(shí)長達(dá)到一定程度以后,繼續(xù)增加并沒有帶來系統(tǒng)性能的持續(xù)改善。當(dāng)然,這與相同音頻時(shí)長內(nèi)的有效語音信息量并不相等有關(guān)。實(shí)踐中,在檢材語音長度可控性較低的情況下,還是應(yīng)該盡可能采集較長的樣本語音進(jìn)行比較,以保證識(shí)別的效果。
不同音頻時(shí)長條件下進(jìn)行說話人識(shí)別的Tippett圖,見圖5。
圖5 不同音頻時(shí)長下進(jìn)行說話人識(shí)別的Tippett圖
此外,需要指出的是,本研究中4項(xiàng)測試的時(shí)長均是音頻的總體時(shí)長,并非去掉靜默段后的有效時(shí)長。針對4種時(shí)長音頻的有效時(shí)長進(jìn)行了初步統(tǒng)計(jì),每種選擇了10個(gè)代表性音頻進(jìn)行了有效時(shí)長的平均值提取,5s、10s、15s、20s音頻去掉靜默段的有效時(shí)長平均在4.5s、8.7s、13.7s、17.8s左右。網(wǎng)絡(luò)媒體的音視頻鑒于時(shí)長的限制,一般語速為中等偏上,因此有效時(shí)長相對較長。在這種情況下,系統(tǒng)取得了很好的識(shí)別效果,進(jìn)一步驗(yàn)證了該模型系統(tǒng)的良好性能。
本文采用基于似然比框架的法庭說話人自動(dòng)識(shí)別系統(tǒng),對150名男性的1500個(gè)網(wǎng)絡(luò)媒體語音進(jìn)行了法庭說話人識(shí)別驗(yàn)證研究,分別測試了不同采樣率、不同規(guī)模校準(zhǔn)集、校準(zhǔn)集不同音頻數(shù)量、以及測試集不同音頻時(shí)長條件下的系統(tǒng)性能,量化分析和評價(jià)了這些因素對系統(tǒng)識(shí)別性能的影響。研究表明,在未進(jìn)行PLDA自適應(yīng)訓(xùn)練情況下,系統(tǒng)識(shí)別仍然得到了很好的識(shí)別結(jié)果,表明系統(tǒng)在該類網(wǎng)絡(luò)媒體語音場景下的良好識(shí)別性能??傮w上看,雖然音頻的采樣率越高、校準(zhǔn)集的規(guī)模越大、校準(zhǔn)集說話人音頻數(shù)量越多、測試音頻時(shí)長越長,系統(tǒng)的識(shí)別性能越好,但是這一趨勢并不穩(wěn)定,當(dāng)指標(biāo)達(dá)到一定程度后,繼續(xù)增加指標(biāo)并不會(huì)帶來系統(tǒng)性能的穩(wěn)定提升。
司法實(shí)踐中,我們需要在系統(tǒng)性能和時(shí)效成本之間找到一個(gè)平衡點(diǎn)。基于本研究的語音數(shù)據(jù)質(zhì)量,8KHz采樣率、60人規(guī)模的校準(zhǔn)集、校準(zhǔn)集中每人2~3個(gè)音頻,以及15s的音頻時(shí)長條件下已經(jīng)取得了很好的自動(dòng)說話人識(shí)別效果,而這些條件也反映了一定的案件現(xiàn)實(shí)情況。因此,本研究結(jié)果不僅可以為法庭說話人自動(dòng)識(shí)別技術(shù)的實(shí)踐應(yīng)用提供量化依據(jù),還可以為自動(dòng)識(shí)別系統(tǒng)的性能改進(jìn)提供參考。