張翠玲
(1.西南政法大學刑事偵查學院, 重慶 401120; 2.重慶高校刑事科學技術(shù)重點實驗室, 重慶 401120)
法庭說話人識別通過分析比較案件錄音證據(jù)中未知身份的說話人語音(檢材語音)與已知身份的嫌疑人語音(樣本語音),進而推斷二者的同源性。隨著該技術(shù)的不斷發(fā)展,各國法庭科學實驗室在特征提取、分析方法、識別系統(tǒng)以及評價體系等方面出現(xiàn)了多態(tài)化局面。近年來,國際上對于法庭科學的要求不斷提高,在客觀性、透明性、重復(fù)性等要求以外,還專門提出了驗證要求:在運用任何法庭分析方法或系統(tǒng)之前,都應(yīng)該基于被檢案件實際條件進行系統(tǒng)驗證和評價。這是保證其司法應(yīng)用的前提和基礎(chǔ)。
美國前總統(tǒng)奧巴馬的科學技術(shù)顧問委員會在2016年9月發(fā)布的PCAST報告[1]中指出:為了確保法庭科學中特征比較方法的科學有效性,“必須明確法庭分析方法有效性和可靠性的科學標準”“必須對具體的法庭分析方法進行評估,以明確其是否已被科學地確定為有效可靠”。澳大利亞及新西蘭等國的法庭科學專家聯(lián)合發(fā)表聲明對此予以支持[2]。Lander指出:“如果沒有真正的實驗證據(jù)證明,法庭特征比較方法能夠在適合其預(yù)期用途的準確度水平以及與此用途合理相關(guān)的情況下得出結(jié)論,檢驗人員得出兩個樣本可能同源的結(jié)論是毫無意義的。”[3]英國也明確規(guī)定:“所有的法庭分析方法和程序都要進行驗證”,并且發(fā)布了驗證細則[4]。
鑒于國際上對“方法驗證”的迫切要求和法庭說話人識別司法實踐的需要,本文首先從國際上對于科學證據(jù)的要求出發(fā),闡明進行法庭說話人識別方法及系統(tǒng)驗證的重要性和必要性;其次介紹系統(tǒng)驗證的基本原則和程序方法;最后通過一項多系統(tǒng)驗證評價的范例,說明司法實踐中應(yīng)該如何進行法庭說話人識別系統(tǒng)的驗證評測。
本文的“系統(tǒng)”為廣義概念,是特征方法的總稱,包括法庭說話人識別的全部過程,如語音前期處理、參數(shù)特征的提取和測量,特征的分析比較、統(tǒng)計建模、失配補償以及識別評分等。目前,法庭說話人識別的方法主要有基于人工專家分析評價的聽覺-語音學方法和基于自動技術(shù)的半自動-自動識別方法。不管基于哪種方法,從語音前期處理開始,到識別結(jié)果輸出為止,任何一種組合都可以稱之為一套“系統(tǒng)”。人工專家也是系統(tǒng)的一部分。
系統(tǒng)驗證的基本原則是:基于被檢案件,在反映案件實際條件下,利用結(jié)果已知的語音數(shù)據(jù)庫進行系統(tǒng)訓練和驗證測試。語音具有較大的變異性,不同錄音條件(講話環(huán)境、背景噪聲、設(shè)備信道、存儲格式等)和不同的言語條件(情緒、心理、對象、場合、疾病等)都會使語音產(chǎn)生變化,進而影響系統(tǒng)的性能。實驗室條件下的驗證結(jié)果并不能代表實際案件條件下的系統(tǒng)性能,案件現(xiàn)實條件下的系統(tǒng)性能往往比實驗室條件差,有時甚至差很多,因此,基于實際案件條件進行驗證測試是必須的。此外,由于案件條件各有不同,還應(yīng)該進行個案條件下的驗證測試。
首先,利用訓練數(shù)據(jù)進行系統(tǒng)訓練;然后,利用測試數(shù)據(jù)進行系統(tǒng)測試;最后,將測試結(jié)果與真實情況進行比較,并通過相應(yīng)的性能指標來評價系統(tǒng)識別的準確性和可靠性。
司法實踐中很難采集全代表所有案件條件的語音數(shù)據(jù),但是建立具有代表性、大規(guī)模的基礎(chǔ)語音數(shù)據(jù)庫還是必要且可行的。首先,建立一個實驗室條件下的、具有代表性的、反映典型案件言語風格的高質(zhì)量基礎(chǔ)語音數(shù)據(jù)庫[5]。然后,根據(jù)被檢案件的實際條件進行語音信號的模擬處理。用于系統(tǒng)驗證的所有訓練數(shù)據(jù)和測試數(shù)據(jù)均要模擬實際案件的檢材條件和樣本條件,以代表相關(guān)人群并反映實際案件的言語風格和錄音條件。至于訓練數(shù)據(jù)和測試數(shù)據(jù)的規(guī)模,原則上應(yīng)該越大越好。但是,考慮到現(xiàn)實的成本和時效要求,訓練數(shù)據(jù)庫和測試數(shù)據(jù)庫的規(guī)模應(yīng)該至少在幾十人以上,才能保證合理的系統(tǒng)性能。當然,系統(tǒng)的性能能否滿足要求,還要取決于法庭。
系統(tǒng)驗證分為訓練、測試和評價3部分。訓練部分是根據(jù)每個系統(tǒng)的實際情況,采用訓練集數(shù)據(jù)進行系統(tǒng)訓練,具體訓練方法不做要求。但是對于測試部分,必須使用全部測試集數(shù)據(jù)進行測試。將測試集中的每個檢材條件錄音與每個樣本條件錄音進行全交叉比較,最后對結(jié)果進行統(tǒng)計分析。
國際上,法庭說話人識別正在經(jīng)歷新舊范式的轉(zhuǎn)換。新范式以似然比(Likelihood Ratio,LR)框架為核心,基于相關(guān)數(shù)據(jù)、定量測量和統(tǒng)計模型計算似然比,通過LR值量化評估語音證據(jù)的價值[6]。LR框架已經(jīng)成為國際法庭證據(jù)評價的標準框架,本文討論的也是基于LR框架的法庭說話人識別系統(tǒng)。當然,對于主要依靠專家主觀判斷的“專家”系統(tǒng)和以“是或否”的二分性結(jié)果為輸出的自動系統(tǒng)也可以進行同樣的驗證,只不過評價的性能指標略有差別而已。然而,需要指出的是,由于訓練和測試的規(guī)模較大,全交叉比較耗時費力,對“專家”系統(tǒng)來說,進行這種驗證的現(xiàn)實性和可操作性都很差,甚至幾乎不可能。
對系統(tǒng)進行識別測試,結(jié)果統(tǒng)一以LR數(shù)值形式輸出。計算評價指標,并以數(shù)值和圖示形式展示。系統(tǒng)的準確性和可靠性評價指標[7]主要有:對數(shù)似然比代價函數(shù)(Log likelihood ratio cost,Cllr)、95%的可靠區(qū)間(Credible Interval,CI)和等誤率(Equal Error Rate,EER)。Cllr的計算公式[8]如下:
(1)
式中,Ns和Nd分別是同一話者和不同話者測試對的數(shù)量,LRs和LRd分別是同一話者和不同話者測試對比較的LR值。Cllr值小于1,說明系統(tǒng)有效。Cllr值越小,系統(tǒng)的準確性越好。
95%CI測量的是來自同一話者自身比較的多個LR值和來自不同話者之間比較的多個LR值的變化分布情況,以±log10來標度,具體計算方法見文獻[9]。95%CI值越小,系統(tǒng)的可靠性越好。等誤率則是錯誤接受(認定)率和錯誤拒絕(否定)率相等時的概率,與判別先驗和閾限設(shè)定密切相關(guān)。等誤率越低,系統(tǒng)的準確性越好。
系統(tǒng)評價圖示主要有:Cllr-95%CI圖、Tippett圖(Tippett Plot)、檢測錯誤權(quán)衡圖(Detection Error Tradeoff Plot,DET plot)和期望交叉熵圖(Empirical Cross Entropy plot, ECE plot)[9]。
Cllr-95%CI圖是系統(tǒng)準確性和可靠性的綜合評價。Tippett圖只是準確性評價,但包含信息豐富??傮w上,同一話者比較曲線與不同話者比較曲線的分開程度越大,準確性越好。DET 圖只顯示錯誤接受率和錯誤拒絕率之間的關(guān)系,曲線越接近原點,系統(tǒng)的準確性越好。而沿原點畫對角線與曲線相交點對應(yīng)的值,就是等誤率。ECE是總體Cllr的擴展,使用指定的先驗比和測試的似然比計算后驗比,其計算公式[9]如下:
(2)
式中,Pss和Pds分別是同一話者假設(shè)和不同話者假設(shè)的先驗概率,LRss和LRds分別是同一話者和不同話者測試對比較的LR值,Nss和Nds分別是同一話者和不同話者測試對的數(shù)量。ECE圖表明系統(tǒng)校準的情況,交叉熵的值越小,校準優(yōu)化前后的兩條曲線越接近,系統(tǒng)的性能越好。關(guān)于這些指標和圖示的詳細解釋見文獻[9]。
本文以國際上開展的一項法庭說話人識別系統(tǒng)驗證項目(forensic_eval_01)[9]為例,說明系統(tǒng)驗證的具體程序和方法。參與該驗證項目的各個實驗室基于同一個反映一起實際案件條件的語音數(shù)據(jù)庫,對各自的法庭說話人識別系統(tǒng)進行測試評價,結(jié)果發(fā)表在國際期刊“Speech Communication”專版。目前,已經(jīng)完成驗證測試的法庭說話人識別系統(tǒng)有4個,均為自動識別系統(tǒng)。關(guān)于該項目的詳細情況見文獻[9-12]。
實際案件為一起詐騙案。檢材錄音為座機電話播打到呼叫中心的自動電話錄音,內(nèi)含辦公室背景噪音,檢材錄音采用壓縮格式。對話內(nèi)容包含姓名、地址、號碼和字母等信息。未知說話人語音時長為46 s。樣本語音為警察訊問錄音,有較大的室內(nèi)混響和通風系統(tǒng)噪音,與檢材不同的壓縮格式。檢材語音和樣本語音均為成年男性澳大利亞英語口音。
訓練和測試錄音選自澳大利亞英語數(shù)據(jù)庫[13]。首先,采用信號處理技術(shù),模擬實際案件的電話傳輸信道、壓縮格式。然后,再添加相應(yīng)噪聲和混響。最后,形成兩組錄音:一組反映案件中檢材錄音的言語風格和錄音條件;另一組反映案件中樣本錄音的言語風格和錄音條件。用于系統(tǒng)驗證的語音數(shù)據(jù)庫中共包含166名成年男性的非同期錄音:其中,訓練集105人,共423個錄音(檢材條件191個,樣本條件232個);測試集61人,共223個錄音(檢材條件61個,樣本條件162個)。
首先,采用訓練數(shù)據(jù)進行系統(tǒng)訓練(具體訓練方法不做要求,使用全部數(shù)據(jù)或部分數(shù)據(jù)均可),然后統(tǒng)一使用測試集的全部數(shù)據(jù)進行測試。將測試集中的每個檢材條件錄音與每個樣本條件錄音進行全交叉比較,共得到111個同一話者比較對和9720個不同話者比較對。研究人員根據(jù)自己的研究問題設(shè)計方案,然后進行相應(yīng)訓練和測試。系統(tǒng)結(jié)果輸出均為LR值。評價指標統(tǒng)一采用Cllr、95%CI和EER。圖示統(tǒng)一采用Cllr-95%CI圖、Tippett圖、DET 圖和ECE圖[9]。
3.3.1 Batvox 3.1
這是AGNITI公司開發(fā)的專業(yè)法庭說話人識別系統(tǒng)。提取的聲學特征為19個MFCC及其delta,頻率范圍為300~4 000 Hz。倒譜平均減法(Cepstral Mean Subtraction,CMS)、相對光譜濾波(Relative Spectral Filtering,RASTA)和特征彎折(Feature Warping,F(xiàn)W)技術(shù)用于特征級失配補償。系統(tǒng)使用GMM-UBM模型方法計算得分。通用背景模型(UBM)和說話人模型均為高斯混合模型(GMM),說話人模型通過來自UBM的最大后驗(Maximum A Posteriori,MAP)估計進行自適應(yīng)訓練。擾動屬性投影(Nuisance Attribute Projection,NAP)作為失配補償技術(shù)應(yīng)用于GMM均值。
用戶可以輸入一組代表案件條件的“參考人群(reference population)”錄音,也可以讓系統(tǒng)從全部參考錄音中自動篩選參考數(shù)據(jù)子集。用戶還可以輸入一組代表相關(guān)人群和檢材條件的“偽冒者(imposter)”錄音。系統(tǒng)首先計算檢材語音與樣本語音模型比較的得分,然后進行得分轉(zhuǎn)換,在變換得分值處,同一話者模型概率與不同話者模型概率之比,即為LR值。
該測試關(guān)注的問題是訓練數(shù)據(jù)量大小對系統(tǒng)性能的影響。從訓練數(shù)據(jù)中隨機選擇25、50、75和100人等4個不同規(guī)模的數(shù)據(jù)集進行系統(tǒng)訓練,同步使用相同數(shù)量的“偽冒者”參考數(shù)據(jù)。利用測試集分別對這4種情況進行訓練和識別。
3.3.2 Batvox 4.1
該系統(tǒng)是Batvox 3.1的升級版本,也是目前最新版本。新版本將GMM-UBM模型方法更新為i-vector PLDA模型方法。系統(tǒng)通過i-vector和概率線性判別分析(Probabilistic Linear Discriminant Analysis,PLDA)進行得分計算,更好地解決了信道失配問題。
該測試關(guān)注的問題是使用“偽冒者”和系統(tǒng)自動篩選參考人群子集是否能夠提高系統(tǒng)的識別效果。將訓練集中105人(每人一個)的錄音全部輸入系統(tǒng),然后分別對使用全部105人的參考數(shù)據(jù)、使用自動篩選的30人參考數(shù)據(jù)、使用“偽冒者”和不使用“偽冒者”等4種模式進行訓練和識別。
3.3.3 MSR toolkit
這是微軟研究院開發(fā)的說話人識別開源工具包(Microsoft Research Identity Toolbox, 1.0版本),是Matlab工具和程序的集合。它包括GMM-UBM和i-vector PLDA兩種模型系統(tǒng)。兩個系統(tǒng)使用的聲學特征都是14個MFCC及其delta,提取的頻率范圍為300~3 400 Hz。用戶可以自主選擇工具包進行系統(tǒng)設(shè)計和參數(shù)選擇,如使用語音活動檢測(Voice Activity Detection,VAD)技術(shù)和各種失配補償技術(shù)等。兩種系統(tǒng)均采用邏輯回歸(Logistic Regression,LR)方法進行從得分到LR值的轉(zhuǎn)換校準。
該測試關(guān)注的問題是3種特征級失配補償技術(shù)及其分別在VAD前、VAD后使用對說話人識別的有效性問題。這3種技術(shù)分別是倒譜均值減法(Global Cepstral Mean Subtraction, CMS)、倒譜均值減法及方差歸一化(Global Cepstral Mean and Variance Normalization,CMVN)、特征彎折(Local Feature Warping,F(xiàn)W),將訓練集中105人的錄音(每人一個)全部輸入系統(tǒng),然后在VAD前和VAD后分別應(yīng)用這3種補償技術(shù)進行訓練和識別。
3.4.1 訓練樣本選擇對識別性能的影響
由于4種系統(tǒng)的評價采用的都是相同的訓練數(shù)據(jù)、測試數(shù)據(jù)庫和結(jié)果評價指標,故便于各系統(tǒng)之間的比較。現(xiàn)將各系統(tǒng)關(guān)注的問題及結(jié)果進行分析比較:
Batvox是商業(yè)集成系統(tǒng),用戶可以調(diào)整和選擇的余地很小,因此兩個版本系統(tǒng)測試的都是訓練選擇對系統(tǒng)性能的影響。參考人群樣本的選擇,特別是樣本規(guī)模的大小對說話人識別的影響一直是業(yè)內(nèi)關(guān)注的焦點問題。兩個系統(tǒng)的測試均表明:使用最大數(shù)目訓練樣本的測試組的識別效果最好。
對3.1版本的測試結(jié)果表明,隨著訓練樣本數(shù)量的增大,系統(tǒng)識別的性能逐步提高,準確性和可靠性均持續(xù)提高。其中,Cllr值從25人訓練集的1.142持續(xù)下降到100人訓練集的0.593,95%CI從1.779持續(xù)下降到1.130。25人訓練集與50人訓練集之間差別最大。而當訓練集從50人(Cllr=0.740)增加到75人(Cllr=0.696),再增加到100人時,Cllr值并沒有呈線性漸進。顯然,25人的樣本量是不夠的,無法滿足法庭實踐的要求。但是究竟參考人群的數(shù)目達到多少可以得到合理的或者比較理想的識別性能,并且不再需要增加樣本數(shù),目前還無法下定論。
對4.1版本的測試結(jié)果表明,訓練的數(shù)據(jù)量大小對系統(tǒng)的性能影響很大,而使用“偽冒者”模式可以提高系統(tǒng)的識別性能。當使用全部訓練數(shù)據(jù)和等數(shù)量“偽冒者”時,Cllr值從0.456下降到0.365,95%CI從1.477下降到1.156;僅使用30人的訓練子集和等數(shù)量“偽冒者”時,Cllr值從0.646下降到0.431,95%CI從1.382下降到1.148。不管是否使用“偽冒者”模式,使用全部105人訓練數(shù)據(jù)的識別效果都明顯好于讓系統(tǒng)從中自動篩選30人子集的識別效果:不使用“偽冒者”模式下,Cllr值從0.604下降到0.391;使用“偽冒者”模式下,Cllr值從0.431下降到0.0.365。綜合看,Batvox4.1的系統(tǒng)性能優(yōu)于 Batvox3.1。
3.4.2 VAD及特征失配補償技術(shù)的有效性
VAD技術(shù)主要用于檢測語音信號的存在。失配補償技術(shù)則主要用于對錄音之間由于各種因素造成的聲學特性不匹配情況進行補償,使不同話者之間的差距最大化,使這些因素的影響最小化。二者都是自動說話人識別中常用的語音處理技術(shù)。特征級失配補償主要適用于錄制信道和背景噪聲的補償。
兩種MSR toolkit系統(tǒng)測試的結(jié)果均表明:在VAD后進行特征補償?shù)男Ч毡楹糜谠赩AD前進行特征補償,這說明去除噪聲和靜音幀后進行特征失配補償可以提高系統(tǒng)的識別性能。此外,在3種特征補償技術(shù)中,效果最好的是特征彎折,最差的是倒譜均值減法。在VAD后分別使用CMS方法、CMVN方法和FW方法進行特征失配補償,GMM-UBM系統(tǒng)的Cllr值分別為0.576、0.584、0.619;i-vector PLDA系統(tǒng)的Cllr值分別為0.449、0.478、0.469。綜合看,i-vector PLDA系統(tǒng)的準確性指標普遍好于GMM-UBM系統(tǒng),可靠性指標則恰好相反,但差別不大。
3.4.3 不同模型系統(tǒng)之間的比較
提取各系統(tǒng)中測試結(jié)果最好(Cllr值最小)的一組數(shù)據(jù),來比較不同模型系統(tǒng)的性能。表1列出了4種系統(tǒng)最佳測試結(jié)果的主要評價指標Cllr、95%CI、ERR值及其對應(yīng)的設(shè)置項。
對比4種系統(tǒng)的數(shù)據(jù)可以看出,識別性能最好的是Batvox 4.1,最差的是Batvox 3.1,MSR toolkit居中。而在相同設(shè)置條件下,Batvox和MSR的各自兩套系統(tǒng)中, i-vector PLDA系統(tǒng)的各項性能指標都明顯優(yōu)于GMM-UBM系統(tǒng)。這說明,i-vector PLDA系統(tǒng)的優(yōu)勢更為明顯。
表1 4種系統(tǒng)最佳測試組的主要評價指標和設(shè)置項
第一,用于系統(tǒng)訓練的參考人群規(guī)模越大越好,但是究竟達到多大規(guī)模后無需再增,目前還不能下定論。第二,使用“偽冒者”模式進行系統(tǒng)訓練可以提高系統(tǒng)的識別效果。第三,利用VAD技術(shù)去除噪聲和靜音幀后,再進行特征匹配補償可以提高系統(tǒng)的識別性能。第四,3種特征級補償技術(shù)中,特征彎折的效果最好。第五,i-vector PLDA系統(tǒng)的識別性能總體優(yōu)于GMM-UBM系統(tǒng)。這些結(jié)論不僅可以表明和比較各系統(tǒng)的性能,更重要的是對后續(xù)研究如何提高系統(tǒng)的性能具有指導意義。
驗證目的是為了表明所使用方法或系統(tǒng)的準確性和可靠性,進而為司法實踐中法庭證據(jù)的檢驗評價提供技術(shù)支持和量化依據(jù)。因此,就法庭科學的任何分支而言,進行這樣的方法驗證都是必要的?;趯嶒炇覘l件的方法驗證不能真實反映案件現(xiàn)實條件下的系統(tǒng)性能,只有基于被檢案件的實際條件進行測試,才能真正驗證系統(tǒng)在現(xiàn)實條件下的準確性和可靠性。此外,采用統(tǒng)一的訓練和測試語音數(shù)據(jù)庫,對不同方法系統(tǒng)進行驗證測試和性能評價,不僅有利于系統(tǒng)之間的橫向比較,更有利于司法實踐中的重要理論和技術(shù)問題的解決。這對于提高法庭說話人識別技術(shù)的準確性和可靠性,保證其司法應(yīng)用具有重要意義。