關(guān)鑫
(肇慶學(xué)院,廣東 肇慶 526061)
警方或法庭使用司法話者識(shí)別技術(shù)確定截獲的罪犯的語(yǔ)音是否源于某一已知嫌疑人,目前為止,鑒定過程中常用的話者識(shí)別特征參數(shù)有語(yǔ)音學(xué)內(nèi)的音段和超音段特征,如嗓音音質(zhì)、基頻等;有語(yǔ)言學(xué)特征,如話語(yǔ)標(biāo)記語(yǔ)、詞匯語(yǔ)法使用情況等;有非語(yǔ)言學(xué)特征,如有聲停頓、笑聲等[1-2]。以上提及的各類型的話者識(shí)別參數(shù)中,最常用的是語(yǔ)音聽覺和語(yǔ)音聲學(xué)特征。語(yǔ)音學(xué)特征的一個(gè)特點(diǎn)就是他們易受外界物理環(huán)境和話者生理及心理環(huán)境影響,不可避免地會(huì)產(chǎn)生語(yǔ)音變異現(xiàn)象;加之罪犯語(yǔ)音截獲環(huán)境復(fù)雜,難以完全掌控,以語(yǔ)音學(xué)特征作為話者識(shí)別參數(shù)的識(shí)別結(jié)論效度和信度都大大降低。為了提高話者識(shí)別結(jié)論的效度和信度,相關(guān)研究者和從業(yè)者建議結(jié)合不同的識(shí)別方法[1,3-4],或者不同學(xué)術(shù)背景的研究者和從業(yè)者彼此合作[2],或者在試驗(yàn)中采用自然會(huì)話作為實(shí)驗(yàn)材料提取并驗(yàn)證識(shí)別參數(shù)的效度[5]。
在此背景下,本研究采用自然會(huì)話為實(shí)驗(yàn)材料,挖掘具有話者識(shí)別能力的非語(yǔ)音學(xué)特征,并驗(yàn)證其作為潛在話者識(shí)別參數(shù)的效度和信度。
該部分首先闡釋挖掘非語(yǔ)音學(xué)話者識(shí)別特征參數(shù)的理論依據(jù),并介紹分析方法,提出研究問題。
SAPIR[6]提出話語(yǔ)行為包含由低至高五個(gè)層面。第一個(gè)層面是聲音本身(the voice as such),即音質(zhì);第二個(gè)層面是話語(yǔ)的動(dòng)態(tài)特征 (speech dynamics),如語(yǔ)調(diào)、韻律、流暢程度、語(yǔ)速;第三個(gè)層面是發(fā)音(pronunciation);第四個(gè)層面是詞匯(vocabulary),指詞語(yǔ)的選擇;第五個(gè)層面是個(gè)人話語(yǔ)風(fēng)格(the style of connected utterance),指“話者個(gè)人獨(dú)有的遣詞成句和謀篇布局的方法、策略”①定義原文:an individual method of arranging words into groups and of working these up into larger units,SAPIR[6]強(qiáng)調(diào)日常會(huì)話也好、深思熟慮的演說也好,每個(gè)人都有其個(gè)人話語(yǔ)風(fēng)格,個(gè)人話語(yǔ)風(fēng)格從來都不是隨意和偶然發(fā)生的;SAPIR還認(rèn)為話語(yǔ)行為的每個(gè)層面都有其社會(huì)屬性和個(gè)人屬性,分別決定話者的社會(huì)身份和個(gè)性身份。
目前,應(yīng)用于司法實(shí)踐的識(shí)別參數(shù)和司法話者識(shí)別相關(guān)研究挖掘、驗(yàn)證的識(shí)別參數(shù)主要是分布于話語(yǔ)行為前四個(gè)層面上的特征。本研究旨在依據(jù)語(yǔ)篇信息理論,采用語(yǔ)篇信息分析法,挖掘位于話語(yǔ)行為最高層面上的具有潛在話者識(shí)別能力的個(gè)人話語(yǔ)風(fēng)格特征。
語(yǔ)篇信息理論源于法律語(yǔ)篇樹狀信息結(jié)構(gòu)模式[7]。語(yǔ)篇信息理論認(rèn)為語(yǔ)篇是一個(gè)層級(jí)結(jié)構(gòu),表層是語(yǔ)言形式,底層反應(yīng)語(yǔ)篇生產(chǎn)者的認(rèn)知,中間是信息——能夠用于交際的最小完整意義單位的命題;相對(duì)于靈活多樣的表層語(yǔ)言形式信息結(jié)構(gòu)相對(duì)穩(wěn)定,相對(duì)于不易觸及分析的語(yǔ)篇生產(chǎn)者認(rèn)知,信息結(jié)構(gòu)更易于分析,比表層語(yǔ)言形式更能反映語(yǔ)篇生產(chǎn)者的認(rèn)知。而且,基于體驗(yàn)哲學(xué)和認(rèn)知語(yǔ)言學(xué)的基本思想“現(xiàn)實(shí)—認(rèn)知—語(yǔ)言”,言語(yǔ)人的語(yǔ)言創(chuàng)造力是言語(yǔ)人的認(rèn)知機(jī)能對(duì)從現(xiàn)實(shí)世界接受到的信息進(jìn)行加工處理的結(jié)果[8]。也就是說,言語(yǔ)人的個(gè)性化言語(yǔ)是言語(yǔ)人對(duì)世界的個(gè)性化認(rèn)知的結(jié)果。因此,基于語(yǔ)篇信息理論,采用語(yǔ)篇信息分析法分析話者的話語(yǔ)行為比采用其他分析語(yǔ)篇表層語(yǔ)言形式的分析方法更有可能挖掘出話語(yǔ)行為最高層面上具有潛在話者識(shí)別能力的個(gè)人話語(yǔ)風(fēng)格特征。依據(jù)法律語(yǔ)篇樹狀信息結(jié)構(gòu)模式,宏觀上語(yǔ)篇的信息結(jié)構(gòu)是由一個(gè)核心命題及其下層信息構(gòu)成的層級(jí)結(jié)構(gòu),一個(gè)命題就是一個(gè)信息單位(information unit),信息單位之間的上下層關(guān)系用15類信息點(diǎn)(information knot)標(biāo)示,用15 個(gè)縮寫疑問詞表示:WT(何事)、WB(何據(jù))、WF(何事實(shí))、WI(何推斷)、WP(何處置)、WO(何人)、WH(何時(shí))、WR(何地)、HW(何方式)、WY(何因)、WE(何效果)、WA(何態(tài)度)、WC(何條件)、WG(何變化)、WJ(何結(jié)論)[9]。 以如下語(yǔ)篇[9]為例:
a人類總是將自己的發(fā)展看得高于一切。b(WY)這不外乎兩個(gè)原因。 c(WY)人類……;d (WY)人類……。
該語(yǔ)篇包含a、b、c、d四個(gè)命題。命題b表達(dá)人類將自己的發(fā)展看得高于一切的原因,從原因角度支撐命題a,與命題a之間是何因(WY)關(guān)系;命題c和d則發(fā)展命題b,給出兩個(gè)原因的內(nèi)容,與命題b之間都是何因(WY)關(guān)系。
微觀上信息單位由信息成分構(gòu)成,包括過程、個(gè)體和環(huán)境三大類;過程以信息單位命題的謂詞為中心,個(gè)體是謂詞所涉及的事物,環(huán)境指以謂詞為中心的過程進(jìn)行的環(huán)境;過程信息成分下又有8個(gè)子類,個(gè)體信息成分下有5個(gè)子類,環(huán)境信息成分下有12個(gè)子類[9]。以信息單位“被告人周某某的行為不構(gòu)成犯罪?!睘槔?,該信息單位由5個(gè)信息成分構(gòu)成,依次為環(huán)境信息成分“被告人周某某”、個(gè)體信息成分“行為”、過程信息成分“不”和“構(gòu)成”,個(gè)體信息成分“犯罪”。兩個(gè)個(gè)體信息成分和兩個(gè)過程信息成分分屬于其下的兩個(gè)不同子類。
不難看出,信息成分構(gòu)成信息單位、信息單位構(gòu)成語(yǔ)篇,因此,揭示語(yǔ)篇生產(chǎn)者語(yǔ)篇中的信息結(jié)構(gòu)模式也就是揭示話者遣詞成句、布局謀篇的方式、策略中的范式,所以,理論上講,采用語(yǔ)篇信息分析法分析話語(yǔ)行為有望挖掘個(gè)人話語(yǔ)風(fēng)格層面上的具有潛在話者識(shí)別能力的特征。
由于話者識(shí)別要確定的是檢材(即罪犯的話語(yǔ))和樣本(即已知嫌疑人的話語(yǔ))之間的相似性或差異性究竟是源于同一話者還是不同話者,在國(guó)際上以Rose和Morrison為代表、國(guó)內(nèi)以張翠玲為代表的專家學(xué)者都認(rèn)為似然率方法符合法庭比較科學(xué)證據(jù)鑒定的要求,倡導(dǎo)在似然率框架內(nèi)進(jìn)行話者識(shí)別研究、使用似然率方法表述識(shí)別結(jié)果,并取得了豐碩研究成果。
在似然率框架內(nèi)通常采用交叉驗(yàn)證過程評(píng)估某一量化話者識(shí)別特征或由多個(gè)量化話者識(shí)別特征構(gòu)建的話者識(shí)別系統(tǒng)的性能[10]。設(shè)計(jì)交叉驗(yàn)證過程需要兩組數(shù)據(jù),測(cè)試組和背景組。測(cè)試組數(shù)據(jù)中的每位話者至少提供兩段會(huì)話,用于構(gòu)建同對(duì)會(huì)話比較對(duì)(被比較的兩段會(huì)話源于同一話者)和異對(duì)會(huì)話比較對(duì)(被比較的兩段會(huì)話源于不同話者);背景組數(shù)據(jù)由能代表背景參考話者群體的話者的會(huì)話組成,為了保證似然率計(jì)算結(jié)果的信度,至少應(yīng)該包含30位話者的會(huì)話[11]。交叉印證過程似然率的計(jì)算應(yīng)用AITKEN等[12]驗(yàn)證的多變量核密度(Multivariate Kernel Density,MVKD)似然率計(jì)算公式計(jì)算,可以采用MORRISON[13]編寫的程序軟件在Matlab中完成計(jì)算。
某一話者識(shí)別特征或識(shí)別系統(tǒng)的性能可以用基于交叉印證程序得出的同對(duì)和異對(duì)會(huì)話比較的一組似然率值繪制的Tippett圖評(píng)估[10];其效度可以用基于交叉印證程序得出的同對(duì)和異對(duì)會(huì)話比較的一組似然率值計(jì)算的Cllr(log-likelihood-ratio cost)值評(píng)估[10,14-16]。
任何類型的話者識(shí)別特征參數(shù)都要符合的一條最重要的標(biāo)準(zhǔn)是它應(yīng)該具有高話者間差異性和低話者內(nèi)變異性[17]。依據(jù)這條標(biāo)準(zhǔn),首先所挖掘的特征應(yīng)該具有高話者間差異性;其次所挖掘的特征應(yīng)該具有低話者內(nèi)變異性。因此本研究要回答的第一個(gè)和第二個(gè)研究問題分別是:(1)所挖掘的信息特征是否具有高話者間差異性;(2)篩選出的具有高話者間差異性的信息特征是否具有低話者內(nèi)變異性。
挖掘出具有高話者間差異性低話者內(nèi)變異性的體現(xiàn)話者個(gè)人話語(yǔ)風(fēng)格的信息特征后,要在似然率框架內(nèi)驗(yàn)證其作為話者識(shí)別參數(shù)的性能和效度,所以要回答的第三個(gè)和第四個(gè)研究問題分別是:(3)篩選出的話者個(gè)人話語(yǔ)風(fēng)格特征作為驗(yàn)證話者識(shí)別參數(shù)的總體性能和效度如何;(4)篩選出的話者個(gè)人話語(yǔ)風(fēng)格特征作為驗(yàn)證話者識(shí)別參數(shù)的信度如何。
本研究設(shè)計(jì)了四個(gè)實(shí)驗(yàn)依次回答提出的四個(gè)研究問題。實(shí)驗(yàn)所用話語(yǔ)為自然日常會(huì)話,即會(huì)話在其發(fā)生時(shí)的自然狀態(tài)下被錄制,錄制時(shí)不對(duì)話者、錄制環(huán)境、錄制設(shè)備施加任何人為控制。
本研究從法律信息處理系統(tǒng)語(yǔ)料庫(kù)(CLIPS)的漢語(yǔ)自然會(huì)話子庫(kù)中抽取了81位話者的233段自然會(huì)話。漢語(yǔ)自然會(huì)話子庫(kù)中存儲(chǔ)有每段會(huì)話的原始音頻文件及標(biāo)注了語(yǔ)篇信息宏觀結(jié)構(gòu)及微觀結(jié)構(gòu)的text文本文件。根據(jù)會(huì)話雙方的親疏程度及社會(huì)地位關(guān)系,庫(kù)中的所有會(huì)話被歸入5類會(huì)話情境:(1)彼此熟悉,社會(huì)地位平等;(2)彼此熟悉,社會(huì)地位不平等;(3)陌生人,社會(huì)地位平等;(4)陌生人,社會(huì)地位不平等;(5)好朋友或家人。
庫(kù)中的所有會(huì)話都是由話者本人提供并授權(quán)用于研究使用。81位話者都是廣東某高校的學(xué)生,包括27位年齡在19~21歲之間的本科生,58位年齡在21~25歲之間的碩士研究生,6位年齡在27~39歲之間的博士研究生。所有話者都說普通話,沒有明顯的地方方言口音。
取樣的會(huì)話包括電話會(huì)話和面對(duì)面會(huì)話兩種形式。話者確認(rèn)所提供的會(huì)話是在其和對(duì)話人不知情的情況下用智能手機(jī)自動(dòng)錄音功能錄制,或由第三人用錄音筆、MP3播放器等錄制工具錄制;會(huì)話時(shí)沒有刻意選擇環(huán)境、話題及對(duì)話人;所提供會(huì)話音頻沒有經(jīng)過任何編輯處理。
首先,采用語(yǔ)篇信息分析法分析會(huì)話語(yǔ)篇信息的宏觀結(jié)構(gòu)和微觀結(jié)構(gòu),挖掘可能具有潛在話者識(shí)別能力的個(gè)人話語(yǔ)風(fēng)格信息特征。因?yàn)?5類信息點(diǎn)的分布與語(yǔ)篇的長(zhǎng)度密切相關(guān),所以較短語(yǔ)篇中某些類信息點(diǎn)不會(huì)出現(xiàn)[9],為了保障所挖掘的語(yǔ)篇信息特征的高頻出現(xiàn)率,先統(tǒng)計(jì)所抽樣的233段會(huì)話語(yǔ)篇中信息點(diǎn)的分布情況。統(tǒng)計(jì)結(jié)果顯示,所有會(huì)話中都包含WT(何事)信息點(diǎn);而且WT(何事)信息點(diǎn)在233段會(huì)話包含的2 887個(gè)信息點(diǎn)中所占份額為51%,遠(yuǎn)遠(yuǎn)高于其他類型信息點(diǎn);此外,所有會(huì)話語(yǔ)篇中都包含個(gè)體、過程和環(huán)境三類信息成分。
基于以上統(tǒng)計(jì)結(jié)果,本研究主要考察與WT(何事)信息點(diǎn)和信息成分相關(guān)的信息特征。JOHNSTONE[18]和BIBER[19]都指出,體現(xiàn)某一語(yǔ)言特征的有規(guī)律持續(xù)出現(xiàn)的絕對(duì)頻率(absolute frequencies)能反映言語(yǔ)人的個(gè)性身份特征;AITKEN等[20]認(rèn)為,相對(duì)頻率(relative frequencies)作為統(tǒng)計(jì)數(shù)據(jù)證據(jù)更加有效;HOLLIEN[21]發(fā)現(xiàn),語(yǔ)篇生產(chǎn)者無法有意識(shí)地控制語(yǔ)篇內(nèi)的類次比(type-token ratio)②語(yǔ)篇類次比指語(yǔ)篇內(nèi)不同類型的字的數(shù)量與字總數(shù)的比率。如某一語(yǔ)篇共包含81個(gè)字,其中“他”出現(xiàn)5次,“是”出現(xiàn)7次,“和”出現(xiàn)3次,其他字都只出現(xiàn)1次;則語(yǔ)篇中共包含69類字,類次比為69÷81≈0.85。特征,也就是語(yǔ)篇內(nèi)的類次比特征可能具有驗(yàn)證語(yǔ)篇生產(chǎn)者的識(shí)別能力?;谝陨涎芯砍晒狙芯客ㄟ^考察語(yǔ)篇信息的頻率特征和類次比特征,共挖掘了26個(gè)語(yǔ)篇信息頻率和類次比特征。
2.3.1 實(shí)驗(yàn)1
實(shí)驗(yàn)1的目的是回答第一個(gè)研究問題,檢測(cè)所挖掘的信息特征是否具有高話者間差異性。具體實(shí)施步驟如圖1所示,包括特征訓(xùn)練和特征驗(yàn)證兩個(gè)基本步驟。
圖1 實(shí)驗(yàn)1實(shí)施步驟
從233段會(huì)話中選取一組數(shù)據(jù),訓(xùn)練所挖掘的信息特征;選取另外兩組數(shù)據(jù),用于驗(yàn)證經(jīng)過訓(xùn)練的信息特征。訓(xùn)練數(shù)據(jù)由5位女性本科生話者的5段會(huì)話組成;第一組驗(yàn)證數(shù)據(jù)由22位女性研究生話者的22段會(huì)話組成;第二組驗(yàn)證數(shù)據(jù)包括4位男性研究生話者,每位話者貢獻(xiàn)2段會(huì)話,同一話者的兩段會(huì)話錄制間隔時(shí)間最短為一個(gè)月。實(shí)驗(yàn)1數(shù)據(jù)的所有35段會(huì)話中,時(shí)長(zhǎng)最短的會(huì)話長(zhǎng)度為10 s③會(huì)話時(shí)長(zhǎng)指會(huì)話錄音的長(zhǎng)度,包括會(huì)話雙方的言語(yǔ)、會(huì)話過程中的沉默、停頓。,被考察話者會(huì)話語(yǔ)篇中包含4個(gè)信息點(diǎn),共39個(gè)漢字;時(shí)長(zhǎng)最長(zhǎng)的會(huì)話長(zhǎng)度為2 min 50 s;被考察話者會(huì)話語(yǔ)篇最多的包含25個(gè)信息點(diǎn),共413個(gè)漢字。
選取具有高話者間差異性的潛在話者識(shí)別特征的常用方法是采用方差分析統(tǒng)計(jì)方法 (也稱為F-test),以待考察特征值為因變量,考查方差分析結(jié)果中的F檢驗(yàn)值(F-ratio),如果F值大于1,說明該特征值的組間差異大于組內(nèi)差異,該特征可能具有潛在的話者識(shí)別能力[17,22-24]?;诖耍瑢?shí)驗(yàn)1中采用單因素方差分析統(tǒng)計(jì)方法,分別以挖掘的26個(gè)待驗(yàn)證信息特征為因變量,使用訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù),在SPSS21統(tǒng)計(jì)分析軟件中進(jìn)行分析,篩選出符合如下零假設(shè)的信息特征。
零假設(shè):該信息特征可以驗(yàn)證訓(xùn)練組數(shù)據(jù)和驗(yàn)證組數(shù)據(jù)中的會(huì)話都具有高話者間差異性。
如果以某一特征為因變量,分析測(cè)試數(shù)據(jù)組和驗(yàn)證數(shù)據(jù)組的3個(gè)單因素方差分析過程得出的F值都大于1,則說明如上零假設(shè)成立,表明被測(cè)試信息特征具有較高話者間差異性,具有潛在的話者識(shí)別能力;反之,則如上零假設(shè)被推翻,說明同一數(shù)據(jù)組中的多段會(huì)話可能源于同一話者,表明被測(cè)試信息特征不具有高話者間差異性,不具有潛在的話者識(shí)別能力。
2.3.2 實(shí)驗(yàn)2
實(shí)驗(yàn)2的目的是回答第二個(gè)研究問題,測(cè)試實(shí)驗(yàn)1中被驗(yàn)證具有具有高話者間差異性的信息特征是否具有低話者內(nèi)變異性。從81位話者的233段會(huì)話中抽取24位話者的149段會(huì)話作為實(shí)驗(yàn)2的數(shù)據(jù);每位話者的多段會(huì)話為一組數(shù)據(jù),共24組數(shù)據(jù);每個(gè)數(shù)據(jù)組中最多包含同一話者的11段會(huì)話,最少包含同一話者的4段會(huì)話;同一話者的多段會(huì)話錄制間隔時(shí)間都在一周以上;源于同一話者的多段會(huì)話至少發(fā)生在2類會(huì)話情境中,最多發(fā)生在5類會(huì)話情境中,而且即使源于同一話者的發(fā)生情境相同的多段會(huì)話,它們的發(fā)生時(shí)間、對(duì)話人、話者的交際意圖都不相同。
實(shí)驗(yàn)2采用單因素方差分析統(tǒng)計(jì)方法,以待驗(yàn)證的信息特征為因變量,使用SPSS21統(tǒng)計(jì)分析軟件逐一分析每組數(shù)據(jù),篩選出符合如下零假設(shè)的信息特征:
零假設(shè):該信息特征可以驗(yàn)證所有24個(gè)數(shù)據(jù)組中的多段會(huì)話都源于同一話者。
圖2 實(shí)驗(yàn)2實(shí)施步驟
如果以某一信息特征為因變量,分析24組數(shù)據(jù)的所有24個(gè)單因素方差分析過程得出的相伴概率p值都大于顯著水平0.01,則如上零假設(shè)成立,證明該信息特征不但具有高話者間差異性還具有低話者內(nèi)變異性,能體現(xiàn)話者的個(gè)人話語(yǔ)風(fēng)格,可以作為潛在的話者識(shí)別特征參數(shù);如果24個(gè)單因素方差分析過程中的任何一個(gè)得出的相伴概率p值小于等于顯著水平0.01,則如上零假設(shè)被推翻。
具體分析步驟如圖2所示,首先把比率形式的語(yǔ)篇信息特征值轉(zhuǎn)換成自然對(duì)數(shù),以保證數(shù)據(jù)的正態(tài)分布[12];接下來,清洗數(shù)據(jù),排除不符合條件的極端界外值;而后在SPSS21中檢測(cè)清洗后數(shù)據(jù)的同質(zhì)性和正態(tài)性,并根據(jù)驗(yàn)證結(jié)果采用相應(yīng)的單因素方差分析過程進(jìn)行分析。如果單因素方差分析過程的相伴概率p大于顯著水平0.01,則證明利用該特征可以驗(yàn)證數(shù)據(jù)組中的多段會(huì)話源于同一話者。如果單因素方差分析過程的相伴概率小于等于顯著水平0.01,則繼續(xù)進(jìn)行事后檢驗(yàn)比較;如果事后檢驗(yàn)比較過程結(jié)果顯示,數(shù)據(jù)組中的任意兩段會(huì)話間就待檢驗(yàn)特征值而言都無顯著差異,則說明單因素方差分析過程得出的小于等于顯著水平0.01相伴概率p是由其他偶然性因素造成的,數(shù)據(jù)組中的會(huì)話還是源于同一話者。
2.3.3 實(shí)驗(yàn)3
實(shí)驗(yàn)3的目的是回答第三個(gè)研究問題,評(píng)估實(shí)驗(yàn)II篩選出的具有高話者間差異性、低話者內(nèi)變異性的信息特征作為潛在話者識(shí)別特征的性能和效度。
為了實(shí)現(xiàn)這一研究目的,選用兩組數(shù)據(jù)設(shè)計(jì)一個(gè)交叉驗(yàn)證過程。測(cè)試數(shù)據(jù)組中有24位話者,每位話者貢獻(xiàn)兩段會(huì)話,背景數(shù)據(jù)組中有30位話者,每位話者貢獻(xiàn)一段會(huì)話。測(cè)試數(shù)據(jù)組中每位話者的第一段會(huì)話與自己的第二段會(huì)話配對(duì)比較,并分別與其他23位話者的第二段會(huì)話配對(duì)比較,也就是說,評(píng)估每一個(gè)信息特征值作為潛在話者識(shí)別特征的性能和效度的交叉驗(yàn)證過程共包含24對(duì)同對(duì)比較會(huì)話和552對(duì)異對(duì)比較會(huì)話。接下來,采用AITKENi等[12]提出的似然率計(jì)算公式(Multivariate Kernel Density LR),應(yīng)用MORRISON[13]編寫的程序軟件在Matlab2012a中計(jì)算,得出每對(duì)比較會(huì)話的似然率值;而后,利用計(jì)算所得似然率值繪制每個(gè)信息特征Tippett圖,評(píng)估其作為潛在話者識(shí)別特征的總體性能;并計(jì)算其Cllr值,評(píng)估其作為潛在話者識(shí)別特征的效度。
2.3.4 實(shí)驗(yàn) 4
實(shí)驗(yàn)4的目的是檢驗(yàn)實(shí)驗(yàn)3中篩選出的具有潛在話者識(shí)別能力的信息特征的信度。為了實(shí)現(xiàn)該實(shí)驗(yàn)?zāi)康?,首先利用?shí)驗(yàn)3中性能和效度經(jīng)過驗(yàn)證的信息特征構(gòu)建一個(gè)由多個(gè)信息識(shí)別特征構(gòu)成的話者識(shí)別系統(tǒng),并評(píng)估所構(gòu)建的話者識(shí)別系統(tǒng)的性能和效度。比較新構(gòu)建的話者識(shí)別系統(tǒng)和以效度經(jīng)過驗(yàn)證的雙合元音或三合元音共振峰軌跡量化特征[25-26]為識(shí)別參數(shù)的話者識(shí)別系統(tǒng)的性能與效度。
首先分析所有81位話者的233段會(huì)話,找出出現(xiàn)頻率最高的二合元音或三合元音,確定用于話者識(shí)別系統(tǒng)信度分析的數(shù)據(jù)組。通過統(tǒng)計(jì)發(fā)現(xiàn)74位話者的118段中包含了9個(gè)二合元音④ai, ao, ei, ou, ia, ua, uo, ie, üe和4個(gè)三合元音⑤iao,iou,uai,uei;接下來,繼續(xù)考察這118段會(huì)話,找出一個(gè)出現(xiàn)頻率最高的二合元音或三合元音。通過考察分析,最后確定[ɑu214] 為待考察的元音,含有該元音的源于9位話者的18段會(huì)話作為測(cè)試數(shù)據(jù)組,含有該元音的源于20位話者的20段會(huì)話作為背景數(shù)據(jù)組。
其次,提取共振峰軌跡特征。共振峰數(shù)據(jù)的提取,采用Praat語(yǔ)音分析軟件人工手動(dòng)測(cè)量的方法測(cè)量共振峰在起點(diǎn)、中點(diǎn)、終點(diǎn)的頻率值,如圖3所示。因?yàn)樗x取會(huì)話中多數(shù)[ɑu214] 音節(jié)的第四個(gè)共振峰邊界非常模糊或缺失,數(shù)據(jù)提取時(shí)只測(cè)量每段會(huì)話中[ɑu214] 的前三個(gè)共振峰的頻率。 每段會(huì)話中[ɑu214] 測(cè)量的音節(jié)數(shù)為2。之后,把從38段會(huì)話中提取的共振峰頻率值轉(zhuǎn)換為標(biāo)準(zhǔn)分?jǐn)?shù)(z-scores),依據(jù)TABACHNICK 等[27]的研究方法,排除 z>±3.29(p<0.01)范圍內(nèi)的極端界外值,完成數(shù)據(jù)清洗。
第三步,設(shè)計(jì)一個(gè)交叉驗(yàn)證過程。交叉驗(yàn)證過程中,測(cè)試數(shù)據(jù)組中每位話者的第一段會(huì)話和其第二段會(huì)話配對(duì)比較,共產(chǎn)生9對(duì)同對(duì)比較會(huì)話;每位話者的第一段會(huì)話和排序在其前面的話者的第二段會(huì)話配對(duì)比較,共產(chǎn)生36對(duì)異對(duì)會(huì)話比較。而后,采用AITKEN等[12]提出的似然率計(jì)算公式,應(yīng)用MORRISON[13]編寫的程序軟件在Matlab2012a中進(jìn)行計(jì)算,分別得出構(gòu)建的由多個(gè)信息特征構(gòu)成的話者識(shí)別系統(tǒng)和以元音共振峰軌跡特征為識(shí)別特征的話者識(shí)別系統(tǒng)中每對(duì)比較會(huì)話的似然率值;之后利用所得似然率值繪制Tippett圖,評(píng)估比較兩個(gè)識(shí)別系統(tǒng)的總體性能;計(jì)算Cllr值,評(píng)估比較兩個(gè)識(shí)別系統(tǒng)的效度。
圖3 [ɑu214] 共振峰測(cè)量方法
實(shí)驗(yàn)1采用單因素方差分析過程訓(xùn)練并驗(yàn)證所挖掘的26個(gè)語(yǔ)篇信息頻率特征和類次比特征。統(tǒng)計(jì)分析結(jié)果顯示,挖掘的26個(gè)特征中有18個(gè)相對(duì)頻率特征和類次比特征可以驗(yàn)證一個(gè)訓(xùn)練組和兩個(gè)驗(yàn)證組數(shù)據(jù)中的話者都具有高話者間差異性,即對(duì)于這18個(gè)信息特征而言零假設(shè)成立,它們可能具有潛在的話者識(shí)別能力。
實(shí)驗(yàn)2分別以實(shí)驗(yàn)1中篩選出的18個(gè)信息特征為因變量進(jìn)行的432(18×24)個(gè)單因素方差分析過程結(jié)果顯示,其中的12個(gè)信息特征可以驗(yàn)證所有24個(gè)數(shù)據(jù)組中的多段會(huì)話源于同一話者,即這12個(gè)符合實(shí)驗(yàn)2所提出的零假設(shè)的信息特征具有低話者內(nèi)變異性,體現(xiàn)話者的個(gè)人話語(yǔ)風(fēng)格,它們的計(jì)算公式見表1。
圖4是實(shí)驗(yàn)2中篩選出的12個(gè)信息特征的Tippett圖。Tippett圖中的實(shí)心曲線記錄的是同對(duì)會(huì)話比較對(duì)的以10為底的似然率值,虛線記錄的是異對(duì)會(huì)話比較對(duì)的以10為底的似然率值。被正確識(shí)別的同對(duì)會(huì)話比較對(duì),其以10為底的似然率值應(yīng)該大于0,值越大,支持正確認(rèn)定的證據(jù)效力越強(qiáng);被正確識(shí)別的異對(duì)會(huì)話比較對(duì),其以10為底的似然率值應(yīng)該小于0,值越小,支持正確排除的證據(jù)效力越強(qiáng)?;诖耍骋蛔R(shí)別特征的Tippett圖上,實(shí)心曲線和虛線交叉點(diǎn)以上的部分分得愈開,交叉點(diǎn)以下部分靠得愈近,交叉點(diǎn)的值(等誤率)越低,說明這個(gè)特征作為話者識(shí)別特征總體性能越好。從圖4中的Tippett圖的總體形態(tài)特征可以看出,信息特征P1和P3的總體性能最差,而P8、P10、P12的總體性能優(yōu)于其他信息特征。此外,表2中的12個(gè)特征的Cllr值也顯示P1和P3的效度最低。
基于對(duì)12個(gè)信息特征總體性能和效度的評(píng)估,選取除P1、P3之外的10個(gè)信息特征,嘗試構(gòu)建一個(gè)由多個(gè)識(shí)別特征構(gòu)成的話者識(shí)別系統(tǒng)。
表3記錄了擬用于構(gòu)建話者識(shí)別系統(tǒng)的10個(gè)信息特征之間的Pearson相關(guān)系數(shù)。該表顯示,信息特征P2和P9顯著相關(guān),P8分別與P5和P12顯著相關(guān)?;赑earson相關(guān)分析的結(jié)果,首先,把總體性能和效度最優(yōu)的 P4、P8、P10、P11 和 P12 特征分為兩組,以保證每組內(nèi)的特征不顯著相關(guān)。第一組包括P4、P10、P11、P12,第二組包括 P4、P8、P10、P11;接下來,分別以這兩組參數(shù)為核心識(shí)別特征,構(gòu)建話者識(shí)別系統(tǒng)。先把總體性能較好和效度較高的P2和P7依次與兩組核心特征組合(鑒于P5、P6、P9的效度較低,因此不依次與兩組核心特征組合),而后再依次加入其他特征,共構(gòu)建了如表4所示的11個(gè)候選話者識(shí)別系統(tǒng)。
圖4 實(shí)驗(yàn)2中篩選出12個(gè)信息特征的Tippett圖
表1 實(shí)驗(yàn)2篩選出的具有高話者間差異性和低話者內(nèi)變異性的信息特征參數(shù)及計(jì)算公式
表2 實(shí)驗(yàn)2中篩選出的12個(gè)信息特征的Cllr值
表3 擬用于構(gòu)建話者識(shí)別系統(tǒng)的10個(gè)信息特征的相關(guān)關(guān)系
表 4 11個(gè)候選話者識(shí)別系統(tǒng)的識(shí)別特征構(gòu)成
為了評(píng)估所構(gòu)建的候選話者識(shí)別系統(tǒng)的總體性能和效度,把實(shí)驗(yàn)3中計(jì)算所得的識(shí)別系統(tǒng)內(nèi)成員信息特征的似然率值相乘,即得出該話者識(shí)別系統(tǒng)的似然率值[17];而后在Matlab2012a中繪制每個(gè)話者識(shí)別系統(tǒng)的Tippett圖(圖5),并計(jì)算其Cllr值(表 5)。
表 5 11個(gè)候選話者識(shí)別系統(tǒng)的Cllr值
圖5中的Tippett圖顯示,首先包含多個(gè)特征的11個(gè)候選話者識(shí)別系統(tǒng)的總體性能都大大優(yōu)于單個(gè)信息特征;其次所有候選識(shí)別系統(tǒng)的等誤率都低于28%,高于性能最優(yōu)的特征P12的等誤率(EER=31%)。此外,圖5中的Tippett圖的整體形態(tài)顯示,以P4、P10、P11、P12為核心特征的候選話者識(shí)別系統(tǒng)(第 1~6 號(hào)識(shí)別系統(tǒng))性能略優(yōu)于以 P4、P8、P10、P11為核心特征的候選話者識(shí)別系統(tǒng)(第7~11號(hào)識(shí)別系統(tǒng));而且,在以 P4、P10、P11、P12 為核心特征的6個(gè)候選話者識(shí)別系統(tǒng)中,第1、3、4號(hào)系統(tǒng)的總體性能優(yōu)于其他3個(gè)系統(tǒng);在第1、3、4號(hào)候選話者識(shí)別系統(tǒng)中,第4號(hào)系統(tǒng)的等誤率為23%,低于其他兩個(gè)系統(tǒng)(EER=26%),表明第4號(hào)話者識(shí)別系統(tǒng)的準(zhǔn)確度略高于第1、3號(hào)識(shí)別系統(tǒng)。
圖5 11個(gè)候選話者識(shí)別系統(tǒng)的Tippett圖
此外,表5中的11個(gè)候選話者識(shí)別系統(tǒng)的Cllr值也顯示,第3、4號(hào)識(shí)別系統(tǒng)的效度略高于其他候選識(shí)別系統(tǒng)。綜合考慮候選話者識(shí)別系統(tǒng)的總體性能和效度,選定第4號(hào)系統(tǒng)為要建立的話者識(shí)別系統(tǒng)。
圖6分別是基于9對(duì)同對(duì)會(huì)話比較和36對(duì)異對(duì)會(huì)話比較的交叉驗(yàn)證過程計(jì)算所得的似然率值繪制的基于信息特征的4號(hào)話者識(shí)別系統(tǒng)和基于[ɑu214] 共振峰軌跡特征的話者識(shí)別系統(tǒng)的Tippett圖。左側(cè)的是以[ɑu214] 共振峰軌跡特征為識(shí)別特征的話者識(shí)別系統(tǒng)的Tippett圖,右側(cè)是以6個(gè)信息特征為識(shí)別特征的4號(hào)話者識(shí)別系統(tǒng)的Tippett圖。不難看出,以信息特征為識(shí)別特征的話者識(shí)別系統(tǒng)的總體性能優(yōu)于以共振峰軌跡特征為識(shí)別特征的話者識(shí)別系統(tǒng)。而且前者的等誤率約為46%,后者的約為30.5%,表明以信息特征為識(shí)別參數(shù)的話者識(shí)別系統(tǒng)準(zhǔn)確性更高些。
圖6 基于信息特征和基于共振峰軌跡特征的話者識(shí)別系統(tǒng)Tippett圖
而且,以信息特征為識(shí)別特征的話者識(shí)別系統(tǒng)的 Cllr值為 0.775,以[ɑu214] 共振峰軌跡特征為識(shí)別特征的話者識(shí)別系統(tǒng)的Cllr值為3.145,不但遠(yuǎn)遠(yuǎn)高于以信息特征為識(shí)別特征的話者識(shí)別系統(tǒng)的Cllr值,而且遠(yuǎn)遠(yuǎn)大于1,說明以共振峰軌跡特征為識(shí)別特征的話者識(shí)別系統(tǒng)的效度很低。
張翠玲等[26]測(cè)試二合元音和三合元音共振峰軌跡特征是比單元音效度更高的話者識(shí)別聲學(xué)語(yǔ)音學(xué)特征,這與本研究實(shí)驗(yàn)結(jié)果相差甚遠(yuǎn)。導(dǎo)致本研究實(shí)驗(yàn)中共振峰軌跡特征的總體性能和信度都不理想的根本原因是本實(shí)驗(yàn)所用會(huì)話材料為自然話語(yǔ)。張翠玲等[26]實(shí)驗(yàn)所用元音[ɑi55] 源于同一個(gè)字“哀”,由被試?yán)首x指定含有被測(cè)試音節(jié)的詞組,并在實(shí)驗(yàn)室完成錄制;而本研究所用會(huì)話是在不控制任何條件下錄制的自然日常會(huì)話,該研究實(shí)驗(yàn)中的被測(cè)試音節(jié)[ɑu214] 并不是源于同一個(gè)字,在此條件下,為了保證取樣音節(jié)的語(yǔ)音環(huán)境盡量相近似,在該實(shí)驗(yàn)數(shù)據(jù)中最多能保證每段對(duì)話中抽取2個(gè)音節(jié)。 張翠玲等[26]測(cè)試的元音為[ɑi55] 和[iɑo55] ,而本研究實(shí)驗(yàn)如果選用這兩個(gè)元音,則會(huì)導(dǎo)致用作交叉驗(yàn)證過程的測(cè)試組數(shù)據(jù)和背景組數(shù)據(jù)樣本量過小,嚴(yán)重影響實(shí)驗(yàn)結(jié)果的效度和信度。本實(shí)驗(yàn)選取[ɑu214] 作為被測(cè)試音節(jié),首先是因?yàn)樗?18段含有二合元音和三合元音會(huì)話中出現(xiàn)頻率高,又能保證數(shù)據(jù)樣本量的元音;其次,ZHANG等[28]的實(shí)驗(yàn)證明[iɑu55] 是比[ai55] 效度更高的識(shí)別參數(shù)。
以上實(shí)驗(yàn)數(shù)據(jù)和分析一方面證明語(yǔ)音學(xué)特征話者識(shí)別參數(shù)受現(xiàn)實(shí)環(huán)境諸多因素影響,話者內(nèi)自身變異性大,另一方面也說明本實(shí)驗(yàn)挖掘的信息特征經(jīng)驗(yàn)證體現(xiàn)話者的個(gè)人話語(yǔ)風(fēng)格,受現(xiàn)實(shí)環(huán)境諸多因素影響小,話者內(nèi)自身變異性小,可以作為話者識(shí)別特征。
本研究的目的是挖掘在現(xiàn)實(shí)環(huán)境條件下話者內(nèi)變異性低的量化話者識(shí)別特征?;赟APIR提出的話語(yǔ)行為構(gòu)成層面及它們的屬性和語(yǔ)篇信息分析理論,采用語(yǔ)篇信息分析方法,以不人為施加任何控制的日常自然會(huì)話為實(shí)驗(yàn)材料,挖掘并驗(yàn)證話者的個(gè)人話語(yǔ)風(fēng)格特征作為話者識(shí)別特征的總體性能、效度和信度。
本研究基于研究目的設(shè)計(jì)了四個(gè)環(huán)環(huán)相扣的實(shí)驗(yàn),先篩選出具有高話者間差異性的信息特征,再?gòu)闹泻Y選出具有低話者內(nèi)變異性的信息特征,而后在似然率框架內(nèi)檢驗(yàn)所篩選出的具有潛在話者識(shí)別能力的個(gè)人話語(yǔ)風(fēng)格特征作為話者識(shí)別特征的總體性能和效度,構(gòu)建話者識(shí)別系統(tǒng)。最后比較所構(gòu)建的話者識(shí)別系統(tǒng)和效度經(jīng)過驗(yàn)證的元音共振峰軌跡特征的總體性能和效度,驗(yàn)證所挖掘的個(gè)人話語(yǔ)風(fēng)格特征作為話者識(shí)別參數(shù)的信度。
該研究發(fā)現(xiàn),首先話語(yǔ)行為的個(gè)人話語(yǔ)風(fēng)格層面上的話者識(shí)別特征可以采用語(yǔ)篇信息分析方法分析挖掘;其次實(shí)驗(yàn)驗(yàn)證影響語(yǔ)音學(xué)特征的現(xiàn)實(shí)環(huán)境等因素和話者個(gè)人因素對(duì)個(gè)人話語(yǔ)風(fēng)格特征基本無影響。此外,該研究還發(fā)現(xiàn)現(xiàn)實(shí)環(huán)境因素對(duì)語(yǔ)音學(xué)參數(shù)的影響主要表現(xiàn)在兩方面,一是由于無法控制話者的交際意圖,無法保證待考察音段的高頻出現(xiàn)率;二是無法控制物理環(huán)境因素,使受傳輸信道、錄制設(shè)備等影響較大的高效度語(yǔ)音學(xué)識(shí)別特征的信度大大降低。
基于以上發(fā)現(xiàn),在司法實(shí)踐中如果非語(yǔ)音學(xué)的個(gè)人話語(yǔ)風(fēng)格特征能與話語(yǔ)行為其他層面上的高性能高效度識(shí)別特征,尤其是語(yǔ)音學(xué)特征,相互印證、互為補(bǔ)充,符合整體論原理,識(shí)別結(jié)論的信度會(huì)大大提高。