国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

聲紋鑒定中嗓音音質的聲學界標初探
——基于隨機森林和決策樹模型的研究

2022-08-12 08:58:10耿浦洋施少培卞新偉盧啟萌曾錦華
中國司法鑒定 2022年4期
關鍵詞:界標基頻音質

耿浦洋,施少培,郭 弘,卞新偉,盧啟萌,曾錦華

(司法鑒定科學研究院 上海市司法鑒定專業(yè)技術服務平臺 司法部司法鑒定重點實驗室,上海 200063)

嗓音音質是語音中最顯著、最易感知的特征之一,通常指嗓音的質量,由聲帶振動/松緊、聲門閉合以及呼吸和發(fā)聲的協(xié)調等因素共同決定。 從聽覺感知的角度出發(fā),常見的嗓音音質可以歸類為正常嗓音、氣嗓音、嘎裂嗓音和假嗓音等。 在以往研究中發(fā)現(xiàn),嗓音音質與說話人的性別、體型、病理、語言/文化背景以及情感等信息都存在較高的相關性。 因此,有學者提出嗓音音質是話者語音產(chǎn)出的重要特征,能夠反映說話人的個體特點,并且具有一定的穩(wěn)定性。

目前,在聲紋鑒定工作中,嗓音音質是極具參考價值的特征之一,無論是在聽覺檢驗還是在頻譜分析中, 對語音同一性判斷都起著非常重要的作用。 然而,在對證據(jù)語音和樣本語音的嗓音音質進行比對分析時發(fā)現(xiàn),目前的鑒定實踐中存在一個亟待解決的問題,即對嗓音音質的類別判斷尚缺乏客觀的數(shù)據(jù)支撐。 例如,聽感上判斷為嘎裂的嗓音,在頻譜上沒有理想的聲學參數(shù)加以佐證。 KEATING 等研究發(fā)現(xiàn),基頻抖動(jitter)、振幅抖動(shimmer)、諧噪比(Harmonic to Noise Ratio, HNR)、諧波差值(如H1-A1)等聲學參數(shù)和嗓音音質存在一定的相關性。例如,嘎裂嗓音比氣嗓音的第一第二諧波差值(H1-H2)更低。但是,氣嗓和嘎裂兩類音質在聲學參數(shù)上的分界點究竟在哪里? 什么樣的聲學參數(shù)才能夠被判斷為某類音質? 關于這些問題尚缺乏實證研究。 因此,本研究旨在探索不同嗓音音質之間的分界點,為嗓音音質的類別判斷提供數(shù)據(jù)支撐,利用相關結果為聲紋鑒定中證據(jù)語音和樣本語音在嗓音類別的同一性判斷上提供客觀依據(jù)和量化指標。

1 聲學界標

為了解決嗓音音質在聲學參數(shù)上的類別劃分問題,本研究引入一種新型分析方法——聲學界標分析。 聲學界標(acoustic landmark)是基于STEVENS提出的“語音量子理論”(Quantal Nature of Speech, QNS)的一種分析方法。QNS 認為,發(fā)音器官運動和聲學參數(shù)之間存在一種非線性關系,即量子關系(圖1)。在I 區(qū)和Ⅲ區(qū),發(fā)音器官運動不會引起相應聲學參數(shù)的劇烈變化,即為穩(wěn)定段;在Ⅱ區(qū),發(fā)音器官運動會引起聲學參數(shù)的劇烈變化,即為不穩(wěn)定段。 從區(qū)別特征的角度來看,Ⅱ區(qū)是從I 區(qū)沒有形成特征(即[-F])到Ⅲ區(qū)形成穩(wěn)定特征(即[+F])的關鍵區(qū)域。 該區(qū)域存在一個聲學界標,反映聲學特征在發(fā)音參數(shù)不同賦值下的有無情況。 針對聲學界標的研究,不僅有助于增進對語音產(chǎn)出過程中發(fā)音-聲學的非線性關系的理解,還具有廣泛的應用價值,如利用聲學界標進行病理語音的識別、二語偏誤教學等。

圖1 發(fā)音-聲學量子關系圖

圍繞聲學界標的概念,已有部分學者開展了相關研究。 例如:PERKELL 等對英語的元音(即/a/、/i/、/u/)聲學界標進行分析;KOZLOFF 等對西班牙語中拍音(tapped /?/)和顫音(thrilled /r/)的聲學界標進行探索。 還有學者利用聲學界標的研究方法對特殊語音進行相關分析,如發(fā)音障礙患者的語音、抑郁語音等。與其他語言的研究相比,對漢語的研究尚處于探索階段,只有曾晨剛對漢語普通話的塞擦音進行過聲學界標研究。本研究參考曾晨剛、VEILEUX 等研究的范式,基于隨機森林和決策樹模型,對嗓音音質的聲學界標進行探索。

2 實驗方法

2.1 發(fā)音被試對象

本研究共招募12 名漢語普通話發(fā)音人(6 名女性,6 名男性),被試對象均來自中國北方地區(qū)(北京、河北和東北部),且普通話標準。 招募的男性被試對象平均年齡32.2 歲(標準差為6.4),平均身高177.2 cm(標準差為1.6),平均體重77.2 kg(標準差為6.8);女性被試對象平均年齡32.0 歲(標準差為6.3),平均身高163.7 cm(標準差為2.0),平均體重55.17 kg(標準差為5.5)。 所有被試對象均為右利手,無言語或聽覺損傷歷史。

2.2 語料采集

由于漢語研究發(fā)現(xiàn),普通話常用嘎裂音質來表現(xiàn)曲折調(即三聲,T3)的低點,因此本研究選取聲調為三聲的單音節(jié)詞為實驗材料,以獲取更自然的嘎裂音質。 本研究選取9 個單音詞為實驗材料,如表1 所示。 為了保證語料的可控性, 聲母統(tǒng)一選取較穩(wěn)定的/m/,以排除聲母影響。同時,選取單韻母(即/a/、/i/、/u/)和復韻母(即/ao/、/iao/、/an/、/in/、/ang/、/eng/),以達到覆蓋不同韻母類別的目的。 實驗在安靜錄音棚內進行,使用專業(yè)錄音機(SONY PCM-D50)進行錄音,采樣率48.0kHz,量化精度16bit。錄音開始前,被試對象首先熟悉錄音材料并試讀。 然后,分別用正常嗓音、嘎裂嗓音、氣嗓音、假嗓音這4 種狀態(tài)朗讀錄音材料,每個單音節(jié)詞讀3 遍,間隔1s。 每種嗓音朗讀間隔2min,以達到聲帶狀態(tài)復原的目的。

表1 實驗錄音材料

本研究共錄制1 296 個單音節(jié)詞,并進一步邀請2 名具有豐富聽辨經(jīng)驗的漢語母語者對語料進行感知篩選。 對于每個單音節(jié)詞,選取三遍朗讀中嗓音音質感知效果最佳的那一遍,用于接下來的聲學界標研究。

2.3 參數(shù)提取

首先,使用Montreal Forced Aligner 軟件對語料在字和音位兩個層面進行自動標注,并由一名具有豐富標注經(jīng)驗的人員手動對標注精度進行校正。其次,基于標注語音,使用Praat 軟件提取聲學參數(shù)。 前人認為, 嗓音音質通常和基頻抖動(jitter)、HNR、第一第二諧波差值(H1-H2)等參數(shù)具有較高相關性。 同時,為了更全面地考察聲學參數(shù)和嗓音類別的關系,研究還選取了基頻(聽覺對應音高)、音強和時長3 個常見參數(shù)。 最后,本研究共提取18個聲學參數(shù):基頻均值、標準差、最大值/最小值及范圍,音強均值、標準差、最大值/最小值及范圍,時長(即整字、元音段、輔音段),基頻抖動、振幅抖動(shimmer)、HNR 和諧波相關參數(shù)(即H1-H2、H1-A1、H1-A2、H1-A3)。 其中,基頻的提取使用Praat自帶的短期自相關算法,對每個計算錯誤(倍頻或半頻)的音高點都進行手動修正。 對提取的基頻值(單位為Hz)進行半音(st)轉換[st= 12×log(f/f)],參考頻率(f)為100 Hz。 對于諧波相關參數(shù),提取方法是將每個單音節(jié)詞的元音段平均分為5 段,再分別對5 段語音信號的諧波參數(shù)進行提取。

2.4 分析思路

本研究的分析思路如下:先基于18 個聲學參數(shù),建立隨機森林模型對4 種嗓音音質進行判別分析,并按照聲學參數(shù)對嗓音判別的影響大小進行排序;再選取影響較大的聲學參數(shù),使用決策樹模型對4 種嗓音音質的聲學界標進行分析。

3 實驗結果

3.1 基于隨機森林的判別結果

隨機森林是一種基于決策樹的并行集成學習算法,其原理是利用bootstrap 重抽樣方法對原始樣本進行抽樣,然后對所有抽樣建立決策樹模型,最后根據(jù)投票得出最終的預測結果。 隨機森林模型的構建流程如圖2 所示。

圖2 隨機森林模型構建流程

使用R 語言的rondomForest 包,以18 個聲學參數(shù)為因子,嗓音音質為因變量,建立隨機森林模型。 按7:3 的比例將數(shù)據(jù)分為訓練集和測試集。模型內,決策樹的數(shù)量(n)設為默認值500。 同時,為最小化OOB(out-of-bag)預測錯誤率,使用rondomForest 包中的“tunTF”功能,將m參數(shù)優(yōu)化為8,訓練集的OOB 預測錯誤率為9.03%。

針對測試集的嗓音音質的總體判別準確率為90.76%。 4 種嗓音音質判別結果的混淆矩陣如表2所示。 正常嗓音和氣嗓音的判別準確率均為100%;假嗓音的判別準確率為93.33%,有6.67%的假嗓音被判別為正常嗓音;嘎裂嗓音的判別準確率最低(即88.46%),約8%的嘎裂嗓音被判別為正常嗓音、4%被判別為假嗓音。

表2 隨機森林判決結果的混淆矩陣(測試集) (%)

最后,以平均損耗準確率為標準,對18 個聲學參數(shù)對嗓音判別的貢獻度進行排序。 如圖3 所示,對判別準確率影響較大的參數(shù)(圖中陰影標示柱狀圖)包括:基頻參數(shù)(即F0_max、F0_min、F0_mean、F0_sd)、整字時長(duration)、HNR、基 頻 抖 動(jitter)、振幅抖動(shimmer)、第一諧波和第三振幅差值(H1-A3)。 此外,音強參數(shù)(即Intensity_sd、Intensity_mean)對于嗓音判別也具有一定的貢獻。

圖3 聲學參數(shù)對嗓音判別的貢獻度

3.2 決策樹模型結果

決策樹模型是一種非參數(shù)監(jiān)督學習模型,是研究數(shù)據(jù)分類規(guī)則的常見方法。 該模型的基本原理是通過一系列if-then 決策規(guī)則的集合,將特征空間劃分成有限個不相交的子區(qū)域,對于落在相同子區(qū)域的樣本,決策樹模型給出相同的預測值。使用SPSS 25.0 軟件建立決策樹模型。 基于本文3.1 章節(jié)隨機森林的結果,選取音高參數(shù)、整字時長、HNR、基頻抖動、振幅抖動、第一諧波和第三振幅差值作為因子,將4 種嗓音類別作為因變量輸入模型。 按7:3的比例設置訓練集和測試集。

如表3 所示,根據(jù)決策樹模型判別結果的混淆矩陣,訓練集總體判別準確率為78.0%,氣嗓音的判別準確率最高(即94.2%),嘎裂音和假嗓音的判別準確率在75%左右, 正常嗓音的判別準確率相對較低(即65.7%)。模型經(jīng)過學習對測試集進行判別時,準確率與學習前基本保持一致,只有正常嗓音的準確率下降了7.1 個百分點。

表3 決策樹模型判別結果的混淆矩陣 (%)

決策樹經(jīng)過學習生成的嗓音音質聚類流程如圖4 所示。 根據(jù)流程圖可以看出,不同嗓音音質的分類規(guī)則包括三個決策點:

圖4 嗓音音質的決策樹分類流程

(1)HNR:HNR 反映語音信號中諧波和噪音的比例, 該值越低表示信號中的噪音成分越多。 以3.951 為閾值,決策樹模型將氣嗓音和其他3 種嗓音區(qū)分開來,小于等于該數(shù)值的語音被判別為氣嗓音。 這一分類規(guī)則也符合通常對氣嗓音HNR 數(shù)值的預期。

(2)基頻均值:以10.560 為閾值,模型進一步將假嗓音和正常嗓音、嘎裂嗓音進行了區(qū)分,當基頻均值大于10.560 時,語音信號被判別為假嗓音。 這一分類規(guī)則同樣符合對假嗓音基頻均值的預期。

(3)第一諧波和第三振幅差值(H1-A3):本研究對諧波參數(shù)進行提取時,將每個元音均分為5段,然后分別提取每段的諧波參數(shù)。 在決策樹模型中,以第二段的H1-A3 為第三個決策點,22.7 為閾值,對正常嗓音和嘎裂嗓音進一步區(qū)分。

再將決策樹模型對4 種嗓音音質的分類規(guī)則加以歸納,結果如表4 所示。

表4 嗓音音質的決策樹模型分類規(guī)則

4 結論

本研究基于隨機森林和決策樹模型,對4 種嗓音音質的聲學界標進行了探索。 隨機森林結果顯示:嗓音音質的判別準確率為90.76%,基頻、整字時長、HNR 和第一諧波和第三振幅差值(H1-A3)等參數(shù)對于嗓音判別的貢獻度較大。 基于隨機森林的結果,以對嗓音判別貢獻度較大的聲學參數(shù)為因子建立決策樹模型,結果發(fā)現(xiàn):嗓音音質的判別準確率在75%以上,決策樹共有三個決策點,分別為SNR、基頻均值和H1-A3。

與KEATING 等研究結果一致,HNR、諧波差值等參數(shù)確實和嗓音音質存在較高的相關性。 與H1-H2、H1-A1、H1-A2 相比,H1-A3 對于嗓音音質的區(qū)分度更好。此外,盡管在隨機森林模型中,基頻抖動(jitter)和振幅抖動(shimmer)都具有較高的貢獻度。但在決策樹模型中,基頻抖動和振幅抖動并未作為嗓音類別的決策點。 TEIXEIRA 和FERNANDES 認為,基頻抖動和振幅抖動對于病理和健康嗓音的區(qū)分效果可能更佳。

研究發(fā)現(xiàn),(1)決策樹模型以HNR、基頻均值和H1-A3 為決策點。首先,根據(jù)氣嗓音信號中噪音成分更多的特點,HNR 將氣嗓音和其他3 種嗓音區(qū)分開來。 其次,根據(jù)假嗓音基頻均值更高的特點,將假嗓音和正常嗓音、嘎裂嗓音進一步區(qū)分。 最后,根據(jù)H1-A3 的差異區(qū)分正常嗓音和嘎裂嗓音。 三個決策點作為嗓音音質的聲學界標,不僅能夠實現(xiàn)較高的嗓音判別準確率,同時也能夠較好地反映出不同嗓音類別的特點。值得注意的是,決策樹模型對正常嗓音的識別率相對較低(如表3 所示,分別為65.7%和58.6%),并且正常嗓音和嘎裂嗓音的區(qū)分性也相對較差(如圖4 所示,存在25%左右的混淆)。 可能的原因是,H1-A3 對于正常嗓音和嘎裂嗓音的區(qū)分效果并不十分理想。 未來可以針對正常嗓音和嘎裂嗓音的區(qū)分進行專門考察,嘗試增加其他聲學參數(shù)(如共振峰、帶寬),尋找能夠更好區(qū)分正常嗓音和嘎裂嗓音的聲學界標。 (2)4 種常見嗓音音質之間存在顯著的聲學界標。 這一結果對于聲紋鑒定中的嗓音音質判斷具有重要的理論意義和應用價值,不僅能夠為聽覺檢驗中的主觀判斷提供客觀數(shù)據(jù)支撐,還能夠豐富聲譜檢驗的測量指標。此外,本研究對于推動聲紋鑒定的科學化、客觀化,司法鑒定的規(guī)范化以及提升證據(jù)可信度等方面也具有積極的作用。

但本研究仍存在以下幾點不足值得改進:(1)本研究采集了1 296 個單音節(jié)詞,并進行了感知篩選,以期對更具代表性和普遍性的嗓音語料加以研究。在數(shù)據(jù)量上略顯不足,未來可以繼續(xù)擴大男性、女性被試對象的數(shù)量,對嗓音音質的聲學界標進行更為廣泛、深入的大數(shù)據(jù)研究,以進一步推廣本研究結論。 (2)本研究以單音節(jié)詞為考察對象,未來還可以對連續(xù)語流進行考察,以進一步驗證本文結論。 (3)盡管通過聲學參數(shù)可以實現(xiàn)較高的嗓音判別準確率,但是嗓音音質的聲學界標在聲紋鑒定實踐中的應用效果尚不得而知,需要后續(xù)開展基于真實案件的應用研究加以確認。

猜你喜歡
界標基頻音質
“紀檢監(jiān)察學”界域指認的偏誤與匡正
語音同一認定中音段長度對基頻分析的影響
基于時域的基頻感知語音分離方法?
私人影院音質優(yōu)選 ATT(安緹)SUB-12+
讓全家人共享Hi-Fi音質 DALI(達尼)OBERON C系列
橋面鋪裝層對中小跨徑橋梁基頻影響分析
在小空間享受大型音箱的音質 Definitive Technology UIW RLS Ⅱ/UIW RSS Ⅱ
其它都好,音質有待提高 小米AI音箱
英語介詞一詞多義的認知研究
北方文學(2017年18期)2017-07-31 10:31:05
45000kHz基頻晶體濾波器
電子制作(2017年20期)2017-04-26 06:57:35
紫金县| 长春市| 永春县| 临西县| 安龙县| 黄平县| 临洮县| 木兰县| 安顺市| 赤壁市| 遂平县| 山阴县| 麻江县| 津南区| 名山县| 延津县| 清水县| 梨树县| 武平县| 沙洋县| 大渡口区| 杭锦旗| 莆田市| 隆回县| 叙永县| 东宁县| 安图县| 民和| 镇原县| 玛纳斯县| 陆良县| 田东县| 岱山县| 临夏市| 日照市| 佛学| 思南县| 彰化市| 辽阳市| 新源县| 阿拉善右旗|