胡健松 殷啟新 陳丁文
(云南警官學(xué)院,云南·昆明 650223)
數(shù)字語音資料的真實(shí)性完整性鑒定技術(shù),其本身涉及的內(nèi)容非常廣泛而豐富。一份數(shù)字語音資料理論上包含話者個(gè)體特征、背景、錄音內(nèi)容、事件發(fā)生發(fā)展過程、語音物理特性、數(shù)字音頻特性、信道(錄音設(shè)備)信息、軟件信息等等內(nèi)容。一份數(shù)字語音文件經(jīng)過篡改將造成上述信息內(nèi)容發(fā)生變化,產(chǎn)生篡改痕跡。
司法實(shí)踐中如何鑒定一份數(shù)字錄音文件的真實(shí)性,主要是通過檢驗(yàn)是否經(jīng)過剪輯編輯處理。這項(xiàng)工作是一個(gè)綜合性和系統(tǒng)性很強(qiáng)的工作,數(shù)字語音文件是否經(jīng)過剪輯編輯,其痕跡特征表現(xiàn)是多方面的,有的是宏觀特征,有的是微觀特征,有的特征檢驗(yàn)結(jié)果是語音資料經(jīng)過剪輯編輯的必要條件,有的特征表現(xiàn)是充分必要條件。所以鑒定語音資料的真實(shí)性(完整性)是一個(gè)系統(tǒng)鑒定,最后需要綜合評斷才可以得出明確結(jié)論。
本研究主要利用陽宸VS-99(4.0)計(jì)算機(jī)語音工作站、陽宸IV-12智能語音工作站 V8.0和其他音頻軟件,研究數(shù)字語音文件經(jīng)過剪輯編輯的屬性特征、聽覺特征、背景特征、信道特征和音頻處理軟件特征,研究數(shù)字語音文件的波形圖、寬帶窄帶等語圖和音頻參數(shù),發(fā)現(xiàn)剪輯編輯的痕跡。
話者為10名健康成年男性,無喉部疾病及手術(shù)歷史,說普通話,年齡在19-21歲。同一人發(fā)音內(nèi)容為句子:(1)18萬我已經(jīng)還你了(命名為檢材);(2)我沒有(命名為添改素材,簡稱素材)。
1.數(shù)字音頻文件分析設(shè)備
陽宸VS-99(4.0)計(jì)算機(jī)語音工作站,陽宸IV-12智能語音工作站 V8.0。
2.錄音設(shè)備及方法、條件
(1)采用12種不同的錄音信道,分別是(1)SONY M-570V卡式錄音機(jī);(2)VS-99計(jì)算機(jī)語音工作站系統(tǒng)直接錄音;(3)話者本人使用的手機(jī)(10部手機(jī),10個(gè)信道)錄音。
(2)每個(gè)人在聲紋分析實(shí)驗(yàn)室安靜的環(huán)境條件下,利用上述2個(gè)信道和他本人使用的手機(jī)這三種信道按照平時(shí)兩人間談話時(shí)的節(jié)奏強(qiáng)度說檢材和素材句子10遍并同步錄音,采集語音材料研究信道對聲紋鑒定的影響,研究不同信道語料進(jìn)行剪輯編輯的痕跡特征。以下表1.1是話者編號(hào)、實(shí)驗(yàn)人員名字及手機(jī)信道(不同手機(jī)廠牌型號(hào))及其他信道編號(hào)。
表1.1 實(shí)驗(yàn)話者編號(hào)及不同信道的編號(hào)
1.剪輯編輯處理方法
采用Adobe Audition CS6軟件對錄音資料進(jìn)行剪輯編輯處理。對同一名話者的語料進(jìn)行剪輯編輯處理,把檢材句子當(dāng)中的“我已經(jīng)”這三個(gè)音節(jié)和音節(jié)“了”進(jìn)行剪切處理,然后用同一人不同信道的素材音節(jié)“我沒有”作為添加語料切入檢材句子中的“18萬”和“還”之間,這時(shí)得到經(jīng)過剪輯編輯的句子“18萬我沒有還你”。
2.有關(guān)實(shí)驗(yàn)語料的命名
沒有剪輯編輯的命名方法是“H+話者數(shù)字編號(hào)+X+信道數(shù)字編號(hào)”。經(jīng)過剪輯編輯后的語料用“H+話者數(shù)字編號(hào)+X+粘貼的語料信道編號(hào)(原文件信道編號(hào))”來命名。H表示話者,按1-10名話者進(jìn)行后綴編號(hào),X表示信道,不同信道按后綴數(shù)字進(jìn)行編號(hào)。在名稱中有括號(hào)的內(nèi)容為原語料信道音段。例如實(shí)驗(yàn)語料名稱“H1X4(X1)”表示編號(hào)為1的話者,原文件為第一種信道,用第四種信道語句對原始音段進(jìn)行粘貼編輯。
1.語音工作站直接打開分析:自錄音設(shè)備中復(fù)制錄制所得到的數(shù)字音頻文件進(jìn)行保存,用陽宸IV-12智能語音工作站 V8.0打開分析。經(jīng)剪輯編輯的實(shí)驗(yàn)語料必要時(shí)也用該語音工作站直接打開分析。
2.模擬錄音采集方式得到音頻文件:利用麥克風(fēng)將音頻信號(hào)通過調(diào)音臺(tái)、外置聲卡輸入VS-99(4.0)語音工作站。調(diào)音臺(tái)廠牌為“BEHRINGER XENYX802”,聲卡為“CREATIVE USB SOUND BLASTER 24.bit”。設(shè)定采樣率為11KHZ。采集時(shí)調(diào)整錄音電平達(dá)到合適的數(shù)值,保證語圖不產(chǎn)生畸變。采集后的音頻文件保存為16位WAV PCM格式。然后做出它們的300HZ寬帶語圖及45HZ窄帶語圖和其他物理參數(shù)圖譜,進(jìn)行聽辯、識(shí)譜和分析檢驗(yàn)。
3.卡式錄音機(jī)得到的錄音文件:卡式錄音機(jī)是模擬錄音,錄制完成后直接按播放鍵通過耳機(jī)插口按上述第二種“模擬錄音采集方式”將語音通過調(diào)音臺(tái)輸入VS-99語音工作站保存語音工作站所接受的16位WAV PCM格式。
1.實(shí)驗(yàn)理論基礎(chǔ)
語言的物質(zhì)載體語音包括多種特性,通過聽覺的基礎(chǔ)研究,發(fā)現(xiàn)以下九個(gè)語音特征是可以通過聽覺來感知的:音高、發(fā)音、聲音的綜合品質(zhì)、韻律、響度、言語技能、方言口音、社會(huì)方言、話者情態(tài)。這些特性是超出語音音素物理特性范圍的,例如:基頻、共振峰、過零率、頻譜以及各類倒譜系數(shù)等,這些物理特性不能用聽覺感知,從實(shí)驗(yàn)語音學(xué)角度來看,這一類特征屬于音段層次,它們都是從語音音素上提取出來的,這些基本聲學(xué)參數(shù)必須借助計(jì)算機(jī)技術(shù),數(shù)字信號(hào)處理方法提取出來,通過數(shù)理統(tǒng)計(jì)分析,才能用于語音的分析與識(shí)別。而能為聽覺感受到的那些特征,超出了音段層面,屬于超音段特征,檢驗(yàn)方法是一種主觀方法。
超音段言語特征的實(shí)驗(yàn)研究包括對聽覺生理、心理進(jìn)行研究,研究聽覺感知的特點(diǎn),例如:銳度,聲音感知中的客觀量、主觀量、雙耳效應(yīng)等,那么人耳到底能夠感知哪些語音特征。研究表明下述語音特征是可以感知的,即音高、發(fā)音的個(gè)體習(xí)慣動(dòng)作活動(dòng)、聲音綜合品質(zhì)、韻律、響度、言語技能、社會(huì)方言、話者的情態(tài)。通過聽覺檢驗(yàn)為案件語音的聽覺檢驗(yàn)提供了語音特征的比較檢驗(yàn)和基本識(shí)別目標(biāo)。
錄音資料的聽覺檢驗(yàn)用頭戴式耳機(jī)對檢材進(jìn)行聽辯以減少外界的干擾。結(jié)合案情、談話內(nèi)容、情景、事件等錄音資料提供的信息,錄音資料是否經(jīng)過剪輯編輯的聽覺檢驗(yàn)有以下主要內(nèi)容。
(1)檢材料錄音的總體情況,如錄音方式、錄音聲道、錄音內(nèi)容、對話人、環(huán)境等;
(2)對話語義的關(guān)聯(lián)性和邏輯性;
(3)對話語音的來源及變化情況;
(4)對話語音的連續(xù)性和同一性;
(5)相同對話語音的相似度;
(6)對話語音的自然度話題的匹配性;
(7)背景聲的來源及變化情況;
(8)背景聲的連續(xù)性和一致性;
(9)背景聲與對話聲的重疊情況;
(10)錄音的起始和結(jié)束信號(hào)情況;
(11)錄音能量的變化情況
(12)其他的與檢材錄音的形成陳述有關(guān)的情況。
如果發(fā)現(xiàn)檢材錄音在對話聲,背景聲的連續(xù)性上有異常的,或檢材錄音中出現(xiàn)脈沖、信號(hào)丟失、信號(hào)覆蓋等現(xiàn)象的,或檢驗(yàn)情況與剪裁錄音的形成陳述有矛盾的,或其他異常的情況的,分析其形成的原因,根據(jù)需要通過模擬實(shí)驗(yàn)分析,現(xiàn)場分析等方法對檢材錄音進(jìn)行進(jìn)一步檢驗(yàn),分析其形成的原因。
2.實(shí)驗(yàn)過程及結(jié)果分析
通過對10位發(fā)音人在不同的信道的發(fā)音材料進(jìn)行剪輯編輯,得到經(jīng)過剪輯編輯的句子“18萬我沒有還你”。根據(jù)以上內(nèi)容,對檢材進(jìn)行聽覺檢驗(yàn),前面談到聽覺檢驗(yàn)是一種主觀檢驗(yàn)的方法,根據(jù)美國語音學(xué)家H.霍林提出的結(jié)構(gòu)分析方法可以進(jìn)行半定量的分析。把以上11個(gè)指標(biāo)內(nèi)容(除第一項(xiàng)外),人為的分成每個(gè)指標(biāo)十個(gè)等級(jí),每個(gè)項(xiàng)目的得分如果是低于五分,那么結(jié)論是偏向于否定方面的。
鑒于設(shè)計(jì)的實(shí)驗(yàn)語料,不是實(shí)際案件當(dāng)中的語音資料,缺乏談話雙方,事件背景、場景及前后完整內(nèi)容,所以,在此課題當(dāng)中只是做一些理論的探討,在實(shí)際語音資料的檢驗(yàn)當(dāng)中,結(jié)構(gòu)分析方法可以作為一種可靠的主觀檢驗(yàn)方法,得到一種種屬判斷的結(jié)果。
表2.1聽覺檢驗(yàn)的結(jié)構(gòu)分析
所以,該結(jié)構(gòu)分析表最高分?jǐn)?shù)應(yīng)該是110分,如果總評分?jǐn)?shù)低于55,那么判斷結(jié)論就偏向于否定的方面,也就是說檢材有可能經(jīng)過剪輯編輯。如果總評分?jǐn)?shù)高于55,說明檢材有可能沒有經(jīng)過剪輯編輯。
下面舉例分析剪輯編輯實(shí)驗(yàn)材料“H1X11(X1).wav”。這個(gè)材料是第1名話者,原始音段是第一種信道,用第11種信道(SONY M-570V卡式錄音機(jī))的語句對原始材料進(jìn)行剪輯編輯得到的實(shí)驗(yàn)材料。
H1X11(X1)的分析結(jié)果:
這是第一名話者用他本人的手機(jī)在安靜的噪音背景下所出的實(shí)驗(yàn)句子,然后用第11個(gè)信道的語料來進(jìn)行剪輯編輯。第11個(gè)信道是卡式錄音機(jī),有很強(qiáng)烈的機(jī)器背景噪音,頻響特性也不一樣,當(dāng)把句子“我沒有”粘貼入第一個(gè)信道的原始材料當(dāng)中時(shí),結(jié)構(gòu)分析參數(shù)會(huì)有一些異常的結(jié)果,如表2.2所示。
表2.2 檢材H1X11(X1)的聽覺檢驗(yàn)的結(jié)構(gòu)分析結(jié)果
去掉沒有關(guān)聯(lián)的項(xiàng)目,總評分?jǐn)?shù)總分應(yīng)該是80分。該檢材結(jié)構(gòu)分析表總分?jǐn)?shù)為18分,換算為百分制結(jié)果為22.5%,說明該檢材經(jīng)過剪輯編輯的可能性很高。
音頻文件的屬性是具有一個(gè)廣泛內(nèi)容的概念,包括格式信息和和數(shù)字錄音的生成相關(guān)的信息。例如,時(shí)間屬性、文件名屬性、音頻文件的參數(shù)、文件的數(shù)字結(jié)構(gòu)信息和附加信息等等。一個(gè)數(shù)字音頻文件是由特定的錄音設(shè)備所生成的,其采集、數(shù)字編碼和音頻參數(shù)等都包含有特定設(shè)備的信息。對音頻文件的錄制設(shè)備進(jìn)行鑒定是一個(gè)鑒定數(shù)字音頻文件是否經(jīng)過篡改的有效方法。如果能夠檢驗(yàn)一個(gè)數(shù)字音頻文件所包含的錄制設(shè)備的屬性信息,然后和利用所聲稱的錄音設(shè)備錄制的樣本文件屬性進(jìn)行比較,各項(xiàng)目信息如果一致,則聲稱的錄音設(shè)備是檢材生成的必要條件。
理論上說,音頻錄制設(shè)備在錄制音頻的時(shí)候,會(huì)引入設(shè)備固有的噪音信號(hào),這種噪音信號(hào)就像一種獨(dú)特的辨別指紋,從一段音頻信號(hào)中得到設(shè)備特征信息,從而將它用作判斷特定錄制設(shè)備的依據(jù)。所以,人們研究探討了其他一些鑒定方法,例如特征信號(hào)分析方法、本底噪聲分析方法、統(tǒng)計(jì)特征分析方法、設(shè)備本底噪音數(shù)字信號(hào)頻譜數(shù)學(xué)模型分析方法。
人們研究了多種多樣的方法來確定一個(gè)數(shù)字語音文件是否經(jīng)過剪輯編輯,檢驗(yàn)文件屬性或者元數(shù)據(jù)的分析方法是最有效的方法,因?yàn)橐粋€(gè)音頻文件只要經(jīng)過某種軟件的篡改,其音頻屬性必然發(fā)生變化,只要與聲稱的錄音設(shè)備生成的錄音樣本屬性進(jìn)行比較,就能夠發(fā)現(xiàn)音頻屬性或元數(shù)據(jù)的區(qū)別。下面本工作主要通過分析文件的屬性檢驗(yàn)數(shù)字音頻文件是否經(jīng)過剪輯和編輯。
1.數(shù)字音頻文件的屬性信息檢驗(yàn)
音頻文件的元數(shù)據(jù)(或?qū)傩?即數(shù)字錄音中描述錄制內(nèi)容、參數(shù)和數(shù)據(jù)結(jié)構(gòu)等信息的數(shù)據(jù)。數(shù)字錄音都是以一定格式保存的音頻文件,音頻文件屬性和格式信息檢驗(yàn)是通過數(shù)字錄音的文件屬性和格式信息進(jìn)行分析判斷檢材錄音是否符合特定錄音設(shè)備的文件的生成規(guī)律,進(jìn)而判斷檢材錄音是否為該設(shè)備錄制的,即判斷是否經(jīng)過處理的檢驗(yàn)方法。其文件的屬性可以提供大量的某特定數(shù)字錄音的生成的相關(guān)信息,如文件格式信息、時(shí)間屬性、文件名屬性、數(shù)字音頻參數(shù)、文件結(jié)構(gòu)信息和附加軟件信息等??梢酝ㄟ^軟件,例如格式工廠、Mediainfo等屬性查看軟件,以及Adobe Audition2.0或者Cool Edit Pro等軟件查看數(shù)字音頻文件的屬性。
數(shù)字錄音的文件格式種類繁多,較為常見的有CD格式、WAVE(*.WAV)、AIFF、AU、MP3、MIDI、WMA、RealAudio、VQF、OggVorbis、AAC、APE等,還有更多錄音設(shè)備的開發(fā)商開發(fā)的各種音頻格式,這些不同格式的數(shù)字錄音文件結(jié)構(gòu)不盡相同??梢赃x擇適當(dāng)?shù)能浖蛘咄ㄟ^元數(shù)據(jù)的分析獲得它的格式信息。所以某一個(gè)特定的錄音設(shè)備錄制的原始錄音文件的屬性和格式信息的生成,必須遵循一定的規(guī)律,如果通過比較發(fā)現(xiàn)檢材錄音的文件屬性和格式信息不符合聲稱的錄音設(shè)備錄制的原始文件屬性和格式規(guī)律,則可以判定檢材錄音不是該設(shè)備錄制的原始錄音,在有些情況下可以判斷檢材錄音經(jīng)過了剪輯編輯。
2.錄音資料屬性和格式研究過程及結(jié)果
(1)實(shí)驗(yàn)材料的制備
本研究總共設(shè)計(jì)有通過三個(gè)信道錄制的錄音文件。1.手機(jī)錄音文件:手機(jī)包含有7種廠牌型號(hào);2.直接通過VS-99語音工作站采集的錄音資料;3.卡式錄音機(jī)(SONY M-570V)錄音,然后通過VS-99語音工作站采集的音頻文件。本實(shí)驗(yàn)有十名話者使用的手機(jī)種類有7種。用各自的手機(jī)錄音.所獲得的音頻文件有以下三種格式:
(H1X1、H2X2、H3X3、H4X4、H5X5、H7X7、H8X8).mp3
(H6X6、H10X10).m4a
H9X9.aac
選取H1X1.mp3、H6X6.m4a、H9X9.aac這三個(gè)手機(jī)錄音文件,用Adobe Audition CS6軟件用相同話者的第12種信道語料對其進(jìn)行剪輯編輯,將原句子“18萬我已經(jīng)還你了”剪輯為“18萬我沒有還你”。把原句子中的“我已經(jīng)”剪切粘貼為“我沒有”,把原句子中的“了”剪切掉。將處理后的文件另存為wav格式,再用格式工廠轉(zhuǎn)換為與原文件相同的格式。處理后的三個(gè)文件如下:
H1X12(X1).mp3
H6X12(X6).m4a
H9X12(X9).aac
(2)實(shí)驗(yàn)結(jié)果
假設(shè)實(shí)驗(yàn)文件以拷入的電腦為其原始文件形成地址,查看的屬性為原始信息。用格式工廠4.3.0查看屬性。
①署名“H1X1.mp3”的原文件和經(jīng)剪輯編輯后的文件屬性檢驗(yàn)
參數(shù)名稱文件H1X1.mp3格式信息經(jīng)剪輯處理后的文件H1X12(X1).mp3格式信息GeneralFormatFile sizeDurationOverall bit rate modeOverall bit rateWriting libraryAudioFormatFormat versionFormat profileFormat settingsDurationBit rate modeBit rateChannel(s)SamplingrateFrame rateCompressionmodeStream sizeWriting libraryMPEG Audio690 KiB17 s 664 msConstant320 kb/sLAME3.98.2MPEG AudioVersion 1Layer 3Jointstereo / MS Stereo17 s 664 msConstant320 kb/s2 channels48.0 kHz41.667 FPS (1152 SPF)Lossy690 KiB (100%)LAME3.98.2MPEG Audio702 KiB17 s 952 msConstant320 kb/sLAME3.99.5MPEG AudioVersion 1Layer 3Jointstereo / MS Stereo17 s 952 msConstant320 kb/s2 channels48.0 kHz41.667 FPS (1152 SPF)Lossy701 KiB (100%)LAME3.99.5
通過比較發(fā)現(xiàn)MP3文件經(jīng)過剪輯編輯以后,其他音頻參數(shù)沒有變化,但是寫庫(Writing library)的版本由原來的LAME3.98.2改變?yōu)長AME3.99.5。所以經(jīng)過剪輯編輯以后,音頻文件的屬性發(fā)生了改變,表現(xiàn)出剪輯編輯的痕跡。
②署名“H6X6.m4a”的原文件和經(jīng)剪輯編輯后的文件屬性檢驗(yàn)
參數(shù)名稱文件H6X6.m4a格式信息經(jīng)剪輯處理后的文件H6X12(X6).m4a 格式信息GeneralFormatFormat profileCodec IDFile sizeDurationOverall bit rate modeOverall bit rateEncoded dateTagged dateWriting applicationAudioIDFormatFormat/InfoFormat profileCodecIDDurationSource durationBit rate modeBit rateChannel(s)Channel(s)_OriginaChannel positionsSampling rateFrame rateCompression modeStream sizeSource stream sizeTitleEncoded dateTagged dateMPEG-4Apple audio with iTunes infoM4A (M4A /mp42/isom)206 KiB25 s 450 msConstant66.3 kb/sUTC 2018-09-13 08:39:59UTC 2018-09-13 08:39:59com.apple.VoiceMemos (iOS 11.4.1)1AACAdvanced Audio CodecLCmp4a-40-225 s 450 ms25 s 515 msConstant64.0 kb/s2 channels1 channelFront: C48.0 kHz46.875 FPS (1024 SPF)Lossy200 KiB (97%)200 KiB (97%)Core Media AudioUTC 2018-09-13 08:39:59UTC 2018-09-13 08:39:59MPEG-4Apple audio with iTunes infoM4A (isom/iso2)504 KiB25 s 202 msVariable164 kb/sRecorde ddate UTC2018-09-13 08:39:59Lavf57.41.1001AACAdvanced Audio CodecLCmp4a-40-225 s 202 msDuration_LastFrame -14 msVariable162 kb/s 2 channels1 channel Front: C48.0 kHz 46.875 FPS (1024 SPF) Lossy 498 KiB (99%)Maximum bit rate:288 kb/s Default:Yes Alternate group:1
經(jīng)檢驗(yàn)分析原文件和經(jīng)剪輯編輯后的音頻文件屬性發(fā)現(xiàn)有許多內(nèi)容方面的變化:
編解碼器ID(Codec ID ) 由“M4A (M4A /mp42/isom)”變?yōu)椤癕4A (isom/iso2)”; 原音頻文件總比特率模式(Overall bit rate mode)為常量改變?yōu)樽兞?;總比特率?6.3 kb/s改變?yōu)?64 kb/s;標(biāo)記日期(Tagged date ) 改為錄音日期(Recorded date);編寫應(yīng)用程序(Writing application)反映出編輯處理等原文件改變的痕跡。由原來的“com.apple.VoiceMemos (iOS 11.4.1)”改變?yōu)椤癓avf57.41.100”; 項(xiàng)目名稱由原來的“源持續(xù)時(shí)間(Source duration)”改變?yōu)椤俺掷m(xù)時(shí)間(Duration)”;比特率模式由Constant變?yōu)閂ariable ,比特率由64.0 kb/s改變?yōu)?62 kb/s;項(xiàng)目內(nèi)容中新增加一個(gè)混合比特率(Maximum bit rate) 288 kb/s;源文件“源流大小”變?yōu)榱鞔笮 癝tream size”剪輯后沒有標(biāo)題“Title”這個(gè)項(xiàng)目;經(jīng)處理后的文件沒有“編碼日期和標(biāo)記日期”這兩個(gè)項(xiàng)目(Encoded date 和Tagged date),從屬性里只列出錄音日期(Recorded date)UTC 2018-09-13 08:39:59,其內(nèi)容和原文件的“編碼日期和標(biāo)記日期”一致;經(jīng)處理的文件有默認(rèn)(Default)Yes和替代組(Alternate group)這兩個(gè)項(xiàng)目,在原文件中沒有。
所以格式為“m4a”的手機(jī)ipone錄音文件經(jīng)剪輯編輯以后,其屬性發(fā)生很大的變化,通過屬性檢驗(yàn)?zāi)軌虬l(fā)現(xiàn)這類文件剪輯編輯的痕跡特征。
③署名“H9X9.aac”的原文件和經(jīng)剪輯編輯后的文件屬性檢驗(yàn)
參數(shù)名稱文件H9X9.aac格式信息經(jīng)剪輯處理后的文件H9X12(X9).aac格式信息GeneralFormatFormat/InfoFile sizeOverall bit rate modeAudioFormatFormat/InfoFormat versionFormat profileBit rate modeChannel(s)Channel positionsSampling rateFrame rateCompression modeStream sizeADTS Audio Data Transport Stream266 KiBVariableAACAdvanced Audio CodecVersion 4LCVariable1 channelFront: C48.0 kHz46.875 FPS (1024 SPF)Lossy266 KiB (100%)ADTSAudio Data Transport Stream484 KiBVariable AAC Advanced Audio CodecVersion 4LCVariable1 channelFront: C48.0 kHz46.875 FPS (1024 SPF)Lossy484 KiB (100%)
經(jīng)檢驗(yàn)分析格式為“aac”的手機(jī)錄音原文件和經(jīng)剪輯編輯后的音頻文件的屬性發(fā)現(xiàn)所有的格式信息項(xiàng)目內(nèi)容沒有變化,無論是項(xiàng)目的內(nèi)容或數(shù)量,都沒有發(fā)生變化。說明具有aac這種格式的音頻文件,經(jīng)過剪輯編輯以后其屬性可能沒有發(fā)生太大的變化,可能通過屬性分析不能發(fā)現(xiàn)其剪輯編輯的痕跡特征。
通過上述的研究工作發(fā)現(xiàn),從檢驗(yàn)音頻文件的屬性這個(gè)角度發(fā)現(xiàn)剪輯編輯的痕跡特征,其屬性方面的項(xiàng)目內(nèi)容變化多少取決于音頻文件的格式,有的音頻文件經(jīng)過剪輯編輯以后項(xiàng)目內(nèi)容變化比較多,有的就比較少。例如,iphone的手機(jī)錄音文件屬性改變較大。有些格式的音頻文件很難發(fā)現(xiàn)屬性方面的差別,例如,格式為acc的文件屬性查看內(nèi)容沒有變化,從屬性檢驗(yàn)不能反映出剪輯編輯的痕跡特征。
波形分析是對錄音信號(hào)的振幅與時(shí)間的變化關(guān)系進(jìn)行分析的檢驗(yàn)方法,波形分析能夠展示錄音信號(hào)隨時(shí)間的細(xì)微變化,也幫助分析一些特殊信號(hào)產(chǎn)生的原因。整個(gè)錄音過程當(dāng)中,有些特殊信號(hào)是錄音過程當(dāng)中的外部噪音,或者操作噪音、設(shè)備的本底噪音以及剪輯編輯所帶來的一些特殊特性的波形。波形分析有助于判斷錄音所用設(shè)備及錄音的形成過程,是錄音資料真實(shí)性(完整性)鑒定中的一個(gè)重要方法。
錄音拼接剪輯中,剪輯人先在需要編輯的音頻文件中把不需要的語音剪切掉,然后把需要的語音粘貼到這個(gè)部位,用于粘貼的這個(gè)語料主要有三個(gè)來源:第一是取自于同一人的語音的相同音頻文件當(dāng)中的相同音節(jié)或句子;第二是來自于同一人的語音的相同信道不同時(shí)間錄制的音頻文件,把當(dāng)中所需要的音節(jié)或句子復(fù)制以后粘貼到所需要拼接的部位;第三個(gè)來源是同一人的語音的不同的信道在不同時(shí)間錄制的音頻文件,把當(dāng)中所需要的音節(jié)或句子復(fù)制以后粘貼到所需要拼接的文件中。
第一種來源的語料編輯的文件,通過波形的細(xì)節(jié)分析會(huì)發(fā)現(xiàn)音節(jié)原樣重復(fù)特征。第二種雖然信道相同,但是不同時(shí)間錄制的音頻文件,其背景本底波形特征可能有差異。音節(jié)或句子的波形總體上會(huì)和前后句子的波形有差異,因?yàn)橥粋€(gè)人每次說相同音節(jié)無論韻律、音量大小、發(fā)音時(shí)長等表現(xiàn)是不一樣的。第三種語料的來源由于信道不相同,其設(shè)備的本底及信道特性可能不同,產(chǎn)生波形特征的差異。另外,無論是經(jīng)過哪一種剪輯編輯的音段,在聽覺檢驗(yàn)當(dāng)中一般都可以聽出音高、發(fā)音的個(gè)體習(xí)慣動(dòng)作活動(dòng)、聲音綜合品質(zhì)、韻律、響度等聽覺異常。
用Adobe AuditionCS6軟件打開經(jīng)剪輯編輯得到的署名為“H1X12(X1).mp3、H6X12(X6).m4a、H9X12(X9).aac”這三個(gè)音頻文件。它們都是用上述第12種信道來源的語料進(jìn)行剪輯編輯的文件。即粘貼來自于同一人用不同的信道在不同時(shí)間錄制的音頻文件當(dāng)中的語料。以打開署名為“H1X12(X1).mp3”的文件為例,工作窗口見如下示意圖2.1。通過查看頻譜圖發(fā)現(xiàn)粘貼的語料其頻率響應(yīng)范圍與周圍的音節(jié)差異很大,能量也有明顯的差異。
圖2.1 文件“H1X12(X1).mp3”用Adobe AuditionCS6軟件打開的窄帶頻譜圖
用聯(lián)想(昭陽)E49A筆記本電腦并用“Windows Media Player”軟件播放上述經(jīng)過編輯的數(shù)字語音文件,將音頻信號(hào)通過調(diào)音臺(tái)、外置聲卡輸入VS-99(4.0)語音工作站。采集后的音頻文件保存為16位WAV PCM格式。波形分析結(jié)果如下。
1.署名為“H1X12(X1).mp3的波形研究及結(jié)果
(1)波形總體分析
打開音頻文件的波形圖,顯示為完整句子的范圍,可以看到,總體波形的振幅能量有異常,在被粘貼的句子部位振幅的大小明顯的比周圍的音節(jié)要低。如下圖2.2所示。
圖2.2 文件“H1X12(X1).mp3”的總體波形圖
(2)音節(jié)波形的完整性分析
在音節(jié)“我”的末端,波形沒有漸變,發(fā)音結(jié)束急促,顯示出剪切的波形痕跡。如下圖2.3所示。
圖2.3 音節(jié)“我”的末端波形沒有漸變
(3)背景波形分析
通過縱向放大顯示剪切粘貼的音節(jié)其背景噪音的總體振幅能量比其前后音節(jié)要小,說明粘貼語料的背景噪音水平比原音頻文件要低。背景噪音顯示出突變的現(xiàn)象,句子中存在不同來源的語音材料。如下圖2.4所示。
圖2.4 粘貼語料的背景噪音水平比原音頻文件要低
2.署名為“H6X12(X6).m4a”的波形研究及結(jié)果
(1)波形總體分析
打開音頻文件的波形圖,顯示為完整句子的范圍,可以看到,總體波形的振幅能量沒有太大的異常,在被粘貼的句子部位振幅的大小與其后面的音節(jié)差不多。如下圖2.5所示。
圖2.5 文件“H6X12(X6).m4a”在被粘貼部位振幅的大小與其后面的音節(jié)差不多
(2)音節(jié)波形的完整性分析
粘貼語料在音節(jié)“我”的末端,和“還”始端之間,可以觀察到“我”的末端波形沒有漸變,聽感發(fā)音結(jié)束急促,在音節(jié)“還”的始端顯示出背景噪音有突變部位,在這兩個(gè)部位發(fā)現(xiàn)剪切的痕跡。如下圖2.6所示。
圖2.6 波形顯示出有剪切的痕跡
(3)背景波形分析
通過縱向放大顯示剪切粘貼的音節(jié)其背景噪音的總體振幅能量比其前后音節(jié)要小,說明粘貼語料的背景噪音水平比原音頻文件要低。背景噪音顯示出突變的現(xiàn)象,句子中存在不同來源的語音材料。如下圖2.7所示。
圖2.7 粘貼語料的背景噪音水平比原音頻文件低
3.署名為“H9X12(X9).aac的波形研究及結(jié)果
(1)波形總體分析
打開音頻文件的波形圖,顯示為完整句子的范圍,可以看到,總體波形的振幅能量有異常,在被粘貼的句子部位振幅的大小比其后面的音節(jié)小。如下圖2.8所示。
圖2.8 被粘貼的句子部位振幅比其后面的音節(jié)小
(2)音節(jié)波形的完整性分析
粘貼語料在音節(jié)“我”的末端,和“還”始端,可以觀察到“我”的末端波形沒有漸變,聽感發(fā)音結(jié)束急促,在音節(jié)“還”的始端顯示出背景噪音有突變部位,在這兩個(gè)部位發(fā)現(xiàn)剪切的波形痕跡。如下圖2.9所示。
圖2.9 音節(jié)“我”的末端,和“還”的始端有剪切的波形痕跡
(3)背景波形分析
通過縱向放大顯示剪切粘貼的音節(jié)其背景噪音的總體振幅能量比其前后音節(jié)要小,說明粘貼語料的背景噪音水平比原音頻文件要低。背景噪音顯示出突變的現(xiàn)象,句子中存在不同來源的語音材料。如下圖2.10所示。
圖2.10 粘貼語料的背景噪音水平比原音頻文件低
在錄音資料真實(shí)性的真實(shí)性鑒定當(dāng)中,波形信號(hào)的突變是十分關(guān)注的現(xiàn)象,在錄音材料當(dāng)中,都有可能出現(xiàn)一些信號(hào)的突變,借助于波形分析展示錄音信號(hào)隨時(shí)間的細(xì)微變化,分析其形成的原因。在模擬錄音設(shè)備所錄制的正常錄音資料或剪輯錄音資料,都會(huì)涉及到分析錄音設(shè)備的操作信號(hào)波形特征,例如停止、暫停、結(jié)束等操作特殊信號(hào)波形。對于分析不同錄音設(shè)備波形分析是非常有力的一個(gè)手段。
數(shù)字錄音資料也有各種各樣的特殊型號(hào),這些特殊信號(hào)有設(shè)備本身及操作帶來的,也有話者發(fā)音動(dòng)作所造成的,也有來自于背景、環(huán)境的特殊信號(hào)。從上述實(shí)驗(yàn)結(jié)果我們看到,在語音剪輯編輯檢驗(yàn)當(dāng)中,能夠發(fā)現(xiàn)檢材波形的總體異常,在波形細(xì)節(jié)方面音節(jié)的不完整以及背景波形的異常,從這些方面都可以發(fā)現(xiàn)剪輯編輯的痕跡。例如在文件“H9X12(X9).aac”的波形分析中,在音節(jié)“我”的末端,和“還”始端,可以觀察波形突變,在這兩個(gè)部位發(fā)現(xiàn)剪切的波形痕跡特征。
頻譜分析是借助頻譜分析軟件或設(shè)備,對錄音信號(hào)的能量隨頻率的分布關(guān)系進(jìn)行分析檢驗(yàn)的。頻譜分析是一種頻域分析方法,能夠以時(shí)域分析不同的角度揭示錄音信號(hào)的特點(diǎn),用于分析信道特性、特殊信號(hào)特點(diǎn)、語音的連續(xù)性、設(shè)備的本地噪音等。是錄音資料真實(shí)性鑒定的一種十分重要的檢驗(yàn)方法。
頻譜分析有二維和三維頻譜兩種,二維頻譜又稱功率譜,按分析時(shí)長分為即時(shí)功率譜、區(qū)間功率譜長時(shí)功率譜。三維頻譜除顯示信號(hào)能量與頻率的分布關(guān)系外,同時(shí)顯示頻譜隨時(shí)間的動(dòng)態(tài)變化。按分析帶寬的區(qū)別三維頻譜有寬帶語圖和窄帶語圖。寬帶語圖頻率分辨率低,但是時(shí)間分辨率高,能夠較好的顯示頻譜分布隨時(shí)間的動(dòng)態(tài)變化。窄帶語圖時(shí)間分辨率低,但頻率分辨率高,能夠準(zhǔn)確顯示能量隨頻率的分布關(guān)系。
1.寬帶語圖分析
寬帶語圖能夠較好的表現(xiàn)頻譜隨時(shí)間的動(dòng)態(tài)變化。信號(hào)對于時(shí)間響應(yīng)快,所以可用于特殊信號(hào)分析,背景、設(shè)備(信道)等噪音分析。對署名為“H1X12(X1).mp3、H6X12(X6).m4a、H9X12(X9).aac”這三個(gè)音頻文件用寬帶語圖研究其剪輯編輯的痕跡特征。
(1)信道特性研究
頻率響應(yīng)是衡量一個(gè)錄音系統(tǒng)聲音還原能力的重要指標(biāo),不同錄音系統(tǒng)其頻率響應(yīng)范圍有很大的差別,例如,座機(jī)電話的錄音系統(tǒng)其響應(yīng)頻率只能達(dá)到3.5KHZ,而現(xiàn)在的中高檔錄音筆、手機(jī)頻率響應(yīng)超過4KHZ甚至于達(dá)到6KHZ。通過寬帶語圖研究可以大致了解一個(gè)錄音信道特點(diǎn)并分析整個(gè)錄音中頻率響應(yīng)是否保持一致。如果不一致,說明整個(gè)音頻文件當(dāng)中有來自不同信道的語料拼接。
將經(jīng)過剪輯編輯的語音文件“H1X12(X1).mp3、H6X12(X6).m4a、H9X12(X9).aac”在IV-12語音工作站中打開,可以觀察到三個(gè)文件在經(jīng)過粘貼部位,粘貼語料的頻率響應(yīng)明顯低于周圍的音節(jié),高頻部分有明顯差別。三個(gè)文件的寬帶語圖如下圖2.11所示,顯示出粘貼部位高頻整體異常。暴露出拼接的痕跡。自上而下分別是署名為“H1X12(X1).mp3、H6X12(X6).m4a、H9X12(X9).aac”的文件寬帶語圖。
圖2.11 自上而下分別為署名為“H1X12(X1).mp3、H6X12(X6).m4a、H9X12(X9).aac”的文件寬帶語圖
(2)音節(jié)的連續(xù)性和完整性
在一般正常談話當(dāng)中,話者表述的句子應(yīng)該是完整連續(xù)的,這是從反映的句意方面來說。通過聽覺鑒別話者談話主題是否保持一致,整個(gè)句子及其前后句子是否具有邏輯關(guān)聯(lián),談話是否完整。從分析頻譜這個(gè)細(xì)節(jié)角度,每一個(gè)音節(jié)的寬帶語圖應(yīng)該是完整的,音節(jié)之間連續(xù)過渡。如果音頻文件經(jīng)過剪輯篡改,由于當(dāng)今一般編輯軟件技術(shù)方面存在局限性,制作人在操作軟件的過程中本身也具有聽覺視覺的局限性,例如通用的編輯軟件只能顯示波形圖和窄帶頻譜圖,雖然波形顯示精度是非常高的,達(dá)到1/1000秒,但是頻譜圖在顯示能量和頻率方面精度并不高。再加上制作人的局限,在剪切或粘貼語料的過程中,無法準(zhǔn)確控制剪切的位置,能量控制方面可以調(diào)整增益、衰減或降噪,但也不可能調(diào)整到與被編輯的文件一模一樣的狀態(tài)。再加上聽覺的局限,剪輯以后很難消除韻律特征異常。所以通過系統(tǒng)檢驗(yàn)總會(huì)發(fā)現(xiàn)剪輯編輯的痕跡。通過寬帶語圖研究發(fā)現(xiàn)有以下幾種剪輯編輯特征痕跡。
①音節(jié)不完整
制作一個(gè)剪輯編輯的文件,最關(guān)鍵需要是切除一些音節(jié),而粘貼入一些需要的音節(jié)。由于每一個(gè)音節(jié)的始端和末端能量都是逐漸變化的,在剪切音節(jié)的過程當(dāng)中,由于不能準(zhǔn)確地把握時(shí)間點(diǎn)以及能量部位,就會(huì)造成一個(gè)能量的突變點(diǎn),如果剪切是發(fā)生在某個(gè)音節(jié)的始端或者末端,就可能會(huì)造成音節(jié)在這兩個(gè)部位的不完整。如下圖2.12是音頻文件“H1X12(X1).mp3”的寬帶語圖在剪切部位的局部圖,可以看到句子“18萬”末端,音節(jié)能量有突變,音節(jié)不完整。
圖2.12 文件“H1X12(X1).mp3”在剪切部位能量有突變,音節(jié)不完整。
音節(jié)不完整還表現(xiàn)在一個(gè)特定的音節(jié)經(jīng)過拼接以后形成一段語音,這個(gè)經(jīng)過拼接的音節(jié),在寬帶語圖分析當(dāng)中可能會(huì)顯示出聲門脈沖的異常。因?yàn)檎0l(fā)音中聲帶是有規(guī)律振動(dòng)的,聲門脈沖基本上呈周期性的連續(xù)變化,經(jīng)過拼接的音節(jié),由于不可能準(zhǔn)確拼接,拼接部位的聲門波間隔與兩邊相比顯示出擴(kuò)大或者縮小,與其兩邊的脈沖規(guī)律明顯不同,反映出剪輯編輯的痕跡特征。下圖2.13是一個(gè)拼接音節(jié)的寬帶語圖,將時(shí)間精度提高以后,可以觀察到剪輯對聲門脈沖規(guī)律的破壞。
圖2.13 拼接音節(jié)觀察到剪輯對聲門脈沖規(guī)律的破壞
②剪切遺漏
根據(jù)上述分析指出當(dāng)今一般編輯軟件技術(shù)方面存在局限性和制作人在操作軟件的過程中本身也具有聽覺視覺的局限性因而制作人在剪切或粘貼語料的過程中,無法準(zhǔn)確控制剪切的位置,所以通過寬帶語圖會(huì)發(fā)現(xiàn)剪輯編輯特征痕跡,例如出現(xiàn)剪切遺漏。即本來該完全剪掉的音節(jié),在波形圖上音節(jié)始端末端的漸變能量沒有完全剪掉,產(chǎn)生剪切遺漏痕跡。如下圖2.14所示是語音文件“H9X12(X9).aac”句子“18萬我已經(jīng)還你了”中剪掉音節(jié)“了”產(chǎn)生剪切遺漏,因?yàn)榫渥印澳懔恕边B讀速度快,兩個(gè)音節(jié)之間有連續(xù)漸變關(guān)系,制作人控制不了在音素之間精確的剪切,所以留下音節(jié)“了”的末端部份發(fā)音。通過聽覺仔細(xì)辨聽也發(fā)現(xiàn)了這個(gè)遺漏的發(fā)音部分。
圖2.14 語音文件“H9X12(X9).aac”被剪掉音節(jié)“了”產(chǎn)生剪切遺漏
③原樣重復(fù)
前面談到錄音拼接剪輯中,剪輯人先在需要編輯的音頻文件中把不需要的語音剪切掉,然后把需要的語音粘貼到這個(gè)部位,用于粘貼的這個(gè)語料來自于三個(gè)來源其中第一是取自于要剪輯處理的相同音頻文件當(dāng)中的同一人所說的相同音節(jié)或句子。對整個(gè)音頻文件通過聽辨和波形圖、寬帶語圖細(xì)節(jié)分析,會(huì)發(fā)現(xiàn)頻譜特性一模一樣的音段。一個(gè)人每次發(fā)音都有差異,同一個(gè)內(nèi)容相同的句子,同一人兩次發(fā)音,從時(shí)間、頻率和能量三維特性都表現(xiàn)得一模一樣是不可能。
2.窄帶語圖和功率譜分析
窄帶語圖和功率譜都能夠精確的顯示被分析信號(hào)的能量隨頻率分布的情況,可用于語音、特殊信號(hào)、背景、信道特征的分析。
(1)窄帶語圖中發(fā)現(xiàn)剪輯編輯的痕跡
一個(gè)語音文件經(jīng)過剪輯編輯,宏觀方面其總體背景、音節(jié)的頻率、能量可能會(huì)表現(xiàn)出現(xiàn)異常。從細(xì)節(jié)方面分析窄帶頻譜圖也必然存在上述在寬帶語圖中發(fā)現(xiàn)的音節(jié)不完整、剪切遺漏等特征。下圖2.15自上而下依次是經(jīng)過剪輯編輯的文件“H1X12(X1).mp3、H6X12(X6).m4a、H9X12(X9).aac”的窄帶全貌圖??梢悦黠@地看到,在粘貼的部位,這個(gè)貼入的語料其頻率響應(yīng)低于原文件,有很大的差異。
另外,由于這個(gè)粘貼語料的背景噪音能量低于原文件的背景噪音能量,所以在貼入的音節(jié)兩端的背景能量與原文件的整體背景相比表現(xiàn)出兩條淺灰色的直條帶。
圖2.15 自上而下依次是三個(gè)文件的窄帶全貌圖
從窄帶音節(jié)的細(xì)節(jié)方面來看,由于一個(gè)音節(jié)始端和末端都是漸變的,從窄帶三維頻譜圖來觀察發(fā)現(xiàn)被剪切后粘貼部分,影響了其前鄰和后鄰的音節(jié),造成音節(jié)不完整,在剪切粘貼部位前鄰音節(jié)末端和后鄰音節(jié)始端漸變部分被剪切,造成在這個(gè)時(shí)間點(diǎn)的發(fā)音表現(xiàn)出能量臺(tái)階。
如下圖2.16所示為音頻文件“H9X12(X9).aac”的能量曲線??梢钥吹皆诩羟悬c(diǎn)能量出現(xiàn)如斷崖式的衰減,這在一個(gè)人發(fā)音過程當(dāng)中是不可能的。
圖2.16 音頻文件“H9X12(X9).aac”的能量曲線
在上述文件窄帶圖譜中,在句末音節(jié)“你”的末端,剪切痕跡右邊能量曲線呈現(xiàn)出漸變過程,結(jié)合聽辨和觀察窄帶頻譜圖,發(fā)現(xiàn)這是音節(jié)“了”被剪切不完整,其末端有遺漏發(fā)音部分。圖2.17顯示其剪切遺漏的窄帶細(xì)節(jié)。
圖2.17 剪切遺漏的窄帶細(xì)節(jié)
(2)信道特性分析
①10種信道的本底噪音頻率響應(yīng)特性研究
從上述的三個(gè)剪輯編輯實(shí)驗(yàn)文件寬帶圖或窄帶圖,都可以明顯發(fā)現(xiàn)來自不同信道的粘貼語料,其頻響特性和原文件是不一樣的,頻響范圍明顯的低于原文件。信道特性的差異有三個(gè)方面的表現(xiàn),一是頻響范圍;二是背景能量水平;三是背景頻譜特性。不同信道的這些特性是不一樣的,如果把來自不同信道的語料進(jìn)行復(fù)制粘貼,在這三個(gè)特性方面可能明顯表現(xiàn)出信道的差異,從而發(fā)現(xiàn)剪輯編輯的痕跡。
實(shí)驗(yàn)研究了10名話者各自使用的手機(jī)本底噪音長時(shí)平均功率譜,發(fā)現(xiàn)每一部手機(jī)的本底頻譜特性基本都是不一樣的,說明可以用設(shè)備本底頻譜特性來區(qū)別不同的特定信道。所以通過研究寬帶和窄帶語圖可以評估一個(gè)信道對語音的頻響特性,通過測量設(shè)備本底的長時(shí)平均功率譜可以分析不同信道的頻率響應(yīng)特性和能量特性。在上述三個(gè)特性方面分析信道的差異,從而發(fā)現(xiàn)剪輯編輯的痕跡。
以下圖2.18自上而下分別是話者H1-H5及其5部手機(jī)的本底長時(shí)平均功率譜FFT的測量結(jié)果,圖2-19自上而下分別是話者H6-H10及其5部手機(jī)的本底長時(shí)平均功率譜FFT的測量結(jié)果。
圖2.18 話者H1-H5(從上到下)及其5部手機(jī)的本底長時(shí)平均功率譜FFT的測量結(jié)果
圖2.19 話者H6-H10(從上到下)及其5部手機(jī)的本底長時(shí)平均功率譜FFT的測量結(jié)果
從以上結(jié)果發(fā)現(xiàn)10部手機(jī)當(dāng)中總共有三種頻率響應(yīng)模式。
第一種臺(tái)階模式,表現(xiàn)在X1、X4、X6、X8、X9、X10這六種信道。它們的本底噪音頻率響應(yīng)模式相同,但頻率響應(yīng)的表現(xiàn)特征不一樣。但其中信道X9、X10的頻譜特性幾乎一致,響應(yīng)頻率在15700-16100HZ急劇下降到13-15dB。信道X4的響應(yīng)頻率在5840HZ急劇下降到12dB。信道X6的響應(yīng)頻率在13450HZ急劇下降到15dB。信道X8的響應(yīng)頻率在20070HZ急劇下降到19dB。信道X1的總體響應(yīng)頻率在20000HZ急劇下降到17dB,但之前并未如上述其他信道一樣一直保持類似臺(tái)階的狀態(tài),在6400HZ有一個(gè)38dB的峰值,然后在8150HZ下降到約19dB的水平,以后表現(xiàn)為緩升的臺(tái)階狀直到20000HZ的急劇下降點(diǎn)。
信道X1的臺(tái)階狀響應(yīng)能量水平大致為20dB;信道X4的臺(tái)階狀響應(yīng)能量水平大致為28-45dB;信道X6的臺(tái)階狀響應(yīng)能量水平大致為46-55dB;信道X8的臺(tái)階狀響應(yīng)能量水平大致為40dB;信道X9的臺(tái)階狀響應(yīng)能量水平大致為33-51dB;信道X10的臺(tái)階狀響應(yīng)能量水平大致為28-48dB。
第二種低響應(yīng)模式,表現(xiàn)在X2、X7這兩種信道。X2在頻率0-1800HZ的范圍頻響有一個(gè)46dB的峰值,然后以后的各頻率響應(yīng)基本保持在18dB以下的水平。X7從開始頻率到200HZ有一個(gè)70dB的峰值,在4000-5000HZ有一個(gè)40dB的峰值,然后下降再緩升到26dB,在20000HZ急降,然后保持在20dB的水平。頻率響應(yīng)特性與第一種模式類似,只是X7的總體響應(yīng)頻率低。
第三種下凹狀的響應(yīng)模式,表現(xiàn)在X3、X5這兩種信道。X3在頻率7580-15030HZ之間有一個(gè)類似下凹狀而底部呈平態(tài)(響應(yīng)能量水平約10dB)的響應(yīng)特性。X5也有類似的表現(xiàn)模式,只是在下凹部位隨頻率增加響應(yīng)能量水平急劇下降和上升表現(xiàn)得沒有X3那么劇烈??傮w形式二者類似。
綜合以上結(jié)果,實(shí)驗(yàn)的10個(gè)信道除X9、X10的頻響特性類似以外,8個(gè)信道本底噪音頻響特性是有差別的,通過測量頻響曲線變化的特征點(diǎn)參數(shù)發(fā)現(xiàn)它們有差異。所以檢驗(yàn)信道本底噪音頻率響應(yīng)特性可以作為檢驗(yàn)數(shù)字音頻文件是否經(jīng)過剪輯編輯的必要條件。
②三個(gè)剪輯編輯實(shí)驗(yàn)語音資料的信道長時(shí)平均功率譜FFT特性研究
我們做出署名為“H1X12(X1).mp3、H6X12(X6).m4a、H9X12(X9).aac”的三個(gè)實(shí)驗(yàn)音頻文件的粘貼部分語料設(shè)備本底噪音的長時(shí)平均功率譜,和署名為“H1X1.mp3、H6X6.m4a、H9X9.aac”的三個(gè)原文件背景長時(shí)平均功率譜相比較,研究二者是否有差異。通過窄帶語圖盡量找出干擾較少的背景,做出二者背景的長時(shí)平均功率譜FFT。
以下是原音頻文件背景噪音功率譜與粘貼音節(jié)的背景噪音功率譜進(jìn)行比較的結(jié)果示意圖。上圖為貼入的音段背景噪音功率譜,下圖為原文件本底噪音功率譜。結(jié)果發(fā)現(xiàn)二者差異非常大。
一是音頻文件“H1X12(X1).mp3”中的粘貼語料和原文件的背景FFT比較結(jié)果。
音頻文件“H1X12(X1).mp3”中的粘貼語料和原文件的背景FFT比較結(jié)果如下圖2.20所示。圖中上面的曲線是粘貼語料的背景長時(shí)平均功率譜FFT,結(jié)果表明在開始頻率70HZ左右,功率由50dB劇烈的下降到30dB,然后基本保持類似一個(gè)臺(tái)階狀的在40 dB左右的功率水平。然后在約4200HZ有一個(gè)激烈的下降,然后保持在約10-20dB的較低水平范圍。
圖中下面曲線是音頻文件H1X1.mp3的背景長時(shí)平均功率譜FFT??梢钥吹剑浔憩F(xiàn)的形式和粘貼語料的背景是不一樣的。在開始階段約250HZ有一個(gè)70dB左右的峰值,然后逐漸下降,在7400HZ左右大致保持30dB左右類似于一個(gè)平臺(tái)的功率譜曲線形態(tài)。然后在約18000-20000HZ功率譜急劇下降,最后功率保持在10-20dB的變化形態(tài)。
圖2.20 “H1X12(X1).mp3”中的粘貼語料(上)和原文件的背景(下)FFT比較
二是音頻文件“H6X12(X6).m4a”中的粘貼語料和原文件的背景FFT比較結(jié)果。
音頻文件“H6X12(X6).m4a”中的粘貼語料和原文件的背景FFT比較結(jié)果如下圖2.21所示。圖中上面曲線是粘貼語料的背景長時(shí)平均功率譜FFT,結(jié)果表明在開始頻率70HZ左右,功率由50dB劇烈的下降到30dB,然后基本保持類似一個(gè)臺(tái)階狀的在40 dB左右的功率水平。然后在約4200HZ有一個(gè)激烈的下降,然后保持在約10-20dB的較低水平范圍。
圖中下面曲線是音頻文件H6X6BJ.m4a的背景長時(shí)平均功率譜FFT??梢钥吹剑浔憩F(xiàn)的形式和粘貼語料的背景是不一樣的。在開始階段由70dB逐漸下降,在約6200HZ左右大致保持40dB左右類似于一個(gè)平臺(tái)的功率譜曲線形態(tài)。然后在約10800功率譜急劇下降,在13100HZ呈斷崖式下降,最后功率保持在15-20dB的變化狀態(tài)。
圖2.21 “H6X12(X6).m4a”中的粘貼語料(上)和原文件(下)的背景FFT比較
三是音頻文件“H9X12(X9).aac” 中的粘貼語料和原文件的背景FFT比較結(jié)果。
音頻文件“H9X12(X9).aac” 中的粘貼語料和原文件的背景FFT比較結(jié)果如下圖2-24所示。圖中上面曲線是粘貼語料的背景長時(shí)平均功率譜FFT(A),結(jié)果表明在開始頻率70HZ左右,功率由50dB劇烈的下降到30dB,然后基本保持類似一個(gè)臺(tái)階狀的在40 dB左右的功率水平。然后在約4200HZ有一個(gè)激烈的下降,然后保持在約10-20dB的較低水平范圍。
圖中下面曲線是音頻文件H9X9BJ.aac的背景長時(shí)平均功率譜FFT(A)??梢钥吹?,其表現(xiàn)的形式和粘貼語料的背景是不一樣的。在開始階段由65dB逐漸下降,在約2000HZ左右大致保持35-45dB左右類似于一個(gè)平臺(tái)的功率譜曲線形態(tài)。然后在約15600HZ呈斷崖式下降,最后功率保持在15-18dB的變化狀態(tài)。
圖2.22 “H9X12(X9).aac” 中的粘貼語料(上)和原文件(下)的背景FFT比較
通過上述的實(shí)驗(yàn)結(jié)果,反映出不同信道本底噪音的頻率響應(yīng)特性是不同的,在相同的錄音噪音背景下,如果信道相同,錄音文件應(yīng)有大致相同的本底噪音頻率響應(yīng)特性,通過測量本底背景噪音的長時(shí)平均功率譜FFT曲線,可以反映出該音頻文件的特定信道本底噪音特性。如果一個(gè)音頻文件被剪切了一個(gè)音段然后粘貼入來自不同信道的另外一個(gè)音段,由于兩個(gè)源文件的信道的本底噪音頻率響應(yīng)特性不同,可能就會(huì)顯示出長時(shí)平均功率譜FFT的差異,從而發(fā)現(xiàn)有剪輯編輯的痕跡。所以檢驗(yàn)信道本底噪音頻率響應(yīng)特性可以作為檢驗(yàn)數(shù)字音頻文件是否經(jīng)過剪輯編輯的必要條件。
從上述結(jié)果發(fā)現(xiàn)檢驗(yàn)數(shù)字音頻文件是否經(jīng)過剪輯編輯是一個(gè)系統(tǒng)工作,無論現(xiàn)代音頻編輯手段有么的方便有效,但是通過音頻文件元數(shù)據(jù)分析、聽覺檢驗(yàn)、波形分析和頻譜分析的系統(tǒng)檢驗(yàn)不難發(fā)現(xiàn)剪輯編輯的痕跡特征,這些痕跡特征表現(xiàn)有的可以作為發(fā)現(xiàn)剪輯編輯的必要條件,有的可作為充分條件,綜合評斷才可以得到明確的結(jié)論。
通過聽覺檢驗(yàn)可以發(fā)現(xiàn)超音段特征。將其歸納為九類十多項(xiàng)指標(biāo)。九個(gè)超音段特征是音高、發(fā)音、聲音的綜合品質(zhì)、韻律、響度、言語技能、方言口音、社會(huì)方言、話者情態(tài)。這種方法,最大的問題是,怎么把這些指標(biāo)研究得更精細(xì),量化工作做得更具有科學(xué)性,準(zhǔn)確反映一個(gè)音頻文件是否有異常,是否經(jīng)過剪輯編輯。在實(shí)際工作中,就聽覺感知而言,發(fā)現(xiàn)音頻文件的異常是非常有效的。
音頻文件的屬性是具有一個(gè)廣泛內(nèi)容的概念,包括格式信息和和數(shù)字錄音的生成相關(guān)的信息。例如,時(shí)間屬性、文件名屬性、音頻文件的參數(shù)、文件的數(shù)字結(jié)構(gòu)信息和附加信息等等。一個(gè)數(shù)字音頻文件是由特定的錄音設(shè)備所生成的,其采集、數(shù)字編碼和音頻參數(shù)等都包含有特定設(shè)備的信息。本研究工作,通過軟件研究音頻文件的屬性信息,發(fā)現(xiàn)只要經(jīng)過篡改,必然在屬性信息當(dāng)中就會(huì)反映出篡改的痕跡。但是有些設(shè)備錄制的特定格式的音頻文件(例如,aac格式)通過查看屬性信息不能發(fā)現(xiàn)篡改痕跡。
波形分析是對錄音信號(hào)的振幅與時(shí)間的變化關(guān)系進(jìn)行分析的檢驗(yàn)方法,用于分析特殊信號(hào)、總體振幅是否異常、音節(jié)是否完整和背景波形是否異常。波形分析能夠展示錄音信號(hào)隨時(shí)間的細(xì)微變化,也幫助分析一些特殊信號(hào)產(chǎn)生的原因。整個(gè)錄音過程當(dāng)中,有些特殊信號(hào)是錄音過程當(dāng)中的外部噪音,或者操作噪音、設(shè)備的本底噪音以及剪輯編輯所帶來的一些特殊特性的波形。波形分析有助于判斷錄音所用設(shè)備及錄音的形成過程,是錄音資料真實(shí)性(完整性)鑒定中的一個(gè)重要方法。
頻譜分析能夠以時(shí)域分析不同的角度揭示錄音信號(hào)的特點(diǎn),例如寬帶語圖和窄帶語圖分析,用于分析信道特性、特殊信號(hào)特點(diǎn)、語音的連續(xù)性、設(shè)備的本地噪音等。從鑒定技術(shù)的角度來說專業(yè)的頻譜分析軟件是檢驗(yàn)數(shù)字音頻文件的真實(shí)性(完整性)的基礎(chǔ)和技術(shù)標(biāo)準(zhǔn)。如果沒有功能軟件“陽宸VS-99(4.0)計(jì)算機(jī)語音工作站,陽宸IV-12智能語音工作站 V8.0”,要開展數(shù)字音頻文件的檢驗(yàn)鑒定研究工作是不可能的。
一般市場上流通的音頻編輯處理軟件,注重的是波形的分析處理,在時(shí)域方面精度很高,但是很難做到精確的頻域分析和能量的分析控制。所以,經(jīng)過市場上流通的音頻處理軟件剪輯編輯的語音資料,多少都會(huì)留下剪輯編輯的缺陷,通過系統(tǒng)檢驗(yàn)可以發(fā)現(xiàn)剪輯編輯痕跡。
即使對數(shù)字音頻文件的剪輯編輯工作在時(shí)域和頻域方面做得幾近完美,但是通過聽覺發(fā)現(xiàn)超音段特征的差異方面可能是無法避免的,因?yàn)榧糨嬀庉嬍怯貌煌瑫r(shí)間空間形成的語料來剪切或者粘貼,話者發(fā)相同的音節(jié)或句子時(shí),語境不同其超音段特征必然表現(xiàn)出差異。