基于MFCC的語音篡改檢測(cè)系統(tǒng)實(shí)現(xiàn)

2022-11-03 09:22唐依靜周成成王鵬孫世凡吳文琪

現(xiàn)代信息科技 2022年17期

唐依靜，周成成，王鵬，孫世凡，吳文琪

（南京工程學(xué)院信息與通信工程學(xué)院，江蘇南京 211167）

0 引言

隨著社會(huì)生活水平的提高，數(shù)字多媒體傳輸技術(shù)日益完備。數(shù)字多媒體傳輸技術(shù)使數(shù)字多媒體信息得到廣泛的傳播，人們獲取信息也越來越方便。但在這種便利技術(shù)的背后，同時(shí)也存在著巨大的隱患。數(shù)字多媒體傳輸信息的一大特點(diǎn)就是易于修改，一些不法分子利用這一點(diǎn)，經(jīng)常通過各類剪輯軟件來篡改多媒體信息牟取暴利，導(dǎo)致當(dāng)今社會(huì)很多信息的真實(shí)性存疑。信息安全成了我們?nèi)粘Ｉ钪幸粋€(gè)不可忽視的問題。在司法取證中，視聽證據(jù)逐漸取代書信證據(jù)作為取證的主要證據(jù)內(nèi)容。2016年，最高人民法院、最高人民檢察院、公安部就聯(lián)合發(fā)布了《關(guān)于辦理刑事案件收集提取和審查判斷電子數(shù)據(jù)若干問題的規(guī)定》，指出“電子數(shù)據(jù)是案件發(fā)生過程中形成的，以數(shù)字化形式存儲(chǔ)、處理、傳輸?shù)模軌蜃C明案件事實(shí)的數(shù)據(jù)”。音頻就是電子數(shù)據(jù)之一。在2021年世界互聯(lián)網(wǎng)大會(huì)烏鎮(zhèn)峰會(huì)上，習(xí)近平總書記強(qiáng)調(diào)了“沒有網(wǎng)絡(luò)安全就沒有國(guó)家安全，就沒有經(jīng)濟(jì)社會(huì)穩(wěn)定運(yùn)行，廣大人民群眾利益也難以得到保障”。

MATLAB 是美國(guó)MathWorks 公司出品的數(shù)學(xué)軟件，廣泛應(yīng)用于數(shù)據(jù)分析、圖像處理、信號(hào)處理等諸多領(lǐng)域。MATLAB GUI 是基于MATLAB 的人機(jī)交互圖形化用戶界面設(shè)計(jì)，用戶可以選擇相應(yīng)的按鍵來激活后臺(tái)基于MATLAB編寫的程序，使得界面清晰，不用閱讀大量的數(shù)據(jù)，憑借按鍵就可實(shí)現(xiàn)對(duì)應(yīng)的功能。

本文針對(duì)音頻篡改的現(xiàn)象，利用MATLAB GUI 構(gòu)建數(shù)字語音篡改平臺(tái)，從時(shí)域分析、頻域分析和倒譜分析入手，通過比較兩段不同的音頻的時(shí)域波形、頻譜、倒譜和聲道沖激響應(yīng)頻譜來判斷語音信號(hào)是否存在篡改。

1 研究背景

語音篡改檢測(cè)從真實(shí)性和完整性兩方面研究，從真實(shí)性來說，國(guó)外學(xué)者M(jìn)annepalli K等提出了一種結(jié)合MFCC 和動(dòng)態(tài)時(shí)間規(guī)整算法的復(fù)制粘貼篡改檢測(cè)和定位方法，該方法首先提取每個(gè)有聲段的梅爾倒譜系數(shù)特征，隨后使用動(dòng)態(tài)時(shí)間規(guī)整算法來計(jì)算任意兩個(gè)有聲段的相似程度，從而實(shí)現(xiàn)音頻的復(fù)制粘貼篡改檢測(cè)和定位。完整性方面，倪令閣等利用不同采樣率的翻錄設(shè)備對(duì)篡改語音進(jìn)行翻錄，然后使用聲紋鑒定工作站及Adobe Audition 軟件對(duì)翻錄前后的數(shù)字音頻，分別在文件屬性、聽覺和圖譜檢驗(yàn)等方面進(jìn)行比對(duì)和分析。

隨著深度學(xué)習(xí)的不斷發(fā)展，國(guó)內(nèi)對(duì)語音檢測(cè)技術(shù)也逐漸趨于完善。高華等提出了基于時(shí)域的不同采樣頻率采樣和基于頻域的功率譜分析的辦法來檢測(cè)語音的篡改，從時(shí)域上做插零后進(jìn)行差值處理，即頻域上加窗函數(shù)，然后進(jìn)行分幀濾波，通過觀察頻譜有無發(fā)生泄露來判斷有無篡改現(xiàn)象。包永強(qiáng)等探討了音頻取證的分類，構(gòu)建了音頻取證框架。圍繞音頻主動(dòng)取證技術(shù)、基于電網(wǎng)頻率特征的音頻篡改技術(shù)、無電網(wǎng)頻率成分下的音頻篡改檢測(cè)技術(shù)、錄音設(shè)備的特征參數(shù)、模式識(shí)別、數(shù)據(jù)庫建設(shè)情況以及錄音場(chǎng)合識(shí)別等一系列統(tǒng)計(jì)分類實(shí)驗(yàn)，得出較高的識(shí)別率，從而推動(dòng)音頻證據(jù)的真實(shí)性、來源性取證的不斷發(fā)展。本文側(cè)重于篡改檢測(cè)的真實(shí)性，通過MATLAB GUI 設(shè)計(jì)的數(shù)字語音篡改平臺(tái)，通過這個(gè)平臺(tái)觀察拼接的兩段采樣率不同的語音信號(hào)的時(shí)域波形，頻譜、倒譜圖和聲道沖激響應(yīng)頻譜是否存在差異，以此來判定語音是否存在拼接。

2 分析原理和流程圖

語音信號(hào)是一種短時(shí)平穩(wěn)信號(hào)，即時(shí)變的，十分復(fù)雜，攜帶很多有用的信息，其特征參數(shù)的準(zhǔn)確性和唯一性將直接影響語音識(shí)別率的準(zhǔn)確性。特征參數(shù)應(yīng)該能夠比較準(zhǔn)確地表達(dá)語音信號(hào)的特征，具有一定的唯一性。本文從時(shí)域、頻域和倒譜域分析。

從時(shí)域分析上來說，語音信號(hào)最直觀的表現(xiàn)形式就是時(shí)域波形。

從頻域分析上來說，本文語音信號(hào)可以從頻譜和倒頻譜兩方面分析。頻譜使用快速傅里葉變換（FFT）運(yùn)算。倒譜（CEP）是重要的語音特征參數(shù)，倒譜分析也叫同態(tài)處理分析，可以將非線性問題轉(zhuǎn)化成線性問題來處理。倒譜是信號(hào)功率譜對(duì)數(shù)值進(jìn)行傅里葉變換的結(jié)果，這里我們計(jì)算的是實(shí)倒譜，是實(shí)數(shù)的對(duì)數(shù)運(yùn)算，倒譜分析過程如圖1所示，計(jì)算過程如下：

圖1 倒譜分析過程

將原語音信號(hào)經(jīng)過傅里葉變換得到頻譜：

[]=[][]

只考慮幅度就是：

|[]|=|[]||[]|

在兩邊取對(duì)數(shù)：

log||[]||=log||[]||+log||[]||

再在兩邊取逆傅里葉變換得到：

[]=[]+[]

語音信號(hào)模型可以看成激勵(lì)模型、聲道模型、輻射模型的串聯(lián)。從倒譜域分析上來說，語音信號(hào)是由聲門的激勵(lì)信號(hào)和聲道沖激響應(yīng)的卷積而形成的。在計(jì)算聲道沖激響應(yīng)頻譜時(shí)，先進(jìn)行了預(yù)加重，目的是為了更好地分析聲道，去掉激勵(lì)模型和輻射模型的影響。譜的包絡(luò)往往包含著說話的語義成分，它是聲道所對(duì)應(yīng)的部分，聲道沖激響應(yīng)頻譜就可以體現(xiàn)聲道特征。對(duì)倒譜的包絡(luò)進(jìn)行IFFT 變換就可以得到聲道沖激響應(yīng)，所以它是倒譜的低頻部分。

本文的分析流程圖如圖2所示。

圖2 篡改檢測(cè)流程圖

3 MATLAB GUI 界面

打開MATLAB →在命令行執(zhí)行g(shù)uide →出現(xiàn)GUI 編輯界面，選擇一個(gè)默認(rèn)的空白模板→選擇所需控件，主要是可編輯文本框、靜態(tài)文本框、pushbutton 按鈕，radiobutton 單選框、坐標(biāo)區(qū)，按鈕組→點(diǎn)擊編輯器按鈕，會(huì)顯示GUI 界面對(duì)應(yīng)的.m 文件→在生成所加控件的回調(diào)函數(shù)callback 加入相應(yīng)代碼，點(diǎn)擊界面上相應(yīng)按鈕時(shí)就會(huì)實(shí)現(xiàn)代碼的功能。

3.1 音頻輸入輸出界面

本界面可實(shí)現(xiàn)四種功能，如圖3所示。

圖3 音頻輸入界面

音頻輸入輸出界面具體內(nèi)容有：

（1）選擇“文件”file_radiobutton 按鈕將電腦上的文件讀取出來,可以實(shí)現(xiàn)播放、暫停。首先使用uigetfile 函數(shù)：[filename,pathname]=uigetfile({‘*.wav;*.mp3;*.flac;*.m4a’,...’音頻文件(*.wav,*.mp3,*.flac,*.m4a)’},’選擇文件’)彈出選擇文件窗口，使用audioread 函數(shù)：[handles.Sample,handles.Fs]=audioread(handles.Filepath) 讀取音頻文件，然后使用set 函數(shù)定位到對(duì)應(yīng)的GUI 界面按鈕，play 函數(shù)play(handles.player)和stop 函數(shù)stop(handles.player)實(shí)現(xiàn)對(duì)選中音頻的播放和暫停。

（2）選擇“錄音”record_radiobutton 按鈕錄制語音素材，可以在選定采樣率下進(jìn)行音頻錄制，紅色圓圈按鈕為開始錄制，旁邊的灰色方格按鈕為停止錄制。使用audiorecorder 函數(shù)：handles.recObj=audiorecorder(fs,16,1)創(chuàng)建一個(gè)錄音器，其中fs 為采樣頻率，頻率越高保真度越好，但也不能過高，一般來說根據(jù)人聲的特點(diǎn)采樣頻率8 000 Hz 以上都可以，并且采樣頻率越高對(duì)硬件設(shè)備的要求也越高。16 表示采樣的數(shù)據(jù)以16 bit 保存，1 表示采集一個(gè)聲道的語音信號(hào)。使用record 函數(shù)record(handles.recObj) 開始錄音，stop 函數(shù)stop(handles.recObj)停止錄音。

（3）播放器設(shè)置。創(chuàng)建player 回調(diào)函數(shù)：set(handles.player,′StartFcn′,{@playstart_Callback,handles},...

‘StopFcn’,{@playstop_Callback,handles})，使用length 函數(shù)和set 函數(shù)顯示時(shí)長(zhǎng)和采樣率。

（4）導(dǎo)出音頻將其存儲(chǔ)到對(duì)應(yīng)的文件夾中，如圖4所示。

圖4 音頻輸出界面

調(diào)用putfile 跳轉(zhuǎn)到putfile.m 文件，使用uigetdir 函數(shù)打開文件夾選擇對(duì)話框，就可以選擇保存路徑。選擇format_popupmenu 按鈕可以選擇保存的文件的格式，選擇Fs_popupmenu 按鈕可以選擇需要保存的采樣率，選擇bps_popupmenu 按鈕可以選擇保存的比特率，使用get 函數(shù)得出當(dāng)前語音信號(hào)的各屬性值，最后使用audiowrite 函數(shù)在保存路徑中生成錄音文件?！叭∠眂ancel_pushbutton 按鈕使用delete 函數(shù)用于取消上述操作。選擇“重置”reset_pushbutton 按鈕將文件名，文件格式，采樣率和比特率全部初始化。

3.2 音頻分析界面

音頻分析界面具體內(nèi)容有：

（1）時(shí)域分析。使用axes 函數(shù)axes(handles.axes1)創(chuàng)建一個(gè)坐標(biāo)系，然后使用plot 函數(shù)繪出時(shí)域曲線。

（2）頻域分析。使用了快速傅里葉變換的函數(shù)fft：X=fft(data.*hanning (length(handles.data)))，其中加窗函數(shù)hanning 減小頻譜泄露，然后確定限定頻率范圍：fm=10 000*length(X)/Fs，確定頻率刻度：f=(0:fm)*Fs/blockSize，最后用plot 函數(shù)畫出頻譜圖。

（3）倒譜分析。語音信號(hào)的倒譜分析就是提取語音信號(hào)的倒譜特征的過程。本文使用matlab 可以使用自帶的fft函數(shù)得到信號(hào)頻譜c=fft(log(abs(handles.data)+eps))，eps 是返回參數(shù)的精度，然后確定倒頻刻度作為橫坐標(biāo)“倒角”：

ms1=handles.sample/1 000;

ms20=handles.sample/50;

q=(ms1:ms20)/handles.sample;

最后使用plot函數(shù)畫出頻譜圖plot(q,abs(c(ms1:ms20)))。

（4）聲道沖激響應(yīng)頻譜分析。聲道沖激響應(yīng)就是倒譜的包絡(luò)進(jìn)行IFFT 后得到的低頻部分。設(shè)置了FFT 的長(zhǎng)度nfft 為1 024，因?yàn)檫M(jìn)行IFFT 后的譜的縱軸是對(duì)數(shù)化了的，因此IFFT 后橫軸不是時(shí)間t 而是頻率Hz。計(jì)算出頻率刻度，然后按公式取出實(shí)數(shù)部分：Y=log(abs(fft(data)))，對(duì)其求IFFT。接著分離聲門激勵(lì)脈沖和聲道沖激響應(yīng)，通常認(rèn)為基音頻率都是低于500 Hz 的，為了留有余量這里取550 Hz，所以mcep 取11 025/550=20,即在倒譜域中第20 根條譜線之前是反映了包絡(luò)的系數(shù)。然后進(jìn)行預(yù)加重去掉激勵(lì)模型和輻射模型的影響，構(gòu)建聲道沖激響應(yīng)的倒譜序列：

zy=z(1:mcep+1);

zy=[zy’ zeros(1,nfft-2*mcep-1)zy(end:-1:2)’];

接著再使用FFT 變換計(jì)算出聲道沖激響應(yīng)的頻譜，得到圖形plot(ff,real(ZY(nn)))。

音頻分析界面如圖5所示。

圖5 音頻分析界面

3.3 菜單欄

菜單欄具體內(nèi)容有：

（1）打開/初始化。用clear 函數(shù)進(jìn)行初始化，使用uiputfile 函數(shù)打開對(duì)話框，然后利用wavread 函數(shù)載入音頻文件，guidata(hObject,handles)用來保存文件，同時(shí)進(jìn)行時(shí)域回調(diào)。

（2）數(shù)據(jù)分析與處理。編寫回調(diào)函數(shù)，分別回調(diào)GUI中“時(shí)域波形”“頻域分析”“倒譜分析”“聲道沖激響應(yīng)頻譜”中編寫的函數(shù)：

fftplot_Callback(hObject,eventdata,handles)%頻域回調(diào)

daopu_Callback(hObject,eventdata,handles)%倒譜回調(diào)

sdcjxy_Callback(hObject,eventdata,handles);% 聲道沖激響應(yīng)頻譜回調(diào)

（3）結(jié)果圖像保存。使用uiputfile 函數(shù)[file,path]=uiputfile(‘xxx.jpg’,’Save file name’) 打開保存窗口,然后編寫h=figure 畫出圖形，使用saveas 函數(shù)saveas(h,[path file])保存畫出的圖形（時(shí)域圖，頻譜圖、倒譜圖和聲道沖激響應(yīng)頻譜）并且顯示保存路徑，最后結(jié)束操作close(h)。

菜單欄界面如圖6所示。

圖6 菜單欄界面

4 音頻篡改的實(shí)驗(yàn)過程

4.1 音頻信號(hào)的采集

音頻文件的一般格式為mp3 格式，由于其文件與其他音頻格式文件相比儲(chǔ)存占用容量小，音質(zhì)好，一直是主流音頻格式。與這種優(yōu)勢(shì)呈現(xiàn)明顯對(duì)比的，是mp3 格式音頻文件的壓縮是一種有損壓縮，會(huì)犧牲高音頻段的部分分量。針對(duì)這一缺陷，本研究利用通過MATLAB GUI 設(shè)計(jì)的音頻輸入輸出界面錄制語音信號(hào)并保存（保存兩種采樣率的音頻），然后使用音頻剪輯軟件將兩段采樣率不同的語音信號(hào)與原信號(hào)進(jìn)行拼接。

4.2 結(jié)果分析

4.2.1 采樣率相同情況下的篡改分析

圖7是采樣率為11 025 Hz 的原始音頻的倒譜圖，圖8是采樣率為11 025 Hz 的原始音頻拼接采樣率為11 025 Hz的拼接音頻1 的倒譜圖。

圖7 原始音頻倒譜圖

圖8 采樣率為11 025+11 025 Hz 音頻倒譜圖

通過圖像可以很清晰地看出兩段音頻的不同，可以驗(yàn)證從倒譜圖判斷語音信號(hào)發(fā)生篡改的結(jié)論。之后本文又對(duì)四十段音頻進(jìn)行拼接驗(yàn)證，結(jié)論與上述情況均一致。

4.2.2 采樣率不同情況下的篡改分析

因?yàn)榈棺V圖中線條較多較為雜亂，所以提取倒譜圖中的聲道沖激響應(yīng)頻譜來觀察。

圖9是采樣率為11 025 Hz 的原始音頻拼接采樣率為11 025 Hz 的拼接音頻1 的聲道沖激響應(yīng)頻譜，圖10是采樣率為11 025 Hz 的原始音頻拼接8 000 Hz 的拼接音頻2 的聲道沖激響應(yīng)頻譜，拼接音頻1 和拼接音頻2 僅采樣率不同，內(nèi)容上相同。

圖9 采樣率11 025+11 025 Hz 音頻聲道沖激響應(yīng)頻譜

圖10 采樣率11 025+8 000 Hz 音頻聲道沖激響應(yīng)頻譜

圖11是采樣率為8 000 Hz 的原始音頻拼接采樣率為8 000 Hz 的拼接音頻3 的聲道沖激響應(yīng)頻譜，圖12是采樣率為8 000 Hz 的原始音頻拼接11 025 Hz 的拼接音頻4 的聲道沖激響應(yīng)頻譜，拼接音頻3 和拼接音頻4 僅采樣率不同，內(nèi)容上相同。

圖11 采樣率8 000+8 000 Hz 音頻聲道沖激響應(yīng)頻譜

圖12 采樣率8 000+11 025 Hz 音頻聲道沖激響應(yīng)頻譜

通過對(duì)上述兩組拼接的是不同采樣率音頻的倒譜圖觀察來看，可以發(fā)現(xiàn)當(dāng)加入的音頻的采樣率高于自身的采樣率時(shí)，聲道沖激響應(yīng)頻譜變化較大，當(dāng)加入的音頻的采樣率低于自身的采樣率時(shí)，聲道沖激響應(yīng)頻譜大致上不會(huì)發(fā)生太大的改變，本研究對(duì)另外十二組拼接不同采樣率的音頻進(jìn)行實(shí)驗(yàn)，也可以發(fā)現(xiàn)這一點(diǎn)。

本文分析了十四組原始音頻和篡改后的頻譜，從倒譜圖判斷發(fā)生的篡改的準(zhǔn)確率是88%，從聲道沖激響應(yīng)頻譜判斷發(fā)生篡改的準(zhǔn)確率是72%。經(jīng)過分析發(fā)現(xiàn)與以下幾點(diǎn)有關(guān)：

（1）使用MATLAB GUI 搭建的錄音平臺(tái)會(huì)錄制出電腦運(yùn)行過程中很大的電流聲。

（2）聲音聲調(diào)的變化。

（3）環(huán)境噪聲會(huì)使無聲段和有聲段不能被有效判別，會(huì)使頻譜和倒譜發(fā)生很大的改變，帶來誤差。

5 結(jié) 論

本文通過分析拼接的兩段不同采樣率的音頻，可以從倒譜圖判斷語音信號(hào)存在篡改的問題。采用自制的利用MATLAB GUI 創(chuàng)建了一個(gè)錄音設(shè)備，可以實(shí)現(xiàn)在選定采樣率下進(jìn)行錄音，并且可以將其保存在指定的路徑中。此外還可以選擇音頻文件來得出其基礎(chǔ)數(shù)據(jù)（時(shí)長(zhǎng)和采樣率）。然后比較了原始語音和兩段在原始語音的基礎(chǔ)上采用不同采樣率拼接的篡改語音，觀察其聲道沖激響應(yīng)頻譜的變化，可以確定拼接的語音是比原始語音采樣率更高還是更低。但通過圖像觀察而不是數(shù)據(jù)分析容易存在誤差，并且聲道沖激響應(yīng)頻譜只是語音信號(hào)倒譜的低頻分量，不能反映出相位信息。

后續(xù)的研究會(huì)從實(shí)倒譜轉(zhuǎn)為復(fù)倒譜，提取基音特征，以此作為描述音韻的輔助特征參數(shù)更深入地研究語音的聲門激勵(lì)響應(yīng)，并將聲門激勵(lì)信號(hào)和聲道沖激響應(yīng)結(jié)合起來運(yùn)用在語音識(shí)別中?；谀Ｊ狡ヅ浜投虝r(shí)平均過零率檢測(cè)的音頻誤碼掩蓋算法是檢測(cè)丟幀音頻信號(hào)并將音頻信號(hào)重構(gòu)的重要方法，本研究會(huì)在此基礎(chǔ)上對(duì)語音信號(hào)進(jìn)行端點(diǎn)檢測(cè)，更好的去除無聲段的影響。同時(shí)也會(huì)結(jié)合環(huán)境噪聲對(duì)倒譜的影響，在濾除高頻噪聲的情況下對(duì)倒譜圖加窗分幀進(jìn)行分析，放大語音信號(hào)的特征參數(shù)來研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡