国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于MFCC的語音篡改檢測(cè)系統(tǒng)實(shí)現(xiàn)

2022-11-03 09:22唐依靜周成成王鵬孫世凡吳文琪
現(xiàn)代信息科技 2022年17期
關(guān)鍵詞:聲道時(shí)域頻譜

唐依靜,周成成,王鵬,孫世凡,吳文琪

(南京工程學(xué)院 信息與通信工程學(xué)院,江蘇 南京 211167)

0 引 言

隨著社會(huì)生活水平的提高,數(shù)字多媒體傳輸技術(shù)日益完備。數(shù)字多媒體傳輸技術(shù)使數(shù)字多媒體信息得到廣泛的傳播,人們獲取信息也越來越方便。但在這種便利技術(shù)的背后,同時(shí)也存在著巨大的隱患。數(shù)字多媒體傳輸信息的一大特點(diǎn)就是易于修改,一些不法分子利用這一點(diǎn),經(jīng)常通過各類剪輯軟件來篡改多媒體信息牟取暴利,導(dǎo)致當(dāng)今社會(huì)很多信息的真實(shí)性存疑。信息安全成了我們?nèi)粘I钪幸粋€(gè)不可忽視的問題。在司法取證中,視聽證據(jù)逐漸取代書信證據(jù)作為取證的主要證據(jù)內(nèi)容。2016年,最高人民法院、最高人民檢察院、公安部就聯(lián)合發(fā)布了《關(guān)于辦理刑事案件收集提取和審查判斷電子數(shù)據(jù)若干問題的規(guī)定》,指出“電子數(shù)據(jù)是案件發(fā)生過程中形成的,以數(shù)字化形式存儲(chǔ)、處理、傳輸?shù)模軌蜃C明案件事實(shí)的數(shù)據(jù)”。音頻就是電子數(shù)據(jù)之一。在2021年世界互聯(lián)網(wǎng)大會(huì)烏鎮(zhèn)峰會(huì)上,習(xí)近平總書記強(qiáng)調(diào)了“沒有網(wǎng)絡(luò)安全就沒有國(guó)家安全,就沒有經(jīng)濟(jì)社會(huì)穩(wěn)定運(yùn)行,廣大人民群眾利益也難以得到保障”。

MATLAB 是美國(guó)MathWorks 公司出品的數(shù)學(xué)軟件,廣泛應(yīng)用于數(shù)據(jù)分析、圖像處理、信號(hào)處理等諸多領(lǐng)域。MATLAB GUI 是基于MATLAB 的人機(jī)交互圖形化用戶界面設(shè)計(jì),用戶可以選擇相應(yīng)的按鍵來激活后臺(tái)基于MATLAB編寫的程序,使得界面清晰,不用閱讀大量的數(shù)據(jù),憑借按鍵就可實(shí)現(xiàn)對(duì)應(yīng)的功能。

本文針對(duì)音頻篡改的現(xiàn)象,利用MATLAB GUI 構(gòu)建數(shù)字語音篡改平臺(tái),從時(shí)域分析、頻域分析和倒譜分析入手,通過比較兩段不同的音頻的時(shí)域波形、頻譜、倒譜和聲道沖激響應(yīng)頻譜來判斷語音信號(hào)是否存在篡改。

1 研究背景

語音篡改檢測(cè)從真實(shí)性和完整性兩方面研究,從真實(shí)性來說,國(guó)外學(xué)者M(jìn)annepalli K等提出了一種結(jié)合MFCC 和動(dòng)態(tài)時(shí)間規(guī)整算法的復(fù)制粘貼篡改檢測(cè)和定位方法,該方法首先提取每個(gè)有聲段的梅爾倒譜系數(shù)特征,隨后使用動(dòng)態(tài)時(shí)間規(guī)整算法來計(jì)算任意兩個(gè)有聲段的相似程度,從而實(shí)現(xiàn)音頻的復(fù)制粘貼篡改檢測(cè)和定位。完整性方面,倪令閣等利用不同采樣率的翻錄設(shè)備對(duì)篡改語音進(jìn)行翻錄,然后使用聲紋鑒定工作站及Adobe Audition 軟件對(duì)翻錄前后的數(shù)字音頻,分別在文件屬性、聽覺和圖譜檢驗(yàn)等方面進(jìn)行比對(duì)和分析。

隨著深度學(xué)習(xí)的不斷發(fā)展,國(guó)內(nèi)對(duì)語音檢測(cè)技術(shù)也逐漸趨于完善。高華等提出了基于時(shí)域的不同采樣頻率采樣和基于頻域的功率譜分析的辦法來檢測(cè)語音的篡改,從時(shí)域上做插零后進(jìn)行差值處理,即頻域上加窗函數(shù),然后進(jìn)行分幀濾波,通過觀察頻譜有無發(fā)生泄露來判斷有無篡改現(xiàn)象。包永強(qiáng)等探討了音頻取證的分類,構(gòu)建了音頻取證框架。圍繞音頻主動(dòng)取證技術(shù)、基于電網(wǎng)頻率特征的音頻篡改技術(shù)、無電網(wǎng)頻率成分下的音頻篡改檢測(cè)技術(shù)、錄音設(shè)備的特征參數(shù)、模式識(shí)別、數(shù)據(jù)庫建設(shè)情況以及錄音場(chǎng)合識(shí)別等一系列統(tǒng)計(jì)分類實(shí)驗(yàn),得出較高的識(shí)別率,從而推動(dòng)音頻證據(jù)的真實(shí)性、來源性取證的不斷發(fā)展。本文側(cè)重于篡改檢測(cè)的真實(shí)性,通過MATLAB GUI 設(shè)計(jì)的數(shù)字語音篡改平臺(tái),通過這個(gè)平臺(tái)觀察拼接的兩段采樣率不同的語音信號(hào)的時(shí)域波形,頻譜、倒譜圖和聲道沖激響應(yīng)頻譜是否存在差異,以此來判定語音是否存在拼接。

2 分析原理和流程圖

語音信號(hào)是一種短時(shí)平穩(wěn)信號(hào),即時(shí)變的,十分復(fù)雜,攜帶很多有用的信息,其特征參數(shù)的準(zhǔn)確性和唯一性將直接影響語音識(shí)別率的準(zhǔn)確性。特征參數(shù)應(yīng)該能夠比較準(zhǔn)確地表達(dá)語音信號(hào)的特征,具有一定的唯一性。本文從時(shí)域、頻域和倒譜域分析。

從時(shí)域分析上來說,語音信號(hào)最直觀的表現(xiàn)形式就是時(shí)域波形。

從頻域分析上來說,本文語音信號(hào)可以從頻譜和倒頻譜兩方面分析。頻譜使用快速傅里葉變換(FFT)運(yùn)算。倒譜(CEP)是重要的語音特征參數(shù),倒譜分析也叫同態(tài)處理分析,可以將非線性問題轉(zhuǎn)化成線性問題來處理。倒譜是信號(hào)功率譜對(duì)數(shù)值進(jìn)行傅里葉變換的結(jié)果,這里我們計(jì)算的是實(shí)倒譜,是實(shí)數(shù)的對(duì)數(shù)運(yùn)算,倒譜分析過程如圖1所示,計(jì)算過程如下:

圖1 倒譜分析過程

將原語音信號(hào)經(jīng)過傅里葉變換得到頻譜:

[]=[][]

只考慮幅度就是:

|[]|=|[]||[]|

在兩邊取對(duì)數(shù):

log||[]||=log||[]||+log||[]||

再在兩邊取逆傅里葉變換得到:

[]=[]+[]

語音信號(hào)模型可以看成激勵(lì)模型、聲道模型、輻射模型的串聯(lián)。從倒譜域分析上來說,語音信號(hào)是由聲門的激勵(lì)信號(hào)和聲道沖激響應(yīng)的卷積而形成的。在計(jì)算聲道沖激響應(yīng)頻譜時(shí),先進(jìn)行了預(yù)加重,目的是為了更好地分析聲道,去掉激勵(lì)模型和輻射模型的影響。譜的包絡(luò)往往包含著說話的語義成分,它是聲道所對(duì)應(yīng)的部分,聲道沖激響應(yīng)頻譜就可以體現(xiàn)聲道特征。對(duì)倒譜的包絡(luò)進(jìn)行IFFT 變換就可以得到聲道沖激響應(yīng),所以它是倒譜的低頻部分。

本文的分析流程圖如圖2所示。

圖2 篡改檢測(cè)流程圖

3 MATLAB GUI 界面

打開MATLAB →在命令行執(zhí)行g(shù)uide →出現(xiàn)GUI 編輯界面,選擇一個(gè)默認(rèn)的空白模板→選擇所需控件,主要是可編輯文本框、靜態(tài)文本框、pushbutton 按鈕,radiobutton 單選框、坐標(biāo)區(qū),按鈕組→點(diǎn)擊編輯器按鈕,會(huì)顯示GUI 界面對(duì)應(yīng)的.m 文件→在生成所加控件的回調(diào)函數(shù)callback 加入相應(yīng)代碼,點(diǎn)擊界面上相應(yīng)按鈕時(shí)就會(huì)實(shí)現(xiàn)代碼的功能。

3.1 音頻輸入輸出界面

本界面可實(shí)現(xiàn)四種功能,如圖3所示。

圖3 音頻輸入界面

音頻輸入輸出界面具體內(nèi)容有:

(1)選擇“文件”file_radiobutton 按鈕將電腦上的文件讀取出來,可以實(shí)現(xiàn)播放、暫停。首先使用uigetfile 函數(shù):[filename,pathname]=uigetfile({‘*.wav;*.mp3;*.flac;*.m4a’,...’音頻文件(*.wav,*.mp3,*.flac,*.m4a)’},’選 擇文件’)彈出選擇文件窗口,使用audioread 函數(shù):[handles.Sample,handles.Fs]=audioread(handles.Filepath) 讀取音頻文件,然后使用set 函數(shù)定位到對(duì)應(yīng)的GUI 界面按鈕,play 函數(shù)play(handles.player)和stop 函數(shù)stop(handles.player)實(shí)現(xiàn)對(duì)選中音頻的播放和暫停。

(2)選擇“錄音”record_radiobutton 按鈕錄制語音素材,可以在選定采樣率下進(jìn)行音頻錄制,紅色圓圈按鈕為開始錄制,旁邊的灰色方格按鈕為停止錄制。使用audiorecorder 函數(shù):handles.recObj=audiorecorder(fs,16,1)創(chuàng)建一個(gè)錄音器,其中fs 為采樣頻率,頻率越高保真度越好,但也不能過高,一般來說根據(jù)人聲的特點(diǎn)采樣頻率8 000 Hz 以上都可以,并且采樣頻率越高對(duì)硬件設(shè)備的要求也越高。16 表示采樣的數(shù)據(jù)以16 bit 保存,1 表示采集一個(gè)聲道的語音信號(hào)。使用record 函數(shù)record(handles.recObj) 開始錄音,stop 函數(shù)stop(handles.recObj)停止錄音。

(3)播放器設(shè)置。創(chuàng)建player 回調(diào)函數(shù):set(handles.player,′StartFcn′,{@playstart_Callback,handles},...

‘StopFcn’,{@playstop_Callback,handles}),使用length 函數(shù)和set 函數(shù)顯示時(shí)長(zhǎng)和采樣率。

(4)導(dǎo)出音頻將其存儲(chǔ)到對(duì)應(yīng)的文件夾中,如圖4所示。

圖4 音頻輸出界面

調(diào)用putfile 跳轉(zhuǎn)到putfile.m 文件,使用uigetdir 函數(shù)打開文件夾選擇對(duì)話框,就可以選擇保存路徑。選擇format_popupmenu 按鈕可以選擇保存的文件的格式,選擇Fs_popupmenu 按鈕可以選擇需要保存的采樣率,選擇bps_popupmenu 按鈕可以選擇保存的比特率,使用get 函數(shù)得出當(dāng)前語音信號(hào)的各屬性值,最后使用audiowrite 函數(shù)在保存路徑中生成錄音文件?!叭∠眂ancel_pushbutton 按鈕使用delete 函數(shù)用于取消上述操作。選擇“重置”reset_pushbutton 按鈕將文件名,文件格式,采樣率和比特率全部初始化。

3.2 音頻分析界面

音頻分析界面具體內(nèi)容有:

(1)時(shí)域分析。使用axes 函數(shù)axes(handles.axes1)創(chuàng)建一個(gè)坐標(biāo)系,然后使用plot 函數(shù)繪出時(shí)域曲線。

(2)頻域分析。使用了快速傅里葉變換的函數(shù)fft:X=fft(data.*hanning (length(handles.data))),其中加窗函數(shù)hanning 減小頻譜泄露,然后確定限定頻率范圍:fm=10 000*length(X)/Fs,確定頻率刻度:f=(0:fm)*Fs/blockSize,最后用plot 函數(shù)畫出頻譜圖。

(3)倒譜分析。語音信號(hào)的倒譜分析就是提取語音信號(hào)的倒譜特征的過程。本文使用matlab 可以使用自帶的fft函數(shù)得到信號(hào)頻譜c=fft(log(abs(handles.data)+eps)),eps 是返回參數(shù)的精度,然后確定倒頻刻度作為橫坐標(biāo)“倒角”:

ms1=handles.sample/1 000;

ms20=handles.sample/50;

q=(ms1:ms20)/handles.sample;

最后使用plot函數(shù)畫出頻譜圖plot(q,abs(c(ms1:ms20)))。

(4)聲道沖激響應(yīng)頻譜分析。聲道沖激響應(yīng)就是倒譜的包絡(luò)進(jìn)行IFFT 后得到的低頻部分。設(shè)置了FFT 的長(zhǎng)度nfft 為1 024,因?yàn)檫M(jìn)行IFFT 后的譜的縱軸是對(duì)數(shù)化了的,因此IFFT 后橫軸不是時(shí)間t 而是頻率Hz。計(jì)算出頻率刻度,然后按公式取出實(shí)數(shù)部分:Y=log(abs(fft(data))),對(duì)其求IFFT。接著分離聲門激勵(lì)脈沖和聲道沖激響應(yīng),通常認(rèn)為基音頻率都是低于500 Hz 的,為了留有余量這里取550 Hz,所以mcep 取11 025/550=20,即在倒譜域中第20 根條譜線之前是反映了包絡(luò)的系數(shù)。然后進(jìn)行預(yù)加重去掉激勵(lì)模型和輻射模型的影響,構(gòu)建聲道沖激響應(yīng)的倒譜序列:

zy=z(1:mcep+1);

zy=[zy’ zeros(1,nfft-2*mcep-1)zy(end:-1:2)’];

接著再使用FFT 變換計(jì)算出聲道沖激響應(yīng)的頻譜,得到圖形plot(ff,real(ZY(nn)))。

音頻分析界面如圖5所示。

圖5 音頻分析界面

3.3 菜單欄

菜單欄具體內(nèi)容有:

(1)打開/初始化。用clear 函數(shù)進(jìn)行初始化,使用uiputfile 函數(shù)打開對(duì)話框,然后利用wavread 函數(shù)載入音頻文件,guidata(hObject,handles)用來保存文件,同時(shí)進(jìn)行時(shí)域回調(diào)。

(2)數(shù)據(jù)分析與處理。編寫回調(diào)函數(shù),分別回調(diào)GUI中“時(shí)域波形”“頻域分析”“倒譜分析”“聲道沖激響應(yīng)頻譜”中編寫的函數(shù):

fftplot_Callback(hObject,eventdata,handles)%頻域回調(diào)

daopu_Callback(hObject,eventdata,handles)%倒譜回調(diào)

sdcjxy_Callback(hObject,eventdata,handles);% 聲道沖激響應(yīng)頻譜回調(diào)

(3)結(jié)果圖像保存。使用uiputfile 函數(shù)[file,path]=uiputfile(‘xxx.jpg’,’Save file name’) 打開保存窗口,然后編寫h=figure 畫出圖形,使用saveas 函數(shù)saveas(h,[path file])保存畫出的圖形(時(shí)域圖,頻譜圖、倒譜圖和聲道沖激響應(yīng)頻譜)并且顯示保存路徑,最后結(jié)束操作close(h)。

菜單欄界面如圖6所示。

圖6 菜單欄界面

4 音頻篡改的實(shí)驗(yàn)過程

4.1 音頻信號(hào)的采集

音頻文件的一般格式為mp3 格式,由于其文件與其他音頻格式文件相比儲(chǔ)存占用容量小,音質(zhì)好,一直是主流音頻格式。與這種優(yōu)勢(shì)呈現(xiàn)明顯對(duì)比的,是mp3 格式音頻文件的壓縮是一種有損壓縮,會(huì)犧牲高音頻段的部分分量。針對(duì)這一缺陷,本研究利用通過MATLAB GUI 設(shè)計(jì)的音頻輸入輸出界面錄制語音信號(hào)并保存(保存兩種采樣率的音頻),然后使用音頻剪輯軟件將兩段采樣率不同的語音信號(hào)與原信號(hào)進(jìn)行拼接。

4.2 結(jié)果分析

4.2.1 采樣率相同情況下的篡改分析

圖7是采樣率為11 025 Hz 的原始音頻的倒譜圖,圖8是采樣率為11 025 Hz 的原始音頻拼接采樣率為11 025 Hz的拼接音頻1 的倒譜圖。

圖7 原始音頻倒譜圖

圖8 采樣率為11 025+11 025 Hz 音頻倒譜圖

通過圖像可以很清晰地看出兩段音頻的不同,可以驗(yàn)證從倒譜圖判斷語音信號(hào)發(fā)生篡改的結(jié)論。之后本文又對(duì)四十段音頻進(jìn)行拼接驗(yàn)證,結(jié)論與上述情況均一致。

4.2.2 采樣率不同情況下的篡改分析

因?yàn)榈棺V圖中線條較多較為雜亂,所以提取倒譜圖中的聲道沖激響應(yīng)頻譜來觀察。

圖9是采樣率為11 025 Hz 的原始音頻拼接采樣率為11 025 Hz 的拼接音頻1 的聲道沖激響應(yīng)頻譜,圖10是采樣率為11 025 Hz 的原始音頻拼接8 000 Hz 的拼接音頻2 的聲道沖激響應(yīng)頻譜,拼接音頻1 和拼接音頻2 僅采樣率不同,內(nèi)容上相同。

圖9 采樣率11 025+11 025 Hz 音頻聲道沖激響應(yīng)頻譜

圖10 采樣率11 025+8 000 Hz 音頻聲道沖激響應(yīng)頻譜

圖11是采樣率為8 000 Hz 的原始音頻拼接采樣率為8 000 Hz 的拼接音頻3 的聲道沖激響應(yīng)頻譜,圖12是采樣率為8 000 Hz 的原始音頻拼接11 025 Hz 的拼接音頻4 的聲道沖激響應(yīng)頻譜,拼接音頻3 和拼接音頻4 僅采樣率不同,內(nèi)容上相同。

圖11 采樣率8 000+8 000 Hz 音頻聲道沖激響應(yīng)頻譜

圖12 采樣率8 000+11 025 Hz 音頻聲道沖激響應(yīng)頻譜

通過對(duì)上述兩組拼接的是不同采樣率音頻的倒譜圖觀察來看,可以發(fā)現(xiàn)當(dāng)加入的音頻的采樣率高于自身的采樣率時(shí),聲道沖激響應(yīng)頻譜變化較大,當(dāng)加入的音頻的采樣率低于自身的采樣率時(shí),聲道沖激響應(yīng)頻譜大致上不會(huì)發(fā)生太大的改變,本研究對(duì)另外十二組拼接不同采樣率的音頻進(jìn)行實(shí)驗(yàn),也可以發(fā)現(xiàn)這一點(diǎn)。

本文分析了十四組原始音頻和篡改后的頻譜,從倒譜圖判斷發(fā)生的篡改的準(zhǔn)確率是88%,從聲道沖激響應(yīng)頻譜判斷發(fā)生篡改的準(zhǔn)確率是72%。經(jīng)過分析發(fā)現(xiàn)與以下幾點(diǎn)有關(guān):

(1)使用MATLAB GUI 搭建的錄音平臺(tái)會(huì)錄制出電腦運(yùn)行過程中很大的電流聲。

(2)聲音聲調(diào)的變化。

(3)環(huán)境噪聲會(huì)使無聲段和有聲段不能被有效判別,會(huì)使頻譜和倒譜發(fā)生很大的改變,帶來誤差。

5 結(jié) 論

本文通過分析拼接的兩段不同采樣率的音頻,可以從倒譜圖判斷語音信號(hào)存在篡改的問題。采用自制的利用MATLAB GUI 創(chuàng)建了一個(gè)錄音設(shè)備,可以實(shí)現(xiàn)在選定采樣率下進(jìn)行錄音,并且可以將其保存在指定的路徑中。此外還可以選擇音頻文件來得出其基礎(chǔ)數(shù)據(jù)(時(shí)長(zhǎng)和采樣率)。然后比較了原始語音和兩段在原始語音的基礎(chǔ)上采用不同采樣率拼接的篡改語音,觀察其聲道沖激響應(yīng)頻譜的變化,可以確定拼接的語音是比原始語音采樣率更高還是更低。但通過圖像觀察而不是數(shù)據(jù)分析容易存在誤差,并且聲道沖激響應(yīng)頻譜只是語音信號(hào)倒譜的低頻分量,不能反映出相位信息。

后續(xù)的研究會(huì)從實(shí)倒譜轉(zhuǎn)為復(fù)倒譜,提取基音特征,以此作為描述音韻的輔助特征參數(shù)更深入地研究語音的聲門激勵(lì)響應(yīng),并將聲門激勵(lì)信號(hào)和聲道沖激響應(yīng)結(jié)合起來運(yùn)用在語音識(shí)別中?;谀J狡ヅ浜投虝r(shí)平均過零率檢測(cè)的音頻誤碼掩蓋算法是檢測(cè)丟幀音頻信號(hào)并將音頻信號(hào)重構(gòu)的重要方法,本研究會(huì)在此基礎(chǔ)上對(duì)語音信號(hào)進(jìn)行端點(diǎn)檢測(cè),更好的去除無聲段的影響。同時(shí)也會(huì)結(jié)合環(huán)境噪聲對(duì)倒譜的影響,在濾除高頻噪聲的情況下對(duì)倒譜圖加窗分幀進(jìn)行分析,放大語音信號(hào)的特征參數(shù)來研究。

猜你喜歡
聲道時(shí)域頻譜
晚霞淺淡少年糖
大品牌7.1聲道耳機(jī)并不是價(jià)格都很貴
中國(guó)向左走,向右走?
FCC啟動(dòng) 首次高頻段5G頻譜拍賣
動(dòng)態(tài)頻譜共享簡(jiǎn)述
基于MATLAB 的信號(hào)時(shí)域采樣及頻率混疊現(xiàn)象分析
兩種常用漂浮式風(fēng)力機(jī)平臺(tái)動(dòng)態(tài)特性分析
全景聲先行者
不同入射角風(fēng)波流海上漂浮式風(fēng)力機(jī)頻域與時(shí)域動(dòng)態(tài)特性
2.1比20多一個(gè)聲道?音箱聲道架構(gòu)詳解
察哈| 南宫市| 赫章县| 瑞安市| 新余市| 柏乡县| 阳东县| 西藏| 栖霞市| 西和县| 汉寿县| 保德县| 陆丰市| 平陆县| 余江县| 高安市| 巢湖市| 民县| 都匀市| 邢台市| 林周县| 冕宁县| 黑山县| 延吉市| 肇州县| 石家庄市| 昌吉市| 宜君县| 理塘县| 百色市| 满洲里市| 红原县| 施秉县| 金华市| 云林县| 嘉兴市| 平武县| 徐水县| 车险| 福海县| 图木舒克市|