国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于翻轉(zhuǎn)梅爾頻率倒譜系數(shù)的語音變調(diào)檢測方法

2019-01-06 07:27林曉丹邱應強
計算機應用 2019年12期

林曉丹 邱應強

摘 要:語音變調(diào)常用于掩蓋說話人身份,各種變聲軟件的出現(xiàn)使得說話人身份偽裝變得更加容易。針對現(xiàn)有變調(diào)語音檢測方法無法判斷語音是經(jīng)過了何種變調(diào)操作(升調(diào)或降調(diào))的問題,通過分析語音變調(diào)在信號頻譜,尤其是高頻區(qū)域留下的痕跡,提出了基于翻轉(zhuǎn)梅爾倒譜系數(shù)(IMFCC)統(tǒng)計矩特征的電子變調(diào)語音檢測方法。首先,提取各語音幀 IMFCC及其一階差分;然后,計算其統(tǒng)計均值;最后,在該統(tǒng)計特征上利用支持向量機(SVM)多分類器的設計來區(qū)分原始語音、升調(diào)語音和降調(diào)語音。在TIMIT和NIST語音集上的實驗結(jié)果表明,所提方法無論對于原始語音、升調(diào)語音還是降調(diào)語音都具有良好的檢測性能。與MFCC作為特征構(gòu)造的基線系統(tǒng)相比,所設計的特征的方法明顯提高了變調(diào)操作的識別率。在較少的訓練資源的情況下,所提方法也獲得了比基于卷積神經(jīng)網(wǎng)絡(CNN)的框架更好的性能;此外,在不同數(shù)據(jù)集和不同變調(diào)方法上也都取得了較好的泛化性能。

關(guān)鍵詞:語音變調(diào);翻轉(zhuǎn)梅爾頻率;倒譜系數(shù);統(tǒng)計矩;多分類

中圖分類號: TN912.3文獻標志碼:A

Disguised voice detection method based on inverted Mel-frequency cepstral coefficient

LIN Xiaodan*, QIU Yingqiang

(College of Information Science and Engineering, Huaqiao University, Xiamen Fujian 361021, China)

Abstract: Voice disguise through pitch shift is commonly used to conceal the identity of speaker. A bunch of voice changers substantially facilitate the application of voice disguise. To simultaneously address the problem of whether a speech signal is pitch-shifted and how it is modified (pitch-raised or pitch-lowered), with the traces of the electronic disguised voice in the signal spectrum especially the high frequency region analyzed, an electronic disguised voice detection method based on statistical moment features derived from Inverted Mel-Frequency Cepstral Coefficient (IMFCC) was proposed. Firstly, IMFCC and its first-order difference of each voice frame were extracted. Then, its statistical mean was calculated. Finally, on the above statistical feature, the design of Support Vector Machine (SVM) multi-classifier was used to identify the original voice, the pitch-raised voice and the pitch-lowered voice. The experimental results on TIMIT and NIST voice datasets show that the proposed method has satisfactory performance on the detection of the original, pitch-raised and pitch-lowered voice signals. Compared with the baseline system using MFCC as feature construction, the method with the proposed features has significantly increased the recognition rate of the disguise operation. And the method outperforms the Convolutional Neural Network (CNN) based framework when limited training data is available. The extensive experiments demonstrate the proposed has good generalization ability on different datasets and different disguising methods.

Key words: voice disguise; inverted Mel-frequency; cepstral coefficient; statistical moment; multi-classification

0 引言

語音變調(diào)能夠改變說話人的聲音特征。變調(diào)語音除了具有娛樂功能外,還可用于說話人身份的偽裝。傳統(tǒng)的非電子變調(diào)方法是通過捏住鼻子或捂住嘴巴等物理方法來實現(xiàn)[1]。近年來,各種變聲軟件的出現(xiàn),極大地方便了人們對聲音的變調(diào)處理。通過電子變聲的語音,還能獲得較好的語音自然度。已有的研究表明,變調(diào)偽裝語音將會嚴重影響說話人識別系統(tǒng)的性能[2]。倘若犯罪分子通過變聲器偽裝身份進行互聯(lián)網(wǎng)或電話詐騙,將給案件偵破和司法鑒定帶來前所未有的挑戰(zhàn)。因此,如何自動檢測語音是否經(jīng)過變調(diào)是信息安全和司法取證領(lǐng)域一個亟待解決的問題。

在語音偽裝的檢測問題上,目前更多的研究針對的是語音合成和語音轉(zhuǎn)換的檢測[3-4]。這類語音偽裝的目標是為了提高說話人識別系統(tǒng)的錯誤接受率,即:偽裝語音可以欺騙說話人識別系統(tǒng)從而實現(xiàn)非法闖入的目的。本文的研究對象是另一類偽裝語音,即:通過電子變調(diào)的方法實現(xiàn)語音偽裝。這類偽裝的目標是提高人耳或說話人識別系統(tǒng)的錯誤拒絕率,從而掩飾說話人身份。文獻[5]提出了基于梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficient, MFCC)的變調(diào)語音檢測方法,該方法通過多個支持向量機(Support Vector Machine, SVM)分類器的設計并采用投票表決機制在變調(diào)語音的檢測問題上取得了良好的效果。文獻[6]提出了一種將MFCC特征參數(shù)用于高斯混合模型的訓練從而獲得變調(diào)語音的檢測特征。該方法在少量的數(shù)據(jù)集上能夠鑒別語音是否經(jīng)過變調(diào),然而缺乏在更豐富的數(shù)據(jù)集上的驗證。文獻[7]在短時傅里葉譜的基礎(chǔ)上,將卷積神經(jīng)網(wǎng)絡用于變調(diào)語音的鑒別并取得了優(yōu)異的檢測性能。然而,上述方法缺乏對語音變調(diào)痕跡的分析,也無法進一步甄別語音是經(jīng)過升調(diào)或者降調(diào)處理。通過語音的升調(diào)操作,可使男聲轉(zhuǎn)換成女聲;反之,利用降調(diào)操作,可使女聲轉(zhuǎn)換成男聲。因此,判斷語音經(jīng)過了何種變調(diào)操作也具有重要的現(xiàn)實意義。文獻[8]探索了卷積神經(jīng)網(wǎng)絡在原始語音、升調(diào)語音和降調(diào)語音檢測方面的應用,該方法依賴于大量的標注訓練樣本,并且在原始語音和升調(diào)語音的區(qū)分上仍存在較大的提升空間。

本文的研究表明,盡管MFCC在說話人識別等應用場合中取得了良好的性能,然而在語音變調(diào)檢測的問題上,該特征并非是最優(yōu)的。針對語音是否經(jīng)過變調(diào)以及經(jīng)過了升調(diào)或者降調(diào)的問題,在深入研究語音變調(diào)原理的基礎(chǔ)上,本文提出了一種基于翻轉(zhuǎn)梅爾倒譜系數(shù)(Inverted MFCC, IMFCC)統(tǒng)計特征的方法用于語音變調(diào)操作的檢測。

1 語音變調(diào)的基本原理

基音是語音的一個重要參數(shù),在語音識別、語音合成、說話人識別等應用中具有重要的意義。當前變聲軟件主要采用的是通過修改聲音基頻的方式進行變聲。語音變調(diào)方法基本可歸為兩類:時域變調(diào)和頻域變調(diào)。這兩類方法都能夠?qū)崿F(xiàn)變調(diào)不變速,并保持變調(diào)后語音較高的自然度。典型的時域變調(diào)法有:SOLA-FS(Synchronized OverLap-Add and Fixed Synthesis)[9-10]、TD-PSOLA(Time-Domain Pitch Synchronized OverLap-Add)[11]、WSOLA(Waveform Similarity OverLap and Add)[12]等。其基本原理是通過信號在時域上抽取或內(nèi)插改變語音信號音調(diào),信號抽取可實現(xiàn)語音升調(diào),信號內(nèi)插實現(xiàn)降調(diào)。在此基礎(chǔ)上進行時長規(guī)整使語速保持不變,具體為:利用幀插入實現(xiàn)時域拉伸,利用幀刪除實現(xiàn)時域壓縮。頻域變調(diào)的典型方法有:FD-PSOLA(Frequency Domain Pitch Synchronized OverLap-Add)[13]、相位聲碼器法[14]等。這類方法直接在頻域中進行信號插值抽取,或通過調(diào)整信號幅度、頻率參數(shù)從而實現(xiàn)變調(diào)。為了保持相位連續(xù)性,頻域變調(diào)方法通常會引入幀間重疊處理技術(shù)。

在語言學中,基音通常被認為最高降低或升高一個八度。世界上普遍采用的是12平均律將一個八度音分成12個相等的半音,相鄰半音頻率相差21/12倍。如果原始基音為f0,那么按照12平均律修改后的基音為f0′,則f0′和f0應滿足如下關(guān)系:

f0′ = 2N/12×f0; N = ±1,±2,…,±11(1)

當N>0時為升調(diào),N<0時為降調(diào)。N每升高或減少1,音調(diào)就升高或降低一個半音。文獻[6]指出,在取證應用中,N取[-8,-4]和[4,8]是較好的選擇。因為N太小變調(diào)不明顯,無法掩蓋說話人身份,N太大又容易引起懷疑,因此,本文僅考慮這一范圍的變調(diào)。圖1給出了使用Adobe Audition CS6軟件對語音進行N =6和N =-6變調(diào)前后的音調(diào)變化軌跡圖。由圖1可見,語音升調(diào)將導致基音頻率發(fā)生上移,降調(diào)將導致基音頻率發(fā)生下移。從圖1中還能發(fā)現(xiàn)變調(diào)前后的基音變化軌跡在時間軸上還存在一定程度的不同步現(xiàn)象。其中可能的原因是語音信號在時間規(guī)整過程采用的分析窗和合成窗長度、偏移量不一致。對于變調(diào)導致的時間軸失真可以利用頻譜的動態(tài)特性進行捕獲。

除了基音的變化,還能從語音的時頻譜變化中找到變調(diào)對于語音的影響。圖2給出了原始語音、同一語音經(jīng)過N =6的升調(diào)語音、同一語音經(jīng)過N =-6的降調(diào)語音的語譜圖,使用的變調(diào)工具為AUDICITY[15]、ADOBE AUDITION[16]、PRAAT[17]、RTISI(Real-Time Iterative Spectrogram Inversion)[18]。其中,PRATT和RTISI分別采用時域TD-PSOLA和頻域FD-PSOLA變調(diào)方法。而AUDICITY和ADOBE AUDITION所使用的變調(diào)方法未知。從圖2中可以看出,變調(diào)將使語音的頻譜發(fā)生搬移,具體為:降調(diào)語音的頻譜被壓縮,升調(diào)語音的頻譜被擴展。因此,降調(diào)語音在高頻區(qū)頻譜分布較為稀疏,而升調(diào)語音相對原始語音和降調(diào)語音具有更高的頻率分辨率。因此,高頻區(qū)域頻譜特征的分析在區(qū)分變調(diào)語音和原始語音時起了至關(guān)重要的作用。為了更好地捕獲變調(diào)語音和原始語音在高頻區(qū)的差異,本文使用在高頻區(qū)域計算精度更高的翻轉(zhuǎn)梅爾濾波器組并結(jié)合倒譜分析獲得語音的頻譜特性。

2 基于IMFCC的語音變調(diào)檢測

由于MFCC的設計是為了模擬人耳的聽覺特性,因此所使用的濾波器更注重低頻區(qū),在低頻區(qū)具有更好的計算精度,而對于中高頻區(qū)的變化較不敏感。通過第1章的分析我們知道,提升高頻區(qū)的信息分辨能力對于鑒別變調(diào)語音至關(guān)重要。翻轉(zhuǎn)梅爾倒譜系數(shù)(IMFCC)能夠彌補MFCC在高頻區(qū)信息提取的不足,提高中高頻信息的計算精度[19]。IMFCC采用的是如式(2)所示的頻率變換:

使用的翻轉(zhuǎn)梅爾濾波器組如圖3所示。由圖3可知,隨著頻率的增大,濾波器的帶寬和間隔變小。翻轉(zhuǎn)梅爾濾波器組正是利用這一特點提升了高頻區(qū)的計算精度。此外,對于變調(diào)引起語音在時間軸上的不同步現(xiàn)象,將進一步利用IMFCC的動態(tài)特性進行描述。因此,本文選取19維的IMFCC系數(shù)(去除直流分量)和19維的差分特征ΔIMFCC用于區(qū)分原始語音、降調(diào)語音和升調(diào)語音。我們將變調(diào)語音的鑒別問題轉(zhuǎn)換成一個三分類問題,因此可以利用機器學習中多分類器的設計實現(xiàn)這三類語音的鑒別。

2.1 特征提取

本文使用IMFCC及其一階差分特征用于原始語音、升調(diào)語音和降調(diào)語音的識別。IMFCC特征提取方法如下:

1)對語音信號進行預加重、分幀和加窗處理。接著通過VAD(Voice Activity Detection)檢測算法[20]判斷語音幀是否為靜音,若為靜音則丟棄該幀。本文所用漢明窗長為512。

2)對加窗后的語音幀x(n)進行短時傅里葉變換,從而得到離散的功率譜X(k)。

3)由X(k)得到x(n)的能量譜,并采用圖3所示的翻轉(zhuǎn)梅爾濾波器組,按照式(3)進行濾波:

mi=∑N-1k=0X(k)2Hi(k); i=1, 2, …, P(3)

式中:Hi(k)為濾波器的頻率響應;P為濾波器個數(shù);N為傅里葉變換點數(shù)。

4)對mi進行對數(shù)變換得到輸出對數(shù)能量譜。

5)將上述對數(shù)能量譜進行離散余弦變換(Discrete Cosine Transform, DCT),得到前20個DCT系數(shù),即IMFCC系數(shù)。

6)對所得IMFCC特征求取差分,得到ΔIMFCC。

7)求取各語音幀所得IMFCC系數(shù)(去除直流分量)和ΔIMFCC的統(tǒng)計平均共38維特征作為提取的特征。

上述的特征提取使不同時長的語音可獲得相同維度的統(tǒng)計特征,這些特征將被用于分類器的訓練。利用t分布隨機近鄰嵌入(t-distributed Stochastic Neighbor Embedding, t-SNE)算法[23]對上述38維特征進行降維并映射到二維平面上,得到如圖4所示的三類語音分布。圖4中可見,本文設計的基IMFCC的統(tǒng)計特征能夠?qū)⑷愓Z音分離開來。相比降調(diào)語音,區(qū)分原始語音和升調(diào)語音的難度更大。

2.2 分類器設計

本文采用SVM用于原始語音、升調(diào)語音和降調(diào)語音的三分類。三分類SVM采用的實現(xiàn)方式是一對一方式,即:對于三分類問題將產(chǎn)生3個二分類器。對于待預測語音每個二分類器會產(chǎn)生一個輸出標簽0、1或2,把出現(xiàn)次數(shù)最多的標簽作為最終預測輸出。由于本文使用的變調(diào)語音共有10種變調(diào)因子,若訓練集原始語音樣本數(shù)是N,則對于同一種變調(diào)方法,升調(diào)樣本和降低語音樣本數(shù)各5N。由于變調(diào)語音樣本數(shù)比原始語音大很多,為了保持樣本平衡,從每種變調(diào)因子的語音中隨機選取N/5的樣本用作訓練集。SVM的訓練和測試流程如圖5所示。其中,使用的核函數(shù)為式(4)所示的多項式核,實驗中γ、C、d分別設置為1、1、2。

C(xi, xj) = (γxiTxj + C)d(4)

3 實驗與結(jié)果分析

實驗中使用兩個不同的數(shù)據(jù)庫TIMIT[21]和NIST[22],所有音頻都是8kHz采樣率,16比特量化。兩個數(shù)據(jù)庫具有不同的錄音環(huán)境和錄音設備。其中:TIMIT數(shù)據(jù)庫包含630個不同的說話人,一共6300段音頻;NIST數(shù)據(jù)庫包括356個不同說話人,一共3560段音頻。使用的變調(diào)工具包括AUDICITY、ADOBE AUDITION、PRAAT、RTISI,變調(diào)因子有10種,包括±4、±5、±6、±7、±8。變調(diào)語音仍保持8kHz采樣率和16比特量化位數(shù)。3.1 同一數(shù)據(jù)集的檢測結(jié)果

把TIMIT和NIST分成說話人不重疊的兩部分,分別記為T1、T2和N1、N2。其中T1包含3000段語音,T2包含3300段語音;N1包含2000段語音,N2包含1560段語音。其中,TIMIT使用的變調(diào)方法是基于時域的PRAAT方法,NIST使用的變調(diào)方法是基于頻域的RTISI方法。在第一組實驗中,把T1及其對應的變調(diào)語音用作訓練集,T2及其對應的變調(diào)語音用作測試集;此時訓練集中的原始語音、升調(diào)語音、降調(diào)語音的樣本數(shù)各3000;測試集中三類樣本的數(shù)量各為3300。在第二組實驗中,把N1及其對應的變調(diào)語音用作訓練集,N2及其對應的變調(diào)語音用作測試集。此時訓練集中的原始語音、升調(diào)語音、降調(diào)語音的樣本數(shù)各2000;測試集中三類樣本的數(shù)量各為1560。兩組實驗得到的混淆矩陣如表1所示。由表1結(jié)果可見,當訓練集和測試集來源相同時,本文方法具有優(yōu)異的檢測性能。尤其是對于降調(diào)語音的檢測,檢測準確率分別為99.18%和100%。

3.2 交叉數(shù)據(jù)集的檢測結(jié)果

為了驗證本文方法在不同數(shù)據(jù)集上的性能。本節(jié)實驗中,采用T2作為訓練集,N1作為測試集,變調(diào)所采用的方法為AUDACITY、ADOBE AUDITION、PRAAT、RTISI。利用上述SVM多分類器進行訓練和測試得到如表2所示的檢測準確率,準確率的定義如下:

Pr=y*o+y*L+y*Ryo+yL+yR(5)

其中:y*o、y*L和y*R分別表示測試集中被分類器正確檢測出的原始語音、降調(diào)語音、升調(diào)語音的數(shù)目;yo、yL和yR表示測試集原始語音、降調(diào)語音、升調(diào)語音的數(shù)目。由表2可見,對于不同的語音來源,采用同一種變調(diào)方法,本文方法皆可獲得90%左右的檢測準確率。與表1結(jié)果相比,測試語音和訓練語音不匹配時檢測性能有一定程度的下降。表2中,還以MFCC及其一階、二階差分特征為基準,測試了基于MFCC的SVM多分類器對于升調(diào)語音、原始語音和降調(diào)語音的鑒別能力。顯然,以MFCC作為基準特征的三分類器和本文方法有明顯的性能差距。這也進一步證明了選取合適的特征對于音頻取證的重要性。對于變調(diào)檢測問題,MFCC并非是最佳的特征。

以變調(diào)工具AUDACITY為例,還進一步給出了本文方法在不同數(shù)據(jù)集上更詳細的檢測性能,如表3所示的混淆矩陣。從表3結(jié)果可以看出,本文方法對于原始語音和降調(diào)語音仍具有良好的檢測性能,然而升調(diào)語音和原始語音在一定程度上會被混淆,這與圖4的分析結(jié)果是吻合的。對于其他三種變調(diào)方法,也發(fā)現(xiàn)了這一現(xiàn)象。這是因為變調(diào)前后使用了相同的采樣率導致升調(diào)語音在高于4kHz頻譜信息的丟失。

3.3 不同變調(diào)方法的檢測結(jié)果

為了進一步驗證本文方法對于未知變調(diào)方法的泛化能力,在本實驗中訓練數(shù)據(jù)和測試數(shù)據(jù)分別由不同的變調(diào)軟件得到,在訓練和測試語音集不匹配的場景下進行驗證。訓練數(shù)據(jù)為T2,測試數(shù)據(jù)為N1,得到如表4所示的檢測準確率。從表4結(jié)果可見,本文方法對于四種變調(diào)工具的檢測準確率均在80%以上。這也說明了對于未知的變調(diào)手段,本文提出的變調(diào)檢測方法的有效性。其中,使用AUDACITY作為訓練集所使用的變調(diào)方法,對其他三種不同的變調(diào)方法檢測準確率都在92%以上。

3.4 與卷積神經(jīng)網(wǎng)絡方法的比較

近年來,深度學習技術(shù)在語音變調(diào)檢測方面也取得了一定的進展。從上面的分析中可以看到,語音來源和變調(diào)方法的不同都會對變調(diào)語音的檢測造成一定程度的影響。如何利用有限的資源提高語音變調(diào)檢測的泛化能力顯得尤其重要。由于本文的目標不僅是檢測語音是否經(jīng)過了變調(diào),還要判斷是經(jīng)過了升調(diào)或是降調(diào)。在本節(jié)中,將本文方法與文獻[8]中的卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)方法進行對比。這里僅考慮交叉數(shù)據(jù)集的性能,即:訓練樣本來自T2,測試樣本來自N1,仍采用上面所用的4種變調(diào)工具生成10種變調(diào)因子的語音,實驗結(jié)果如表5所示。由表5可見,在訓練樣本有限的低資源環(huán)境下,本文提取的基于非均勻濾波器的語音特征相較深層神經(jīng)網(wǎng)絡自動學習的特征對于變調(diào)語音檢測及變調(diào)操作區(qū)分更具優(yōu)勢。

4 結(jié)語

隨著各種變聲軟件的出現(xiàn),電子偽裝語音將具有巨大的應用前景,然而也給司法鑒定帶來新的挑戰(zhàn)。本文針對電子變調(diào)語音的取證問題,在兩種不同的語音變調(diào)算法和兩種常用語音編輯軟件的基礎(chǔ)上提出了一種基于翻轉(zhuǎn)梅爾倒譜特征和多分類SVM的變調(diào)語音檢測方法。相較現(xiàn)有的研究,本文方法深入分析了語音變調(diào)原理,研究了變調(diào)在信號時域和頻域留下的痕跡,并在此基礎(chǔ)上找到更好的檢測特征。該特征不僅能檢測語音是否經(jīng)過變調(diào),對于變調(diào)語音,還能進一步區(qū)分語音是經(jīng)過了升調(diào)或者降調(diào)操作。本文的研究結(jié)果為變調(diào)語音鑒定提出了新的思路,即:梅爾倒譜特征更注重人耳的聽覺特性,然而在取證問題方面并非是最佳的特征。此外,在訓練樣本有限的低資源環(huán)境下,本文方法獲得了比卷積神經(jīng)網(wǎng)絡更好的性能。本文方法對不同說話人、不同錄音場景和未知變調(diào)方法也具有較好的泛化性能。

參考文獻 (References)

[1]PERROT P, AVERSANO G, CHOLLET G. Voice disguise and automatic detection: review and perspectives [M]// STYLIANOU Y, FAUNDEZ-ZANUY M, ESPOSITO A. Progress in Nonlinear Speech Processing, LNCS 4391 . Berlin: Springer, 2007: 101-117.

[2]ZHANG C, TAN T. Voice disguise and automatic speaker recognition [J]. Forensic Science International, 2008, 175(2/3): 118-122.

[3]MUCKENHIRN H, KORSHUNOV P, MAGIMAI-DOSS M, et al. Long-term spectral statistics for voice presentation attack detection [J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2017, 25(11): 2098-2111.

[4]WANG L, NAKAGAWA S, ZHANG Z, et al. Spoofing speech detection using modified relative phase information [J]. IEEE Journal of Selected Topics in Signal Processing, 2017, 11(4): 660-670.

[5]WU H, WANG Y, HUANG J. Identification of electronic disguised voices [J]. IEEE Transactions on Information Forensics and Security, 2014, 9(3): 489-500.

[6]李燕萍,林樂,陶定元.基于GMM統(tǒng)計特性的電子偽裝語音鑒定研究[J].計算機技術(shù)與發(fā)展,2017,27(1):103-106.(LI Y P, LIN L, TAO D Y. Research on identification of electronic disguised voice based on GMM statistical parameters [J]. Computer Technology and Development, 2017, 27(1): 103-106.)

[7]LIANG H, LIN X, ZHANG Q, et al. Recognition of spoofed voice using convolutional neural networks [C]// Proceedings of the 2017 IEEE Global Conference on Signal and Information Processing. Piscataway: IEEE, 2017: 293-297.

[21]GAROFOLO J S, LAMEL L F, FISHER W M. TIMIT acoustic-phonetic continuous speech corpus [EB/OL]. [2019-02-20]. http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC93S1.

[22]NIST Multimodal Information Group. NIST speaker recognition evaluation database [EB/OL]. [2019-02-20]. http://catalog.ldc.upenn.edu/LDC2010S03.

[23]VAN DER MAATEN L, HINTON G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9: 2579-2605.

This work is partially supported by the National Natural Science Foundation of China (61871434), the Scientific Research Fund of Huaqiao University (Y19060).

LIN Xiaodan, born in 1983, Ph. D., lecturer. Her research interests include multimedia forensics, signal processing.

QIU Yingqiang, born in 1981, Ph. D., associate professor. His research interests include information hiding.

收稿日期:2019-05-23;修回日期:2019-06-20;錄用日期:2019-07-03。

基金項目:國家自然科學基金資助項目(61871434);華僑大學科研基金資助項目(Y19060)。

作者簡介:林曉丹(1983—),女,福建泉州人,講師,博士,主要研究方向:多媒體取證、信號處理; 邱應強(1981—),男,福建龍巖人,副教授,博士,主要研究方向:信息隱藏。

文章編號:1001-9081(2019)12-3510-05DOI:10.11772/j.issn.1001-9081.2019050870

建始县| 西乌珠穆沁旗| 合川市| 大宁县| 临泉县| 双柏县| 兴宁市| 温泉县| 博白县| 宁城县| 潞西市| 福州市| 江源县| 太湖县| 东海县| 灯塔市| 汾西县| 如皋市| 巴楚县| 黑水县| 宜宾县| 惠州市| 湖州市| 大港区| 海原县| 美姑县| 宜兴市| 梁河县| 洞头县| 宝鸡市| 房产| 铁力市| 康马县| 大丰市| 新乡市| 中山市| 尼玛县| 桑日县| 安徽省| 博乐市| 孝感市|