国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多聲學(xué)特征融合的語音自動剪輯深度學(xué)習(xí)模型

2023-08-29 01:10:18倪仁倢周立欣侯昌佑
關(guān)鍵詞:音頻語音卷積

劉 臣,倪仁倢,周立欣,侯昌佑

1(上海理工大學(xué) 管理學(xué)院,上海 200093)

2(上海廣播電視臺,上海 200125)

1 引 言

隨著互聯(lián)網(wǎng)的普及,數(shù)字傳媒行業(yè)高速發(fā)展,音視頻媒體的數(shù)量呈指數(shù)型增長,而它們的后期制作離不開剪輯.它是一項藝術(shù)性,風(fēng)格化程度較高的工作,不同類型媒體的剪輯風(fēng)格與要求也不盡相同[1],且相較于調(diào)色或字幕等其它后期工作,剪輯通?;ㄙM著更多的人力和時間.

目前自動剪輯模型都是針對某種特定的剪輯需求而建立,現(xiàn)有的模型主要為機(jī)器學(xué)習(xí)算法中的隱馬爾可夫模型(Hidden Markov Model,HMM).Leake等人[1]聯(lián)合提出了一種基于人臉識別和語音識別的劇情類視頻剪輯框架.它采用HMM及維比特算法,通過語音識別匹配劇本,同時結(jié)合畫面元素進(jìn)行自動剪輯.Roininen等人[2]提出了一個音樂會視頻的自動剪輯模型,它使用了馬爾科夫鏈、聚類以及高斯混合模型,通過分析音頻信號的變化來進(jìn)行自動剪輯.魯雨佳等人[3]聯(lián)合提出了一種服裝類商品短視頻的自動剪輯框架.它根據(jù)不同分鏡所含的信息類別,綜合考慮剪輯和片段節(jié)奏并進(jìn)行分割篩選,使用HMM和維比特算法合成最佳的視頻序列.但上述基于HMM的模型由于馬爾科夫性的限制,無法有效地結(jié)合長時間序列的關(guān)聯(lián)信息,導(dǎo)致模型的剪輯結(jié)果偏靜態(tài).

語言類的音視頻在廣播和電視中一直占有較高的比重,而它們的持續(xù)時間又較長,剪輯師需要綜合審閱后再開始剪輯工作[4],所以剪輯此類媒體所花費的時間往往多于其他視頻.通過觀察上海電視臺具有豐富經(jīng)驗的剪輯師們,了解他們的剪輯習(xí)性,發(fā)現(xiàn)剪輯師們十分注重節(jié)奏的掌控[1,5].他們在切分音頻時,會根據(jù)不同情境在語音部分的兩側(cè)保留合適的非語音部分作為緩沖[1,4].如果保留過少會使剪輯節(jié)奏過快銜接突兀,相反的保留過多會導(dǎo)致剪輯節(jié)奏拖沓冗長.有經(jīng)驗的剪輯師通常會綜合考慮前后聯(lián)系,保留0.5s~1.5s的音頻,確保剪輯過后的音頻過渡柔和節(jié)奏適中.同時不會對連續(xù)的語音進(jìn)行切分,以此來提升剪輯后音頻的流暢程度[6].此外還會將一些人為發(fā)出的噪聲刪除[4],保證聽眾擁有良好的聽感.

由于剪輯工作與前后信息有著密切的關(guān)聯(lián)[3],直接使用傳統(tǒng)語音端點檢測的方法如雙門限法,表現(xiàn)并不理想.因為它會機(jī)械地在語音的起訖端點處進(jìn)行切分,導(dǎo)致剪輯過后的媒體銜接生硬,質(zhì)量較低.語音剪輯相較于語音端點檢測難點在于,它需要在精確識別語音起止端點的基礎(chǔ)上,使語音前后保留合適的余量,同時不能分割連續(xù)的語音,以保證剪輯的流暢性.然而深度學(xué)習(xí)模型可以分析并學(xué)習(xí)出數(shù)據(jù)的內(nèi)在聯(lián)系,在同一風(fēng)格的剪輯工作中往往具有良好表現(xiàn).近年來卷積神經(jīng)網(wǎng)絡(luò)[7](Convolutional Neural Networks,CNN)被廣泛應(yīng)用于計算機(jī)視覺和語音識別等領(lǐng)域.它擁有局部感受野,權(quán)值共享等特點,計算效率較高[8].并且隨著卷積層數(shù)的深入,可以抽象出高維度特征[9].但若僅使用CNN或循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN),將無法有效的獲取長時間序列的關(guān)聯(lián)信息,導(dǎo)致模型偏靜態(tài).而門控循環(huán)單元[10](Gated Recurrent Units,GRU)擁有更新門和重置門,可以對隱藏層信息進(jìn)行更新,使得它可以有效記憶先前的時間序列信息,避免了梯度消失和爆炸現(xiàn)象.但單向GRU無法結(jié)合后續(xù)時間的特征來進(jìn)行預(yù)測,同樣無法做到接近人工剪輯的效果.此外由于RNN無法在單個圖形處理器(Graphic Processing Unit,GPU)上并行計算,音頻序列的數(shù)據(jù)量較大時,會降低模型運行速率的優(yōu)勢.

從剪輯工作存在的難點和實際應(yīng)用角度考慮,本文提出了一種端到端的語音自動剪輯模型 CNN-BiGRU.它通過提取音頻中的對數(shù)梅爾頻譜[11](Filter Banks,Fbank)、短時能量[12]和短時過零率[13]3種聲學(xué)特征,并將它們分別輸入3個不同的CNN.使用LeakyReLU函數(shù)[14]進(jìn)行激活,并將卷積層的輸出融合后[15,16],輸入由正向GRU、后向GRU和全連接神經(jīng)網(wǎng)絡(luò)[17](Fully Connected Neural Networks,FC)組成的雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)[18](Bidirectional Gated Recurrent Neural Networks,Bi-GRU).最后使用Softmax[19]對最終輸出結(jié)果進(jìn)行激活和分類.使用二元交叉熵?fù)p失函數(shù)[20]計算損失值,采用課程式學(xué)習(xí)訓(xùn)練模型,將參數(shù)優(yōu)化至最佳.

由于模型需要在考慮整體宏觀信息的基礎(chǔ)上結(jié)合局部微觀信息進(jìn)行預(yù)測,常規(guī)的小批量梯度下降(mini batch)存在一定局限性,本文考慮使用基于課程式學(xué)習(xí)的方法來訓(xùn)練模型.Bengio等人[21]于2009年最早提出了課程式學(xué)習(xí)這一概念,它使用先易后難的數(shù)據(jù)形式對模型進(jìn)行訓(xùn)練[22,23],和兒童的學(xué)習(xí)過程相似.Liu等人[24]指出課程式學(xué)習(xí)能增強(qiáng)模型讀取長時間序列的能力.考慮到剪輯模型也需具備該特性,所以采用先大后小的數(shù)據(jù)類型進(jìn)行訓(xùn)練,過程類似于樹木生長,由整體到局部.

考慮到實際工程中的應(yīng)用,本模型在確保準(zhǔn)確率的情況下,盡可能減少參數(shù),降低計算復(fù)雜度.實驗結(jié)果表明模型在切分語音時,在前后保留了不同程度的余量,使剪輯后的視頻過渡柔和;同時該模型不會分割連續(xù)的語音,以確保視頻的連貫性.此外它還能檢測出非語音部分的人為異常噪聲并將其刪除,但不會對語音部分出現(xiàn)的環(huán)境噪聲進(jìn)行切分.相較于采用傳統(tǒng)人工剪輯,使用模型可以大幅縮短剪輯時間,并取得和人工剪輯相近似的結(jié)果.在節(jié)省人力成本的同時,可使某些與時效性較強(qiáng)的視頻盡早發(fā)布,從而獲得更多的流量和收益.

2 音頻特征提取

本文從音頻中提取了3種聲學(xué)特征作為模型的輸入.它們分別是聲譜特征中的Fbank;韻律學(xué)特征中的短時能量和短時過零率(以下簡稱過零率).其中Fbank主要用于檢測語音部分[11],而短時能量和過零率主要用于檢測人為異常噪聲[25].提取出3種特征后,對其進(jìn)行預(yù)處理,便于后續(xù)神經(jīng)網(wǎng)絡(luò)的計算.

2.1 聲譜特征提取

目前語音識別等領(lǐng)域常用的兩種聲譜特征為Fbank[11]和梅爾頻譜倒譜系數(shù)[26](Mel-Frequency Cepstral Coefficients,MFCC).MFCC是在Fbank的基礎(chǔ)上進(jìn)行了一次離散余弦變換,所以Fbank相比較MFCC保有的更多的信息[27].故本文選擇Fbank用以檢測音頻中的語音部分.

Fbank的提取過程如下:首先對波形音頻進(jìn)行幀采樣,采樣率設(shè)為22.05kHz[27].之后進(jìn)行預(yù)加重,預(yù)加重系數(shù)設(shè)為0.97[28].再對音頻進(jìn)行分幀[29],為了縮小數(shù)據(jù)量,將幀長設(shè)為約46ms,幀移約23ms.分幀后進(jìn)行加窗,窗函數(shù)選用漢明窗[30],公式如式(1)所示:

(1)

之后進(jìn)行快速傅里葉變換,將加窗后的音頻信號從時域轉(zhuǎn)換為頻域,再將頻率標(biāo)度轉(zhuǎn)化為梅爾尺度[27],轉(zhuǎn)換過程如式(2)所示.在梅爾尺度上使用40個等面積三角過濾器進(jìn)行濾波[29],得到Fbank特征數(shù)據(jù),結(jié)果如圖1所示.在提取完Fbank特征后分別對其中每個維度的數(shù)據(jù)進(jìn)行歸一化處理.

圖1 對數(shù)梅爾頻譜圖

(2)

2.2 韻律學(xué)特征提取

在語音錄制的過程中,難免會出現(xiàn)一些如咳嗽,清嗓等人為噪聲.而在發(fā)出此類噪聲時,短時能量和過零率會出現(xiàn)大幅波動[25],如圖2所示.所以它們可用來檢測異常噪聲,同時也能輔助識別語音部分.

圖2 波形音頻、短時能量與短時過零率

2.2.1 短時能量

短時能量是指一幀音頻中所蘊(yùn)含的能量信息[12],本文選擇每512個采樣點作為一幀,窗函數(shù)為矩形窗.短時能量的計算過程如式(3)所示:

(3)

其中En為短時能量的值,m為音頻幀,ω(n)為窗函數(shù).因為短時能量的數(shù)值巨大,所以先對其取對數(shù),再進(jìn)行歸一化.

2.2.2 短時過零率

短時過零率指的是一幀音頻中信號通過零點的次數(shù).清音時過零率數(shù)值較高,濁音時較低.通過計算每一幀時間內(nèi)信號通過零點的次數(shù),然后除以每幀所含采樣點的數(shù)目,得出過零率[13],計算過程如式(4)所示.將每512個采樣點作為一幀,窗函數(shù)選用矩形窗來提取過零率,并進(jìn)行歸一化.

(4)

其中m為音頻幀,sgn()為符號函數(shù).

3 語音自動剪輯模型

自動剪輯模型需要遵從一些基本的剪輯技法[3],以提升它的藝術(shù)性.例如O′Steen[6]提到綜合考慮整體與局部的關(guān)聯(lián)性來把控剪輯的節(jié)奏;去除異常噪聲提高聽眾舒適度;不對連續(xù)的音頻進(jìn)行切分以提升流暢度等.為了滿足上述需求,本文提出了一個融合3種聲學(xué)特征,結(jié)合3種不同神經(jīng)網(wǎng)絡(luò)的語音剪輯模型CNN-BiGRU.

3.1 模型總體結(jié)構(gòu)

CNN-BiGRU模型的總體結(jié)構(gòu)如下:從波形音頻中提取出Fbank、短時能量和過零率3種聲學(xué)信號特征,進(jìn)行預(yù)處理后,分別輸入3個不同的CNN.將Fbank特征輸入由兩層二維CNN組成的神經(jīng)網(wǎng)絡(luò)中;短時能量和過零率則分別輸入兩個一維CNN.使用LeakyReLU函數(shù)進(jìn)行激活,并將卷積層的輸出融合后,輸入Bi-GRU中.Bi-GRU由正向GRU層、后向GRU層[31]和FC層[17]組成.采用Softmax對最終結(jié)果進(jìn)行激活和分類,送入交叉熵?fù)p失函數(shù)計算損失值,并使用基于課程式學(xué)習(xí)的方法來優(yōu)化模型參數(shù).模型總體結(jié)構(gòu)如圖3所示.

圖3 CNN-BiGRU模型結(jié)構(gòu)圖

3.2 聲學(xué)特征融合

由于Fbank、短時能量和過零率它們所包含的信息不同,若簡單地將其輸入到同一個神經(jīng)網(wǎng)絡(luò)中會降低模型的性能.故通過使用3個不同的CNN,分別對3種聲學(xué)特征進(jìn)行卷積操作,并為不同的特征分配合適的權(quán)重.此外考慮到3種聲學(xué)特征的數(shù)值差異較大,卷積層中所使用的過濾器均添加有偏置向量.

卷積神經(jīng)網(wǎng)絡(luò)使用卷積核不斷滑動和對應(yīng)窗口大小的數(shù)據(jù)進(jìn)行哈達(dá)瑪積運算,再與偏置向量求和,從而得出一個新的值[7],計算過程如式(5)所示.

(5)

首先對于Fbank特征,使用兩層二維CNN進(jìn)行卷積操作.第1層使用8個1*40的過濾器進(jìn)行卷積操作.卷積的步長(stride)設(shè)置為1.第1層CNN用來抽象出每個時間節(jié)點處的特征.第2層使用3個5*8的過濾器來進(jìn)行卷積操作,卷積的步長仍設(shè)置為1,填充(padding)設(shè)為2.第2層CNN可以結(jié)合部分周邊數(shù)據(jù)的特征信息.此外考慮到音頻特征是高度非線性的,采用LeakyReLU函數(shù)[14]來對卷積層的輸出進(jìn)行激活.該激活函數(shù)在負(fù)區(qū)間內(nèi)有一個待學(xué)習(xí)參數(shù)α,有效的避免了梯度為0的現(xiàn)象.LeakyReLU函數(shù)如式(6)所示:

(6)

而對于短時能量特征,使用一層一維CNN對其進(jìn)行卷積操作,過濾器大小設(shè)為5,步長設(shè)置為1,填充設(shè)為2.短過零率所使用的CNN和短時能量參數(shù)相同.最后將卷積層的輸出融合后輸入Bi-GRU中,卷積層的結(jié)構(gòu)如圖4所示.

圖4 卷積層結(jié)構(gòu)圖

經(jīng)過卷積層處理后的數(shù)據(jù)一定程度上聚合了周邊節(jié)點的信息,抽象出了高維度非線性特征[9].同時對原始數(shù)據(jù)進(jìn)行降維,減小了Bi-GRU的運算量,而且給3種聲學(xué)特征分配了不同比例的權(quán)重,使得Bi-GRU可以更有效的權(quán)衡并優(yōu)化參數(shù).

3.3 時間信息結(jié)合

由于語音剪輯需要在綜合考慮宏觀信息的基礎(chǔ)上結(jié)合微觀信息來進(jìn)行,剪輯模型必須能夠讀取并記憶長時間序列的前后關(guān)聯(lián)性特征.此外考慮到實際應(yīng)用中的運行效率,模型的計算復(fù)雜度又不能過高.綜合考慮后決定采用Bi-GRU,來讀取時間序列的關(guān)聯(lián)信息.Cho[10]等人在2014年首先提出了門控循環(huán)單元(Gated Recurrent Units,GRU),它不同于普通的RNN,另設(shè)有重置門和更新門對隱藏層的狀態(tài)進(jìn)行更新,使它能有效捕捉長時間序列的依賴關(guān)系,一定程度避免了經(jīng)典RNN存在的梯度消失等問題.它和長短時記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)類似,不同的是它將LSTM的輸入門和遺忘門合并成更新門,使得它的計算復(fù)雜度小于LSTM[31,32].GRU的更新門用于確定多少先前的隱藏信息保留到當(dāng)前節(jié)點,重置門用于控制多少信息在當(dāng)前節(jié)點被遺忘.

本文使用一層正向GRU、一層后向GRU和一層FC來組成Bi-GRU,它使模型在每個時間節(jié)點的輸出都可以充分讀取正向和后向的隱藏層狀態(tài)信息.為了防止模型過學(xué)習(xí),同時減少冗余參數(shù),將隱藏層單元的隨機(jī)失活率dropout[33]設(shè)為0.2.FC的輸入為正向和后向GRU的隱藏層信息,輸出為1維序列,使用Softmax對的輸出結(jié)果進(jìn)行激活和分類.Bi-GRU模型結(jié)構(gòu)如圖5所示,其中左側(cè)為單個GRU單元.

圖5 Bi-GRU結(jié)構(gòu)圖

(7)

由于剪輯是一個二分類的任務(wù),采用二元交叉熵?fù)p失函數(shù)[20]來計算模型最終的損失值,計算過程如式(8)所示:

(8)

4 實 驗

4.1 數(shù)據(jù)準(zhǔn)備與標(biāo)簽處理

為了保證訓(xùn)練集數(shù)據(jù)的平衡性,人工錄制了約30分鐘的音頻,其中語音占比約60%,語言為中文.錄制時在語句之間停頓3秒,段落間停頓30秒,同時發(fā)出一些人為噪聲.之后向其添加城市街道噪聲,以此模擬戶外錄制環(huán)境.相較于穩(wěn)定的白噪聲,城市噪聲屬于隨機(jī)噪聲,更具干擾性.經(jīng)過加噪處理后的語音信噪比在0db左右,以此來增加模型訓(xùn)練難度,強(qiáng)化模型的魯棒性.

驗證集和測試集使用CHiME-5數(shù)據(jù)集,它是一個嘈雜環(huán)境下的語音識別挑戰(zhàn)數(shù)據(jù)集[34].該數(shù)據(jù)集包含真實、仿真和干凈的錄音,其中真實錄音由6個四通道麥克風(fēng)陣列所錄制,內(nèi)容為家庭晚宴,語言為英語,每段錄音的時長在兩小時左右.選取距離說話者位置最遠(yuǎn)的麥克風(fēng)所錄制的音頻,從不同音頻中分別截取各60分鐘作為驗證集和測試集,其中語音部分占比均在75%左右.數(shù)據(jù)集中音頻的語音響度較低,同時環(huán)境中存在著大量隨機(jī)噪聲、寬帶噪聲以及遠(yuǎn)場混響等干擾因素,約有15%的語音達(dá)到平均意見評分[35]等級2的標(biāo)準(zhǔn),需要集中相當(dāng)?shù)淖⒁饬Σ拍苈犌?使用此數(shù)據(jù)來查看模型在極端環(huán)境下的表現(xiàn).

標(biāo)簽以人工標(biāo)注的方式進(jìn)行,邀請上海廣播電視臺的剪輯師對數(shù)據(jù)集進(jìn)行標(biāo)注.音頻以波形圖的方式顯示,人工聽取后再選取需要保留的音頻,保留部分為正例樣本,反之亦然,標(biāo)注過程如圖6所示.以下為剪輯師的標(biāo)注習(xí)性:在語句間停頓超過2s時,剪輯師會對其進(jìn)行切分,同時在句子兩端分別保留0.5~1s作為緩沖.當(dāng)語音段落和段落之間具有較長停頓時,會在段落的起始和結(jié)尾處分別保留約1~2s空余.而當(dāng)語句連續(xù)時,例如語句間的停頓小于2s,剪輯師不會對其進(jìn)行切分.此外它會刪去人為發(fā)出的噪聲,但不會刪除語音部分處出現(xiàn)的環(huán)境噪聲.經(jīng)過人工剪輯后的音頻過渡流暢,無明顯停頓,同時聽者也能區(qū)分出不同的段落.原始標(biāo)簽以二進(jìn)制時間序列的形式保存,標(biāo)簽數(shù)量與音頻采樣點數(shù)量相同,之后對其進(jìn)行下采樣,使之和特征序列長度相同.

圖6 標(biāo)簽標(biāo)注

4.2 基于課程式學(xué)習(xí)的訓(xùn)練

剪輯工作不同于語音端點檢測,需要模型在考慮整體宏觀信息的基礎(chǔ)上結(jié)合局部微觀信息進(jìn)行預(yù)測.所以常規(guī)的小批量訓(xùn)練存在一定局限性,為了能更好地訓(xùn)練模型,本文采用基于課程式學(xué)習(xí)[21-23]的方法進(jìn)行訓(xùn)練,來強(qiáng)化模型讀取長時間序列的能力[24].為了讓本模型能更好的結(jié)合音頻特征之間的前后聯(lián)系進(jìn)行剪輯,使用先整體后局部的數(shù)據(jù)形式進(jìn)行訓(xùn)練,過程類似于樹木生長,由樹干到樹支.同時訓(xùn)練的過程先快后慢,整體部分快而局部則慢.

首先,將訓(xùn)練集中的音頻每95秒劃分為一個批次,優(yōu)化器使用Adam[36],學(xué)習(xí)率設(shè)置為0.01,進(jìn)行第1輪訓(xùn)練.訓(xùn)練的目的是讓模型能學(xué)習(xí)到整體的關(guān)聯(lián)性特征,即段落與段落之間的聯(lián)系.在經(jīng)過一定數(shù)量地迭代,當(dāng)模型尚未完全收斂時,停止訓(xùn)練.倘若使用大批次數(shù)據(jù)訓(xùn)練模型至完全收斂,會導(dǎo)致模型過擬合,在驗證集上性能有所下降.第2輪訓(xùn)練時,將每21秒音頻劃分為一個批次,優(yōu)化器同樣使用Adam,但初始學(xué)習(xí)率下降為0.001.此外設(shè)置指數(shù)學(xué)習(xí)率衰減[37],即每進(jìn)行一次迭代后將當(dāng)前學(xué)習(xí)率乘以衰減系數(shù)γ,這里將設(shè)γ為0.95.第2輪訓(xùn)練的目的是能讓模型將注意力集中在細(xì)節(jié)處,即句子與句子之間的聯(lián)系.由于小批次數(shù)據(jù)變化較大,較小的學(xué)習(xí)率可使模型參數(shù)相對保持穩(wěn)定.

相較于傳統(tǒng)固定批次的mini batch,課程式學(xué)習(xí)通過變換批次的大小,提高數(shù)據(jù)的差異性,使模型能有效的權(quán)衡宏觀與微觀的信息,從而將模型優(yōu)化到最佳狀態(tài).訓(xùn)練結(jié)束后選取驗證集上表現(xiàn)最優(yōu)的模型,在測試集上進(jìn)行測試.考慮實際工程中的應(yīng)用,不對驗證集和測試集的數(shù)據(jù)進(jìn)行切分,以此來保證測試數(shù)據(jù)的完整性.

4.3 評價指標(biāo)

使用Softmax對模型的輸出結(jié)果進(jìn)行分類,判斷模型的預(yù)測與標(biāo)簽是否一致.使用準(zhǔn)確率(Accuracy)作為模型的評價指標(biāo)之一,公式如式(9)所示:

(9)

其中,TP代表預(yù)測正確的正例樣本數(shù),TN為預(yù)測正確的負(fù)例樣本數(shù),R為原始音頻的總樣本數(shù).但在剪輯任務(wù)中當(dāng)音頻中的負(fù)例樣本遠(yuǎn)多于正例樣本時,準(zhǔn)確率并不能顯著地體現(xiàn)模型之間的性能差異.

所以除了準(zhǔn)確率,剪輯質(zhì)量的判斷還將采用誤剪率作為衡量標(biāo)準(zhǔn),誤剪率(Miss)的含義是剪輯非所需內(nèi)容和所需內(nèi)容之間的比值.誤剪率在樣本分布不平衡時,仍然能精確地衡量模型的性能,誤剪率的計算過程如式(10)所示:

(10)

其中FP為預(yù)測錯誤的正例樣本數(shù),FN為預(yù)測錯誤的負(fù)例樣本數(shù),R+為標(biāo)簽中正例樣本的總數(shù).

準(zhǔn)確率越高,說明模型預(yù)測越準(zhǔn)確;誤剪率越低,說明模型與人工剪輯越相似.

4.4 消融實驗

本次實驗的環(huán)境配置如下:操作環(huán)境Windows 10 pro,CPU為AMD Ryzen 2700 @3.2GHz,GPU采用Nvidia Geforce GTX1080 1708MHz,內(nèi)存使用雙通道16g ddr4 2666MHz,開發(fā)環(huán)境是Pytorch 1.9.0+cuda11.2,開發(fā)工具為微軟Visual Studio Code.

首先對比不同聲學(xué)特征在CNN-BiGRU上的表現(xiàn),實驗結(jié)果如表1所示.為了驗證多特征融合此方法的有效性,實驗中所使用的對比模型其CNN數(shù)量與輸入特征數(shù)量保持一致,且均采用課程式學(xué)習(xí)在驗證集上訓(xùn)練至最佳.

表1 聲學(xué)特征對比

實驗結(jié)果表明,使用頻譜特征與韻律學(xué)特征融合的方式能有效提升模型性能,使用Fbank+短時能量+過零率時模型性能達(dá)到最優(yōu).MFCC結(jié)合短時能量+過零率比MFCC提升了約4%.Fbank+短時能量也使性能有所提升.但Fbank+過零率則使性能略微下降,原因在于過零率主要用于區(qū)分清音和濁音,當(dāng)環(huán)境中存在大量隨機(jī)噪聲時會產(chǎn)生一定的虛假的過零率,反而會干擾模型的判斷,所以過零率通常與短時能量結(jié)合使用.

在單特征中Fbank比MFCC性能高出約7%,這說明在深度學(xué)習(xí)模型中Fbank的性能優(yōu)于MFCC.短時能量+過零率效果最差,說明在低信噪比情況下韻律學(xué)特征的抗干擾能力較弱.此外使用四種特征時,模型的性能不再有提升,表明特征數(shù)量與模型性能并非完全的正相關(guān).

通過對比不同模型間的準(zhǔn)確率和誤剪率來判斷其性能,實驗結(jié)果如表2所示,其中對比模型均選擇驗證集上表現(xiàn)最優(yōu)時的參數(shù)設(shè)置.實驗結(jié)果表明CNN-BiGRU在準(zhǔn)確率和誤剪率上均明顯優(yōu)于其他模型.該模型在測試集上的準(zhǔn)確率為98.36%,誤剪率為2.09%.Bi-GRU和Bi-LSTM模型的性能相似,準(zhǔn)確率在97.1%左右.而CNN-GRU模型由于僅使用單向GRU,無法結(jié)合后向信息進(jìn)行預(yù)測,所以模型的準(zhǔn)確率稍低為93.05%.CNN和DNN-HMM因為無法有效結(jié)合長時間序列的信息,在處理高度非線性的音頻特征時效果較差,準(zhǔn)確率均在78.5%左右.

表2 模型性能對比

實驗還對比了不同訓(xùn)練方式對模型性能造成的影響,結(jié)果如表2所示,其中mini batch固定使用50秒的音頻作為每個批次的數(shù)據(jù),優(yōu)化器使用Adam,學(xué)習(xí)率固定為0.01.實驗結(jié)果表明相比較傳統(tǒng)的mini batch,課程式學(xué)習(xí)使CNN-BiGRU、CNN-GRU、Bi-GRU和Bi-LSTM模型的準(zhǔn)確率均提升了約3%,說明課程式學(xué)習(xí)可以在一定程度上提升RNN的性能.然而DNN-HMM則由于馬爾科夫性的限制,變換數(shù)據(jù)長度的訓(xùn)練方式基本沒有對模型性能造成影響.而CNN模型因為其結(jié)構(gòu)簡單,參數(shù)較少,數(shù)據(jù)變化較大時會略微影響性能.

實驗分別記錄了模型計算60分鐘音頻數(shù)據(jù)所需的運行時間和內(nèi)存占用,來衡量模型的計算效率,結(jié)果如表3所示.其中CNN運行時間最少,但其預(yù)測效果過差,不具備應(yīng)用價值.Bi-LSTM和Bi-GRU的運行時間和運行內(nèi)存都較高,它們對硬件的需求也較高.而本文提出的CNN-BiGRU其運行內(nèi)存和時間均為Bi-GRU的86%左右,說明使用卷積層可以在一定程度上減小RNN的計算量,同時也降低了模型的參數(shù)量.CNN-BiGRU使用更少的運行內(nèi)存獲得了比CNN-GRU更優(yōu)異的性能,但它的運行時間多于CNN-GRU.CNN-BiGRU使用GPU進(jìn)行剪輯運算僅需6.25秒,而標(biāo)注數(shù)據(jù)集的剪輯師使用索貝非線性編輯系統(tǒng)進(jìn)行剪輯平均花費了約35分鐘.顯然相較人工剪輯,模型可以大幅度節(jié)省時間成本,此外它的性能不會隨著數(shù)據(jù)量的增大而下降,但人工效率卻會因疲勞等因素逐漸下滑.

表3 模型計算效率對比

按照CNN-BiGRU模型的預(yù)測輸出和人工標(biāo)注的標(biāo)簽,對測試集的音頻進(jìn)行實例化剪輯,結(jié)果如圖7所示.經(jīng)研究發(fā)現(xiàn),人工切分語音時在兩側(cè)保留的時間存在一定的波動,并且隨著剪輯工作的推移,浮動越大.CNN-BiGRU在切分句子時會在語句的前后分別保留約0.8s的余量,切分段落時則會保留約1.5s的余量.另外在一處噪聲嚴(yán)重干擾的語音部分,剪輯師誤將其刪除,但模型正確地進(jìn)行了保留.此外模型和剪輯師一樣,能準(zhǔn)確地刪除人為發(fā)出的異常噪聲,同時不會對語音部分出現(xiàn)的環(huán)境噪聲進(jìn)行切分,而Bi-GRU和Bi-LSTM均無法做到這一點.表3中的其余對比模型,剪輯后音頻的聽感都明顯遜色于CNN-BiGRU.最后請20名廣播行業(yè)內(nèi)的剪輯師對模型和人工剪輯的結(jié)果進(jìn)行區(qū)分,13人表示無法判斷,3人判斷錯誤,僅有4人判別正確,表明模型的剪輯性能十分接近人工水平.

圖7 CNN-BiGRU與人工剪輯結(jié)果對比

5 結(jié) 語

本文提出了一種多聲學(xué)特征融合的語音自動剪輯模型CNN-BiGRU.通過提取Fbank、短時能量和短時過零率3種聲學(xué)特征,使用CNN對音頻特征進(jìn)行融合,之后通過Bi-GRU結(jié)合雙向時間信息進(jìn)行預(yù)測,并采用課程式學(xué)習(xí)這一方法,將模型訓(xùn)練至最優(yōu).實驗結(jié)果表明該模型在CHiME-5測試集上的準(zhǔn)確率高達(dá)98.36%,剪輯過后的音頻過渡流暢節(jié)奏適中,與人工剪輯的結(jié)果十分接近.該模型參數(shù)較少,運行效率高,處理一個小時的視頻僅需幾秒,相比較人工剪輯可以大幅減少耗時.

本模型擁有較強(qiáng)的魯棒性,即使在低信噪比環(huán)境下,依然能保持良好的性能,能夠勝任如戶外采訪,賽事解說等剪輯工作.在廣播電視臺等需要大量剪輯語音類媒體的場所,有著較高的應(yīng)用價值.另外模型也可應(yīng)用于其他領(lǐng)域,例如網(wǎng)課、會議等音視頻中.通過使用不同類型的標(biāo)簽數(shù)據(jù),該模型也可用于語音端點檢測領(lǐng)域.目前隨著5G時代的來臨,網(wǎng)絡(luò)視頻和音頻的數(shù)量呈指數(shù)型上升,屆時該模型將擁有廣泛的應(yīng)用前景.

由于該模型根據(jù)語音進(jìn)行自動剪輯,如果輸入視頻音畫不同步,剪輯質(zhì)量也會受到影響.未來可以考慮在此模型基礎(chǔ)上,自動添加過渡轉(zhuǎn)場提高藝術(shù)性,也可搭載語音識別模塊生成文本,直接嵌入視頻字幕中,進(jìn)一步降低人工成本.

猜你喜歡
音頻語音卷積
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
魔力語音
基于MATLAB的語音信號處理
電子制作(2019年14期)2019-08-20 05:43:38
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于MQ3與MP3的價廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
對方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
音頻分析儀中低失真音頻信號的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
乐平市| 合水县| 黎城县| 宝清县| 宝坻区| 同仁县| 南阳市| 阿巴嘎旗| 罗平县| 西乌珠穆沁旗| 定兴县| 闽清县| 遂溪县| 建水县| 麻栗坡县| 秦皇岛市| 祁阳县| 北碚区| 额尔古纳市| 荥阳市| 无棣县| 榆树市| 阳原县| 白朗县| 玉林市| 平阴县| 定州市| 衡山县| 青海省| 北海市| 鄂托克旗| 民勤县| 湖南省| 永登县| 庄河市| 泸溪县| 哈密市| 山东| 于田县| 文昌市| 舞阳县|