華北理工大學 李 爽 劉 盈
基于內容的音頻檢索關鍵技術分析
華北理工大學 李 爽 劉 盈
在我國社會經濟發(fā)展的過程中,網絡技術及多媒體技術也在不斷的發(fā)展,網絡信息資源不斷的增加,信息檢索技術也有了相應的創(chuàng)新及改革,人們已經不滿足傳統(tǒng)基于文本的檢索,而是要求能夠對音頻、圖像及視頻等媒體進行快速檢索,在此背景下就產生了基于內容的音頻檢索技術。基于內容的音頻檢索技術主要是在音頻中將語義線索直接提取出來,從而能夠根據語義線索實現檢索,將檢索的過程和媒體語義相互連接,有效提高檢錯工作的有效性及適應性。基于內容的音頻檢索技術目前被廣泛應用到各個領域中,比如數字圖書館、遠程教育、新聞節(jié)目檢錯、環(huán)境監(jiān)測及廣告娛樂節(jié)目的編輯和制作?;诖?,本文就以廣告檢索為背景,研究基于內容的音頻檢索關鍵技術。
內容;音頻檢索;關鍵技術
人們一直使用最多的檢索方式為文本信息檢索,其不管是理論、技術還是實際使用,目前都較為完善及成熟。所在現代信息化的社會中,人們嘗試著將目標投向了更加廣闊的空間中,那就是多媒體檢索,音頻信息檢索占據重要的比重,受到了現代人們的廣泛關注。之前對于音頻信息檢索使用的都是人工標注的方式,也就是使用文本實現音頻、視頻及圖像等媒體的標注,其能夠概述多媒體語義信息。此種方式在某種背景下是可行的,但是在多媒體信息數量不斷提高的背景下,人工標注的方式不僅提高了人工成本,并且浪費了人力資源,降低了工作效率,也無法滿足人們的需求。并且由于人工標注存在主觀的歧義性,導致檢索結果失真[1-2]。本文所研究的基于內容的音頻檢索為全新的檢索技術,其能夠結合音頻語義信息及檢索過程,在短時間從大量的音頻中檢索出自己所需求的內容。此種檢索方式是通過音頻數據自身的特點作為檢索的條件,從而能夠有效提高檢索結果的準確性及客觀性。所以,基于內容的音頻檢索技術算法要通過計算機完成,從而實現低成本及高效率的目的。
音頻信號具有多種信息,人們在不同場合中的感興趣信息也是不同的。對于聲音來說,判斷語音要通過提取人類語音信號的特點實現。為了能夠滿足音頻管理及檢索的需求,就要提取音頻底層特征表示,音頻特征的提取主要使用數字信號處理技術,一般其分為時域、頻域及時頻三種分析方式[3],以下分別介紹特征音頻特征的提?。?/p>
假如連續(xù)音頻信號x通過采樣之后得到k各采樣點,在提取音頻時域特征過程中,拜師每個采樣點都具有此時間段音頻信號中的全部信息,那么直接通過采樣點實現音頻特征的提取,不需要對其進行處理。使用此種方法,將采樣點序列作為二維數軸,將橫坐標作為時間,縱坐標作為采樣點值。本節(jié)通過音頻中短時平均能量時域特征進行說明。
短時平均能量指的是在短時間內音頻窗口中采樣點信號的平均能量,假如短時幀大小表示為N,x(n)表示采樣之后的離散音頻信號,那么在m個短時幀的短時平均能量可以通過下式進行計算:
E(m)=(1/n)(x(n)w(n-m))2
其中x(n)表示長度N,也就是N個采樣點的窗函數。
短時平均能量能夠將離散時間音頻信號充分的表示出現,能夠將其特點表示為以下:
首先,短時平均能量能夠對純語音信號中的濁音及清音清楚的區(qū)分,因為清音中的短時平均能量比濁音小;
另外,在音頻信號信噪比較高的時候,短時平均能量能夠將其中的靜音部分有效區(qū)分;
最后,短時平均能量能夠在時間變化過程中,將音頻周期及節(jié)奏等屬性充分的表現出來,短時平均能量能夠直接在靜音檢測中使用,如果音頻中的某幀平均能量比預先設置的閾值低,那么表示此幀為靜音,否則不是靜音。如果音頻中靜音幀數目較多,表示此音頻為靜音音頻[3-4]。
音頻理論表示,每個音頻信號都包括不同時間、能量幅度及頻率的聲波,人們是由于人耳對音頻信號進行感受。音頻是不同頻率在不同時間中的不同能量構成的,每個時間的采樣信號都只表示一部分內容,音頻信號中的其他信息要通過頻域信息得到。將原始的音頻信號時域轉換為頻域,可以通過傅里葉變換實現,之后將音頻信號通過不同幅度及頻率諧波表示,提取諧波中的特征系數。音頻信號頻域特征包括多種,比如頻率中心、Mel頻率倒譜及帶寬等。傳統(tǒng)的音頻數據是一種時空信號,具有較大的分辨率,并且能夠通過時空中的相關性實現數據壓縮。傅里葉變換能夠將時空域中的音頻信號映射到頻率域中,從而滿足人們的聽覺特征,并且還能夠通過信號實現頻率域冗余的數據壓縮[5]。
頻率中心表示頻譜的分布,其在壓縮域中是絕對頻譜平衡頻率,可以通過下式進行計算:
帶寬表示頻率中心及頻譜成分兩者的平方差能量權重的平均值平方根,通過下式進行計算:
在處理信號過程中,傳統(tǒng)傅立葉分析在分析平衡性消耗及確定性的時候具有重要的作用,但是在現實生活中部分信號的時變性較長,比如在某段時間中具有周期信號特點,但是在某段時間中卻具有噪聲特點。對于此種時變較為劇烈的音頻信號,只是在頻譜空間中實現傅里葉分析具有較強的局限性,那么就要實現信號的時頻分析。由于傅里葉變換不具有時空定位信息,所以就提出了短時傅里葉變換,從而實現時頻分析,但是窗口的大小是不變的,那么之后就提出了具有可變窗口自適應時頻分析,小波變換,其被廣泛應用到信號時頻過程中。
小波分析是現代發(fā)展的視頻分析技術,其存在多分辨分析的作用,被稱為數學顯微鏡,和三角級數、冪級數及傅里葉級數相同,小波分析是使用簡單的函數能夠表示任何函數[6],比如三角級數通過下式表示:
被表示的全部函數為函數空間,但是函數族就是函數空間基底,在函數展開式中系數就是此函數在函數空間的坐標,對應函數空間的點,這就如同函數從傳統(tǒng)域到全新域中,比如講三角級數的時空域函數變?yōu)轭l率域中。
不同框架和模型的音頻信息算法檢索都是不同的,本節(jié)對隱馬爾可夫模型算法進行了分析。隱馬爾可夫模型是馬爾科夫模型的擴充,被廣泛應用到計算機語言學方面,并且也在音頻識別方面使用,還具有較大的成果。但是隱馬爾可夫模型在音頻檢索方面使用具有較大的問題,首先是估算問題,其次是解碼問題,最后是學習問題。將這三種問題換一種說法就是向前-向后算法、Viterbi算法和Baum-welch算法,這三種算法有效解決了隱馬爾可夫模型中的三個問題[7-8]。比如向前-向后算法:
向前-向后算法的主要目的就是計算觀察值序列和模型的,加入觀察值序列為0=O1,O2,...,OT,模型為λ=(π,A,B),通過模型計算得到O的概率P(O∣λ),概率通過以下得到:
λ的給定得到S概率為:
所以得到的概率為:
通過上式可以看出來,以上運算量較大,如果在音頻檢索重視使用是不能夠被接受的,那么向前-向后算法就被提出,其定義為:
以此可以看出來,有效降低了算法的計算量,使用VC程序實現計算結果,詳見圖1:
圖1 向前算法的計算結果
傳統(tǒng)音樂檢索使用的都是文件標注方式,但是在語音處理技術不斷發(fā)展的過程中,人們開始逐漸使用語音及音頻的方式實現音頻檢索,此方面是基于內容的音頻檢索技術發(fā)展最具前景的研究方面。本節(jié)以音頻檢索案例說明音頻檢索算法的使用。
音頻檢索指的是從檢索數據源中尋找和指定檢索內容相同的音頻信息,其主要是通過一般是聲學特性實現分析和檢索,除了音樂文件,其還能夠實現雨聲、飛機聲及鳥叫聲的檢索,其包括了多種語音形式[9]。音頻檢索案例中的SoundSpotter系統(tǒng)具有一定的參考價值,其檢索示意圖為:
圖2 SoundSpotter檢索示意圖
圖2中是將MFCC特點為基礎,對比五種檢索方式:第一種為通過MFCC特征實現直接軌跡匹配;第二種為MFCC通過映射實現軌跡匹配;第三種為直接使用DTW及MFCC特征實現匹配;第四種為使用功能MFCC通過聚類實現的直方圖匹配。但是軌跡匹配是在檢索目標向量序列和長度相同輸入特征向量序列中實現計算,兩者的相似度數值為兩序列向量的均值。第一種和第三種的檢索率最高。
圖3為動態(tài)直方圖檢索的過程:
圖3 動態(tài)直方圖檢索的過程
首先,將特征向量從參考信號及輸入信號中進行提取,分別得到參考特征向量技術輸入特征向量;其次,將特征向量使用直方窗從輸入特征向量序列及特征向量序列中進行提取,之后生成輸入直方圖及參考直方圖,其長度和參考信號時長一樣。因為直方窗不能夠表示音頻時序,那么可以實現字窗的劃分,使用相同序列等長并且相鄰的字窗表示。另外對輸入直方圖及參考直方圖的相似度進行計算,如果相似度比閾值高,那么表示兩者的位置相互匹配。之后使直方窗位置向前移動,重復以上過程。
將音頻信號通過二階時域濾波器,假如j個濾波器的輸出表示為yj(k),頻帶j的短時能量表示為:
M為短時幀的長度,i表示幀的序號。
某幀信號的頻帶能量特征通過向量可以使用下式表示:
E(i)=(e1(i),e2(i),...,en(i))
如果將頻帶能量值域分為不同的區(qū)間,每個區(qū)間都和一個直方相互對應,之后統(tǒng)計頻帶能量的直方比率,從而得到直方圖。在動態(tài)檢索過程中,最簡單的方法就是將音頻幀作為單位,直方圖在音頻流中緩慢的超前移動,其子窗也逐漸的超前移動,每次移動都具有一個直方圖,并且計算相似度。因為直方圖交集相似度在相鄰移動區(qū)間中的相似性導致移動過程中能夠實現動態(tài)移動步長的改變,從而能夠減少移動的次數,降低計算量,提高檢索的速度[10]。圖4為使用直方圖算法的動態(tài)檢索。
圖4 使用直方圖算法的動態(tài)檢索
在音頻檢索過程中,不可避免會出現造成干擾,所以就要對其進行特殊處理,使用基于響度主分量模糊直方圖的音頻檢索對其進行處理。平均入耳的曲線表現了響度不同的純音頻率及聲壓等級的聯系,那么k次濾波的聲壓級SPL、響度級LL及衰減量C的關系為:
那么k次諧波響度表示為:
K次諧波歸一化響度為:
通過上式可以看出來,歸一化響度能夠有效避免音量調節(jié)的問題,降低了計算過程。音頻真諧波的響度值大部分都不大,較大的響度值只占據了小部分,一般響度主分量指的就是比平均水平高的信度分量,在計算直方圖過程中,響度主分量的比例較小,所以極易被淡化,其值及分布能夠充分表現出音頻特點,所以只是使用響度主分量,能夠有效提高直方圖性能。在直方圖計算過程中只重視非靜音數據,頻率分量包括強度主分量集合及其他諧波,兩者在元素響度平均值中具有較大的差異。使用歸一化響度音頻特征檢索過程中,不僅能夠使檢索結果更加接近人類的聽覺特點,還能夠有效提高抗干擾能力,提高魯棒性[11]。
現代音頻信息檢索還處于理論算法研究及初步使用階段,在全面進入到人們生活之前還要對其更加深入的研究。本文對于基于內容的音頻檢索技術進行了分析,使用此些技術能夠有效減少數據的計算量,提高實時性能。在音頻檢索今后的工作中,還要創(chuàng)新出更多的技術,比如音樂自動標注及分析等,以此有效提高音頻檢索的能力及有效性。
[1]李恒峰,李國輝.基于內容的音頻檢索與分類[J].計算機工程與應用, 2000,36(7):54-56.
[2]蘇啟院.基于內容的音樂檢索關鍵技術研究[D].華南理工大學,2011.
[3]俞鵬飛.基于內容的音頻檢索系統(tǒng)關鍵技術及其實現[D].復旦大學,2013.
[4]張新彩.基于內容的音樂檢索技術研究與實現[D].西北大學,2009.
[5]楊會云.基于HMM-SVM的音頻分類與檢索索算法研究[D].重慶郵電大學, 2010.
[6]楊波.基于內容的多音音樂檢索系統(tǒng)設計[D].武漢理工大學,2012.
[7]鄧慧麗,何華.音頻數據檢索專利技術綜述[J].科技創(chuàng)新與應用,2016(25):72.
[8]周姣.基于內容的音頻信息檢索技術[J].大科技,2017(8).
[9]王公友.基于內容的音頻分析與場景識別[D].南京大學,2013.
[10]張建華,汪鑫.基于內容音頻檢索綜述[J].商情,2012(2):215-217.
[11]尹文慧.基于哼唱內容的音樂檢索技術研究[D].天津財經大學,2013.
課題項目:河北省高等學??茖W技術研究項目《基于內容的音頻檢索關鍵技術研究及應用》(編號Z2015102)。