糜增元
【摘要】 本文通過基于內(nèi)容的數(shù)字音頻快速檢索專利技術(shù)申請(qǐng)文獻(xiàn)的檢索、統(tǒng)計(jì)和分析,依據(jù)音頻檢索流程分析了該技術(shù)領(lǐng)域的發(fā)展分支,特別針對(duì)特征提取、音頻分割等技術(shù)進(jìn)行闡述。
【關(guān)鍵字】 音頻檢索 特征提取 語音 音頻分割
一、引言
基于人工輸入標(biāo)注和屬性進(jìn)行音頻檢索的傳統(tǒng)檢索方式存在以下缺陷:
1)當(dāng)數(shù)據(jù)量越多時(shí),人力工作量隨之加大;
2)對(duì)音頻的感知有時(shí)難以用文字表達(dá)清楚;
3)不支持實(shí)時(shí)音頻檢索,因此基于內(nèi)容的音頻檢索技術(shù)應(yīng)運(yùn)而生。
基于內(nèi)容的音頻檢索利用音頻信息的幅度、頻譜等物理特性,響度、音高、音色等聽覺特性和音頻類別、語義等特征進(jìn)行檢索,能夠有效且快速獲得用戶所需的音頻資源。
二、主要技術(shù)發(fā)展路線以及專利申請(qǐng)情況分析
基于內(nèi)容的數(shù)字音頻快速檢索技術(shù)使用數(shù)字音頻的聲學(xué)特征作為音頻指紋代替音頻內(nèi)容數(shù)據(jù)本身進(jìn)行檢索,音頻指紋相比音頻內(nèi)容數(shù)據(jù)本身,數(shù)據(jù)量得到大幅的壓縮,有助于大量數(shù)字音頻內(nèi)容的管理,使得音頻資源的管理更加規(guī)范高效。
檢索處理流程如下所述:
1)接收音頻流;
2)對(duì)音頻進(jìn)行特征提??;
3)對(duì)音頻進(jìn)行分割;
4)針對(duì)不同音頻組分采用不同處理方式。
以下,針對(duì)流程每一環(huán)節(jié)的技術(shù)分支進(jìn)行進(jìn)一步的闡述:
1)依照對(duì)采樣點(diǎn)提取特征的不同,音頻特征提取可分為時(shí)域特征的提取、頻域特征的提取、時(shí)域特征的提取,其中可提取的音頻時(shí)域特征有平均能量,過零率和線性預(yù)測(cè)系數(shù)等,而頻域特征的提取是利用傅里葉變換可分解出音頻信號(hào)的頻率成分,可提取的音頻頻域特征有帶寬、頻譜中心、諧音、音調(diào)等,對(duì)于時(shí)變劇烈的音頻信號(hào),小波變換能夠抓住信號(hào)局部的時(shí)頻特性,提高信號(hào)分析的能力。
2) 音頻分割是比較相鄰兩個(gè)或幾個(gè)短時(shí)音頻特征,尋找發(fā)生突變的地方,在音頻特征發(fā)生突變的地方對(duì)連續(xù)的音頻流進(jìn)行切分,把連續(xù)的音頻流變成時(shí)間長短不一的音頻片段,其主要包括:靜音分割:檢測(cè)音頻流中的靜音段作為突變點(diǎn)以進(jìn)行分割;非靜音分割:檢測(cè)音頻流中音頻持續(xù)段作為音頻片段。
3) 音頻組分,根據(jù)對(duì)音頻數(shù)據(jù)內(nèi)容的劃分可以知道,語音、音樂和其他聲響具有顯著不同的特性,因而目前的處理方法可以分為相應(yīng)的三種:處理包含語音的音頻和不包含語音的音頻,后者又把音樂單獨(dú)劃分出來。換而言之,第一種是利用自動(dòng)語音識(shí)別技術(shù),后兩種是利用更一般性的音頻分析,以適合更廣泛的音頻媒體,如音樂和聲音效果,當(dāng)然也包含數(shù)字化語音信號(hào)。
圖1表示基于內(nèi)容的數(shù)字音頻快速檢索技術(shù)中針對(duì)不同音頻組分專利申請(qǐng)量情況.從圖1可以看出,針對(duì)語音檢索的專利申請(qǐng)量較多,這主要是由于其應(yīng)用領(lǐng)域較廣,例如聲音識(shí)別、語音控制等,市場(chǎng)前景廣闊,能帶來可觀經(jīng)濟(jì)效益,因此高校及企業(yè)均投入大量人力精力對(duì)其進(jìn)行研究改進(jìn)。
除此之外,對(duì)樂曲的快速檢索申請(qǐng)量也較多,主要涉及用戶利用示例音樂或是哼唱片段的檢索。
三、結(jié)語
通過對(duì)基于內(nèi)容的音頻檢索技術(shù)的處理流程以及不同音頻組分申請(qǐng)量比重了解分析后,可以看出,目前主流研究方向仍是針對(duì)語音語義的創(chuàng)新研究。
參 考 文 獻(xiàn)
[1]鐘寶榮, 吳春輝,音頻檢索方法的研究,《長江大學(xué)學(xué)報(bào)(自然科學(xué)版)》,2008年6月第5卷第2期.
[2]藺國梁,基于壓縮域特征的音頻識(shí)別算法,《甘肅聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版)》,2011年第25卷第6期.