国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于內(nèi)容的音頻檢索研究

2011-10-11 06:23:22吳春輝陳洪生
大眾科技 2011年2期
關(guān)鍵詞:檢索系統(tǒng)類別音頻

吳春輝 陳洪生

(咸寧學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 咸寧 437100)

基于內(nèi)容的音頻檢索研究

吳春輝 陳洪生

(咸寧學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 咸寧 437100)

文章介紹了音頻檢索系統(tǒng)的通用流程,并對其過程逐一進(jìn)行闡述,最后利用一個(gè)簡單的系統(tǒng)對基于內(nèi)容的音頻檢索方法進(jìn)行了測試。

基于內(nèi)容的檢索;音頻檢索系統(tǒng);音頻

(一)引言

隨著現(xiàn)代信息技術(shù)和存儲(chǔ)技術(shù)的快速發(fā)展以及互不干涉信息網(wǎng)(www)的迅速發(fā)展,越來越多的多媒體信息以數(shù)字形式存儲(chǔ)和傳輸,人們可以更靈活地使用這些信息。但隨之而來的問題是,面對大量包含多媒體數(shù)據(jù)的數(shù)據(jù)庫,人們不再滿足于通過一般的屬性(如姓名、時(shí)間等)進(jìn)行檢索。如計(jì)算機(jī)檢索音頻片斷,可以使用基于標(biāo)題或文件名的文本標(biāo)注方式。然而傳統(tǒng)的基于關(guān)鍵字或文件名的檢索方法顯然不適于數(shù)據(jù)量龐大、不具有天然結(jié)構(gòu)特征的各種音頻數(shù)據(jù)。為了使人們快速的檢索到所需的多媒體信息,近年來,國內(nèi)外在多媒體數(shù)據(jù)庫技術(shù)的研究中開發(fā)了一種基于內(nèi)容的檢索 CBR(Content Based Retrieval)技術(shù)。

(二)基于內(nèi)容的音頻檢索系統(tǒng)通用流程

基于內(nèi)容的音頻檢索技術(shù)突破了基于關(guān)鍵詞匹配的傳統(tǒng)檢索技術(shù)的限制,它根據(jù)音頻本身所固有的特征而不是人工標(biāo)注的外部屬性或者關(guān)鍵詞對音頻進(jìn)行檢索。它的核心思想是通過一定的計(jì)算機(jī)處理,分析音頻的結(jié)構(gòu)和語義,建立它們的結(jié)構(gòu)化的組織和索引,使得“無序”的音頻變得“有序”,從而有利于用戶的瀏覽和檢索。

基于內(nèi)容的音頻數(shù)據(jù)庫檢索系統(tǒng)是一種重要的多媒體信息處理技術(shù)。在音頻檢索中,需要經(jīng)過特征提取、音頻分割、音頻識(shí)別分類和索引檢索這幾個(gè)關(guān)鍵步驟。圖 1為基于聽覺內(nèi)容的間頻檢索流程圖。

圖1 基于聽覺內(nèi)容的音頻檢索流程

(三)音頻特征抽取

音頻信號(hào)攜帶各種信息,在不同的應(yīng)用場合下,人們感興趣的信息也不同。比如,對于語音來說,判斷其是否為語音,只需要提取人類語音信號(hào)的一般特征就足夠了,而為了區(qū)分是清音還是濁音,就應(yīng)該了解其能量譜分布和基音頻率。為了滿足音頻管理和檢索的需要,基于內(nèi)容的音頻數(shù)據(jù)模型需要提取音頻的低層特征來表現(xiàn)音頻低層內(nèi)容。音頻具有心理屬性和物理屬性,同樣對音頻特征的提取也有兩種方法,即提取聽覺感知特征(音調(diào)、響度)和計(jì)算非感知特征或稱物理特性(對數(shù)倒譜系數(shù),線性預(yù)測系數(shù))。不同的特征表達(dá)音頻的不同方面,適用于不同的應(yīng)用范圍。

音頻特征抽取是指尋找原始音頻信號(hào)表達(dá)形式,提取能代表原始信號(hào)的數(shù)據(jù)。下面介紹幾個(gè)常見的特征。

1.音調(diào)。音調(diào)與基音周期有關(guān),是音頻信號(hào)的一個(gè)重要參數(shù),在音頻處理中有重要的作用。比如對于語音數(shù)據(jù),音調(diào)是分辨男女聲的重要參數(shù)之一。

2.響度。這是較常用的感性特征,與短時(shí)能量密切相關(guān)。計(jì)算應(yīng)在時(shí)域進(jìn)行,一般是對每幀數(shù)據(jù)取平方和,然后計(jì)算其平方根。

3.短時(shí)平均過零率(Zero-crossing Rate)。它是指在一個(gè)短時(shí)幀內(nèi),離散采樣信號(hào)值由正到負(fù)和由負(fù)到正變化的次數(shù),即兩個(gè)相鄰取樣值有不同符號(hào)時(shí),便出現(xiàn)“過零”現(xiàn)象。單位時(shí)間過零的次數(shù)稱為“過零率”。這個(gè)量大概能夠反映信號(hào)在短時(shí)幀內(nèi)里的平均頻率。短時(shí)平均過零率是區(qū)分音頻信號(hào)有聲或無聲的重要標(biāo)志之一。對于音頻信號(hào)流x中第m幀,其過零率計(jì)算如下:

4.Mel變換對數(shù)倒譜系數(shù)(Mel-Scaled Frequency Cepstral Coefficient,MFCC)。這是音頻數(shù)據(jù)經(jīng)Z變換和對數(shù)處理后得出的結(jié)果。一般對每幀數(shù)據(jù)取12個(gè)系數(shù),可以很好地表現(xiàn)每幀的特征。其處理過程如圖2所示:

圖2 Mel計(jì)算過程

5.線性預(yù)測。線性預(yù)測又稱為線性預(yù)測編碼(LPC),是音頻處理的常用技術(shù),即對音頻信號(hào)的各個(gè)取樣值,可以用它過去若干個(gè)取樣值的加權(quán)和(即線形組合)來表示。各加權(quán)系數(shù)的確定原則是使預(yù)測誤差的均方值最?。醋裱钚》讲钤瓌t)。

(四)音頻分割及識(shí)別分類

音頻是連續(xù)的時(shí)間序列信號(hào),猶如不可能對幾十分鐘或幾十個(gè)小時(shí)視頻一起處理一樣,也不可能對持續(xù)時(shí)間很長的音頻處理。首先需要對連續(xù)的音頻流進(jìn)行分割,將連續(xù)音頻信號(hào)流分割成長短不一的音頻單元后,再對每個(gè)音頻單元進(jìn)行識(shí)別,將它們歸屬為不同的音頻類別,如語音、音樂和環(huán)境背景音等。

音頻分割方法的研究較少,但音頻分割對最終的音頻流處理結(jié)果的準(zhǔn)確率有很重要的影響,它直接關(guān)系到音頻鏡頭切分的準(zhǔn)確性。傳統(tǒng)的音頻分割主要采用滑窗法和基于規(guī)則的方法。

1.滑窗法

傳統(tǒng)的音頻分割方法通常是采用簡單的滑動(dòng)窗口技術(shù),即用固定長度的滑窗對音頻流簡單分割,在滑窗內(nèi)部按“投票規(guī)則”(vote rule)將音頻流平滑為一個(gè)類別,即哪個(gè)類別的clip數(shù)最多,就認(rèn)為該滑窗內(nèi)所有的clip都屬于該類別。然后將具有相同音頻類別的滑窗合并得到最終的分割結(jié)果。

2.基于規(guī)則的分割方法

該方法基于音頻連續(xù)特性,根據(jù)該特性可以設(shè)計(jì)分割準(zhǔn)則對音頻clip序列進(jìn)行平滑,然后再將具有相同類別的音頻clip合并得到最終的分割。不同的分割工作中根據(jù)需要和具體音頻分類的類別可以采用不同的分割準(zhǔn)則。

(五)音頻檢索系統(tǒng)

音頻檢索系統(tǒng)主要包括音頻入庫、音頻文件特征提取、基于內(nèi)容的檢索和相關(guān)音頻處理三大部分。其結(jié)構(gòu)如圖 3所示。

圖3 基于內(nèi)容的音頻檢索系統(tǒng)結(jié)構(gòu)圖

圖 4為基于哼唱的檢索界面,用戶進(jìn)入該界面后,可以先錄一段自己的語音,然后保存為.wav文件,檢索時(shí)可以檢索出來,并且按照匹配的結(jié)論把結(jié)果按照從小到大的順序反饋給用戶,表示可能是三個(gè)人中的一個(gè)在說話。并且排在第一位的說話人的概率最大。

在實(shí)驗(yàn)中,說話者張龍先“哼”了一段自己的語音,然后檢索,可以看出,該實(shí)驗(yàn)中檢索出說話者最大可能性是張龍。

圖4 “哼唱”檢索界面

(六)結(jié)束語

多媒體數(shù)據(jù)庫雖然經(jīng)過了20多年的發(fā)展,但是目前對多媒體數(shù)據(jù)庫技術(shù)的研究仍處于初級(jí)階段,特別是基于內(nèi)容的檢索技術(shù)在國內(nèi)外仍處于研究、探索階段。文章提供了一個(gè)簡單的基于內(nèi)容的音頻檢索系統(tǒng),該系統(tǒng)能很好的用于檢索測試,但是用于實(shí)際還需進(jìn)一步加強(qiáng)和改進(jìn)。

[1] 黃志軍,曾斌.多媒體數(shù)據(jù)庫技術(shù)[M].北京:國防工業(yè)出版社,2005.

[2] 韓紀(jì)慶,張磊,郟鐵然.語音信號(hào)處理[M].北京:清華大學(xué)出版社,2004.

[3] 李恒峰,李國輝.基于內(nèi)容的音頻檢索與分類[J].計(jì)算機(jī)工程與應(yīng)用,2000,7:54-56.

[4] Frakes W,Baeza-Yates R.Information retrieval:data structures and algorithms[M].New Jersey:Prentice Hall,1992.

[5] Wold E.,Blum T., keslar D.,etal,Content-based classification,search,and Retrieval of audio[J]. IEEE Multimedia,1996,27-36.

TP391.42

A

1008-1151(2011)02-0024-02

2010-12-13

吳春輝(1981-),女,湖北通城人,咸寧學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院講師,碩士,研究方向?yàn)槎嗝襟w數(shù)據(jù)庫。

猜你喜歡
檢索系統(tǒng)類別音頻
必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
收錄《信號(hào)處理》的檢索系統(tǒng)及數(shù)據(jù)庫
收錄《信號(hào)處理》的檢索系統(tǒng)及數(shù)據(jù)庫
本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
Pro Tools音頻剪輯及修正
人間(2015年8期)2016-01-09 13:12:42
論類別股東會(huì)
商事法論集(2014年1期)2014-06-27 01:20:42
明水县| 沁源县| 新宁县| 中超| 榆林市| 巫溪县| 含山县| 会理县| 霍林郭勒市| 北辰区| 栖霞市| 乌兰县| 财经| 牙克石市| 屏南县| 闽清县| 寿宁县| 绥芬河市| 建昌县| 南投市| 新河县| 都江堰市| 遂溪县| 宜都市| 普陀区| 军事| 平武县| 宁阳县| 土默特右旗| 卢龙县| 菏泽市| 和硕县| 博罗县| 彰化市| 许昌县| 雷波县| 任丘市| 南乐县| 梓潼县| 辰溪县| 遂川县|