秦 靜,王醒策,周明全,劉新宇
(1.北京師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100875;2.大連大學(xué) 信息工程學(xué)院,遼寧大連 116622;3.中科院計(jì)算技術(shù)研究所,北京 100080)
近年隨著Internet的發(fā)展,音頻數(shù)據(jù)呈指數(shù)倍增長.傳統(tǒng)基于文字標(biāo)注的檢索已經(jīng)不能滿足海量多媒體數(shù)據(jù)檢索需要,因此基于內(nèi)容的音樂信息檢索(MIR,music information retrieval)很快成為信號(hào)處理、模式識(shí)別和數(shù)據(jù)挖掘等領(lǐng)域研究者致力研究的熱點(diǎn)之一.從 20世紀(jì) 90年代中期開始,國內(nèi)外對(duì)基于內(nèi)容的音樂信息檢索進(jìn)行了多方面的研究.英國南安普頓大學(xué)Asif Ghias在1995年首先發(fā)表MIR論文[1],同時(shí)發(fā)布QBH(query by humming)哼唱檢索系統(tǒng),開創(chuàng)了此研究的先河.此后,Lie Lu[2]等在音高的基礎(chǔ)上增加了音高差、音符長度,構(gòu)成旋律表示單位.Jyh-Shing Roger Jang等提出HFM實(shí)現(xiàn)旋律匹配.國內(nèi)近年來開始對(duì)該問題進(jìn)行逐步深入的研究.上海交通大學(xué)李揚(yáng)[4]提出線性對(duì)齊匹配算法(linear alignmentmatching),浙江大學(xué)馮雅中等[5]應(yīng)用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行音頻匹配.雖然已經(jīng)在音樂特征選擇、表示和匹配取得一定成果,但由于音樂信號(hào)的不穩(wěn)定性及其感知分析的復(fù)雜性使得大規(guī)模MIR系統(tǒng)及其應(yīng)用發(fā)展緩慢.目前制約基于內(nèi)容音樂檢索技術(shù)發(fā)展的關(guān)鍵問題表現(xiàn)為 3個(gè)方面:如何提取音頻特征實(shí)現(xiàn)音樂內(nèi)容表征;如何描述音樂特征及用何種方法進(jìn)行特征匹配.本研究在已有研究基礎(chǔ)上,通過基音提取和動(dòng)態(tài)閾值分割音符算法實(shí)現(xiàn)了音樂特征的提取,通過遺傳算法和動(dòng)態(tài)時(shí)間扭曲函數(shù)實(shí)現(xiàn)特征匹配,提高了算法的速度及精度,為后續(xù)相關(guān)研究提供了技術(shù)支持.
音樂特征大致可分 3個(gè)級(jí)別——物理特征,聲學(xué)特征和感知特征,如圖 1所示.物理特征主要是指按照一定格式通過物理載體記錄的音頻內(nèi)容,表現(xiàn)為流媒體形式.聲學(xué)特征主要包括時(shí)、頻域特征,如基音頻率、短時(shí)能量、過零率、LPC系數(shù)和MFCC系數(shù)等,它們是音頻本身的表現(xiàn)特征,常被用于語音識(shí)別的各個(gè)階段.而感知特征則體現(xiàn)了人對(duì)音樂感受的描述,如音高、節(jié)奏、音強(qiáng)、音色等.感知特征通??稍谖锢硖卣骰A(chǔ)上提取出來.與物理特征相比較,它更能體現(xiàn)人類識(shí)別特點(diǎn)并幫助人類判斷音樂內(nèi)容.
音樂是隨時(shí)間變化的離散音符序列,然而感覺上卻是音符隨時(shí)間變化的完整實(shí)體.格式塔理論(Gestalt theory,GT)是一個(gè)關(guān)于心理現(xiàn)象、心理過程以及心理研究的應(yīng)用理論架構(gòu).此理論證明人類感知形式下潛藏著一種相近、相似、連續(xù)等規(guī)律的法則,能夠揭示在給定刺激特征的情況下,哪種模式的組織形式將會(huì)被感知到,因此可以用來說明音符被感知的方式.1986年Dow ling[6]證明旋律滿足格式塔理論,即具有相近性、相似性和連續(xù)性.所以文中,將音樂主要感知特性——旋律作為表征音樂的特征.音樂的旋律輪廓即為音高隨時(shí)間的變化特性,而音高又是由音樂的基音頻率來決定的,因此通過提取音高并用合適的模型描述音高就可以提取和描述旋律輪廓.
在前期的工作中 提出了基于標(biāo)準(zhǔn)模板和哼唱輸入模板的旋律表示模型,并從用戶哼唱的音頻文件中提取了輸入音高模板,再根據(jù)音樂文件的簡譜與基音頻率的關(guān)系建立了標(biāo)準(zhǔn)音高模板,對(duì)于這 2個(gè)同屬于基音頻率范疇的模板具備可比性,并且在歸一化后具有相似的外形.本文的工作就是在上述研究基礎(chǔ)上,對(duì)旋律的表示模型進(jìn)一步完善和改進(jìn),并提出合適的匹配算法進(jìn)行匹配得到最終的檢索結(jié)果.
圖1 音樂的特征級(jí)別表示Fig.1 The p resentation ofmusic character level
MIR系統(tǒng)框架流程如圖 2所示.人的聲音頻率范圍在50~3 200 Hz,而音樂上使用的音高通常在16~7 000 Hz(相當(dāng)于音符C2~A 5),兩者存在一定差異[8].人哼唱的基頻往往低于標(biāo)準(zhǔn)基頻若干倍,并且由于每個(gè)使用者音域并不相同,同樣會(huì)造成基音變異[9].如果對(duì)輸入模板和標(biāo)準(zhǔn)模板簡單歸一化,則由于忽略了音高輪廓的細(xì)節(jié)信息,而導(dǎo)致檢索結(jié)果失真[10-11].
因此,考慮用標(biāo)準(zhǔn)音高模板頻率范圍內(nèi)的模板去逼近原哼唱模板的輪廓,并代替原哼唱模板進(jìn)行匹配.此算法將輸入音高模板線性平移,在使其與標(biāo)準(zhǔn)音高模板在音高范圍上接近的基礎(chǔ)上,保留原有輪廓細(xì)節(jié)信息,從而降低了直接歸一化造成的輪廓信息丟失所帶來的誤差.遺傳算法作為一種優(yōu)化算法在全局并行性和全局尋優(yōu)能力上具有突出特點(diǎn).此算法在不需要問題先驗(yàn)知識(shí)的條件下,同樣可求得問題最優(yōu)解.因此考慮應(yīng)用遺傳算法在現(xiàn)在標(biāo)準(zhǔn)音高頻率范圍內(nèi)搜索與輸入模板最相似的模板,從而達(dá)到模板平移的目標(biāo).
旋律對(duì)齊問題可以描述如下:輸入模板為P= {p1,p2,…,pi,…,pn},其中pi為某一音符,n為音符個(gè)數(shù).將此模板縮放到音符的標(biāo)準(zhǔn)音高模板頻率范圍中,得到逼近模板Q={q1,q2,…,qi,…,qn},2模板相似程度可以通過模板向量夾角的余弦值來度量.算法目的是找到與P模板夾角余弦值最大的Q模板.
圖2 MRI系統(tǒng)框架流程圖Fig.2 The framework of the MIR system
將鋼琴音符基頻作為標(biāo)準(zhǔn)音高模板,然后把樂譜轉(zhuǎn)化為鋼琴音高模板.根據(jù)對(duì)模板對(duì)齊問題的描述,采用可變長十進(jìn)制染色體編碼,每一個(gè)染色體表示一種逼近方案得到的模板,染色體的長度可隨模板長度的變化而變化.在標(biāo)準(zhǔn)音高模板中,通常簡譜中所用到的音符分布在 3個(gè)八度,即從低音“do”到高音“Si”,總共是 21個(gè)音符,音符與標(biāo)準(zhǔn)基頻對(duì)應(yīng)關(guān)系如表1所示.
表 1 音符與標(biāo)準(zhǔn)基頻對(duì)應(yīng)關(guān)系Table 1 The relationship between the scaleand frequency
染色體中的每個(gè)基因位取表 1中的一個(gè)數(shù)字,這樣長度為n的輸入模板,可用長度為n的染色體來逼近,得到整個(gè)染色體十進(jìn)制串可以表示標(biāo)準(zhǔn)基頻序列,不斷逼近輸入模板得到的標(biāo)準(zhǔn)模板.對(duì)某一輸入模板P={p1,p2,…,pi,…,pn},染色體編碼的結(jié)構(gòu)如表 2所示,gi表示一個(gè)基因位,i=1,…,n, gi∈{x|x為標(biāo)準(zhǔn)基音頻率},gi與逼近模板Q={q1, q2,…,qn}中的qi對(duì)應(yīng).初始種群時(shí)gi隨機(jī)生成,可以取 21個(gè)音符標(biāo)準(zhǔn)基頻中的任意數(shù).用得到的染色體代替Q,計(jì)算 P與Q之間的相似度,按照相似度的大小對(duì)初始種群進(jìn)行排序,然后進(jìn)行選擇、交叉、變異操作,讓相似度更高的解逐步保留下來,最終得到最優(yōu)解,即與P最相似的逼近模板Q.由于編碼時(shí)選擇十進(jìn)制編碼,所以解碼過程相對(duì)簡單.
表2 染色體編碼結(jié)構(gòu)Table 2 The coding of the gene
輸入模板P={p1,p2,…,pi,…,pn},通過遺傳操作得到逼近模板為Q={q1,q2,…,qi,…,qn}.算法目的是找到與 P模板夾角余弦值最大的 Q模板,因此適配函數(shù)可按式(2)進(jìn)行選取.
根據(jù)GA算法最優(yōu)的染色體應(yīng)該具有最大的適應(yīng)度函數(shù),
因此可以把式(2)作為適應(yīng)度函數(shù),從而得到最佳的逼近模板.
初始隨機(jī)生成L個(gè)染色體,選擇操作將適應(yīng)函數(shù)值最大的染色體直接復(fù)制到下一代種群中,這可以保存上一代最優(yōu)的染色體,以免丟失可能的最優(yōu)解.其他染色體采用隨機(jī)遍歷抽樣來選擇,設(shè)染色體Si的選擇概率為其適應(yīng)函數(shù)值占種群適應(yīng)函數(shù)值總和的百分比,則染色體Si選擇概率Ps(Si)定義為
F(Si)為染色體Si的適應(yīng)函數(shù)值,L為種群中染色體的個(gè)數(shù).經(jīng)過選擇操作后,良好的染色體將被保留,劣質(zhì)染色體將被淘汰,種群中染色體整體個(gè)數(shù)不變,這樣L個(gè)染色體被選定進(jìn)入交配群進(jìn)行交叉和變異操作.
交叉操作將在 2個(gè)染色體中進(jìn)行,將 2個(gè)染色體的部分對(duì)應(yīng)基因串相互交換,使染色體進(jìn)化.采用雙點(diǎn)交叉,在交配池中隨機(jī)選擇 2個(gè)串L1和 L2,隨機(jī)選擇 2個(gè)交叉位 x1、x2,對(duì) 2個(gè)位串中兩位置的中間基因片段進(jìn)行交換,得到 2個(gè)新的個(gè)體.交叉后的染色體會(huì)具有新的模式組合,可能會(huì)產(chǎn)生更高的適配值.
變異算子由于采用非二進(jìn)制表示,通過擾亂基因值和并隨機(jī)選擇允許新值實(shí)現(xiàn)變異.變異后的后代染色體還要和父代染色體進(jìn)行適應(yīng)函數(shù)值比較,如果高于父代的適應(yīng)函數(shù)值,則復(fù)制到新一代中,否則,將父代染色體直接復(fù)制到新一代中.
將輸入模板P的十進(jìn)制序列作為輸入,通過遺傳算法即得到對(duì)齊后的逼近模板,基于遺傳算法的旋律模板對(duì)齊算法詳細(xì)描述如下:
1)初始化染色體種群 B,隨機(jī)產(chǎn)生 L個(gè)染色體組成種群,S為種群中的染色體.設(shè)F(S)= cos(P,S),F(S)為適應(yīng)度函數(shù).令i表示當(dāng)前的遺傳代數(shù),MAXGEN表示最大染色體的遺傳代數(shù), i=0.
2)計(jì)算當(dāng)前種群 B中的每一個(gè)染色體的適應(yīng)函數(shù)值.
3)按照選擇、交叉、變異概率,應(yīng)用復(fù)制、交叉、變異算子進(jìn)行遺傳運(yùn)算,生成新一代種群B1,令i= i+1.
4)判斷,是否i<MAXGEN,是則轉(zhuǎn)向2),否則算法結(jié)束,輸出適應(yīng)函數(shù)值最大的染色體S.
歐幾里德距離是時(shí)間序列相似性研究中應(yīng)用最廣泛的相似度度量.對(duì)于輸入音高模板 P和標(biāo)準(zhǔn)音高模板S的歐式距離計(jì)算公式如下:
歐式距離計(jì)算簡單,容易理解,在交變換下保持不變,滿足距離三角不等式,支持多維空間索引.但是此算法要求向量基準(zhǔn)線必須保持一致,所以若 2向量波形基本相似,但波峰和波谷位置略有偏差時(shí),用歐式距離度量也不會(huì)認(rèn)為兩者相似.
DTW距離能夠支持序列在時(shí)間軸上的伸縮,使得相似波形能夠在時(shí)間軸上對(duì)齊匹配.與歐式距離不同,DTW距離不要求模板之間點(diǎn)與點(diǎn)進(jìn)行一一對(duì)應(yīng)的匹配,允許點(diǎn)自我復(fù)制后再進(jìn)行對(duì)齊匹配.這使得當(dāng)模板在時(shí)間軸上發(fā)生彎曲時(shí),仍然可以在彎曲部分進(jìn)行自我復(fù)制,使 2個(gè)模板之間的相似波形可以對(duì)齊匹配.
使用一種基于累積距離矩陣的動(dòng)態(tài)規(guī)劃方法計(jì)算2個(gè)模板之間的DTW距離.對(duì)于輸入音高模板P和標(biāo)準(zhǔn)音高模板S其累積距離矩陣為
由于DTW不斷的計(jì)算2個(gè)向量模板的距離尋找最優(yōu)匹配路徑,這樣就保證了它們之間最大的輪廓相似性.但是DTW算法在整句音符相差不多時(shí),容易造成區(qū)分度不高的問題.因此,本文給出了加權(quán)綜合的相似度匹配算法.
首先,要求用戶在哼唱時(shí)至少哼唱一個(gè)整句,這樣假定模板長度一定.同時(shí),將歌曲劃成整句后形成在數(shù)據(jù)庫中存儲(chǔ)的鋼琴模板。通過式(6)進(jìn)行匹配.
式中:Ls為整句模板音符個(gè)數(shù);Ln為輸入音頻信號(hào)中包含的音符個(gè)數(shù).
這樣只考慮長度與輸入音符個(gè)數(shù)相似的整句,同時(shí)只保留整首歌曲的最大相似度.并且,當(dāng)遇到音符分割產(chǎn)生較大誤差時(shí),即使忽略整句與輸入之間相差的音符,仍將導(dǎo)致較小的相似度.DTW算法允許相似的外形進(jìn)行匹配,甚至允許片斷在時(shí)間軸上有一些偏移.所以,使用DTW算法來解決音符分割帶來的誤差.最后,融合 2種算法,按照式(7)得到最終的相似度.
式中:Sv為歐式距離得到的相似度,SD為DTW算法得到的相似度,w1,w2為實(shí)驗(yàn)得到的權(quán)值, w1+w2=1.
由此得出最后的匹配相似度S,根據(jù)N-best原則,按照相似度最高的 3首歌曲名作為輸出結(jié)果.
原形系統(tǒng)如圖 3所示,數(shù)據(jù)庫中存放了 5 000首流行音樂,標(biāo)準(zhǔn)音高模板向量集包含 8 932個(gè)模板向量,每首歌曲都對(duì)應(yīng)若干互不重復(fù)的標(biāo)準(zhǔn)音高模板向量.
系統(tǒng)開發(fā)的是一個(gè)基于實(shí)驗(yàn)的平臺(tái),因此省略了一些細(xì)節(jié),僅突出了旋律表示模型建立音樂檢索2大功能.系統(tǒng)測試界面設(shè)計(jì)如圖 3.
圖3 系統(tǒng)界面Fig.3 The interface of the system
首先用戶選擇打開 1個(gè)音頻文件,可以求其幅度函數(shù)、幅差函數(shù)、基音頻率、生成的模板和對(duì)齊后的模板,將看不到的音頻數(shù)據(jù)以圖表的形式表現(xiàn)出來,便于在實(shí)驗(yàn)過程中驗(yàn)證算法,發(fā)現(xiàn)規(guī)律、檢查錯(cuò)誤,以達(dá)到更佳效果.
實(shí)驗(yàn)中應(yīng)用麥克風(fēng)以 11.025 kHz、采樣精度8 bit對(duì)輸入的音樂信號(hào)采樣,采用帶通濾波器濾波,其上截止頻率fH=3 400Hz,下截止頻率范圍為60~100 Hz,采用了一階數(shù)字濾波器H(Z)=1-μz-1對(duì)哼唱信號(hào)進(jìn)行高頻增強(qiáng)處理,其中μ=0.98.使用漢明窗對(duì)哼唱信號(hào)片段進(jìn)行加窗分幀,窗長為 128,其幀間重疊長度設(shè)置為64.
對(duì)歌曲 《甜蜜蜜》中第 1句簡譜為“3563121233”,每個(gè)音高占用 1個(gè)時(shí)間片段,哼唱后按照旋律表示模型生成輸入音高模板如圖 4所示.
圖4 對(duì)齊前輸入音高模板Fig.4 The input template before alignment
將此模板中的基頻F0序列作為遺傳算法的輸入,根據(jù)音符個(gè)數(shù)(音符個(gè)數(shù)隨輸入模板變化,因此也將作為遺傳算法的另一參數(shù))取染色體長度為10.種群規(guī)模為 40,最大遺傳代數(shù) 200代,使用代溝0.9,使用基于適應(yīng)度的重插入算法.從圖5中可以看出,經(jīng)過 20次左右的計(jì)算,模板既有收斂的趨勢, 40次左右的計(jì)算后系統(tǒng)基本穩(wěn)定.最終得到輸出模板與標(biāo)準(zhǔn)模板的相似度為0.999 9.算法迭代過程中具體解的變化和種群均值的變化如圖 5所示.
圖 5 遺傳算法解變化和種群均值變化Fig.5 The solution change and the population'smean value change of the genetic algorithm
在不做歸一化的情況下,得出的標(biāo)逼近模板比輸入模板更加接近標(biāo)準(zhǔn)模板.如圖 6所示,可以看到經(jīng)過GA對(duì)齊后的模板無論從外形輪廓還是在幅度上都更加接近標(biāo)準(zhǔn)模板.
因?yàn)镚A的初始種群是隨機(jī)產(chǎn)生的,在有些訓(xùn)練樣本中甚至?xí)a(chǎn)生圖 7所示的效果,對(duì)齊后的逼近模板與標(biāo)準(zhǔn)模板幾乎完全重合,這就意味著對(duì)齊后的模板在匹配時(shí)將與待匹配樣本集中的標(biāo)準(zhǔn)音高模板達(dá)到百分之百的相似度,優(yōu)先被檢索出來,這為后續(xù)匹配準(zhǔn)確率的提高奠定了基礎(chǔ).
圖6 GA對(duì)齊后模板比較Fig.6 Comparison of the temp late after using GA
圖7 逼近模板比較Fig.7 Comparison of the approaching template
最后,將輸入模板、逼近模板和標(biāo)準(zhǔn)模板歸一化后進(jìn)行比較,如圖 8所示,歸一化后逼近模板與標(biāo)準(zhǔn)模板完全重合,這表明經(jīng)過GA對(duì)齊算法,可以使本來并不標(biāo)準(zhǔn)的哼唱輸入模板進(jìn)一步標(biāo)準(zhǔn)化,可以消除不同個(gè)體音高上的差異,并且在哼唱不準(zhǔn)的情況下,依然可以得到良好檢索效果.
圖8 歸一化后模板比較Fig.8 Comparison of the approaching template after normalization
對(duì)40個(gè)輸入音樂片段檢索和比較,采用GA對(duì)齊算法使得檢索結(jié)果優(yōu)化的占 85%.這說明采用基于遺傳算法的輪廓模板對(duì)齊,可以促進(jìn)修正輸入音高模板,降低人為哼唱形成的誤差,以提高模板精確度,使輸入模板和標(biāo)準(zhǔn)模板達(dá)到較高的相似度,從而得出更為精確的結(jié)果.
隨機(jī)抽取其中20首錄制鋼琴演奏或管弦樂演奏的音樂片段,相似度由高到底排序.由表 3可知,在樂器發(fā)音比較標(biāo)準(zhǔn)的情況下檢索前 3位命中率達(dá)55%.實(shí)驗(yàn)過程中發(fā)現(xiàn)命中率與音樂數(shù)量成反比,當(dāng)音樂數(shù)量較少,相應(yīng)模板數(shù)量較少的情況下,命中率較高,但當(dāng)音樂數(shù)量增加時(shí),命中率也隨之降低.當(dāng)數(shù)據(jù)庫中音樂量增加時(shí),盡管前 3位的命中率降低,但仍然可以將對(duì)應(yīng)音樂輸出到排名靠前的位置,并且考察命中結(jié)果的相似度都非常接近.這說明標(biāo)準(zhǔn)音高模板和輸入音樂模板之間是相似的,只是由于音樂樣本集中的標(biāo)準(zhǔn)音高模板之間本身就非常相似,隨著待檢索音樂樣本集的增大,這些相似的音樂樣本對(duì)檢索的結(jié)果就造成了干擾,導(dǎo)致檢索結(jié)果的排名靠后.2種情況下檢索速度基本相同,如果音樂數(shù)據(jù)庫存儲(chǔ)在本機(jī)情況下,檢索結(jié)果返回所用時(shí)間不到1ms.說明系統(tǒng)相應(yīng)算法需要較短的檢索時(shí)間.具體的檢索結(jié)果如表3所示.
表3 樂器演奏片段檢索結(jié)果Tab le 3 The retrieval resu lt o f the instrumentation
同樣的,對(duì)系統(tǒng)中包含的音樂請(qǐng) 5位男女生隨機(jī)哼唱 20個(gè)片段,相似度由高到底排序,從表 4中可以看出,前 3位的命中率與樂器片段相比降低到了10%,但仍然有50%的哼唱片段可以在前 10名命中,這說明,盡管樂器比人哼唱要標(biāo)準(zhǔn),但是在哼唱不是很標(biāo)準(zhǔn)的情況下系統(tǒng)依然能夠獲得較好的檢索結(jié)果.這也說明系統(tǒng)對(duì)用戶的要求不很苛刻,當(dāng)用戶以自然的方式哼唱時(shí),系統(tǒng)也獲得了比較好的容錯(cuò)功能.具體檢索結(jié)果如表4所示.
表4 哼唱片段檢索結(jié)果Table 4 The retrieval result of the humm ing
在臺(tái)灣國立清華大學(xué)研究的多模式音樂檢索系統(tǒng)中,提出了將輸入聲波的平均值平移至和歌曲相同,以log(N)的時(shí)間內(nèi)找到最適當(dāng)?shù)幕鬧12].這種直接以聲波平移的算法相較于本文提出的音高模板所平移的數(shù)據(jù)量要大的多,假設(shè)一段哼唱音樂中包含 10個(gè)音符,共有 500幀音樂數(shù)據(jù),若以聲波平移的方法就要對(duì)這 500個(gè)數(shù)據(jù)逐一計(jì)算.而根據(jù)本文提出的音高模板,只須對(duì) 10個(gè)音符的音高進(jìn)行平移,即可得到標(biāo)準(zhǔn)音高基頻范圍內(nèi)的逼近模板.
本文主要研究了音樂檢索算法中存在的標(biāo)準(zhǔn)模板生成和匹配問題,應(yīng)用GA算法構(gòu)造逼近模板,提高模板對(duì)齊的速度和精確度;融合動(dòng)態(tài)時(shí)間扭曲和歐式距離度量,實(shí)現(xiàn)模版自動(dòng)匹配,增加了匹配的容錯(cuò)機(jī)制,增強(qiáng)了系統(tǒng)的健壯性和適應(yīng)性.但是目前的系統(tǒng)還是在小規(guī)模樣本上進(jìn)行的實(shí)驗(yàn),應(yīng)用遺傳算法進(jìn)行模版匹配.當(dāng)樣本規(guī)模比較大的時(shí)候,希望應(yīng)用自動(dòng)聚類得方法實(shí)現(xiàn)樣本索引,避免因樂曲數(shù)目過大而出現(xiàn)的組合爆炸問題.今后的工作將著重于進(jìn)一步改進(jìn)算法,將在用戶接口和音樂數(shù)據(jù)庫檢索機(jī)制上展開研究,以達(dá)到大規(guī)模音樂數(shù)據(jù)庫的檢索要求.
[1]ASIF G,JONATHAN L,DAVID C,et al.Query by humming-musical in formation retrieval in an audio database [C]//Proceedings of the Third ACM International Conference on Mu ltimedia.San Francisco,USA,1995.
[2]CAIR,LU L,ZHANG H J.Using structure patterns of temporal and spectral feature in audio similarity measure [C]//Proceedings of the Eleventh ACM International Conference on Multimedia.Berkeley,2003.
[3]JANG J SR,LEE H R,CHEN JC,et al.Research and developments of a multi-modal MIR engine for commercial app lications in East Asia[J].Journal of the American Society for Information Science and Technology,2004,55 (12):1067-1076.
[4]李 揚(yáng),吳亞棟,劉寶龍.一種新的近似旋律匹配方法及其在哼唱檢索系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)研究與發(fā)展, 2003,40(11):1554-1560.
LIYang,WU Yadong,LIU Baohong.A newmethod for approximatemelody matching and its app lication in query by humming system[J].Journal of Computer Research and Development,2003,40(11):1554-1560.
[5]馮雅中,莊越挺,潘云鶴.一種啟發(fā)式的用哼唱檢索音樂的層次化方法[J].計(jì)算機(jī)研究與發(fā)展,2004,41(2): 333-339. FENG Yazhong,ZHUANG Yueting,PAN Yunhe.A hierarchical app roach to query by humming based on heuristic ru les[J].Journal of Computer Research and Development, 2004,41(2):333-339.
[6]JAY DW.Scale and contour:two components of a theory of memory for melodies[J].Psychological Review,1978,85 (4):341-354.
[7]秦 靜,周明全,王醒策.基于動(dòng)態(tài)分割和加權(quán)綜合匹配的音樂檢索算法[J].計(jì)算機(jī)工程,2007,33(13):194-196.
QIN Jin,ZHOU Mingquan,WANG Xince.MIR app roach based on dynamic thresholds segmentation and weighted synthesismatch[J].Computer Engineering,2007,33(13): 194-196.
[8]PARDO B.Music information retrieval[J].Communication of ACM 2006,49(8):29-31.
[9]劉 建,鄭 芳,鄧 菁.基于混合幅度差函數(shù)的基音提取算法[J].電子學(xué)報(bào),2006,34(10):1925-1928.
LIU Jian,ZHENG Fang,DENG Jin.Combined magnitude diference function based pitch tracking algorithm[J].Acta Electronic Sinica,2006,34(10):1925-1928.
[10]UITDENBOGERD A L,ZOBEL J.An architecture for effectivemusic in formation retrieval[J].Journal of the A-merican Society for Information Science and Technolog, 2004,55(12):1053-1057.
[11]ADAMSN H.BARTSCH M A,WAKEFIELD G H.Note segmentation and quantization formusic information retrieval[J].IEEE Transactions on Audio,Speech and Language Processing,2006,14(1):131-141.
[12]許嘉忻,李宏儒,王瓊雯,等.由歌曲波形抽取主旋律以進(jìn)行音樂檢索[C]//Proceedings of the Seventh Con ference on Artificial Intelligence and Applications.Taiwan, China,2002.
XU JQ,LI HR,WANG QW,et al.Music retrieval using Melody line extracted from Real-World Music[C]//Proceedings of the Seventh Con ference on Artificial Intelligence and Applications.Taiwan,China,2002.