李子晉, 于 帥, 肖 暢, 耿瑜曼, 錢文琪, 高永偉, 李 偉
(1.中國音樂學(xué)院 音樂科技系,北京 100101; 2.復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 201203; 3.新加坡國立大學(xué) 計(jì)算機(jī)學(xué)院,新加坡 117417)
隨著計(jì)算機(jī)技術(shù)的發(fā)展,人類信息化程度日益提高,海量音樂數(shù)據(jù)層出不窮.大量的音樂資源需要被檢索、分類、理解及分析,這促進(jìn)了音樂信息檢索技術(shù)的發(fā)展及應(yīng)用.同時(shí)也吸引了越來越多的來自各個(gè)領(lǐng)域的科研工作者投身于這一領(lǐng)域的研究.數(shù)據(jù)庫是音樂信息檢索研究的基礎(chǔ),豐富的數(shù)據(jù)庫能夠提高音樂信息檢索領(lǐng)域算法的準(zhǔn)確性,對(duì)于算法的改進(jìn)具有重要的意義.此外,隨著研究的深入,學(xué)術(shù)界對(duì)于數(shù)據(jù)庫所選音樂片段的質(zhì)量要求不斷增加,這要求在制作、收集數(shù)據(jù)庫素材方面,需要專業(yè)音樂學(xué)習(xí)者對(duì)基礎(chǔ)音樂片段進(jìn)行篩選與判斷,從而保證數(shù)據(jù)庫音樂的嚴(yán)謹(jǐn)性與專業(yè)性.
20年來,很多研究者已經(jīng)在數(shù)據(jù)采集方面做出了努力.音樂信息檢索(Music Information Retrieval, MIR)領(lǐng)域常用的數(shù)據(jù)庫有RWC(Real World Computing)[1]、MSD(Million Song Dataset)[2]等,包括帶標(biāo)注的音樂數(shù)據(jù)庫、樂器音響數(shù)據(jù)庫、樂譜數(shù)據(jù)庫等,分別用于音高、節(jié)奏、和弦、調(diào)式、旋律信息的提取等用途.
由于在音樂信息檢索領(lǐng)域缺乏質(zhì)量較高的研究用音樂數(shù)據(jù)庫,因此RWC工作組組建了僅供研究使用,價(jià)格合理的RWC數(shù)據(jù)庫.該數(shù)據(jù)庫是世界上第1個(gè)專門為研究目的而編制的大型數(shù)據(jù)庫,涵蓋了流行音樂數(shù)據(jù)庫、爵士音樂數(shù)據(jù)庫、音樂流派數(shù)據(jù)庫等6項(xiàng)內(nèi)容.僅以流行音樂數(shù)據(jù)庫為例,其包含了日本流行歌曲、西方流行風(fēng)格歌曲在內(nèi)的多個(gè)子集.此外,RWC制作者為數(shù)據(jù)庫內(nèi)315首歌曲都準(zhǔn)備了GS格式的MIDI(SMF)文件和獨(dú)立的歌詞文檔,及對(duì)應(yīng)數(shù)據(jù)庫樣本的單聲道16bit、采樣率44.1kHz、RIFFWAVE格式的CD與DVD.目前,RWC數(shù)據(jù)庫是MIR領(lǐng)域使用頻率較高的數(shù)據(jù)庫之一.
MSD數(shù)據(jù)庫是免費(fèi)提供百萬首當(dāng)代流行音樂曲目音頻特征和元數(shù)據(jù)(與音樂相關(guān)的數(shù)據(jù),例如音樂家姓名、發(fā)行版本、曲目標(biāo)號(hào)等)的音樂數(shù)據(jù)庫.該數(shù)據(jù)集的核心是The Echo Nest(http:∥the.echonest.com)提供的百萬首歌曲的特征分析與元數(shù)據(jù),當(dāng)中每個(gè)文件都包含1首歌,1份發(fā)行版本以及1名藝術(shù)家名稱.MSD數(shù)據(jù)庫不包含任何音頻內(nèi)容,但可以過7 digital(https:∥www.7digital.com)網(wǎng)站等方式預(yù)覽歌曲.
LFM-1b[3]數(shù)據(jù)庫收集了Last.fm(https:∥www.last.fm)平臺(tái)超過十億的用戶的音樂記錄,每個(gè)記錄都標(biāo)記了音樂家、專輯、曲目名稱及確切時(shí)間戳.LFM-1b數(shù)據(jù)庫的特別之處在于具有用戶聽音行為的詳細(xì)信息,例如,描述聽眾音樂偏好和消費(fèi)行為的額外信息,這些信息可以用于探討不同國家文化和經(jīng)濟(jì)差異和藝術(shù)家審美偏好的關(guān)聯(lián)性研究.
QBT[4]數(shù)據(jù)庫工作組從60名用戶中收集了51首歌曲,這其中包含了時(shí)間印記和音高信息,可用于檢索旋律輪廓.DUNYA[5]音樂語料庫包含380h音頻和1900首錄音,其目前的主要內(nèi)容為南印度傳統(tǒng)音樂《Carnatic》(https:∥en.wikipedia.org/wiki/Carnatic_music),未來將擴(kuò)展到其他類型的音樂.該數(shù)據(jù)庫既提供龐大的音樂數(shù)據(jù),包括作曲家名稱、錄音等,還可分析同一主題音樂之間的相關(guān)性.MusicBrainz(https:∥musicbrainz.org)是開放的音樂信息查詢網(wǎng)站,它包含了錄音版本、作曲家名稱、曲目編號(hào)在內(nèi)的音樂元數(shù)據(jù),供廣大研究者免費(fèi)使用.APL(Automatic Practice Logging)[6]數(shù)據(jù)庫中收集了600多首獨(dú)奏鋼琴片段,用于評(píng)估自動(dòng)練習(xí)記錄系統(tǒng).Discogs網(wǎng)站(https:∥www.discogs.com)包含了大量pop、jazz在內(nèi)的流行音樂數(shù)據(jù),為音樂學(xué)家研究提供了專業(yè)廣泛的數(shù)據(jù).
CCMusic和其他數(shù)據(jù)庫的標(biāo)注統(tǒng)計(jì)數(shù)據(jù)見表1.
表1 CCMusic數(shù)據(jù)庫和現(xiàn)有數(shù)據(jù)庫的比較
1.3.1 高質(zhì)量的音頻
目前的數(shù)據(jù)庫很多都是由非專業(yè)人士的歌聲或演奏作為樣本數(shù)據(jù),對(duì)于音響指標(biāo)、演奏技巧等處理的過于業(yè)余,比如MIR-1K[7]等數(shù)據(jù)庫由于演唱者為計(jì)算機(jī)專業(yè)的學(xué)生,演唱者缺乏專業(yè)的訓(xùn)練,加之錄音時(shí)對(duì)錄音環(huán)境及設(shè)備也沒有詳細(xì)的要求和限定,錄制的音頻存在背景噪聲較大、歌曲的音高節(jié)奏準(zhǔn)確度不高的缺陷.CCMusic數(shù)據(jù)庫對(duì)錄音環(huán)境、錄音設(shè)備以及錄音人員、流程等方面進(jìn)行了專業(yè)的限定,力求避免各種噪聲的干擾,獲得高質(zhì)量的音頻素材.
1.3.2 歌聲與伴奏分離
將歌聲和伴奏分軌錄制,有助于研究在理想情況下的MIR諸多任務(wù).目前常用的數(shù)據(jù)庫中將歌聲與伴奏按不同音軌錄制的并不多見,只有iKala[8]、medleyDB[9]、dsd100(https:∥sisec.inria.fr/home/2016-professionally-produced-music-recordings)等少數(shù)幾個(gè)數(shù)據(jù)庫有分軌錄制的音頻,但由于歌聲與伴奏分離在人聲分離算法上具有重要意義,一些數(shù)據(jù)庫的擁有者認(rèn)為其具有商業(yè)價(jià)值,開始逐漸取消了音頻的公開,如iKala數(shù)據(jù)庫已于2017年12月停止公開音頻,這給研究者帶來了極大的不便.CCMusic數(shù)據(jù)庫的音頻按照將旋律聲部與伴奏聲部分兩軌獨(dú)立錄制,為研究者提供方便.在主旋律檢測(在流行歌曲中很多時(shí)候?yàn)楦杪?、歌聲信息處理里的歌手識(shí)別[10]、歌唱評(píng)價(jià)[11]、歌詞識(shí)別[12]、歌聲合成[13]、歌聲與歌詞的同步[14]等研究中,伴奏經(jīng)常會(huì)起干擾作用導(dǎo)致AI算法性能下降[15].在對(duì)單旋律的歌唱評(píng)價(jià)中,如果沒有伴奏的人聲聲部會(huì)更有助于專家對(duì)歌手水平進(jìn)行判斷[16];在歌手識(shí)別中,伴奏聲部也會(huì)影響機(jī)器對(duì)演唱者的識(shí)別[10];在主旋律提取中,伴奏的音符會(huì)影響歌聲主旋律的判斷[17];在歌詞識(shí)別中,歌詞的識(shí)別本身就比語音識(shí)別更難,用人耳聽也未必聽清楚,帶有伴奏會(huì)更加干擾其識(shí)別的準(zhǔn)確率[18];在按照樂譜和歌詞進(jìn)行歌聲合成時(shí),可以與歌聲音軌的錄音進(jìn)行音高、時(shí)長、技巧(顫音,滑音等)、音色等的比較,評(píng)價(jià)合成歌聲的自然度、可懂度及藝術(shù)性.歌聲與歌詞的時(shí)間域?qū)R,伴奏也會(huì)起阻礙作用.反之,進(jìn)行常規(guī)意義上的樂器識(shí)別(歌聲除外),那么歌聲也會(huì)起干擾作用.在CCMusic數(shù)據(jù)庫中用純粹的歌聲來進(jìn)行試驗(yàn),定量比較伴奏的影響,這對(duì)研究具有重要意義.
1.3.3 詳細(xì)的標(biāo)注
目前的數(shù)據(jù)庫中大部分的標(biāo)注信息不全,多數(shù)的研究需要在已有的音頻數(shù)據(jù)上重新做標(biāo)注.比如,ISMIR2004TEMPO[19]、ACMMIR_UM[20]、Hainsworth[21]數(shù)據(jù)庫僅標(biāo)記節(jié)奏信息,McGill-Billbroad[22]、Zanoni-Giorgi[23]數(shù)據(jù)庫僅標(biāo)記和弦信息,ODB(https:∥grfia.dlsi.ua.es/cm/projects/prosemus/database.php)、Onsetleveau[24]數(shù)據(jù)庫僅標(biāo)記起始時(shí)間.進(jìn)行MIR的研究時(shí)會(huì)根據(jù)不同課題下載不同的數(shù)據(jù)庫,過程繁瑣.CCMusic數(shù)據(jù)庫將盡量搜集流行音樂、民族音樂及數(shù)百種民族樂器的音響素材,并進(jìn)行全面的標(biāo)注,建成1個(gè)供MIR領(lǐng)域研究者使用的多用途的音樂數(shù)據(jù)庫,希望在數(shù)據(jù)庫里進(jìn)行盡可能多的標(biāo)注,滿足用戶的一站式數(shù)據(jù)需求.
1.3.4 版權(quán)清晰
音頻數(shù)據(jù)庫若采用已有的商業(yè)歌曲可能會(huì)涉及版權(quán)信息,無法公開數(shù)據(jù),影響算法設(shè)計(jì)與比較.由研究者自行錄制的數(shù)據(jù)庫通常會(huì)由于學(xué)生音樂素養(yǎng)不夠或錄音環(huán)境及設(shè)備較差等原因?qū)е聰?shù)據(jù)庫質(zhì)量不高.CCMusic數(shù)據(jù)庫由音樂學(xué)院專門錄制,錄制者具有較高的音樂素養(yǎng),錄制環(huán)境及技術(shù)專業(yè),錄音質(zhì)量高,無商品版權(quán)問題,錄制的音頻免費(fèi)公開,并方便大規(guī)模擴(kuò)展.
錄音對(duì)錄音房的長、寬、高推薦比例為1.9∶1.4∶1.0,對(duì)錄音空間尺寸要求為: 面積不小于25m2,體積為(100±30) m3,混響時(shí)間應(yīng)盡量控制在0.30~0.65s(250~4000Hz),偏離度不大于25%,環(huán)境的本底噪聲控制在30dB(A)以下,室內(nèi)溫度控制在20~25℃,濕度控制在50%~75%.
2.2.1 錄音設(shè)備方案
使用計(jì)算機(jī)+數(shù)字音頻接口+外置專業(yè)傳聲器設(shè)備方案,采用16bit、44.1kHz音頻記錄格式.備選方案為專業(yè)數(shù)字錄音機(jī)+外置專業(yè)傳聲器,使用16bit、44.1kHz以上的音頻記錄格式.
2.2.2 傳聲器標(biāo)準(zhǔn)
使用專業(yè)測量傳聲器,頻響范圍在20Hz~20kHz(±1dB)之間,全指向(無指向),最大聲壓級(jí)不小于136dB(<1%THD),供電為48V或200V幻象電源,開路靈敏度大于等于12.5mV/Pa,本底噪聲小于等于22dB SPL(A).
2.2.3 監(jiān)聽設(shè)備標(biāo)準(zhǔn)
揚(yáng)聲器類型盡量使用兩分頻有源近場監(jiān)聽揚(yáng)聲器,頻率響應(yīng)為20Hz~20kHz(±3dB),揚(yáng)聲器響度在1m處音樂信號(hào)最大峰值大于等于108dB.揚(yáng)聲器功率的低音單元大于等于40W,高音單元大于等于40W.監(jiān)聽耳機(jī)參數(shù)的頻率響應(yīng)范圍應(yīng)處于20Hz~20kHz,標(biāo)稱阻抗大于等于60Ohm.
2.3.1 傳聲器使用方法
錄音過程中使用雙聲道拾音方式,使用話筒架來安放傳聲器.錄音棚環(huán)境傳聲器的位置擺放既要符合常規(guī)聲學(xué)測量的工業(yè)標(biāo)準(zhǔn),同時(shí)還要考察音樂的聲學(xué)特點(diǎn)以及真實(shí)聽感.
2.3.2 輸入電平調(diào)整
選擇曲目中音量最大部分作為測試聲音,調(diào)整輸入電平大小.調(diào)整輸入電平應(yīng)在錄音正式開始前完成.保證錄音設(shè)備的音量無過載,預(yù)留8dB峰值余量為最佳.
2.3.3 參考音高錄制
使用音叉或校音器播放a1音(440Hz),并將其錄制于一聲軌.參考音高應(yīng)記錄于歌曲開始之前.
2.3.4 參考聲壓級(jí)的錄制
將聲級(jí)計(jì)和傳聲器放置在同一位置,對(duì)1kHz,85dB的音頻信號(hào)進(jìn)行聲壓級(jí)記錄,以便后期對(duì)樂器的實(shí)際聲壓級(jí)進(jìn)行校準(zhǔn).
2.4.1 半音階
哼唱規(guī)定被試音域范圍內(nèi)的半音階,哼唱每個(gè)音之前用鋼琴提示音高(鋼琴以十二平均律調(diào)律,標(biāo)準(zhǔn)A=440Hz),要求演唱者演唱至發(fā)不出聲音、出現(xiàn)破音或嘶啞的聲音時(shí)停止錄音,要求錄制之前被測者保持氣息均勻,避免出現(xiàn)口鼻堵塞的現(xiàn)象.要求哼唱清晰,速度控制在慢速=46(以四分音符為1拍,每分鐘46拍),錄制前提供預(yù)備拍和提示音.共采錄3遍: 第1遍要求演唱者從小字一組c1向下依次哼唱半音階,第2遍演唱者由小字二組c2向上依次哼唱半音階,第3遍要求演唱者由小字一組c1向下哼唱半音階.
2.4.2 歌曲及錄制
要求錄制前演唱者需要練習(xí)歌曲演唱,伴奏單獨(dú)錄制單聲道,隨返送到耳麥的樂曲伴奏錄制人聲,在工程文件中分軌錄制伴奏及人聲,最后生成3個(gè)*.wav文件,即人聲的單聲道、伴奏的單聲道以及人聲與伴奏的混音文件.
目前,CCMusic數(shù)據(jù)庫共包含7首歌曲(更多音樂數(shù)據(jù)正在標(biāo)注中),全部為中國流行音樂.我們提供獨(dú)奏人聲軌道和每首歌曲的伴奏聲軌.圖1為歌曲《告白氣球》的人聲軌道、伴奏聲軌和混合聲軌頻譜圖.聲樂軌道在中國音樂學(xué)院錄音室由音樂專業(yè)的學(xué)生進(jìn)行錄制.對(duì)每首歌曲,標(biāo)注信息被分為4類: 元信息、專家主觀評(píng)價(jià)(Subjective evaluation)、人聲軌道標(biāo)注信息、伴奏軌道標(biāo)注信息.標(biāo)注信息詳見表2.
圖1 歌曲《告白氣球》的頻譜圖Fig.1 Spectrograms of song Confession Ballon
標(biāo)注類別標(biāo)注信息標(biāo)注樣例元信息歌曲名稱Confession Balloon歌手名稱Ziwan Deng歌手性別Female歌曲長度3∶29∶00歌曲速度90歌曲語言Chinese歌曲節(jié)拍4/4歌曲調(diào)號(hào)bE人聲軌標(biāo)注信息歌曲唱法流行歌曲音色渾厚、沙啞、有力等歌聲歌詞同步0'24.640~0'27.082塞納河畔,左岸的咖啡節(jié)拍時(shí)間起始點(diǎn)(以s為單位)7.35,8.01,8.71,9.38小節(jié)線起止時(shí)間(以s為單位)23.37,26.06語言Chinese每小節(jié)第1個(gè)音的時(shí)間戳(以s為單位)26.06每小節(jié)第1個(gè)音的頻率1019Hz
(續(xù)表)
CCMusic數(shù)據(jù)庫元信息包括: 歌曲名稱、歌手姓名、歌手性別、歌曲長度、歌曲速度、歌曲語言、歌曲節(jié)拍、歌曲調(diào)號(hào).對(duì)于旋律提取、歌聲識(shí)別定位、歌手識(shí)別、歌手性別,音調(diào)識(shí)別、音樂節(jié)奏分析等歌聲相關(guān)的任務(wù),通常認(rèn)為消除伴奏將歌聲部分分離出來會(huì)有更好的效果,因此錄入數(shù)據(jù)庫的歌曲均采用歌聲與伴奏分離的錄制并分別存儲(chǔ).
數(shù)據(jù)庫人聲軌標(biāo)注包括: 歌曲唱法、歌曲音色、歌聲與歌詞同步、節(jié)拍時(shí)間起始點(diǎn)(以s為單位)、小節(jié)線起止時(shí)間(以s為單位)、語言、每小節(jié)第1個(gè)音的時(shí)間戳(以s為單位)、每小節(jié)第1個(gè)音的頻率(以Hz為單位).
歌曲唱法被標(biāo)注為3類: 美聲、民族、通俗.可以用于曲風(fēng)分類(Genre classification)任務(wù).歌曲的音色被標(biāo)注為6類: 渾厚、沙啞、有力、甜美、空靈、高亢,可以用于音色識(shí)別任務(wù).歌聲與歌詞同步標(biāo)注一句歌詞對(duì)應(yīng)哪個(gè)時(shí)間段的音頻歌聲,可以用于歌詞定位等任務(wù).標(biāo)注節(jié)拍時(shí)間起始點(diǎn)、小節(jié)線起始位置、語言、每小節(jié)第1個(gè)音的信息可以用于旋律提取、歌聲識(shí)別、音樂節(jié)奏分析等任務(wù).
主觀高級(jí)評(píng)價(jià)標(biāo)注包括: 感情是否飽滿(Y/N)、音域是否合適(Y/N)、真假聲是否無縫轉(zhuǎn)換(Y/N)、氣息是否充沛音(Y/N)、音色是否具有辨識(shí)度(Y/N)、吐字是否清晰準(zhǔn)確(Y/N).
主觀高級(jí)評(píng)價(jià)屬于二分類標(biāo)注任務(wù),可以用于演唱輔助評(píng)價(jià)、樂器演奏輔助評(píng)價(jià)等.
圖2 CCMusic中的音樂伴奏使用的樂器的分布Fig.2 Distribution of instruments used in music accompaniment in CCMusic
伴奏聲軌信息標(biāo)注包括: 節(jié)拍時(shí)間點(diǎn)、小節(jié)線、和弦、每小節(jié)第1個(gè)音的時(shí)間(以s為單位)、使用樂器.CCMusic數(shù)據(jù)庫中的音樂伴奏使用的樂器的分布如圖2所示.
標(biāo)注節(jié)拍時(shí)間點(diǎn)、小節(jié)線可以用于音樂節(jié)奏的分析.標(biāo)注和弦信息可以用于和弦的識(shí)別.標(biāo)注使用樂器可以在實(shí)際的流行歌曲中識(shí)別樂器的種類,并進(jìn)行主樂器識(shí)別.除此之外,標(biāo)注樂器可以有以下應(yīng)用: (1) 智能樂器識(shí)別(Intelligent Instrument Recognition, IIR)任務(wù),即給1個(gè)聲音片段,判斷是何種樂器.(2) 輔助曲風(fēng)分類: 西方音樂(pop、rock、jazz、blues等)以管弦樂器為主,東方音樂中的多用二胡、嗩吶、琵琶、古箏等,而民族音樂,如蒙古族用馬頭琴.(3) 輔助音樂情感計(jì)算: 二胡往往感情較為悲傷,薩克斯、嗩吶、小號(hào)感情較為激昂.(4) 按主樂器(Predominant instrument)進(jìn)行音樂搜索及推薦: 比如搜索或推薦鋼琴曲、薩克斯曲、小提琴曲、吉他曲、二胡曲、葫蘆絲曲、嗩吶曲等.
本文提出了1個(gè)新的音樂數(shù)據(jù)庫——CCMusic Database.該數(shù)據(jù)庫對(duì)錄音環(huán)境、錄音設(shè)備以及錄音人員、流程等方面進(jìn)行專業(yè)的限定.數(shù)據(jù)庫將歌聲與伴奏分離,對(duì)音樂信息檢索的研究有重要的意義.CCMusic數(shù)據(jù)庫搜集流行音樂、民族音樂及數(shù)百種民族樂器的音響素材,并進(jìn)行全面的標(biāo)注,構(gòu)成1個(gè)供MIR研究者使用的多用途的音樂數(shù)據(jù)庫.本數(shù)據(jù)庫是由音樂學(xué)院學(xué)生錄制,版權(quán)清晰,錄制的音頻免費(fèi)公開.未來,我們將會(huì)搜集更多的音樂素材進(jìn)行錄制和詳細(xì)的標(biāo)注.