郝建林,黃章進(jìn),顧乃杰
(中國科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230027)(中國科學(xué)技術(shù)大學(xué) 安徽省計(jì)算與通信重點(diǎn)實(shí)驗(yàn)室,合肥 230027)(中國科學(xué)技術(shù)大學(xué) 先進(jìn)技術(shù)研究院,合肥 230027)
隨著多媒體技術(shù)的發(fā)展,音樂已經(jīng)發(fā)展成人們?nèi)粘I钪斜夭豢缮俚囊徊糠?現(xiàn)有的音樂平臺(tái),如網(wǎng)易云、蝦米、酷狗等為我們提供了更便捷的獲取音樂的途徑.但由于分類模型的限制,這些音樂平臺(tái)的音樂檢索方式仍局限于已有的音樂流派、藝術(shù)家、專輯等.用戶無法通過輸入個(gè)性化的內(nèi)容檢索到期望的音樂列表.為了提高用戶的檢索體驗(yàn),則需要引入新的音樂分類模型.
現(xiàn)有的音樂分類模型主要從4個(gè)角度進(jìn)行分類,分別為流派、情感、樂器、注解.
第一類為基于流派的音樂分類,這類方法將提取的音頻特征作為流派分類的依據(jù).Tzanetakis[1]提供了一個(gè)測試數(shù)據(jù)集,將1000首歌音頻分為10個(gè)對(duì)應(yīng)的音樂流派.此后出現(xiàn)的ISMIR[2]和Dortmund[3]數(shù)據(jù)集為這類研究的衡量提供了基礎(chǔ).Li等[4]提出了DWCHs模型,通過計(jì)算音頻的Daubechies小波系數(shù)的直方圖對(duì)音樂進(jìn)行自動(dòng)化分類.Lidy等人[5]發(fā)現(xiàn)了心理聲學(xué)變換對(duì)音頻特征提取的影響,使用兩個(gè)特征表示統(tǒng)計(jì)頻譜描述子和音樂韻律直方圖特征,提升了分類準(zhǔn)確率.
第二類為基于情感的音樂分類方法,這類方法將音樂分成開心、傷心、感動(dòng)等多個(gè)類別,主觀性較強(qiáng),類別之間有交叉,沒有標(biāo)準(zhǔn)的測試數(shù)據(jù)集,模型間的對(duì)比較為困難.Yang等人[6]使用人工和軟件代理結(jié)合的方式確定音樂的情感類別,減少人類的主觀影響.Yang等人[7]嘗試對(duì)情感進(jìn)行量化,建立美學(xué)情感中的評(píng)價(jià)值和喚起程度值平面,平面上點(diǎn)的位置對(duì)應(yīng)不同的情感類別.
第三類為基于樂器的分類,這類方法為識(shí)別出音頻中使用的樂器種類,然后通過樂器種類對(duì)音樂進(jìn)行分類.早期的樂器識(shí)別主要對(duì)一件樂器獨(dú)奏的音頻進(jìn)行識(shí)別,比如Marques等人[8]基于高斯混合模型和SVM支持向量機(jī)、Agosfini等人[9]基于音頻的頻譜特征的樂器識(shí)別方法等.現(xiàn)在的研究方法已轉(zhuǎn)到對(duì)復(fù)調(diào)音樂中樂器的識(shí)別.Essid等人[10]利用概率距離對(duì)音頻進(jìn)行分層聚簇,每層簇的中心對(duì)應(yīng)一類樂器.
第四類為基于注解的分類,即為基于標(biāo)簽的分類.此類方法為將音頻關(guān)聯(lián)相應(yīng)的文本內(nèi)容后,再用于音樂分類,最初由Slaney[11]提出.Wang等人[12]提出利用音頻和與音頻相關(guān)的社交信息將音樂關(guān)聯(lián)對(duì)應(yīng)的標(biāo)簽,再按照音樂標(biāo)簽進(jìn)行分類.
前三類為基于音頻的分類模型,第四類為基于文本和基于音頻的分類模型.基于流派的音樂分類,現(xiàn)已在各大平臺(tái)有了較為成熟的應(yīng)用,但均沒有用于音樂檢索.基于情感的音樂分類,分類類別之間有交叉,分類界限模糊,故分類模型的建立難度較大.基于樂器的音樂分類,對(duì)于多樂器合成的音樂,難以準(zhǔn)確的識(shí)別全部樂器.基于注解的音樂分類,其分類準(zhǔn)確率依賴于獲取的音樂標(biāo)簽的準(zhǔn)確率.
考慮以下需求:用戶希望獲取某個(gè)音樂,但是對(duì)這個(gè)音樂不了解,通常會(huì)輸入一些相關(guān)的個(gè)性化描述來檢索期望的音樂.前三類分類模型的分類類別較為固定,難以用于個(gè)性化的用戶檢索需求.第四類分類模型在文本較為豐富的情況下,如果能精確的挖掘出于其中蘊(yùn)含的音樂標(biāo)簽,那么用戶的個(gè)性化檢索需求就更可能得到滿足.
本文為基于注解的音樂分類方法,通過分析用戶對(duì)音樂的評(píng)論信息,提出了一種使用個(gè)性化標(biāo)簽對(duì)音樂進(jìn)行分類的方法.該方法的出發(fā)點(diǎn)為:如果用戶對(duì)音樂的較為熟悉,那么當(dāng)其對(duì)音樂進(jìn)行評(píng)論時(shí),其對(duì)音樂的描述將更加的深入.這些評(píng)論內(nèi)容中將含有較多個(gè)性化的信息.只要將這些信息挖掘出來,將對(duì)個(gè)性化音樂檢索和音樂推薦帶來更好的用戶體驗(yàn).該方法采用無監(jiān)督的方式為音樂關(guān)聯(lián)多個(gè)標(biāo)簽,以這些標(biāo)簽進(jìn)行音樂分類,無需預(yù)先對(duì)音樂進(jìn)行標(biāo)簽標(biāo)注.
本文的組織結(jié)構(gòu)如下:第2節(jié)介紹了該音樂分類算法的相關(guān)背景;第3節(jié)介紹提出的音樂分類算法的具體框架和實(shí)現(xiàn);第4節(jié)為實(shí)驗(yàn)與分析;第5節(jié)對(duì)本文進(jìn)行總結(jié)和下一步展望.
該音樂分類算法的核心為關(guān)聯(lián)標(biāo)簽的提取.關(guān)聯(lián)標(biāo)簽提取過程即為關(guān)鍵詞的抽取過程.關(guān)鍵詞提取主要包括關(guān)鍵詞抽取和關(guān)鍵詞分配兩種方式.
關(guān)鍵詞抽取,先提取文檔中所有的候選關(guān)鍵詞再推薦關(guān)鍵詞.此類方式需要分詞并選擇合適的抽取方法.抽取方法有很多,如 TFIDF[13,14]、TextRank[15]等.
關(guān)鍵詞分配,先預(yù)先定義一個(gè)受控詞表,然后分析文檔,再推薦受控詞表中的部分關(guān)鍵詞.此種方式需要定義并擴(kuò)充受控詞表,然后選擇分配算法.詞表擴(kuò)充的方式一般采用種子擴(kuò)充.
一般來說,關(guān)鍵詞抽取要比關(guān)鍵詞分配的提取準(zhǔn)確率要高,主要原因在于建立完善的受控詞表難度較大,并且分配的關(guān)鍵詞可能不會(huì)出現(xiàn)在文檔中,分配算法的準(zhǔn)確率難以保證.因此,本文的音樂分類方法中采用關(guān)鍵詞抽取的方式獲取音樂標(biāo)簽.
現(xiàn)有使用的中文分詞方法主要可以分為三類:基于匹配、基于統(tǒng)計(jì)和基于社交網(wǎng)絡(luò)的分詞.
基于字符串匹配的分詞方法是將漢字串與詞典中的詞條做匹配,在匹配過程中可以加入匹配規(guī)則.分詞方法包括:正向最大匹配(FMM)、逆向最大匹配(RMM)、MMSEG[16]等.該類分詞模型的準(zhǔn)確率依賴于字典的豐富程度.
基于統(tǒng)計(jì)的分詞模型從詞頻出發(fā)進(jìn)行分詞,包括linear CRF模型[17]、隱馬爾科夫模型[18],等.該類模型準(zhǔn)確率依賴于標(biāo)注語料的豐富程度.
基于社交網(wǎng)絡(luò)的分詞模型是在n元取詞的基礎(chǔ)上進(jìn)行分詞.其核心在于分析n元串成詞的可能性,通常使用緊密度分析判定.該類模型準(zhǔn)確率依賴于緊密度分析方法和語料的豐富程度.
本文的分詞方法綜合了三類分詞模型的優(yōu)點(diǎn),使用N元取詞方法和linear CRF進(jìn)行字典擴(kuò)充,然后使用linear CRF進(jìn)行分詞,MMSEG和緊密度分析進(jìn)行分詞修正.
本文提出的音樂分類方法主要分為以下幾個(gè)部分,如圖1所示.
圖1 音樂分類算法框架
預(yù)處理為刪除一些無用的音樂評(píng)論信息,減少對(duì)后續(xù)處理過程的干擾.字典學(xué)習(xí)是為了得到一個(gè)適合音樂語料分詞的字典,提高分詞準(zhǔn)確率.分詞是將音樂語料切分成單個(gè)詞語,以便提取音樂標(biāo)簽.分合測試是用來修正誤分詞結(jié)果,同時(shí)提高對(duì)短語的識(shí)別率.標(biāo)簽提取是為了從分詞結(jié)果中選取與音樂相關(guān)的候選標(biāo)簽.篩選的目的為過濾掉一些可能錯(cuò)選的音樂標(biāo)簽.最后使用關(guān)聯(lián)的標(biāo)簽為音樂進(jìn)行分類.
本文爬取的音樂評(píng)論語料為網(wǎng)易云音樂平臺(tái)(國內(nèi)最大的音樂平臺(tái))官方推薦專輯中的音樂評(píng)論,共1459個(gè)專輯,128 542首歌曲,92 110 590條評(píng)論.
對(duì)音樂評(píng)論語料按以下步驟進(jìn)行預(yù)處理:
1)含有臟話的評(píng)論參考價(jià)值較低,所以將含有臟話的評(píng)論刪除.
2)數(shù)字大多沒有實(shí)際意義,所以將數(shù)字“233”、“666”等用空格代替,對(duì)只含有數(shù)字的評(píng)論直接刪除.
3)表情符一般表示心情,但是表情符過于多樣,例如,網(wǎng)易云音樂自帶表情和emoji表情編碼方式不同,統(tǒng)一混用在評(píng)論中識(shí)別難度較大.因此將表情符用空格代替.將只含有表情符的評(píng)論刪除.
4)過多的重復(fù)評(píng)論會(huì)也會(huì)影響提取的音樂標(biāo)簽的準(zhǔn)確率.例如,一個(gè)音樂的評(píng)論中含有較多的“路過”,則“路過”很可能成為關(guān)鍵詞,但是這種詞應(yīng)該忽略.為防止誤判,相同的評(píng)論中保留一條.
5)刪除評(píng)論內(nèi)容較少的音樂,評(píng)論內(nèi)容過少則評(píng)論可參考性較低.
6)刪除評(píng)論數(shù)過少的音樂,評(píng)論數(shù)過少則評(píng)論的范圍過于分散,提取的音樂標(biāo)簽可信度較低.
字典學(xué)習(xí)首先通過外部信息獲取部分詞匯,然后以種子生成的思想擴(kuò)充字典,如圖2所示.
具體步驟如下:
1)從1998年和2014年的人民日?qǐng)?bào)中文語料以及微軟的中文分詞標(biāo)注語料庫中提取部分詞語,然后爬取百度百科和搜狗詞庫中的常用詞匯加入到參照詞典D’.對(duì)于中國自然語言開源組織提供的8萬多部小說,使用ansj分詞工具進(jìn)行分詞,選出詞頻頻率高于閾值α的詞匯加入到參照字典D’中.
2)先使用n元分詞對(duì)音樂語料做處理,獲取所有的2字和3字詞串.先使用緊密度分析,過濾掉明顯不是詞的串.找出剩余在參照字典D′中的詞,加入到字典D中.
3)基于上述獲得的字典D,統(tǒng)計(jì)其中每個(gè)詞出現(xiàn)的頻數(shù).然后建立用于linear CRF學(xué)習(xí)模型的標(biāo)注語料.最后用linear CRF學(xué)習(xí)后的模型進(jìn)行分詞.
4)過濾掉詞頻低的詞匯、非專有名詞和單字.對(duì)剩余切分詞語進(jìn)行緊密度分析.如果詞語緊密度高于閾值β,則加入字典D.
5)重復(fù)步驟3,4,直至字典D不再增大.
α和β值的確定可以通過k-means(k=2)算法聚類確定.
關(guān)于音樂標(biāo)簽,我們關(guān)注的詞性主要是一些專有名詞或者名詞性短語,比如人名、地名、歌曲名、專輯名、電影名、書名等,而不關(guān)注其他的詞性,故需要盡量確保分詞結(jié)果中所關(guān)注詞性的詞語的正確性.可以預(yù)先根據(jù)它們?cè)谠u(píng)論語料中出現(xiàn)的特點(diǎn),按特定的規(guī)則進(jìn)行抽取,加入字典D.
圖2 字典學(xué)習(xí)算法
本文在使用過程中采用linear CRF和字典相結(jié)合的方式進(jìn)行中文分詞.
由于linear CRF模型分詞的準(zhǔn)確率依賴于標(biāo)注語料的規(guī)模和豐富程度,適合音樂語料分詞的標(biāo)注語料并不存在,因此使用3.2節(jié)獲取的字典D進(jìn)行l(wèi)inear CRF模型的訓(xùn)練,使用Viterbi算法進(jìn)行標(biāo)注.其分詞設(shè)置的獲取特征函數(shù)的特征模板如圖3所示.
圖3 linear CRF特征函數(shù)模板
分詞后的結(jié)果對(duì)存在于字典中的詞相對(duì)準(zhǔn)確,對(duì)于不存在的詞需要進(jìn)行分離,對(duì)于分開的短語需要合并.在此,使用聚合度判定被切分為詞語的漢字串是否應(yīng)該分離,使用自由度判定多個(gè)詞語是否應(yīng)該合并.
聚合度(Degree of Polymerization,DoP)用來衡量詞語內(nèi)部組合的緊密程度.字串w的聚合度用其中字ai的方差表示,具體如公式(1)所示.
自由度(Degree of Freedom,DoF)來衡量詞語和上下文之間的關(guān)系.此關(guān)系用該詞左右的字的豐富程度來衡量.字串w的自由度由其左邊字li和右邊字ri的熵確定,具體如公式(2)所示.
綜合考慮詞頻、聚合度和自由度,得到分合測試的衡量方法,如公式(3)所示.詞頻取對(duì)數(shù)是為了處理詞頻過大而無法拆分的偽詞匯.
對(duì)于未通過分合測試的句子使用MMSEG模型進(jìn)行修正處理.
標(biāo)簽提取類似于關(guān)鍵詞提取,從音樂的評(píng)論語料中提取與之關(guān)聯(lián)程度最高的一個(gè)或者多個(gè)詞或短語.
在3.4節(jié)分詞后得到的詞頻統(tǒng)計(jì)結(jié)果,其TopN可能并不是我們所需要的音樂標(biāo)簽.下面取出周杰倫的歌曲“晴天”的分詞結(jié)果中詞頻Top 20進(jìn)行分析,如表1所示.左側(cè)是Top 10 頻數(shù)的詞語,右側(cè)為Top 11到Top 20的結(jié)果.
表1 歌曲晴天評(píng)論分詞結(jié)果Top 20
對(duì)比關(guān)鍵詞抽取算法,實(shí)驗(yàn)發(fā)現(xiàn)TFIDF算法抽取標(biāo)簽準(zhǔn)確率最高,故選取TFIDF算法.TFIDF算法如公式(4)所示.
在實(shí)驗(yàn)過程中,直接使用TFIDF并不能急速降低表1中“評(píng)論”、“個(gè)人”這類詞匯被選中的可能性,原因?yàn)閘og函數(shù)在n>1時(shí)變化率太低.
2型糖尿病患者外周血液指標(biāo)的變化及其與頸動(dòng)脈硬化的相關(guān)性…………………… 趙梁燕 高倩 陳將南 等(3)360
故為模型選擇變化率大的函數(shù)或?qū)υ~匯的特點(diǎn)做一些限制來過濾掉這些無用的詞匯.
根據(jù)標(biāo)簽的特性做以下兩個(gè)假設(shè):
假設(shè)一.一個(gè)標(biāo)簽出現(xiàn)的頻率在音樂評(píng)論中不能低于音樂評(píng)論總數(shù)的α倍,0<α<1.
假設(shè)二.一個(gè)標(biāo)簽關(guān)聯(lián)的音樂數(shù)量不能超過音樂總數(shù)的β倍,0<β<1.
假設(shè)一是為了降低詞頻過低的詞語被選為標(biāo)簽的可能性.例如,“劉德華”在音樂“狂風(fēng)里擁抱”中出現(xiàn)了一次,出現(xiàn)的內(nèi)容為“@Andy不是劉德華”,該詞不可能作為標(biāo)簽.但是由于其在較多的音樂評(píng)論中出現(xiàn),導(dǎo)致逆文檔頻率較大,容易被誤選為標(biāo)簽.為降低這種誤選的可能性,因此使用假設(shè)一過濾.
假設(shè)二是為了降低詞頻過高的常用詞被選為標(biāo)簽的可能性.例如,“評(píng)論”在音樂“晴天”中出現(xiàn)了63 242次,共出現(xiàn)在89 297首音樂的評(píng)論中,這類的TFIDF值過大,會(huì)被誤選為標(biāo)簽.顯然,其不應(yīng)該作為音樂標(biāo)簽,需要過濾掉.為降低這種詞被誤選的可能性,因此使用假設(shè)二進(jìn)行過濾.
α和β值的確定可以通過k-means(k=2)算法聚類確定.
優(yōu)化后的TFIDF降低了常用詞匯被選中的概率,提高了其它詞匯被選中的概率.優(yōu)化后的TFIDF得到的候選標(biāo)簽,如表2所示.
表2 優(yōu)化后TFIDF得到的候選標(biāo)簽Top 20
由于優(yōu)化后的TFIDF算法獲取的候選標(biāo)簽可能出現(xiàn)提取的標(biāo)簽依然出錯(cuò)的情況.因此,考慮刪除這些錯(cuò)誤的標(biāo)簽.
由于每個(gè)標(biāo)簽不可能只出現(xiàn)γ個(gè)文檔,γ為0鄰域范圍內(nèi)的值.因此可以將出現(xiàn)的文檔數(shù)小于γ的標(biāo)簽全部刪除.γ值依然可以通過k-means(k=2)獲取.
在此建立音樂和關(guān)聯(lián)標(biāo)簽的網(wǎng)絡(luò)模型.圖4給出了一個(gè)n標(biāo)簽關(guān)聯(lián)的網(wǎng)絡(luò),音樂Si用正方形表示,標(biāo)簽用 圓形表示,音樂Si和標(biāo)簽的關(guān)聯(lián)程度用邊上的權(quán)值表示,可以通過標(biāo)簽頻數(shù)歸一化得到.
使用公式(6)進(jìn)行相似度分析,如果相似度高于某個(gè)閾值,則認(rèn)為兩首歌曲可以歸為一類.
圖4 音樂分類概率網(wǎng)絡(luò)
本節(jié)將對(duì)第3節(jié)中提出的分類算法進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)一是為了驗(yàn)證MMSEG、HMM、CRF模型分詞效果的優(yōu)劣.實(shí)驗(yàn)二是為了選取合適關(guān)鍵詞抽取算法并驗(yàn)證其優(yōu)化算法的有效性.實(shí)驗(yàn)三是為了驗(yàn)證該音樂分類算法分類結(jié)果的有效性.
選取9首歌曲23614條評(píng)論內(nèi)容作為樣本,對(duì)其進(jìn)行分詞標(biāo)注.各種模型的分詞準(zhǔn)確率如圖5所示.
圖5 分詞模型準(zhǔn)確率對(duì)比
從圖5中可以看出MMSEG模型由于通用字典的局限性,導(dǎo)致其對(duì)人名的識(shí)別率不高,遠(yuǎn)低于HMM模型和我們的混合模型.由于不存在用于音樂語料的標(biāo)注集合,HMM模型未加入訓(xùn)練樣本直接進(jìn)行分詞,導(dǎo)致分出的單字較多,因此對(duì)其它詞語切分準(zhǔn)確率略差.使用MMSEG+linear CRF+字典的分詞結(jié)果,其綜合了MMSEG消除歧義的特點(diǎn)和linear CRF發(fā)現(xiàn)未登錄詞的特點(diǎn).詞典的創(chuàng)建和分合測試提高了分詞的準(zhǔn)確率,同時(shí)減小了linear CRF出現(xiàn)單字的可能性,因此其準(zhǔn)確率均比MMSEG和HMM模型都高.
使用TFIDF算法和TextRank算法進(jìn)行關(guān)鍵詞抽取實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)選用 “周星馳版唐伯虎點(diǎn)秋香”背景音樂“勇往直前”的評(píng)論語料.結(jié)果如表3所示.可以看出,TFIDF獲取的標(biāo)簽的關(guān)聯(lián)程度遠(yuǎn)高于TextRank.
表3 TextRank和our TFIDF候選標(biāo)簽Top 10對(duì)比
為了進(jìn)一步驗(yàn)證優(yōu)化方案的有效性,隨機(jī)取10首音樂,每首音樂選取候選標(biāo)簽的Top 10進(jìn)行準(zhǔn)確率標(biāo)注,10首音樂標(biāo)簽準(zhǔn)確率按評(píng)論數(shù)做加權(quán)平均,實(shí)驗(yàn)結(jié)果如圖6所示.
圖6 標(biāo)簽提取算法準(zhǔn)確率對(duì)比
容易看出,優(yōu)化后的TFIDF算法的標(biāo)簽提取準(zhǔn)確率要比TFIDF和TextRank都高.TFIDF參考了其它音樂評(píng)論抽取的結(jié)果,雖然不能過濾掉所有頻數(shù)過高的常用詞語,但是能過濾掉部分.TextRank由于沒有停用詞典,其抽取結(jié)果偏向于高頻詞匯.優(yōu)化后的TFIDF考慮到高頻詞和逆文檔詞頻之間的影響,因此,對(duì)高頻詞和低頻詞的過濾效果較好.
對(duì)最初爬取66 198首歌曲,再次爬取這些歌曲在網(wǎng)易云音樂平臺(tái)推薦的相似音樂.得到一個(gè)相似音樂表T,共189 625條相似記錄.由于網(wǎng)易云音樂的推薦列表基于大量的用戶數(shù)據(jù),可以認(rèn)為其推薦的音樂可信度較高.如果將相似的音樂可以分為一類,過濾掉其中不屬于已爬取的音樂列表中的音樂,那么相似音樂表T就可以作為音樂分類標(biāo)準(zhǔn)測試集.
相似音樂表中每個(gè)音樂取TopN標(biāo)簽,建立圖4所示的音樂分類概率網(wǎng)絡(luò),使用公式6做相似度分析,測試算法分類準(zhǔn)確率.對(duì)比HiSVM[12]分類結(jié)果,如圖7所示.
從圖7中可以看出算法的在標(biāo)簽數(shù)在25后準(zhǔn)確率逐步穩(wěn)定,最終穩(wěn)定在87.96%.實(shí)驗(yàn)表明,關(guān)聯(lián)標(biāo)簽數(shù)量低于20時(shí),關(guān)聯(lián)準(zhǔn)確率高于80%,因此認(rèn)為Top 20標(biāo)簽可信度較高.而在標(biāo)簽數(shù)為20時(shí),分類結(jié)果的準(zhǔn)確率在82.58%,而HiSVM的準(zhǔn)確率不足60%.因此,可以認(rèn)為該音樂分類算法具有很高的有效性.
針對(duì)當(dāng)前音樂平臺(tái)音樂分類結(jié)果固定單一、搜索平臺(tái)搜索效果差的問題,本文提出了一種基于用戶評(píng)論的自動(dòng)化音樂分類算法.該算法優(yōu)化了已有的分詞模型和關(guān)鍵詞提取算法TFIDF,提升了分詞的準(zhǔn)確率和關(guān)鍵詞提取算法的準(zhǔn)確率,建立了基于關(guān)聯(lián)標(biāo)簽的多標(biāo)簽音樂分類模型.實(shí)驗(yàn)結(jié)果表明,該音樂分類算法的準(zhǔn)確率較高,獲取的標(biāo)簽關(guān)聯(lián)度高而且更加個(gè)性化,可以帶來更好的音樂檢索體驗(yàn).
本文下一步工作為解決音樂評(píng)論過少或不存在的音樂分類問題,以提高該分類算法的擴(kuò)展性.
1 Tzanetakis G,Cook P.Musical genre classification of audio signals.IEEE Transactions on Speech and Audio Processing,2002,10(5):293–302.[doi:10.1109/TSA.2002.800560]
2 Cano P,Gómez E,Gouyon F,et al.ISMIR 2004 audio description contest.MTG-TR-2006-02,Stanford,CA:MTG,2006.
3 Homburg H,Mierswa I,M?ller B,et al.A benchmark dataset for audio classification and clustering.Proceedings of the 6th International Conference on Music Information Retrieval.London,UK.2005.528–531.
4 Li T,Ogihara M,Li Q.A comparative study on contentbased music genre classification.Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Informaion Retrieval.Toronto,Canada.2003.282–289.
5 Lidy T,Rauber A.Evaluation of feature extractors and psycho-acoustic transformations for music genre classification.Proceedings of the 6th International Conference on Music Information Retrieva.London,UK.2005.34–41.
6 Yang D,Lee WS.Disambiguating music emotion using software agents.Proceedings of the 5th International Conference on Music Information Retrieval.Barcelona,Spain.2004.218–223.
7 Yang YH,Lin YC,Su YF,et al.A regression approach to music emotion recognition.IEEE Transactions on Audio,Speech,and Language Processing,2008,16(2):448–457.[doi:10.1109/TASL.2007.911513]
8 Marques J,Moreno PJ.A study of musical instrument classification using gaussian mixture models and support vector machines.CRL 99/4,Cambridge,Massachusetts:Compaq Computer Corporation,1999.
9 Agostini G,Longari M,Pollastri E.Musical instrument timbres classification with spectral features.EURASIP Journal on Applied Signal Processing,2003,(2003):5–14.[doi:10.1155/S1110865703210118]
10 Essid S,Richard G,David B.Instrument recognition in polyphonic music based on automatic taxonomies.IEEE Transactions on Audio,Speech,and Language Processing,2006,14(1):68–80.[doi:10.1109/TSA.2005.860351]
11 Slaney M.Semantic-audio retrieval.2002 IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP).Orlando,FL,USA.2002.IV-4108–IV-4111.
12 Wang F,Wang X,Shao B,et al.Tag integrated multi-label music style classification with hypergraph.Proceedings of the 10th International Society for Music Information Retrieval Conference.Kobe,Japan.2009.363–368.
13 Luhn HP.A statistical approach to mechanized encoding and searching of literary information.IBM Journal of Research and Development,1957,1(4):309–317.[doi:10.1147/rd.14.0309]
14 Jones SK.A statistical interpretation of term specificity and its application in retrieval.Journal of Documentation,1972,28(1):11–21.[doi:10.1108/eb026526]
15 Mihalcea R,Tarau P.TextRank:Bringing order into texts.Proceedings of Empirical Methods in Natural Language Processing.Barcelona,Spain.2004.404–411.
16 Tsai CH.MMSEG:A word identification system for Mandarin Chinese text based on two variants of the maximum matching algorithm. http://www.geocities.com/hao510/mmseg.html [2000-03-12].
17 Tseng H,Chang PC,Andrew G,et al.A conditional random field word segmenter for sighan bakeoff 2005.Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing.Jeju Island,Korea.2005.161–164.
18 Eddy SR.Hidden markov models.Current Opinion in Structural Biology,1996,6(3):361–365.[doi:10.1016/S0959-440X(96)80056-X]