国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的端到端樂譜音符識(shí)別

2020-04-28 05:47黃志清郭一帆
關(guān)鍵詞:時(shí)值音高樂譜

黃志清,賈?翔,郭一帆,張?菁

基于深度學(xué)習(xí)的端到端樂譜音符識(shí)別

黃志清,賈?翔,郭一帆,張?菁

(北京工業(yè)大學(xué)信息學(xué)部,北京 100022)

光學(xué)樂譜識(shí)別是音樂信息檢索中一項(xiàng)重要技術(shù),音符識(shí)別是樂譜識(shí)別及其關(guān)鍵的部分.針對(duì)目前樂譜圖像音符識(shí)別精度低、步驟冗雜等問題,設(shè)計(jì)了基于深度學(xué)習(xí)的端到端音符識(shí)別模型.該模型利用深度卷積神經(jīng)網(wǎng)絡(luò),以整張樂譜圖像為輸入,直接輸出音符的時(shí)值和音高.在數(shù)據(jù)預(yù)處理上,通過解析MusicXML文件獲得模型訓(xùn)練所需的樂譜圖像和對(duì)應(yīng)的標(biāo)簽數(shù)據(jù),標(biāo)簽數(shù)據(jù)是由音符音高、音符時(shí)值和音符坐標(biāo)組成的向量,因此模型通過訓(xùn)練來學(xué)習(xí)標(biāo)簽向量將音符識(shí)別任務(wù)轉(zhuǎn)化為檢測(cè)、分類任務(wù).之后添加噪聲、隨機(jī)裁剪等數(shù)據(jù)增強(qiáng)方法來增加數(shù)據(jù)的多樣性,使得訓(xùn)練出的模型更加魯棒;在模型設(shè)計(jì)上,基于darknet53基礎(chǔ)網(wǎng)絡(luò)和特征融合技術(shù),設(shè)計(jì)端到端的目標(biāo)檢測(cè)模型來識(shí)別音符.用深度神經(jīng)網(wǎng)絡(luò)darknet53提取樂譜圖像特征圖,讓該特征圖上的音符有足夠大的感受野,之后將神經(jīng)網(wǎng)絡(luò)上層特征圖和該特征圖進(jìn)行拼接,完成特征融合使得音符有更明顯的特征紋理,從而讓模型能夠檢測(cè)到音符這類小物體.該模型采用多任務(wù)學(xué)習(xí),同時(shí)學(xué)習(xí)音高、時(shí)值的分類任務(wù)和音符坐標(biāo)的回歸任務(wù),提高了模型的泛化能力.最后在MuseScore生成的測(cè)試集上對(duì)該模型進(jìn)行測(cè)試,音符識(shí)別精度高,可以達(dá)到 0.96的時(shí)值準(zhǔn)確率和 0.98的音高準(zhǔn)確率.

光學(xué)樂譜識(shí)別;音符識(shí)別;深度學(xué)習(xí);端到端;目標(biāo)檢測(cè)

光學(xué)樂譜識(shí)別(optical music recognition,OMR)是光學(xué)字符識(shí)別在音樂上的應(yīng)用,用于將樂譜識(shí)別為可編輯或可播放的形式,如MIDI(用于播放)和MusicXML(用于頁面布局)[1-2].相對(duì)于樂譜其他符號(hào),音符所占比例極高,其用于記錄音高和時(shí)值,具有重要的語義信息,因此,音符識(shí)別是樂譜識(shí)別的核心與關(guān)鍵.

音符形態(tài)千變?nèi)f化,其多樣性和多態(tài)性特點(diǎn)決定了音符難以識(shí)別.傳統(tǒng)的音符識(shí)別方法可劃分為3類:分段、語法/規(guī)則、圖形.分段的方法根據(jù)音符形狀將音符劃為不同分組,在每個(gè)分組中進(jìn)行音符識(shí)別,例如Forne?s等[3-4]提出符號(hào)描述符來分組音符并進(jìn)行識(shí)別.第2類方法定義一組語法或規(guī)則來組合基元符號(hào)(如符頭、符杠、符尾、符梁),如Baro等[5]將基元符號(hào)與一組預(yù)定義規(guī)則連接起來,之后使用樹狀圖識(shí)別音符.最后基于圖的方法[6]使用圖來定義基元符號(hào)的關(guān)系并編碼音符的形狀.傳統(tǒng)音符識(shí)別方法需要預(yù)先刪除五線譜,之后抽取基元符號(hào),通過組合基元符號(hào)完成音符識(shí)別,整個(gè)過程十分冗雜,每個(gè)步驟都會(huì)影響音符識(shí)別精度.

近年來深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的突破使得OMR處理方式發(fā)生巨大改變,越來越多的研究集中于用深度學(xué)習(xí)解決OMR,研究方法大致分為兩大類:目標(biāo)檢測(cè)和序列識(shí)別.目標(biāo)檢測(cè)的方法檢測(cè)出樂譜圖像中符號(hào)的位置并識(shí)別符號(hào)的類別.Pacha等[7]最先提出基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)識(shí)別樂譜符號(hào),通過將樂譜圖像切割成許多單行五線譜圖像,并使用R-CNN檢測(cè)器獲取單行五線譜中符號(hào)的位置和類別.Haji?jr等[8]結(jié)合語義分割模型和后續(xù)檢測(cè)器識(shí)別樂譜,語義分割是用U-Net[9]架構(gòu)完成的.音符識(shí)別問題被分解為一組二進(jìn)制像素的分類問題,并隨后使用連通分量檢測(cè)器來得出符號(hào)的類別.Tuggener等[10]提出分水嶺檢測(cè)器來識(shí)別樂譜音符,它通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型使其學(xué)習(xí)自定義能量函數(shù),該能量函數(shù)采用分水嶺變換對(duì)整個(gè)樂譜進(jìn)行語義分割.Tuggener等[11]使用DeepScores和MUSCIMA++數(shù)據(jù)集[12]評(píng)估算法性能.然而上述目標(biāo)檢測(cè)方法存在共同的局限性:模型只能識(shí)別符號(hào)類別,無法識(shí)別音符的音高和時(shí)值.序列識(shí)別方法直接將樂譜圖像處理成序列輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)模型,模型預(yù)測(cè)出音符識(shí)別結(jié)果. Van der Wel等[13]將整張樂譜圖像切割成多個(gè)圖像片段,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)編碼為固定大小的序列,然后用循環(huán)神經(jīng)網(wǎng)絡(luò)解碼該序列識(shí)別音符的音高和時(shí)值.該方法的局限性在于無法直接輸入整張圖像,只能將圖像切割成單行五線譜依次輸入,該方法還存在著對(duì)多聲部樂譜識(shí)別精度極低的問題.

深度學(xué)習(xí)在OMR的處理上存在巨大優(yōu)勢(shì),識(shí)別精度比傳統(tǒng)OMR方法有大幅度提升,識(shí)別步驟也更加簡(jiǎn)單.但目前基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法無法識(shí)別音符的音高和時(shí)值,序列識(shí)別方法處理多聲部樂譜識(shí)別精度低等問題,本文針對(duì)印刷體樂譜提出一個(gè)基于深度學(xué)習(xí)的樂譜音符識(shí)別模型,即輸入整張樂譜圖像到該模型,直接輸出樂譜上音符的時(shí)值和音高.該模型完全端到端,能夠精準(zhǔn)識(shí)別多聲部樂譜圖像.

1?數(shù)據(jù)集

本文中使用的數(shù)據(jù)集是根據(jù)MuseScore樂譜存檔[14]中的MusicXML文件編制的.存檔由用戶生成的樂譜組成,在內(nèi)容和結(jié)構(gòu)上都具有多樣化.大約選取了10000個(gè)MusicXML文件用于訓(xùn)練和評(píng)估,這些文件分為3個(gè)不同的子集.60%用于訓(xùn)練,15%用于驗(yàn)證,25%用于評(píng)估模型.

1.1?數(shù)據(jù)預(yù)處理

從選取MusicXML文件的語料庫中,創(chuàng)建樂譜圖像和相應(yīng)音符注釋的數(shù)據(jù)集.使用MuseScore將MusicXML文件轉(zhuǎn)換為樂譜圖像,圖1表示生成的樂譜圖像,樂譜對(duì)應(yīng)的標(biāo)簽用音高、時(shí)值和音符邊界框位置組成的向量表示.每個(gè)音符用兩個(gè)值表示:音高和時(shí)值.在本文中音高被重新編碼為垂直距離,即音符與五線譜垂直軸上的距離.音符的音高值由音符到五線譜的垂直距離而定,如圖2所示,邊上的數(shù)字表示音高的標(biāo)簽,紅色音符的音高標(biāo)簽為5,黃色音符的標(biāo)簽為-2.時(shí)值的表示如圖3所示,Note顯示不同時(shí)值音符對(duì)應(yīng)的形態(tài),Duration表示音符的時(shí)值,Label表示編碼后的的時(shí)值標(biāo)簽.時(shí)值以四分音符為一個(gè)單位,所以,本文中樂譜對(duì)應(yīng)標(biāo)簽的時(shí)值和音高按照上述編碼.

圖2?音符的音高

圖3?音符的時(shí)值

1.2?數(shù)據(jù)增強(qiáng)

計(jì)算機(jī)生成的樂譜圖像中不存在噪聲和變化,訓(xùn)練出來的模型不具備泛化性.為了使本文的模型對(duì)較低質(zhì)量的輸入和不同類型的樂譜圖像具有魯棒性,本文提出了4種不同的增強(qiáng)方法,每種方法都模擬了自然環(huán)境下的輸入噪聲源.

首先將整張樂譜圖像裁剪為左上、左下、右上、右下4張圖像來擴(kuò)增數(shù)據(jù)集,這樣數(shù)據(jù)總量擴(kuò)大了4倍.之后采用了模糊、彈性變換、色彩變換、仿射變換4種數(shù)據(jù)增強(qiáng)方法處理裁剪后樂譜圖像.如圖4所示,圖1中的整張樂譜經(jīng)過裁剪生成了4張圖像,圖4(a)經(jīng)過高斯模糊處理;圖4(b)采用彈性變換,改變圖像視角;圖4(c)經(jīng)過仿射變換,向左旋轉(zhuǎn)了5°;圖4(d)經(jīng)過色彩變換模擬光照對(duì)圖像的影響.

圖4?數(shù)據(jù)增強(qiáng)

2?端到端音符識(shí)別模型

本節(jié)介紹應(yīng)用于端到端樂譜音符識(shí)別的深度卷積神經(jīng)網(wǎng)絡(luò)模型,模型的輸入是預(yù)處理后的樂譜圖像,輸出為音符時(shí)值和音高,識(shí)別流程如圖5所示.

2.1?模型結(jié)構(gòu)

音符識(shí)別模型具體流程如下:將樂譜圖像輸入卷積神經(jīng)網(wǎng)絡(luò),經(jīng)過一系列卷積、殘差、拼接操作,提取樂譜圖像的特征圖;之后在特征圖上分類輸出音符時(shí)值和音高并回歸音符的邊界框.

如圖6所示,為了讓音符有足夠大的感受野,模型采用YOLOv3[15]中darknet53基礎(chǔ)網(wǎng)絡(luò)來提取特征,darknet53的網(wǎng)絡(luò)結(jié)構(gòu)分為5個(gè)部分,分別是conv1_x、conv2_x、conv3_x、conv4_x和conv5_x.其中conv1_x、conv2_x、conv3_x、conv4_x和conv5_x分別包括1、2、8、8、4個(gè)building block,每個(gè)building block包括2個(gè)卷積層和1個(gè)殘差連接層.考慮到小物體經(jīng)過卷積后會(huì)出現(xiàn)特征丟失,在darknet53基礎(chǔ)網(wǎng)絡(luò)輸出特征圖之后上采樣8倍與上層網(wǎng)絡(luò)的特征圖進(jìn)行特征融合來獲取更加全面的特征信息.

圖6?網(wǎng)絡(luò)結(jié)構(gòu)

如圖7所示,在卷積神經(jīng)網(wǎng)絡(luò)輸出特征圖之后,基于特征圖上的每個(gè)像素點(diǎn)經(jīng)過中間層生成維特征向量,特征向量的維度為7×(置信度+候選框坐標(biāo)+音高類別+時(shí)值類別),即在維特征向量產(chǎn)生7個(gè)目標(biāo)候選區(qū)域.對(duì)于每個(gè)目標(biāo)候選區(qū)域,用sigmoid激活函數(shù)得到目標(biāo)框的置信度、候選框的坐標(biāo)、音符音高、音符時(shí)值,實(shí)現(xiàn)多任務(wù)訓(xùn)練.

置信度:sigmoid激活函數(shù),值為0~1,輸出維度為1.

候選框坐標(biāo):sigmoid激活函數(shù),值為0~1,輸出維度為4.

圖7?網(wǎng)絡(luò)分類和回歸

音符音高:sigmoid激活函數(shù),值為0~1,輸出維度等于音符音高類別總數(shù).

音符時(shí)值:sigmoid激活函數(shù),值為0~1,輸出維度等于音符時(shí)值類別總數(shù).

本文采用單階段目標(biāo)檢測(cè)模型,直接給出候選框的先驗(yàn)條件.實(shí)驗(yàn)不是手工選擇先驗(yàn)候選框,而是在訓(xùn)練集對(duì)邊界框的面積運(yùn)用k-means聚類來自動(dòng)找到好的先驗(yàn)候選框的寬高.在筆者的工作中,一共選取了7種尺寸的寬高作為先驗(yàn)條件輸入.本文對(duì)7個(gè)不同的寬高運(yùn)行k-means,并用最接近質(zhì)心的寬高作為先驗(yàn)候選框輸入給神經(jīng)網(wǎng)絡(luò).使用k-means來生成候選框?qū)⑹股窠?jīng)網(wǎng)絡(luò)模型具有更好的效果,并使模型更容易學(xué)習(xí).

2.2?音高和時(shí)值識(shí)別

圖7展示了特征圖上每個(gè)像素點(diǎn)會(huì)生成7個(gè)特征向量,在每個(gè)特征向量經(jīng)過sigmoid激活函數(shù)輸出音符的邊界框的坐標(biāo)、音高和時(shí)值.其中音符音高和時(shí)值采用二分類交叉熵計(jì)算損失函數(shù),即

2.3?音符邊界框回歸

特征向量為每個(gè)候選框回歸4個(gè)偏移量x、y、w、h.如果單元格像素點(diǎn)距圖像左上角的偏移為(x,y),且候選框具有先驗(yàn)信息寬和高(w,h),則預(yù)測(cè)結(jié)果為

式中:b為模型輸出的候選框坐標(biāo),=x,y,w,h;t為模型預(yù)測(cè)的偏移量.

特征圖上的每個(gè)像素點(diǎn)預(yù)測(cè)7個(gè)特征向量,每個(gè)特征向量采用sigmoid激活函數(shù)回歸邊界框的偏移量(x,y,w,h),實(shí)驗(yàn)中使用均方誤差計(jì)算損失函數(shù),

2.4?損失函數(shù)

網(wǎng)絡(luò)模型采用多任務(wù)訓(xùn)練,即同時(shí)訓(xùn)練分類和回歸任務(wù),損失函數(shù)為

式中:losstot為總的損失函數(shù);lossb、lossc、lossd分別為回歸偏移量的損失函數(shù)、音符音高分類的損失函數(shù)、音符時(shí)值分類的損失函數(shù);lossconf為邊界框置信度的損失函數(shù).

模型使用邏輯回歸預(yù)測(cè)每個(gè)邊界框的置信度.首先設(shè)置預(yù)測(cè)的邊界框和真實(shí)邊界框之間面積重疊的閾值為0.6,如果預(yù)測(cè)的邊界框與真實(shí)的回歸框重疊部分超過任何其他預(yù)測(cè)的邊界框,設(shè)定此邊界框?yàn)樽罴哑ヅ淝抑眯哦葹?.如果重疊部分超過閾值但不是最佳邊界框,則忽略該預(yù)測(cè)邊界框,即此邊界框losstot為0.如果重疊部分小于閾值,則邊界框的置信度為0.最后應(yīng)用二分交叉熵計(jì)算置信度的損失函數(shù).

式中:conf為候選框的置信度;overlap表示重疊面積;threshold為設(shè)定的閾值0.6.

3?實(shí)驗(yàn)及結(jié)果分析

本節(jié)介紹了端到端模型的訓(xùn)練方法,接著確定了評(píng)價(jià)方法并評(píng)測(cè)了實(shí)驗(yàn)結(jié)果,最后分析了實(shí)驗(yàn)的優(yōu)點(diǎn)以及不足之處.

3.1?模型訓(xùn)練

在訓(xùn)練期間應(yīng)用數(shù)據(jù)增強(qiáng),并且每次向網(wǎng)絡(luò)模型呈現(xiàn)不同的訓(xùn)練樣本.使用隨機(jī)梯度下降優(yōu)化器訓(xùn)練模型的批量大小為32,初始學(xué)習(xí)率為0.001,學(xué)習(xí)率恒定衰減,每10個(gè)周期的學(xué)習(xí)率減半.大概40個(gè)周期后,模型開始收斂.采用單個(gè)Nvidia Titan X用于訓(xùn)練,在大約6h內(nèi)訓(xùn)練完模型.

3.2?評(píng)價(jià)指標(biāo)

在測(cè)試集上,本文計(jì)算了3種評(píng)測(cè)指標(biāo):時(shí)值準(zhǔn)確率、音高準(zhǔn)確率、音符精度均值.

(1) 音高準(zhǔn)確率,準(zhǔn)確預(yù)測(cè)音高的比例.

(2) 時(shí)值準(zhǔn)確率,正確預(yù)測(cè)時(shí)值的比例.

(3) 音符精度均值,衡量預(yù)測(cè)的邊界框準(zhǔn)確率.

神經(jīng)網(wǎng)絡(luò)模型輸出一組候選區(qū)域,候選區(qū)域包含音符的邊界框、音符時(shí)值、音符音高和音符置信度.當(dāng)候選區(qū)域的音符時(shí)值與對(duì)應(yīng)的實(shí)際音符時(shí)值一致時(shí),將其設(shè)置為正樣本FS.否則設(shè)置為負(fù)樣本NS.時(shí)值的準(zhǔn)確率為

音高準(zhǔn)確率與時(shí)值準(zhǔn)確率計(jì)算方式一樣,預(yù)測(cè)音高正確為正樣本,反之為負(fù)樣本.

如果候選框與真實(shí)邊界框iou大于設(shè)定的閾值且該候選框的音符類別與真實(shí)邊界框的音符類別匹配,則認(rèn)為是正樣本TP,否則為負(fù)樣本FP.如果特征圖上存在真實(shí)邊界框,網(wǎng)絡(luò)模型卻沒有預(yù)測(cè)到候選邊界框,則記為漏檢FN.精度均值A(chǔ)P定義為精度和召回率曲線下的面積,式(8)表示召回率和準(zhǔn)確率的計(jì)算.

式中:p為模型輸出的候選框;g為真實(shí)邊界框;area表示面積.

式中:TP為正樣本;FP為負(fù)樣本;FN為漏檢.

3.3?實(shí)驗(yàn)結(jié)果與分析

模型一共測(cè)試了2500張由MuseScore轉(zhuǎn)換的樂譜圖像,整體的識(shí)別結(jié)果如下:音符的精度均值A(chǔ)P為0.87,時(shí)值準(zhǔn)確率為0.96,音高準(zhǔn)確率為0.98.識(shí)別結(jié)果如圖8所示.圖8中綠色數(shù)字表示音符的音高,紅色數(shù)字表示音符時(shí)值.

圖8?音符識(shí)別結(jié)果

表1展示了目前針對(duì)OMR具有代表性的工作.Van der Wel等[13]應(yīng)用MuseScore數(shù)據(jù)集,與本文的工作相似,結(jié)果能夠得到0.80的音符準(zhǔn)確率、0.94的時(shí)值準(zhǔn)確率和0.81的音高準(zhǔn)確率,但其系統(tǒng)需要先將樂譜圖像切成單個(gè)五線譜圖像輸入,大大增加了系統(tǒng)的運(yùn)行時(shí)間,且對(duì)多聲部樂譜音符識(shí)別精度極低.本方法能夠獲取0.98的音高準(zhǔn)確率和0.96的時(shí)值準(zhǔn)確率,相比有精度優(yōu)勢(shì),同時(shí)能夠識(shí)別多聲部樂譜.表1中其他人的方法由于采用不同的數(shù)據(jù)集,且OMR中很少有固定的評(píng)估標(biāo)準(zhǔn)[17-18],只能定性地比較識(shí)別結(jié)果,本文有0.87的符頭精度均值,高于Tuggener等[10]的0.74符頭精度均值.Haji?jr等[8]在MUSCIMA++上識(shí)別樂譜,其結(jié)果在音高和符頭表現(xiàn)很好,但時(shí)值的準(zhǔn)確率非常低,原作者沒具體展示.本文時(shí)值識(shí)別較其有很大的優(yōu)勢(shì).

本文的方法在Intel Xeon 5310的CPU上,識(shí)別一整張樂譜的時(shí)間是1.02s,整個(gè)過程完全端到端,輸入樂譜圖像,輸出音符時(shí)值和音高.但是本文的方法存在一些不足之處.

(1) 音符識(shí)別范圍有限:如圖1所示,五線譜上下擴(kuò)展2條線,音高的范圍在-4~12;時(shí)值識(shí)別的范圍在十六分音符到全音音符之間.

(2) 音符識(shí)別的準(zhǔn)確性:本方法只有在檢測(cè)到音符的邊界框后才會(huì)識(shí)別音符的時(shí)值、音高,也就是說,是否能夠準(zhǔn)確檢測(cè)到音符,對(duì)音符的識(shí)別結(jié)果影響非常大.

表1?實(shí)驗(yàn)結(jié)果比較

Tab.1?Comparison of experimental result

4?結(jié)?語

本文針對(duì)印刷體樂譜提出端到端的音符識(shí)別模型,應(yīng)用深度卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)音符邊界框并識(shí)別其時(shí)值和音高.實(shí)驗(yàn)測(cè)試結(jié)果顯示識(shí)別一整張樂譜圖像只需1s,并能夠獲取96%的時(shí)值準(zhǔn)確率和98%的音高準(zhǔn)確率.下一步的研究將集中在兩個(gè)方面:樂譜記號(hào),手寫體樂譜.識(shí)別樂譜記號(hào)并語義重建樂譜完成OMR整個(gè)流程,之后將本文的方法擴(kuò)展應(yīng)用到自然手寫樂譜.

[1] Bainbridge D,Bell T. The challenge of optical music recognition[J]. Computers and the Humanities,2001,35(2):95-121.

[2] 劉曉翔. 樂譜圖像中的音符識(shí)別方法[J]. 計(jì)算機(jī)工程,2010,36(9):163-167.

Liu Xiaoxiang. Note recognition method in music score image[J]. Computer Engineering,2010,36(9):163-167(in Chinese).

[3] Forne?s A,Llados J,Sanchez G,et al. Rotation invariant hand drawn symbol recognition based on a dynamic time warping model[J]. International Journal on Document Analysis and Recognition,2010,13(3):229-241.

[4] Escalera S,F(xiàn)orne?s A,Pujol O,et al. Blurred shape model for binary and grey-level symbol recognition[J]. Pattern Recognit Lett,2009,30(15):1424-1433.

[5] Baro A,Riba P,F(xiàn)orne?s A. Towards the recognition of compound music notes in handwritten music scores[C]// International Conference on Frontiers in Handwriting Recognition. Shenzhen,China,2016:465-470.

[6] Pinto J C,Vieira P,Sousa J M. A new graph-like classification method applied to ancient handwritten musical symbols[J]. International Journal on Document Analysis and Recognition,2003,6(1):10-22.

[7] Pacha A,Choi K Y,Coüasnon B,et al. Handwritten music object detection:Open issues and baseline results[C]// Proceedings of the 2018 13th IAPR Workshop on Document Analysis Systems(DAS). Vienna,Austria,2018:24-27.

[8] Haji?jr J,Dorfer M,Widmer G,et al. Towards full-pipeline handwritten OMR with musical symbol detection by u-nets[C]// Proceedings of the 19th International Society for Music Information Retrieval Conference. Paris,F(xiàn)rance,2018:23-27.

[9] Ronneberger O,F(xiàn)ischer P,Brox T. U-Net:Convolu-tional networks for biomedical image segmentation[C]// International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich,Germany,2015:234-241.

[10] Tuggener L,Elezi I,Schmidhuber J,et al. Deep watershed detector for music object recognition[C]// Inter-

national Society for Music Information Retrieval Conference. Paris,F(xiàn)rance,2018:23-27.

[11] Tuggener L,Elezi I,Schmidhuber J,et al. DeepScores:A dataset for segmentation,detection and classification of tiny objects[C]// International Conference on Pattern Recognition. Beijing,China,2018:20-28.

[12] Hajic J,Pecina P. The MUSCIMA++ dataset for handwritten optical music recognition[C]// International Conference on Document Analysis and Recognition (ICDAR). Kyoto,Japan,2017:39-46.

[13] Van der Wel E,Ullrich K. Optical music recognition with convolutional sequence-to-sequence models[C]// The International Society for Music Information Retrieval. Suzhou,China,2017:731-737.

[14] MuseScore. The Free and Open-Source Score Writer[EB/OL]. http://musescore.org,2018-08-28.

[15] Redmon J,F(xiàn)arhadi A. YOLOv3[EB/OL]. https://avxiv. org/abs/1804.02767,2018-04-08.

[16] Pacha A,Calvo-Zaragoza J. Optical music recognition in mensural notation with region-based convolutional neural networks[C]//The International Society for Music Information Retrieval. Paris,F(xiàn)rance,2018:240-247.

[17] Donald B,Jakob G S. Towards a standard testbed for optical music recognition:Definitions,metrics,and page images[J]. Journal of New Music Research,2015,44(3):169-195.

[18] Christian F,Meinard M,F(xiàn)rank K,et al. Automatic mapping of scanned sheet music to audio recordings[C]// Proceedings of the International Conference on Music Information Retrieval. Philadelphia,USA,2008:413-418.

End-to-End Music Note Recognition Based on Deep Learning

Huang Zhiqing,Jia Xiang,Guo Yifan,Zhang Jing

(Faculty of Information Science,Beijing University of Technology,Beijing 100022,China)

Optical music recognition(OMR)is an important technology in music information retrieval.Note recognition is the key part of music score recognition.In view of the low accuracy of notes recognition and the cumbersome steps of the recognition of music score image,an end-to-end note recognition model based on deep learning is designed.The model uses the deep convolutional neural network to input the whole score image as the input,and directly outputs the duration and pitch of the note.In data preprocessing,the music image and the corresponding tag data required for model training were obtained by parsing the MusicXML file,the label data was a vector composed of note pitch,note duration and note coordinates,therefore,the model learned the label vector through training to transform the note recognition task into detection and classification tasks.Data enhancement methods such as noise and random cropping were added to increase the diversity of data,which made the trained model more robust.In the model design,based on the darknet53 basic network and feature fusion technology,an end-to-end target detection model was designed to recognize the notes.The deep neural network darknet53 was used to extract the feature image of the music image,so that the notes on the feature map had a large enough receptive field,and then the upper layer feature map of the neural network and the feature map were spliced,and the feature fusion is completed to make the note have more obvious feature and texture,allowing the model to detect small objects such as notes.The model adopted multi-task learning,and learned the pitch and duration classification task and note coordinates task,which improved the generalization ability of the model.Finally,the model was tested on the test set generated by MuseScore.The note recognition accuracy is high,and the duration accuracy of 0.96 and the pitch accuracy of 0.98 can be achieved.

optical music recognition;note recognition;deep learning;end-to-end;object detection

TP18

A

0493-2137(2020)06-0653-08

10.11784/tdxbz201904072

2019-04-27;

2019-07-06.

黃志清(1970—??),男,博士,副教授.

黃志清,zqhuang@bjut.edu.cn.

北京市自然科學(xué)基金-市教委聯(lián)合資助項(xiàng)目(KZ201910005007).

Supported by theBeijing Natural Science Foundation-Municipal Education Committee Co-Sponsored Project(No.KZ201910005007).

(責(zé)任編輯:王曉燕)

猜你喜歡
時(shí)值音高樂譜
山之高
喬治·克拉姆《螺旋的銀河系》的鏡像世界
論亨利·考威爾的新時(shí)值劃分
里蓋蒂《小提琴協(xié)奏曲》中的“雙律制音高組織”研究
栽橘(新韻)
莫頓·費(fèi)爾德曼20世紀(jì)70年代后的縱向和音音高研究——以室內(nèi)樂《我生命里的中提琴Ⅰ》為例
中國打擊樂鼓類樂器滾奏技術(shù)概述
論高平鋼琴奏鳴曲《浮影》中縱向音高組織的邏輯運(yùn)用
樂譜:放飛夢(mèng)想
一毛學(xué)琴記——樂譜失蹤
义马市| 迁西县| 胶南市| 五华县| 慈利县| 江陵县| 秦皇岛市| 尖扎县| 天全县| 太仆寺旗| 宾川县| 江源县| 南澳县| 镇雄县| 微博| 肥乡县| 侯马市| 嵊州市| 灌阳县| 崇州市| 岳池县| 吉木乃县| 无为县| 资源县| 景德镇市| 揭阳市| 垦利县| 临漳县| 井研县| 鄱阳县| 玉屏| 大余县| 达拉特旗| 永仁县| 潜山县| 谢通门县| 安丘市| 台江县| 罗城| 永春县| 苍溪县|