国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學(xué)習(xí)網(wǎng)絡(luò)用于貝多芬鋼琴奏鳴曲創(chuàng)作時(shí)期分類的研究

2021-09-23 01:42夏一婷江怡維李天然
關(guān)鍵詞:奏鳴曲貝多芬時(shí)期

夏一婷,江怡維,李天然,葉 濤

(1.南方科技大學(xué) 電子與電氣工程系,廣東 深圳 518055;2.星海音樂(lè)學(xué)院 作曲系,廣東 廣州 510006)

1 介 紹

路德維希·凡·貝多芬(Ludwig van Beethoven,1770—1827)是歐洲古典音樂(lè)的著名代表人物之一.作為一名偉大的作曲家,貝多芬的創(chuàng)作題材廣泛、個(gè)人風(fēng)格鮮明,其作品對(duì)古典音樂(lè)的發(fā)展有不可磨滅的貢獻(xiàn).其中,1795—1822年間的32首鋼琴奏鳴曲的創(chuàng)作幾乎貫穿了他的一生,反映了他在不同時(shí)期下對(duì)社會(huì)現(xiàn)實(shí)及個(gè)人命運(yùn)的思考.隨著社會(huì)環(huán)境和生活經(jīng)歷的變化,他的音樂(lè)創(chuàng)作風(fēng)格也在發(fā)生改變.音樂(lè)學(xué)界通常按時(shí)間將貝多芬鋼琴奏鳴曲的創(chuàng)作時(shí)期分為早、中、晚3個(gè)時(shí)期[1].我們利用mLSTM(multiplicative Long Short Term Memory)深度神經(jīng)網(wǎng)絡(luò)模型對(duì)貝多芬的32首鋼琴奏鳴曲進(jìn)行了學(xué)習(xí),并對(duì)鋼琴奏鳴曲的創(chuàng)作時(shí)期進(jìn)行了自動(dòng)分類.據(jù)我們了解,這是第一個(gè)把神經(jīng)網(wǎng)絡(luò)用于貝多芬鋼琴奏鳴曲的創(chuàng)作時(shí)期分類的研究.我們希望通過(guò)訓(xùn)練能使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到貝多芬不同創(chuàng)作時(shí)期的音樂(lè)的藝術(shù)特征,從而使其有不錯(cuò)的分類表現(xiàn).在此工作中,我們創(chuàng)建了BPS MIDI數(shù)據(jù)庫(kù)(Beethoven Piano Sonata MIDI Dataset),可用于與貝多芬鋼琴奏鳴曲有關(guān)的其他研究.

2 相關(guān)工作

音樂(lè)學(xué)界對(duì)貝多芬鋼琴奏鳴曲分類的方法為按作品的創(chuàng)作時(shí)間及對(duì)應(yīng)時(shí)期分類[2].貝多芬的創(chuàng)作早期為1792—1802年,創(chuàng)作了鋼琴奏鳴曲No.1—15以及No.19、No.20共17首作品.這期間貝多芬的創(chuàng)作受古典主義時(shí)期莫扎特、海頓等的影響,作品的結(jié)構(gòu)相對(duì)工整,音高方面多利用四五度調(diào)性關(guān)系進(jìn)行展開(kāi),材料上常在一個(gè)樂(lè)章中使用多個(gè)主題音調(diào).貝多芬的創(chuàng)作中期為1803—1814年,創(chuàng)作了鋼琴奏鳴曲No.16—18,No.21—27共10首作品.這一時(shí)期貝多芬的寫(xiě)作技法更加?jì)故炖暇?,個(gè)人風(fēng)格也更加鮮明,展現(xiàn)出極強(qiáng)的個(gè)人英雄主義色彩.具有展開(kāi)性的長(zhǎng)大尾聲是這一時(shí)期所創(chuàng)作的奏鳴曲的重要結(jié)構(gòu)特點(diǎn).音高方面多使用三度關(guān)系的調(diào)性進(jìn)行循環(huán)與展開(kāi),旋律主題往往共有同一個(gè)音高邏輯.貝多芬的創(chuàng)作晚期為1815—1827年,創(chuàng)作了鋼琴奏鳴曲No.28—32共5首作品.與其他晚期作品相同,這一時(shí)期,貝多芬創(chuàng)作的鋼琴奏鳴曲音樂(lè)語(yǔ)言也更加個(gè)人化、內(nèi)省化(具體的分類情況見(jiàn)表1(見(jiàn) 第354頁(yè))).在《貝多芬:音樂(lè)的哲學(xué)》(Beethoven:The Philosophy of Music)一書(shū)中,社會(huì)學(xué)家Adorno[3]認(rèn)為貝多芬的作品隨時(shí)代的變化有深刻的哲學(xué)意義.郭舒淳[4]闡釋了在套曲結(jié)構(gòu)形式、觀念驅(qū)動(dòng)下的音樂(lè)內(nèi)涵方面,不同創(chuàng)作時(shí)期的貝多芬鋼琴奏鳴曲呈現(xiàn)出不同特點(diǎn).Churgin[5]分析了貝多芬奏鳴曲的主題隨不同時(shí)期的變化情況,并列出了部分不同時(shí)期作品的分類情況.這說(shuō)明貝多芬鋼琴奏鳴曲的特征隨創(chuàng)作時(shí)期的不同而有所區(qū)別,使用神經(jīng)網(wǎng)絡(luò)對(duì)這些鋼琴奏鳴曲按創(chuàng)作時(shí)期進(jìn)行分類是可行的.

表1 貝多芬鋼琴奏鳴曲的創(chuàng)作時(shí)期分類情況Tab.1 Chronological classification of Beethoven’s piano sonatas

隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)在各式各樣的音樂(lè)分類任務(wù)上也能有良好的表現(xiàn).Choi等[6]把音頻的Log-amplitude(振幅對(duì)數(shù))和Mel-spectrogram(頻率非線性變換后的聲譜)作為輸入,設(shè)計(jì)了卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Convolutional Recurrent Neural Network,CRNN)分別用于音樂(lè)的流派、情緒、樂(lè)器、年代分類,該模型的AUC(Area Under Curve)幾乎都高于0.7,最好的略高于0.9.Gallardo[7]使用支持向量機(jī)(Support Vector Machine,SVM)模型對(duì)音樂(lè)的各個(gè)時(shí)期進(jìn)行分類:巴洛克、古典、浪漫主義、現(xiàn)代音樂(lè)等,把音頻轉(zhuǎn)換為Humdrum格式或MusicXML格式后,再進(jìn)行特征提取,不同特征下的分類準(zhǔn)確率大都在70%~90%之間.特征提取分類法用于奏鳴曲和回旋曲的曲式分類任務(wù),準(zhǔn)確率約為80%[8].神經(jīng)網(wǎng)絡(luò)還可用于音樂(lè)作品的作者分類,如Micchi[9]使用短時(shí)傅里葉變換分析(Short Time Fourier Transform Analysis)在6個(gè)作曲家中確定某一作品的歸屬,準(zhǔn)確率可達(dá)70%.在音樂(lè)分類中最為常見(jiàn)的流派分類問(wèn)題上,Costa[10]等把音頻信號(hào)轉(zhuǎn)換為聲譜圖,從這些時(shí)頻圖像中提取紋理特征,然后在分類系統(tǒng)中用于音樂(lè)類型的建模,最終流派分類的準(zhǔn)確率可達(dá)80%左右.Oramas等[11]分別使用音頻文件、評(píng)論文字、歌曲封面對(duì)同一音樂(lè)進(jìn)行多標(biāo)簽流派分類,結(jié)果顯示使用文本信息分類的效果最好,使用音頻的效果次之.

3 模 型

音樂(lè)和語(yǔ)句都是與時(shí)間順序有關(guān)的序列,音樂(lè)中各個(gè)音符的先后順序、語(yǔ)句中各個(gè)字的前后關(guān)系都具有一定的意義.由文獻(xiàn)[12-13]可知,把自然語(yǔ)言模型運(yùn)用在音樂(lè)樣本上也能得到類似的效果.出于以上考慮,我們把音樂(lè)樣本轉(zhuǎn)化為自然語(yǔ)言序列再進(jìn)行分類,從而能有效地保留音樂(lè)信息.

3.1 數(shù)據(jù)表示

采用文獻(xiàn)[12]中的方法,按時(shí)間先后順序把音樂(lè)片段中的信息轉(zhuǎn)化為自然語(yǔ)言序列.這些信息包括:

(1)“n_[音高]”:音高為0到127之間的整數(shù)(包含0和127).即音高=1,2,3,…,127.

(2)“d_[時(shí)值]_[附點(diǎn)數(shù)]”:時(shí)值為二全音符(Breve)、全音符(Whole)、二分音符(Half)、四分音符(Quarter)、八分音符(Eighth)、十六分音符(16th)和三十二分音符(32nd).附點(diǎn)數(shù)為0,1,2,3.

圖1 用我們的數(shù)據(jù)表示方法編碼的示例小節(jié)Fig.1 An example bar used to be encoded by our data representation

(3)“v_[力度]”:力度為4到128之間4的倍數(shù).即力度=4,8,12,…,128.

(4)“t_[速度]”:?jiǎn)挝籦pm(beat per minute).速度為24到160之間4的倍數(shù).即速度=24,28,32,…,160 bpm.

(5)“.”:時(shí)間步結(jié)束.每個(gè)時(shí)間步的長(zhǎng)度和一個(gè)十六分音符的長(zhǎng)度相同.

(6)“ ”:音樂(lè)片段結(jié)束.

例如,圖1中的這一小節(jié)樂(lè)譜(出自Piano Sonata No.9 in E major,Op.14 No.1第二樂(lè)章)轉(zhuǎn)化為自然語(yǔ)言序列為:

圖2 mLSTM單元的結(jié)構(gòu)示意圖Fig.2 Structure diagram of mLSTM unit

t_80 v_64 d_quarter_1 n_47 v_64 d_half_1 n_50 v_64 d_half_1 n_54 v_64 d_quarter_1 n_59......v_64 d_eighth_0 n_46 v_64 d_eighth_0 n_58......v_64 d_quarter_0 n_47 v_64 d_quarter_0 n_59......

3.2 mLSTM單元與mLSTM層

mLSTM單元(multiplicative Long Short Term Memory Unit)與LSTM單元結(jié)構(gòu)相似,都能記憶長(zhǎng)期和短期的輸入數(shù)據(jù),對(duì)處理與時(shí)間順序有關(guān)聯(lián)的數(shù)據(jù)十分有效.不同之處在于mLSTM單元的權(quán)重矩陣W依賴于每一時(shí)刻的輸入,對(duì)語(yǔ)言進(jìn)行字符級(jí)別的建模時(shí)比LSTM單元表現(xiàn)更好[14].一個(gè)mLSTM單元的結(jié)構(gòu)示意圖如圖2所示.

mLSTM單元的運(yùn)算方式:

m=Wmxxt⊙Wmhht-1,

(1)

W=Wxxt+Whm,

(2)

(3)

ct=zf⊙ct-1+zi⊙zg,

(4)

ht=zo⊙tanh(ct).

(5)

其中:xt,ht-1,ct-1分別為當(dāng)前時(shí)刻的輸入數(shù)據(jù)、上一時(shí)刻的mLSTM單元隱狀態(tài)(Hidden state)和細(xì)胞狀態(tài)(Cell state),三者輸入當(dāng)前時(shí)刻的LSTM單元;Wmx和Wmh分別為在逐元素乘法步驟中,當(dāng)前輸入xt的權(quán)重矩陣和上一時(shí)刻隱狀態(tài)ht-1的權(quán)重矩陣;m是為了書(shū)寫(xiě)美觀而引入的變量;W為權(quán)重矩陣;Wx和Wh分別為計(jì)算W所需的關(guān)于當(dāng)前輸入xt的權(quán)重矩陣和關(guān)于m的權(quán)重矩陣;zf,zi,zo,zg分別為遺忘門(mén)(Forget gate)、輸入門(mén)(Input gate)、輸出門(mén)(Output gate)和門(mén)之門(mén)(Gate gate),這4個(gè)門(mén)控制了當(dāng)前mLSTM單元對(duì)輸入數(shù)據(jù)的遺忘程度、處理程度和輸出程度;公式中和圖中⊙均表示矩陣的逐元素乘法;σ為sigmoid函數(shù).經(jīng)過(guò)運(yùn)算,得到的ht和ct分別為當(dāng)前時(shí)刻的mLSTM單元的隱狀態(tài)和細(xì)胞狀態(tài).通過(guò)更新每一時(shí)刻的隱狀態(tài)和細(xì)胞狀態(tài),mLSTM單元可學(xué)得數(shù)據(jù)的時(shí)間變化規(guī)律.

許多個(gè)mLSTM單元按時(shí)間步驟排列形成一個(gè)mLSTM層(mLSTM layer).一個(gè)mLSTM層中的mLSTM單元數(shù)也稱為該mLSTM層中神經(jīng)元的個(gè)數(shù).

3.3 音樂(lè)特征提取模型(mLSTM模型)

音樂(lè)特征提取模型由一個(gè)編碼層和一個(gè)mLSTM層構(gòu)成,其結(jié)構(gòu)如圖3所示,其中:xt-1為上一時(shí)刻輸入,x′t為所預(yù)測(cè)的當(dāng)前時(shí)刻輸出.

使用3.1節(jié)中的方法處理音樂(lè)樣本,得到其對(duì)應(yīng)的自然語(yǔ)言序列.取該序列某時(shí)刻的值輸入mLSTM模型,預(yù)測(cè)下一時(shí)刻的值.mLSTM模型的Embedding層神經(jīng)元個(gè)數(shù)為64,mLSTM層神經(jīng)元個(gè)數(shù)為4 096,其目標(biāo)函數(shù)為下一時(shí)刻的預(yù)測(cè)值與真實(shí)值的交叉熵?fù)p失(Cross entropy loss).反向傳播時(shí)更新兩個(gè)層的權(quán)重,讓預(yù)測(cè)值盡可能接近真實(shí)值.因?yàn)樽匀徽Z(yǔ)言序列由音樂(lè)片段轉(zhuǎn)化而來(lái),可認(rèn)為訓(xùn)練好的mLSTM模型可以根據(jù)當(dāng)前時(shí)刻的音樂(lè)信息,較為準(zhǔn)確地預(yù)測(cè)下一時(shí)刻的音樂(lè)信息.

3.4 分類模型

分類模型由3.3節(jié)中已訓(xùn)練好的mLSTM模型和softmax回歸層構(gòu)成,結(jié)構(gòu)如圖4所示,其中:x為奏鳴曲對(duì)應(yīng)的自然語(yǔ)言序列;y為所預(yù)測(cè)的創(chuàng)作時(shí)期類別.

圖3 音樂(lè)特征提取模型的結(jié)構(gòu)Fig.3 Structure of music feature extraction model

圖4 分類模型的結(jié)構(gòu)Fig.4 Structure of classification model

同樣使用3.1節(jié)中的方法處理貝多芬鋼琴奏鳴曲音樂(lè)樣本,得到對(duì)應(yīng)的自然語(yǔ)言序列.把序列輸入訓(xùn)練好的mLSTM模型,取最終的隱狀態(tài)(一個(gè)4 096維的向量)作為包含音樂(lè)樣本信息的向量樣本.softmax回歸使用極大似然估計(jì)法,最大化每個(gè)樣本被正確分類的概率.softmax回歸把輸入數(shù)據(jù)xi歸為類別j的概率為

(6)

其中:yi為類別標(biāo)簽;θ為softmax的參數(shù);k為類別個(gè)數(shù).使用帶L2正則化的softmax回歸對(duì)這些向量進(jìn)行分類,預(yù)測(cè)該音樂(lè)樣本所屬的時(shí)期.損失函數(shù)為

(7)

其中:m為樣本個(gè)數(shù);n為每個(gè)樣本的維度個(gè)數(shù);λ為正則化參數(shù);1{·}為示性函數(shù),當(dāng)括號(hào)內(nèi)命題為真時(shí)函數(shù)值為1,反之為0.

4 BPS MIDI數(shù)據(jù)庫(kù)

我們建立了一套貝多芬鋼琴奏鳴曲的BPS MIDI數(shù)據(jù)庫(kù)作為本研究的訓(xùn)練以及測(cè)試樣本庫(kù).我們從網(wǎng)上搜集了全套貝多芬鋼琴奏鳴曲的音樂(lè)資料,一共包含103個(gè)MIDI文件,每個(gè)文件的時(shí)長(zhǎng)從1到13 min不等.其中早期、中期、晚期(按奏鳴曲的創(chuàng)作時(shí)期分)分別包含58,29,16個(gè)MIDI文件.每個(gè)樂(lè)章均取前1 min的片段作為樣本,并按每個(gè)樂(lè)章的不同時(shí)長(zhǎng),每3 min截取后1 min的片段作為樣本,由此一共得到早期樣本132個(gè),中期樣本67個(gè),晚期樣本43個(gè),即一共242個(gè)不同時(shí)期時(shí)長(zhǎng)均為1 min的音樂(lè)樣本.由此構(gòu)成了我們的BPS MIDI數(shù)據(jù)庫(kù).

5 模型訓(xùn)練與評(píng)估

5.1 訓(xùn)練音樂(lè)特征提取模型(mLSTM模型)

采用文獻(xiàn)[12]中的方法,混合Video Game MIDI數(shù)據(jù)庫(kù)與BPS MIDI數(shù)據(jù)庫(kù)中的音樂(lè)片段作為樣本訓(xùn)練mLSTM模型.Video Game MIDI數(shù)據(jù)庫(kù)中含823個(gè)游戲背景音樂(lè)的MIDI文件,時(shí)長(zhǎng)從26 s到3 min不等.為了使訓(xùn)練樣本多樣化,對(duì)這些音樂(lè)片段進(jìn)行一系列變換,包括時(shí)間變換(加速、減速),音高變換(每個(gè)音都升高或降低一個(gè)大三度).然后采用3.1節(jié)中的方法對(duì)樣本進(jìn)行編碼,得到對(duì)應(yīng)的自然語(yǔ)言序列.把這些序列拼接在一起,按9∶1的比例隨機(jī)分為訓(xùn)練集和測(cè)試集.再把訓(xùn)練集平均分為3個(gè)子集以便后續(xù)處理.每個(gè)訓(xùn)練子集中大約包括18 600個(gè)音樂(lè)樣本,測(cè)試集中大約包括5 800個(gè)樣本.

依次使用3個(gè)訓(xùn)練子集對(duì)mLSTM模型進(jìn)行訓(xùn)練并在測(cè)試集上測(cè)試.在每次訓(xùn)練前ht和ct均初始化為0.訓(xùn)練3輪,采用Adam方法進(jìn)行優(yōu)化,得到在測(cè)試集上的平均交叉熵?fù)p失為0.65.

5.2 訓(xùn)練分類器

表2 10折交叉驗(yàn)證結(jié)果Tab.2 Results for 10-fold cross validation

經(jīng)過(guò)上一步訓(xùn)練的mLSTM模型可當(dāng)做一種特殊的編碼器.為了使樣本有較好的訓(xùn)練效果,對(duì)BPS MIDI數(shù)據(jù)庫(kù)中各時(shí)期的典型作品[15](即早期作品No.1—6,中期作品No.21、No.26,晚期作品No.28—32)的樣本進(jìn)行時(shí)間變換(加快、減慢)和音高變換(所有音上移、下移大三度),得到早期樣本244個(gè),中期樣本231個(gè),晚期樣本387個(gè),全部樣本共862個(gè).為了使各時(shí)期樣本數(shù)量平衡,在晚期樣本中隨機(jī)取240個(gè),最終一共得到715個(gè)音樂(lè)樣本.把這些音樂(lè)樣本輸入mLSTM模型,取模型中mLSTM層的最終隱狀態(tài)(4 096維的向量)作為編碼結(jié)果,使用softmax回歸進(jìn)行分類.使用10折交叉驗(yàn)證(10-fold cross validation)評(píng)估模型的效果,結(jié)果如表2所示.

最高準(zhǔn)確率所對(duì)應(yīng)的測(cè)試集混淆矩陣(Confusion matrix)及分類報(bào)告(Classification report)如表3,表4所示.

表3 所有測(cè)試樣本的混淆矩陣Tab.3 Confusion matrix of all test samples

表4 所有測(cè)試樣本的分類報(bào)告Tab.4 Classification report of all test samples

由表3和表4可知,mLSTM模型+softmax回歸的平均準(zhǔn)確率為90.06%,最低約為80%,最高可達(dá)97%.精確率、召回率和F1 score在0.90左右.說(shuō)明mLSTM是一種有效的特征提取器,可通過(guò)一個(gè)4 096維的向量囊括一個(gè)音樂(lè)樣本的大致信息.mLSTM模型+softmax回歸在貝多芬鋼琴奏鳴曲創(chuàng)作時(shí)期分類任務(wù)上有出色的表現(xiàn).

5.3 模型評(píng)估

mLSTM模型+softmax回歸有以下幾個(gè)優(yōu)點(diǎn):(1)使用外部數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練數(shù)據(jù)擴(kuò)充,解決了原訓(xùn)練數(shù)據(jù)數(shù)量較少的問(wèn)題,同時(shí)也能得到理想的分類效果;(2)mLSTM模型能有效提取符號(hào)音樂(lè)的特征,所提取的特征向量能夠有效地被機(jī)器學(xué)習(xí)算法分辨;(3)由于mLSTM模型的本來(lái)目的是用于提高預(yù)測(cè)序列中后一時(shí)刻字符的準(zhǔn)確程度,故還可用于完成音樂(lè)生成的任務(wù).

6 結(jié) 語(yǔ)

mLSTM模型+softmax回歸在對(duì)貝多芬鋼琴奏鳴曲創(chuàng)作時(shí)期分類這一任務(wù)上有出色的表現(xiàn),準(zhǔn)確率大都在90%左右,最高可達(dá)97%.精確率、召回率和F1 score在0.90左右.通過(guò)把符號(hào)音樂(lè)轉(zhuǎn)化為自然語(yǔ)言序列進(jìn)行處理,避免了主觀特征提取的困難.整個(gè)訓(xùn)練過(guò)程中使用外部數(shù)據(jù)進(jìn)行訓(xùn)練數(shù)據(jù)擴(kuò)充,解決了原數(shù)據(jù)量較少的問(wèn)題.我們認(rèn)為這一模型在其他任務(wù)上也能有不錯(cuò)的表現(xiàn),如對(duì)多個(gè)作曲家創(chuàng)作時(shí)期的分類、控制mLSTM模型進(jìn)行音樂(lè)生成等,這些課題有待進(jìn)一步研究和探索.

猜你喜歡
奏鳴曲貝多芬時(shí)期
手機(jī)上的奏鳴曲
特殊時(shí)期中俄文化交流持續(xù)在線
交響樂(lè)之王——貝多芬
貝多芬
文藝復(fù)興時(shí)期的發(fā)明家
貝多芬只有一個(gè)
開(kāi)心一刻
一戰(zhàn)時(shí)期蟄豪戰(zhàn)(10)
大笨狗酷比多
——貝多芬和鋼琴
饑餓奏鳴曲
尉犁县| 东乡族自治县| 濉溪县| 龙陵县| 昭觉县| 博兴县| 上饶市| 中超| 新兴县| 互助| 万州区| 周宁县| 乌恰县| 金坛市| 嘉鱼县| 雅安市| 治多县| 盘山县| 盘锦市| 确山县| 米易县| 南木林县| 晴隆县| 钦州市| 兰考县| 潍坊市| 南丹县| 鄄城县| 泊头市| 道孚县| 临江市| 司法| 正宁县| 桂平市| 澎湖县| 昭平县| 佛教| 苏州市| 东山县| 四川省| 广南县|