程丹蕊
摘 要:隨著AI技術(shù)的快速發(fā)展,如何在音樂創(chuàng)作中應(yīng)用AI技術(shù)已經(jīng)成為一個新興前沿的研究領(lǐng)域。本文以研究AI算法技術(shù)為核心,分析AI算法技術(shù)中的監(jiān)督神經(jīng)系統(tǒng)(RNN、LSTM)與無監(jiān)督神經(jīng)系統(tǒng)(GAN、VAE)等模式。同時結(jié)合已有的AI音樂應(yīng)用研究背景,探討計算機在交互音樂與AI音樂中的角色,旨在思考音樂AI與音樂創(chuàng)作主體的關(guān)系,作曲家未來的創(chuàng)作視角,以及音樂AI領(lǐng)域下音樂生成模式的發(fā)展方向。
關(guān)鍵詞:AI;神經(jīng)網(wǎng)絡(luò);音樂創(chuàng)作;交互音樂
中圖分類號:J614文獻(xiàn)標(biāo)識碼:A文章編號:2096-0905(2023)33-0-03
21世紀(jì)以來,AI音樂是一個新興的研究領(lǐng)域,已逐漸應(yīng)用于實踐。從Lejaren Hiller的《伊利亞克組曲》到谷歌的Magenta Studio和Open AI的MuseNet和Jukebox音樂生成網(wǎng)絡(luò)模型,AI音樂涵蓋多種流派和藝術(shù)家風(fēng)格,并可應(yīng)用于廣告、游戲、電影等媒體。國內(nèi)也有一些AI音樂創(chuàng)作軟件,如上海音樂學(xué)院的音蟲和網(wǎng)易天音的智能音樂創(chuàng)作工具,為音樂創(chuàng)作領(lǐng)域注入了新的活力。
目前,AI算法已廣泛應(yīng)用于音樂創(chuàng)作領(lǐng)域,AI技術(shù)輔助作曲備受關(guān)注。然而,AI是否會取代人類作曲家仍是一個備受關(guān)注的問題。人們對于人類作曲思維和創(chuàng)作空間是否還存在的討論仍在進(jìn)行中。人類是在影響計算機,還是計算機學(xué)習(xí)有限的人類知識,最終替代作曲家的創(chuàng)作方式?這是一個充滿未知的領(lǐng)域。
一、由交互音樂到AI作曲
(一)計算機技術(shù)在交互音樂中的角色
20世紀(jì)60年代,音樂創(chuàng)作經(jīng)歷了革新,磁帶錄音和數(shù)字音頻技術(shù)的發(fā)展使數(shù)字信號處理(DSP)在音樂中得到廣泛應(yīng)用。均衡器、壓縮器、混響器和延時器等音頻處理器和效果器改變了聲音的音色和效果。數(shù)字信號合成器創(chuàng)造了電子聲音,與傳統(tǒng)樂器不同的是,可以使音樂創(chuàng)作更加多樣化。計算機改變了音樂的形式,創(chuàng)造出新的音色和空間音響效果,為作曲家提供更廣闊的創(chuàng)作方法和想象空間。20世紀(jì)90年代末,法國IRCAM音樂工作站推出了實時音頻處理的人機交互系統(tǒng),后來發(fā)展為具備實時音頻合成和信號處理功能的MAX/Msp系統(tǒng)平臺。
計算機在交互音樂中扮演虛擬樂器的角色,作曲家通過程序控制的素材實時觸發(fā)并形成新的聲部。計算機的樂譜跟蹤器可以追蹤演奏者的音頻信息,實時控制數(shù)字合成算法,將演奏者的聲音素材轉(zhuǎn)換成電子音樂部分。這種方式開辟了音樂創(chuàng)作的新方向,對即興演奏和創(chuàng)作產(chǎn)生影響。
這些科技的發(fā)展革命性地改變了音樂創(chuàng)作模式,為作曲家提供了更多的創(chuàng)作空間。然而,雖然計算機在音樂創(chuàng)作中發(fā)揮了重要作用,但它并沒有完全取代人類作曲家的創(chuàng)作能力和創(chuàng)作思維。人類作曲家仍然具有獨特的情感,能夠創(chuàng)作出富有個性和深度的音樂作品。因此,AI音樂的發(fā)展并不意味著人類作曲家將被取代,而是為他們提供了更多的工具和資源,豐富了音樂創(chuàng)作的可能性。
(二)計算機語言在AI音樂中的角色
在交互音樂創(chuàng)作中,人機交互和計算機技術(shù)的發(fā)展為作曲家?guī)砹巳碌膭?chuàng)作手法[1]。計算機可以模仿作曲元素,如音高、旋律、節(jié)奏等,通過程序語言實現(xiàn)音樂創(chuàng)作。這引發(fā)了一個問題:是人類在創(chuàng)作音樂,還是計算機在創(chuàng)作音樂?
計算機強調(diào)程序、公式和運算規(guī)則,通過將作曲元素轉(zhuǎn)換為程序語言,實現(xiàn)對這些元素的模仿。作曲元素包括音高、旋律、節(jié)奏、調(diào)式、調(diào)性、和聲、曲式結(jié)構(gòu)、復(fù)調(diào)等,它們構(gòu)成了音樂的基本組成部分。這些元素以數(shù)據(jù)化的形式被電腦學(xué)習(xí),從最早的調(diào)性音樂到后調(diào)性音樂,音樂的風(fēng)格逐漸從具體可感的純聽覺藝術(shù)轉(zhuǎn)向抽象思辨的非純聽覺藝術(shù)[2]。音樂創(chuàng)作中的調(diào)性和樂音不再是單一的主體,人類對聲音想象的擴張和藝術(shù)樣式的拼貼創(chuàng)造挑戰(zhàn)了傳統(tǒng)創(chuàng)作手法的地位。音樂與音響元素的重新組合、拼貼和交融成為新時代創(chuàng)作的主導(dǎo)趨勢。
在物理聲學(xué)和電子技術(shù)的推動下,人們更加關(guān)注聲音和音響結(jié)構(gòu),音樂內(nèi)容與音頻技術(shù)緊密相交,為計算機算法提供了技術(shù)基礎(chǔ)。這些數(shù)據(jù)化的作曲音樂元素被量化、拆解、歸類和統(tǒng)一,形成了計算機的程序語言,并通過學(xué)習(xí)和迭代更新。音樂的流派每次革命性的突破都挑戰(zhàn)舊有的理論框架,人們的反叛、挑戰(zhàn)和追求使音樂審美標(biāo)準(zhǔn)瓦解,產(chǎn)生新興的音樂體系。因此,AI為音樂創(chuàng)作提供了新的工具和資源,但人類作曲家的創(chuàng)造力和創(chuàng)作能力仍然是不可替代的。作曲家在創(chuàng)作時需要考慮如何結(jié)合人機交互和個人創(chuàng)作視角,以創(chuàng)作富有個性和深度的音樂作品。
二、AI技術(shù)與音樂創(chuàng)作
(一)算法技術(shù)表征
AI作曲算法,從機器學(xué)習(xí)到深度學(xué)習(xí),首先需要了解的是數(shù)據(jù)表征。這涵蓋了音頻域與象頻域,通常包括MIDI消息、鋼琴卷簾、ABC標(biāo)記、Music XML與MEI。作曲家運用樂譜來譜寫音樂,而計算機用數(shù)據(jù)表征來表示音樂。這些格式和語言構(gòu)成了音樂與計算機之間的橋梁,計算機通過數(shù)據(jù)表征來識別音樂中的音高、節(jié)奏、時值、響度等,從而形成樂譜。
(二)主流算法生成模式
音樂中的機器學(xué)習(xí)起源可以追溯到20世紀(jì)末和21世紀(jì)初。這期間,計算機科學(xué)、AI和音樂學(xué)領(lǐng)域的交叉研究開始涌現(xiàn)出許多關(guān)于如何利用計算機技術(shù)來理解、模擬和生成音樂的想法。直至2010年代,深度學(xué)習(xí)作為機器學(xué)習(xí)的一個分支,其神經(jīng)網(wǎng)絡(luò)得到了顯著的發(fā)展,在音樂創(chuàng)作中的應(yīng)用主要分為監(jiān)督神經(jīng)系統(tǒng)和無監(jiān)督神經(jīng)系統(tǒng)兩大類型。
1.監(jiān)督神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是一種模擬人腦神經(jīng)元連接結(jié)構(gòu)的訓(xùn)練模型,在音樂創(chuàng)作中被廣泛應(yīng)用。監(jiān)督神經(jīng)網(wǎng)絡(luò)可以通過訓(xùn)練學(xué)習(xí)生成具有特定音樂特征或風(fēng)格的音樂。常見的監(jiān)督神經(jīng)網(wǎng)絡(luò)模型包括循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短時記憶網(wǎng)絡(luò)(LSTM)等[3]。
前饋神經(jīng)網(wǎng)絡(luò)(FNN)是一種沒有反饋連接的模型,信息流是單向的。在音樂生成中,研究團隊使用FNN模型開發(fā)了一個迷你巴赫合唱對位伴奏符號音樂生成系統(tǒng),用于生成“巴赫式”四聲部音樂。然而,由于FNN模型的確定性,相同的旋律總會產(chǎn)生完全相同的伴奏,限制了生成音樂的多樣性和復(fù)雜性。
雖然前饋神經(jīng)網(wǎng)絡(luò)在音樂創(chuàng)作中的應(yīng)用可以通過FNN模型展示,但在滿足音樂創(chuàng)作的多樣性和復(fù)雜性方面存在局限性。未來研究還需要探索更靈活和具有創(chuàng)造性的模型,以實現(xiàn)音樂創(chuàng)作中多樣性、內(nèi)容變化、表現(xiàn)力增強、旋律與和聲更豐富、一致性、遞增性、交互性和可解釋性等目標(biāo)。
神經(jīng)網(wǎng)絡(luò)模型的升級包括RBM基礎(chǔ)和弦音樂生成系統(tǒng)和BLSTM和弦伴奏音樂生成系統(tǒng),如圖1。它們用于建模多聲部音樂,提高由單聲部音頻轉(zhuǎn)錄至多聲部的能力。然而,這些系統(tǒng)存在一些限制,需要明確的語料庫作為輸入,并在固定的音樂框架下生成音樂。此外,深度學(xué)習(xí)方法缺乏可解釋性,難以使人類參與到機器創(chuàng)作的過程中。
為了解決這些問題,需要進(jìn)一步研究和發(fā)展新的方法。這些方法應(yīng)該更好地平衡機器生成的約束性和藝術(shù)家的創(chuàng)造性,提高可解釋性以促進(jìn)更深層次的合作。在機器創(chuàng)作的過程中,人們希望獲得更多的自然性、創(chuàng)造性和對音樂結(jié)構(gòu)的敏感性。
2.無監(jiān)督神經(jīng)網(wǎng)絡(luò)
無監(jiān)督神經(jīng)網(wǎng)絡(luò)是一類不需要標(biāo)簽或目標(biāo)輸出進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。在音樂創(chuàng)作中,無監(jiān)督學(xué)習(xí)模型可以從未標(biāo)記的音樂數(shù)據(jù)中提取重要信息,降低數(shù)據(jù)復(fù)雜性,并保留關(guān)鍵的音樂特征。這種方法在音樂聚類和分類方面表現(xiàn)出色,有助于發(fā)現(xiàn)音樂中的不同風(fēng)格、流派或模式。
無監(jiān)督學(xué)習(xí)還支持遷移學(xué)習(xí),即將從一種音樂風(fēng)格中學(xué)到的特征應(yīng)用于另一種音樂風(fēng)格的創(chuàng)作。常見的無監(jiān)督神經(jīng)網(wǎng)絡(luò)模型包括自編碼器、生成對抗網(wǎng)絡(luò)和變分自編碼器。
音樂變分自編碼器的一個典型例子是MusicVAE,它是一個多聲部分層符號音樂生成系統(tǒng)。該系統(tǒng)利用變分循環(huán)自編碼器(VRAE)的架構(gòu),包含編碼器和解碼器。它能夠從MIDI文件中提取不同類型的音樂示例:2-16小節(jié)長的單音旋律、鼓組模式以及包含三個不同聲音的16小節(jié)長的三重奏序列,如圖2,并通過分層建模考慮不同層次的音樂元素,如旋律和鼓組模式,以生成更富有多樣性和層次感的音樂。
使用神經(jīng)網(wǎng)絡(luò)的目標(biāo)是協(xié)助作曲家提高創(chuàng)作能力,而不是完全取代他們進(jìn)行自主創(chuàng)作。因此,在評估音樂生成系統(tǒng)時,作曲家的滿意度是一個重要的評估標(biāo)準(zhǔn)。為了建立更深度和系統(tǒng)的音樂創(chuàng)作支持系統(tǒng),我們還需要考慮環(huán)境、歷史和文化背景等因素。
除了監(jiān)督和無監(jiān)督學(xué)習(xí)模式,半監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)模式也可以應(yīng)用于音樂生成。半監(jiān)督學(xué)習(xí)結(jié)合了監(jiān)督和無監(jiān)督學(xué)習(xí)的元素,以更全面地利用數(shù)據(jù)。在音樂生成中,半監(jiān)督學(xué)習(xí)可以解決數(shù)據(jù)稀缺或標(biāo)記成本高昂的問題。它通過使用帶有標(biāo)簽的復(fù)雜數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí),然后使用無監(jiān)督學(xué)習(xí)方式對未標(biāo)記的數(shù)據(jù)進(jìn)行預(yù)測,并將置信度較高的預(yù)測結(jié)果添加到訓(xùn)練集中。通過重復(fù)和更新這個過程,可以優(yōu)化模型以不斷實現(xiàn)音樂生成的目標(biāo)。
綜上所述,將作曲家的滿意度作為評估標(biāo)準(zhǔn),并結(jié)合不同的學(xué)習(xí)模式,包括半監(jiān)督學(xué)習(xí)和強化學(xué)習(xí),可以建立更有深度和系統(tǒng)的音樂創(chuàng)作支持系統(tǒng),以提高音樂生成的質(zhì)量和多樣性。
(三)作曲中的算法生成模式分析
在作曲創(chuàng)作過程中,有四個重要的理論元素,包括和聲、曲式結(jié)構(gòu)、旋律與肢體、配器。不同的理論組織可以搭建更匹配的神經(jīng)網(wǎng)絡(luò)運作模型,以實現(xiàn)更高的生成準(zhǔn)確度。其中,最具挑戰(zhàn)性的是音樂流派的轉(zhuǎn)移。這要求模型能夠理解并捕捉每個音樂流派獨特的風(fēng)格。解決這個問題的關(guān)鍵在于建立一個能夠適應(yīng)不同流派特征的神經(jīng)網(wǎng)絡(luò)架構(gòu),以便有效地處理各種音樂生成任務(wù)。
在音樂生成領(lǐng)域,深度學(xué)習(xí)模型取得了一系列的進(jìn)展。在旋律生成方面,谷歌的Magenta Melody RNN模型、DeepBach模型和MusicVAE2模型等都具有代表性。這些模型能夠生成具有特定風(fēng)格的旋律。和聲生成方面,巴赫涂鴉模型使用椰子模型為給定的巴赫風(fēng)格旋律生成伴奏,提高了和聲的質(zhì)量。在配器方面,MMM模型可以根據(jù)預(yù)定義的樂器音色特征生成旋律內(nèi)容。然而,模型仍面臨模式不符合人類作曲過程的挑戰(zhàn)。這些研究是為了提高生成音樂的質(zhì)量并解決特定問題,如和聲生成的挑戰(zhàn)和多樂器模型的限制。未來的研究需要進(jìn)一步模擬人類創(chuàng)作的復(fù)雜性和靈活性。
三、結(jié)束語
音樂與科技的不斷交融,AI在音樂創(chuàng)作中將會占據(jù)更多的話語權(quán),作曲家更需要思考如何利用與結(jié)合AI技術(shù)與創(chuàng)作,將之視為一種“輔助創(chuàng)作工具”,并將其與自身創(chuàng)作思維的延伸結(jié)合,而非以絕對論是或否定義AI音樂的發(fā)展。這意味著發(fā)展方向應(yīng)是更好地讓作曲家與技術(shù)人員合作,建立組合形式的深度學(xué)習(xí)模型,形成從頭開始生成的高創(chuàng)意音樂形式,并構(gòu)建作曲家能與AI交互的交互模型。而AI一方面可以快速掌握清晰的具有高度規(guī)則化和程序化的音樂元素,高速發(fā)展模型,但人類的音樂情感,涉及美學(xué)、心理學(xué)、哲學(xué)這些人文因素,是機器算法短期無法跨越的鴻溝。還有更多未解決的問題不在本文的討論范圍之內(nèi)。比如,如果神經(jīng)網(wǎng)絡(luò)是用有版權(quán)的音樂訓(xùn)練的,那么誰擁有由深度學(xué)習(xí)生成的音樂的知識產(chǎn)權(quán),以及如何發(fā)展與輸入不相似的音樂生成系統(tǒng)等。
最后,在流派的創(chuàng)新方面,一開始總面臨著無秩序和挑戰(zhàn)。因此,在研究前沿技術(shù)的同時,作為作曲家同時需要審視我們作為音樂創(chuàng)作主體,什么創(chuàng)作部分是需要堅持的。這種審視是有必要的,以確保在AI音樂創(chuàng)新中保持傳統(tǒng)創(chuàng)作中不可替代的核心內(nèi)容,并在新技術(shù)的推動下找到創(chuàng)新與傳統(tǒng)的平衡點。
參考文獻(xiàn):
[1]范翎.關(guān)于交互式電子音樂分類方法的思考[J].南京藝術(shù)學(xué)院學(xué)報(音樂與表演),2020(02):108-115.
[2]賈達(dá)群.后調(diào)性音樂音高組織發(fā)展引論[J].音樂研究,2022(02):63-70.
[3]陳世哲.淺談人工智能技術(shù)在音樂創(chuàng)作中的應(yīng)用[J].音樂探索,2020(01):125-132.