人工智能在音樂創(chuàng)作中的應(yīng)用

2023-11-13 19:19:52程匯聰

音樂探索 2023年3期

關(guān)鍵詞：音樂創(chuàng)作形式神經(jīng)網(wǎng)絡(luò)

Artificial Intelligence in Music Composition

摘要：以人工智能與音樂創(chuàng)作為核心，介紹人工智能音樂創(chuàng)作中的馬爾可夫鏈、BP神經(jīng)網(wǎng)絡(luò)、RNN神經(jīng)網(wǎng)絡(luò)、LSTM神經(jīng)網(wǎng)絡(luò)與SOM無監(jiān)督神經(jīng)網(wǎng)絡(luò)等基本模式。借由思考音樂創(chuàng)作與主體性的關(guān)系，對人工智能視域下音樂創(chuàng)作的走向、作曲家的創(chuàng)作價值、音樂創(chuàng)作的形式以及表征與重組等問題加以闡釋，從而以全新的技術(shù)領(lǐng)域?yàn)榍腥朦c(diǎn)，將音樂創(chuàng)作置入新的“敞開”世界中。

關(guān)鍵詞：人工智能；神經(jīng)網(wǎng)絡(luò)；音樂創(chuàng)作；形式

中圖分類號：J621.3文獻(xiàn)標(biāo)識碼：A

文章編號：1004-2172（2023）03-0136-09

DOI：10.15929/j.cnki.1004 - 2172.2023.03.013

引言

隨著近年來人工智能研究的發(fā)展，人工智能音樂已經(jīng)進(jìn)入了一個新的紀(jì)元。從最早萊杰倫·希勒（Lejaren Hiller，1924—1994）在1957年對人工智能或是算法作曲的首度嘗試《伊利亞克組曲》（Illiac Suite），到谷歌（Google）研發(fā)團(tuán)隊(duì)的Magenta項(xiàng)目，到巴黎的索尼計(jì)算機(jī)科學(xué)實(shí)驗(yàn)室開發(fā)的“深度巴赫”（DeepBach）神經(jīng)網(wǎng)絡(luò)，再到人工智能虛擬藝術(shù)家“艾媧”（Artificial Intelligence Virtual Artist，簡稱AIVA）將其以影視與游戲配樂的形式應(yīng)用于市場，人工智能音樂在西方已然走過了半個多世紀(jì)。從2016年開始，人工智能音樂研究呈現(xiàn)一種“井噴”的狀態(tài)，不僅各種相關(guān)理論層出不窮，還于2019年之后逐步由理論轉(zhuǎn)向?qū)嶋H應(yīng)用類研究。音樂方面也是如此，人工智能音樂正在逐漸走入人們生活當(dāng)中，且變得越來越有實(shí)用價值。

在國內(nèi)，中央音樂學(xué)院于2019年成立了人工智能與音樂信息科技系，上海音樂學(xué)院的音樂科技系也積極開展有關(guān)人工智能音樂的學(xué)科研究，并取得了階段性成果。一鍵AI編曲軟件“音蟲”在2020年末登場，同期，網(wǎng)易的“天音”人工智能編曲軟件也于2022年給大家?guī)砹诵碌木幥w驗(yàn)。種種趨向表明，人工智能音樂在近年來不斷受到國內(nèi)外學(xué)者與研究人員的重視。

音樂人工智能相較于其他人工智能研究來說具有特殊性，它涉及一個核心的問題，即音樂本身是一種情感的流淌。事實(shí)上，關(guān)于藝術(shù)的人工智能都會遇到這一問題，但是音樂的與眾不同之處在于它是藝術(shù)中最為“無形”的存在。音樂并非是繪畫或雕塑那樣具象的存在（空間藝術(shù)與時間藝術(shù)／造型藝術(shù)與發(fā)生藝術(shù)），它本身是一種虛幻的表現(xiàn)形式。在過去討論藝術(shù)的過程中，藝術(shù)的內(nèi)核與其表象形式是不可剝離的，而藝術(shù)家的創(chuàng)作過程則是將其“非真實(shí)性”的主觀意向具化為形式，也就是說，藝術(shù)品即思想的荷載物。從康德提出“純粹美”①這一美學(xué)概念之后，人們對于形式與內(nèi)核的論證趨于分化，但又歸于統(tǒng)一。因此也誕生了大量的學(xué)說，如彼得·基維（Peter Kivy，1934—2017）的“輪廓理論”②，于潤洋先生（1932—2015）常說的音樂中的“自律與他律”③，蘇珊·朗格（Susanne K. Langer，1895—1982）的“符號學(xué)說”④等，都從不同角度和維度解讀了藝術(shù)中情感與形式的關(guān)系。

從過去幾年與人工智能相關(guān)的研究成果可看出，人工智能對于形式上“工具理性”的進(jìn)展是極為迅速并具有優(yōu)越性的，利用自組織映射神經(jīng)網(wǎng)絡(luò)（Self-organizing map，簡稱SOM）⑤或BP神經(jīng)網(wǎng)絡(luò)（back propagation，簡稱BP）⑥等進(jìn)行機(jī)器學(xué)習(xí)并通過馬爾可夫鏈（Markov Chain，簡稱MC）⑦等算法進(jìn)行重組，人工智能可以對形式進(jìn)行很好的模仿，在此稱其為“重組性創(chuàng)作”。對這種“重組性創(chuàng)作”來說，模仿肖邦、巴赫等作曲家的音樂風(fēng)格不在話下，而對十二音、整體序列等音樂風(fēng)格的模仿更是人工智能的拿手好戲。作為人類作曲家，需要思考如何進(jìn)一步開展創(chuàng)作活動，是否需要將目光轉(zhuǎn)向更加“根源性”的創(chuàng)作當(dāng)中？類似標(biāo)準(zhǔn)化、重復(fù)化的勞動，在未來是否還是衡量作曲家的標(biāo)準(zhǔn)？人工智能是否可以代替人類作曲家，滿足絕大多數(shù)人對于音樂的需求？基于人類情感的藝術(shù)品呈現(xiàn)是否可以實(shí)現(xiàn)將形式與情感剝離？用符號學(xué)及語義學(xué)的思考方式，藝術(shù)的欣賞者（客體）需要同時接受藝術(shù)品（形式）以及一個普世的人類情感（抽象概念⑧）的影響，來完成對于一個創(chuàng)作者（主體）藝術(shù)創(chuàng)作的接收，如果“概念”來源于一個普世的、人類社會發(fā)展所必然產(chǎn)生的情感以及約定俗成的價值觀，對于客體來說主體是否僅僅輸出了符合直覺理性并具有生命基本邏輯的一種形式？我們作為一個音樂創(chuàng)作者要如何創(chuàng)作？為何要創(chuàng)作？創(chuàng)作的價值在何處？

一、人工智能音樂創(chuàng)作的基本模式

（一）馬爾可夫鏈

早期的算法作曲中，生成音樂的主要途徑就是利用馬爾可夫鏈將音樂的縱橫關(guān)系轉(zhuǎn)化為概率問題。這種創(chuàng)作的思維延續(xù)了整體序列的創(chuàng)作模式，即將音樂的基本元素抽象為幾個固定概念，如音高、時值、力度等概念，在此基礎(chǔ)上將這幾個音樂元素轉(zhuǎn)化為概率問題，一定程度上，概率也體現(xiàn)了音樂的風(fēng)格。

馬爾可夫鏈可分為顯性馬爾可夫鏈和隱性馬爾可夫鏈。對于基本的馬爾可夫鏈模型來說，本質(zhì)上就是以當(dāng)前狀態(tài)為出發(fā)點(diǎn)，通過狀態(tài)轉(zhuǎn)移的概率矩陣分布（所有可能性的概率之和為1），將下一個狀態(tài)轉(zhuǎn)化為概率問題。馬爾可夫鏈的一大特征在于只考慮當(dāng)前狀態(tài)，因此它是無記憶性的。可以說利用馬爾可夫鏈所要解決的問題是，在已知當(dāng)前狀態(tài)N的情況下，求N＋1狀態(tài)。

比如在音樂中，如果一部古典時期的作品在當(dāng)前狀態(tài)出現(xiàn)了屬七原位和弦，下一狀態(tài)出現(xiàn)主和弦的概率極高，可達(dá)到0.8甚至以上。再比如，在十二音的作品中，當(dāng)前狀態(tài)的音在下一狀態(tài)出現(xiàn)的概率為0，其他11個音出現(xiàn)的概率則為1/11。但由于馬爾可夫鏈的無記憶性，并不能很好地完成此類表達(dá)。音樂系統(tǒng)很多時候是一個復(fù)雜的問題，單一的馬爾可夫鏈的矩陣轉(zhuǎn)移系統(tǒng)往往難以表示，這意味著，還存在另外一個影響最終結(jié)果的決定性因素。

而有關(guān)力度和時值的表達(dá)方面，在古典時期的作品中，當(dāng)前狀態(tài)的力度大概率會在下一個狀態(tài)得到延續(xù)，力度的變化大多是延續(xù)的。而在力度上起到對峙的片段往往在音型、織體上趨于統(tǒng)一，這恰好是隱性馬爾可夫鏈的一個很好的例子。在上述過程中，織體和音型對于力度的概率問題產(chǎn)生了較大的影響，其中也包含了兩個狀態(tài)：隱含狀態(tài)和可觀察狀態(tài)。在上述例子中，我們所要觀察的是當(dāng)前狀態(tài)以及下一個狀態(tài)的力度問題，但其中織體對其產(chǎn)生了重要的影響，因此力度就成為了我們的可觀察層，而織體則是隱含層。

上述十二音的例子在這里也可以得到解決，將音高作為可觀測層，將過去11個狀態(tài)內(nèi)是否出現(xiàn)此音高作為隱含層，就可以得出十二音更為精確的基本表達(dá)。首先設(shè)狀態(tài)N，考慮是否滿足N<12，在隱含層如果符合過去11個狀態(tài)中未出現(xiàn)過此音，那么可觀測層的下一狀態(tài)的最終概率為P = 1 /（12-N），如果出現(xiàn)過此音，則P = 0，如果N > 12，則N = N-12狀態(tài)。

馬爾可夫鏈作為將“概率”應(yīng)用至音樂創(chuàng)作的早期嘗試，具有里程碑式的意義。在20世紀(jì)50—60年代也有不少作曲家嘗試?yán)民R爾可夫鏈進(jìn)行音樂創(chuàng)作，其中就包含希勒和艾薩克遜（Leonard Isaacson）于1957年創(chuàng)作的《伊利亞克組曲》，這部作品常被認(rèn)為是第一個利用計(jì)算機(jī)和算法作曲進(jìn)行創(chuàng)作的作品。在創(chuàng)作過程中利用馬爾可夫鏈的隨機(jī)特征產(chǎn)生不同的音高、時值、節(jié)奏、力度，進(jìn)而構(gòu)成音樂片段?！兑晾麃喛私M曲》由四個樂章構(gòu)成，分別對應(yīng)了單旋律、四聲部關(guān)系、時值與力度、隨機(jī)性四個方面。而在第四樂章中，在隨機(jī)與概率的部分集中應(yīng)用了馬爾可夫鏈。

1960年俄羅斯計(jì)算機(jī)科學(xué)家、音樂家R.Kh.Zaripov發(fā)表了第一篇關(guān)于使用（Ural-1）計(jì)算機(jī)進(jìn)行算法音樂作曲的論文，描述了其使用馬爾可夫鏈生成旋律、時值等參數(shù)。而后他在此研究基礎(chǔ)上于1969年發(fā)表了《控制論與音樂》（Cybernetics and Music）。

此外，澤納基斯（Iannis Xenakis， 1922—2001）也在他的部分作品中嘗試了基于馬爾可夫鏈的算法作曲形式，包括其作品《類比A》Analogique A、《類比B》Analogique B、《希爾莫斯》Syrmos等。

（二）BP神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)最初并沒有得到很高的重視，直到過去十年才得到大力發(fā)展，它可粗略分為兩大類，有監(jiān)督的BP神經(jīng)網(wǎng)絡(luò)以及無監(jiān)督的SOM神經(jīng)網(wǎng)絡(luò)。很長一段時間內(nèi)，由于計(jì)算力以及數(shù)據(jù)的限制，無監(jiān)督的神經(jīng)網(wǎng)絡(luò)是難以處理的技術(shù)問題，而學(xué)者們主要在有監(jiān)督的BP神經(jīng)網(wǎng)絡(luò)當(dāng)中做文章。

BP神經(jīng)網(wǎng)絡(luò)在1986年由魯姆哈特（David Rumelhart）和麥克萊蘭（James L. McClelland）為首的科學(xué)家提出。神經(jīng)網(wǎng)絡(luò)最為基本的兩個結(jié)構(gòu)為輸入層和輸出層，從輸入層到輸出層可被稱為正向傳導(dǎo)的過程。而BP神經(jīng)網(wǎng)絡(luò)在輸入層和輸出層中間還有一個隱藏層，其作用則是將信息做對比。BP神經(jīng)網(wǎng)絡(luò)中的關(guān)鍵詞“Back Propagation”從字面上可以直譯為“反向傳導(dǎo)”，因此其中最重要的就是反向傳導(dǎo)的過程。信號從輸入層進(jìn)入之后，先正向通過隱藏層到輸出層，再將信號數(shù)據(jù)與給定的參考數(shù)據(jù)做對比計(jì)算誤差，反向回到隱藏層，逐漸修正神經(jīng)元的權(quán)值，直到誤差小于指定參數(shù)。

BP神經(jīng)網(wǎng)絡(luò)的特點(diǎn)就是有監(jiān)督，因此其中人為介入的程度依然較高。尤其是在音樂領(lǐng)域的應(yīng)用，選用的樣本將會直接影響機(jī)器學(xué)習(xí)的最終結(jié)果，個人的審美也會從側(cè)面影響到機(jī)器的學(xué)習(xí)情況。

BP神經(jīng)網(wǎng)絡(luò)幾乎完美繼承了人類學(xué)習(xí)模式的重要方面，通過測試、評分、重復(fù)、消除差異等方式塑造主體。

（三）RNN神經(jīng)網(wǎng)絡(luò)與LSTM神經(jīng)網(wǎng)絡(luò)

如今的音樂人工智能從技術(shù)層面來說，主要采用循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，簡稱RNN）①及其特殊模式長短期記憶人工神經(jīng)網(wǎng)絡(luò)（Long Short-Term Memory，簡稱LSTM）②，以時序性的處理模式來實(shí)現(xiàn)機(jī)器學(xué)習(xí)及音樂作品生成。RNN神經(jīng)網(wǎng)絡(luò)從根源上來說是一種BP式的神經(jīng)網(wǎng)絡(luò)，是一種有監(jiān)督的神經(jīng)網(wǎng)絡(luò)的模式，因此其必然體現(xiàn)出人為介入的情況，通過此神經(jīng)網(wǎng)絡(luò)訓(xùn)練的人工智能展現(xiàn)出一種“工具”特征。這就會出現(xiàn)上述討論的問題，其中最為顯著的問題就是：人工智能在音樂創(chuàng)作過程中是否作為人類的另一種工具？就如同電子音樂是否為一種音樂的工具，還是從根源層面提供一種新的思維結(jié)構(gòu)？

2017年，Jean-Pierre Briot， Ga?tan Hadjeres， Fran?ois-David Pachet 發(fā)表了論文《音樂生成的深度學(xué)習(xí)技術(shù)》（Deep Learning Techniques for Music Generation -- A Survey），提出了基于LSTM的深度循環(huán)神經(jīng)網(wǎng)絡(luò)（DRNN），用于生成多聲部音樂，通過運(yùn)用此技術(shù)捕捉音樂序列縱橫關(guān)系中的相互關(guān)系。此模型主要應(yīng)用于生成和聲與旋律，但需要在較為明確的音樂框架下完成。

雖然通過這種方式訓(xùn)練出來的人工智能暫時還無法做到大段音樂的創(chuàng)作，在音樂結(jié)構(gòu)上有較大欠缺，但在8～16小節(jié)以內(nèi)，無論是風(fēng)格模仿還是風(fēng)格遷移都可以較為出色的完成。由于在音樂人工智能的訓(xùn)練過程中普遍缺乏樣本及數(shù)據(jù)，因此在很多訓(xùn)練過程中都將原本的曲子拆成了以4小節(jié)或8小節(jié)為單位進(jìn)行訓(xùn)練，這樣做雖然能夠短時間內(nèi)增加其數(shù)據(jù)量，卻造成了人工智能對于音樂結(jié)構(gòu)把握不足的問題。另一方面，由于RNN神經(jīng)網(wǎng)絡(luò)的特質(zhì)，所有的計(jì)算都需要從頭開始，因此在4小節(jié)或8小節(jié)的長度上，設(shè)備還能夠承擔(dān)所產(chǎn)生的數(shù)據(jù)量，可一旦涉及更長的音樂，數(shù)據(jù)量就將呈指數(shù)增長，目前的計(jì)算能力也很難支撐其運(yùn)算。

但是這樣的問題只是當(dāng)下的，隨著新算法的迭代、設(shè)備的升級，此般問題在不久的將來都會被逐個擊破．而需要深入思考的是，透過人工智能這面“鏡子”，作曲家和音樂家能從自己身上反思到什么。

（四）無監(jiān)督神經(jīng)網(wǎng)絡(luò)

無監(jiān)督神經(jīng)網(wǎng)絡(luò)目前在音樂領(lǐng)域并沒有成熟的應(yīng)用，但部分公司推出了階段性研究產(chǎn)品，如OpenAI的MuseNet、Google的MusicLM等。此類產(chǎn)品并不完全是無監(jiān)督學(xué)習(xí)的結(jié)果，但具有無監(jiān)督學(xué)習(xí)的傾向。上述兩者運(yùn)用的均為基于Transformer模型的神經(jīng)網(wǎng)絡(luò)，通過學(xué)習(xí)數(shù)十萬個MIDI文件形成“預(yù)訓(xùn)練”的結(jié)果，而后通過“預(yù)訓(xùn)練－微調(diào)”的框架對其進(jìn)行修正。

無監(jiān)督技術(shù)是一種不需要將數(shù)據(jù)人為標(biāo)簽化的學(xué)習(xí)方法，它只根據(jù)輸入數(shù)據(jù)本身的特征和結(jié)構(gòu)來學(xué)習(xí)，通過大量對比和學(xué)習(xí)數(shù)據(jù)，發(fā)掘數(shù)據(jù)之間的關(guān)聯(lián)和潛在規(guī)律。無監(jiān)督技術(shù)可以利用海量的數(shù)據(jù)，不受標(biāo)簽的限制，但難以評估模型的性能，也難以控制模型的輸出和目標(biāo)。在此層面上，機(jī)器取得了較大的自主權(quán)，但是在音樂應(yīng)用中便會產(chǎn)生一個新的問題：對于本身就較為主觀的音樂審美或者音樂評判，無監(jiān)督的神經(jīng)網(wǎng)絡(luò)所產(chǎn)生的學(xué)習(xí)結(jié)果難以評價。這仿佛是機(jī)器自主的學(xué)習(xí)成果，但有很大概率與我們本身的評判標(biāo)準(zhǔn)存在差距。面對這樣的差距，如果是BP神經(jīng)網(wǎng)絡(luò)，毫無疑問將會被判定此次學(xué)習(xí)失敗，但是對于無監(jiān)督的SOM神經(jīng)網(wǎng)絡(luò)來說，這又引入了新的音樂審美問題?；蛟S更有意思的問題是，當(dāng)人類面對非人物種或如人工智能這樣的“硅基生命體”時，人類的審美是否還適用？

二、音樂創(chuàng)作與主體性

（一）人工智能與音樂形式

在近幾百年的音樂創(chuàng)作發(fā)展過程中，是具有一種極端主體性傾向的。當(dāng)代語境下由于技術(shù)飛速發(fā)展，主體時常并沒有思考清楚新的技術(shù)究竟意味著什么，同時卻已經(jīng)邁入了新的技術(shù)領(lǐng)域之中。這也是為何電子音樂在誕生初期有著強(qiáng)大的推動力，但到了今天卻呈現(xiàn)出一種工具化特征的原因。用馬克思·韋伯（Maximilian Weber，1864—1920）①的話說，就是工具理性可以更快地給我們賦予目標(biāo)，并向著某一個目標(biāo)前進(jìn)，其效率、收益都能夠最大化的同時，讓人們陷入工具理性的圈套。②由于價值理性無法被人明確地定義好或不好，因此在構(gòu)建體系時，就需要防止發(fā)生此類情況，即回避好與不好的問題，而更多地討論關(guān)于工具理性語境下對與不對的問題。如此一來，音樂與其他各行業(yè)一樣也走入了以工具理性來評判價值的道路。而審美判斷③作為康德時期一種復(fù)雜的綜合形式，到如今也變?yōu)閷π问降囊环N解讀。在這一過程中，康德“純粹美”的概念越發(fā)凸顯。一種“自律”的、形式至上的音樂審美判斷也在逐漸形成并走向成熟。

在人工智能誕生后，一切都在發(fā)生轉(zhuǎn)變。人工智能底層邏輯是由0和1組成的，可以說，他就是將工具理性發(fā)揮到極致的一種體現(xiàn)。在任何一種強(qiáng)規(guī)則、強(qiáng)體系的門類當(dāng)中，人工智能都可以毫不費(fèi)力地“打敗”人類。在過去的人工智能發(fā)展過程當(dāng)中，人類已經(jīng)被“上了一課”，不論是AlphaGo還是深藍(lán)與人類的“圍棋對陣”，人工智能在這種具有明確輸贏的強(qiáng)規(guī)則活動中都占據(jù)了主導(dǎo)。因此，如果音樂也導(dǎo)向一種強(qiáng)規(guī)則及能夠形成0和1判斷時，人工智能將毫不費(fèi)力地打敗人類。

對作曲而言，最重要的“四大件”正逐漸被人工智能攻克。如今已經(jīng)有不少大學(xué)上線了人工智能和聲、復(fù)調(diào)的批改系統(tǒng)，如伊利亞克（Illiac）軟件團(tuán)隊(duì)開發(fā)的“和諧”（Harmonia①）軟件就已經(jīng)提供了學(xué)生和教師的兩個端口，教師能夠借助軟件快速、批量化對學(xué)生做的和聲題進(jìn)行批改。對于和聲、復(fù)調(diào)這樣較強(qiáng)規(guī)則的音樂學(xué)科，人工智能已經(jīng)能夠非常出色地完成任務(wù)。我們所熟知的和聲強(qiáng)規(guī)則包括：不能聲部超越、不能平五平八、不能四部同向、同聲部不能出現(xiàn)增音程、不能對斜、大跳后反向級進(jìn)等等。規(guī)則越清晰、權(quán)威，系統(tǒng)化程度越高，越能被人工智能把握，越能無障礙地轉(zhuǎn)化為0和1的語言。而作曲四大件中配器的自由度相對較高，對人工智能而言也相對困難。對于音樂分析，人工智能可以形成一套獨(dú)特的分析語匯，將音樂轉(zhuǎn)化為純數(shù)據(jù)分析，對其中的音高、速度、調(diào)式調(diào)性、聲場、頻段等做量化、歸類和統(tǒng)計(jì)，從結(jié)構(gòu)上，對已有模式對比得出相似性報告。

（二）音樂創(chuàng)作的幾個層面

除了形式化、系統(tǒng)化的創(chuàng)作范式，必須重新思考有什么是在創(chuàng)作中不可或缺的。

筆者先以人工智能視角切入，機(jī)器學(xué)習(xí)中最為重要的環(huán)節(jié)就是對對象表征的提取與分類。此模式是對人類其中一種學(xué)習(xí)模式的總結(jié)，也是機(jī)器學(xué)習(xí)中最有效的學(xué)習(xí)模式。將事物轉(zhuǎn)化為形式，在形式層面將其分割，從而將一些具體的事物抽象為幾個關(guān)鍵概念，關(guān)鍵概念則組成了事物的形式。這與西方千年以來形而上的思維有著密切的聯(lián)系，所謂“知識”一定要經(jīng)過抽象的過程，將其總結(jié)為一個“一般的、普遍的、本質(zhì)的”概念，這樣的思想延續(xù)到了機(jī)器學(xué)習(xí)的領(lǐng)域。目前機(jī)器的“創(chuàng)作”過程用簡潔的話概括就是“抽其表象特征，分離、歸類后再進(jìn)行重組”。而如果站在形式主義以及音樂“自律論”的角度，音樂中的表象特征可以分為“音高、調(diào)式、調(diào)性、速度、時值、力度、和聲、復(fù)調(diào)、音色、織體、音樂結(jié)構(gòu)”等。很大程度上來說，過去幾百年的努力為人工智能音樂的崛起打下了堅(jiān)實(shí)的基礎(chǔ)。

而人類的音樂創(chuàng)作過程實(shí)際上與此并沒有太大的區(qū)別，主要可以分為三個階段：拼貼、重組、認(rèn)知結(jié)構(gòu)。最基本的創(chuàng)造力是拼貼，與拼貼音樂不同，這是一種單純的拼貼模式，即將一些成品裁剪開后進(jìn)行橫向和縱向上的拼貼。第二個階段是重組，與拼貼不同的是，重組將一些重要的概念事先進(jìn)行抽象，在此基礎(chǔ)上再將不同的概念重新組合。比如用梅西安有限移位調(diào)式的一種音高組織方式，搭配拉威爾的配器風(fēng)格，加上貝多芬式的奏鳴曲式結(jié)構(gòu)，便能形成一首新的樂曲。表象特征可以被更加細(xì)分，落實(shí)到某一個音高、節(jié)奏、結(jié)構(gòu)安排等。最后一點(diǎn)認(rèn)知結(jié)構(gòu)則是創(chuàng)作中最被忽視的一點(diǎn)，這引發(fā)了如下問題：當(dāng)不使用常用的一些音樂語言（包括音高、節(jié)奏、力度、時值、演奏法、表情等）時，如何認(rèn)識音樂？一種符號系統(tǒng)并不是簡單地形成共識或表達(dá)，更重要的是一個符號系統(tǒng)從根源上塑造了主體的認(rèn)知結(jié)構(gòu)，從此主體就在被建構(gòu)的認(rèn)知結(jié)構(gòu)壁壘中開展認(rèn)知活動。

在20世紀(jì)，每一種音樂形式的出現(xiàn)都具有一定認(rèn)知結(jié)構(gòu)擴(kuò)張的性質(zhì)，從而打破了原有的認(rèn)知壁壘。如在無調(diào)性音樂中，音樂并非只能是和諧的；在電子音樂中，音樂并非一定需要音高、節(jié)奏等詞匯描述；在人工智能音樂中，音樂的直接創(chuàng)作者也并非一定是人類。

在具體音樂誕生之初皮埃爾·舍費(fèi)爾（Pierre Schaeffer）曾經(jīng)說過：“過去的音樂很大程度上依賴一套固有的符號系統(tǒng)，所有人通過學(xué)習(xí)這一符號系統(tǒng)來參與音樂活動，創(chuàng)作或演奏，作曲家的作品在演奏家的‘翻譯之后才真正完成。但今天我們已經(jīng)有技術(shù)、有能力對聲音本身進(jìn)行記錄甚至編輯，作曲家也能夠直接控制音樂的最終呈現(xiàn)形態(tài)，我們還需要原來的那一套符號系統(tǒng)嗎？”①

舍費(fèi)爾是一位具體音樂的開創(chuàng)者、音響工程師，更是一位哲學(xué)愛好者，他在業(yè)余時間經(jīng)常參與一些哲學(xué)討論小組的活動。因此，他對我們固有的音樂認(rèn)識進(jìn)行了反思，雖然在之后的歷史進(jìn)程中并沒有得到進(jìn)一步的發(fā)展，但這樣的反思在電子音樂誕生之初無疑是革命性的。

人工智能對于人類認(rèn)知的挑戰(zhàn)是不言而喻的，它更像一面鏡子，讓我們可以透過它反思自己，什么是需要被堅(jiān)持的，什么是音樂創(chuàng)作中閃閃發(fā)光的。上文中也提到了“重組性”創(chuàng)作和“根源性”創(chuàng)作，筆者對于“重組性”創(chuàng)作已經(jīng)做了一定的論述，尤其是對其表象特征抽取與重組的部分，是人工智能音樂創(chuàng)作中極為重要的部分。但何為“根源性”創(chuàng)作？對此術(shù)語，有許多學(xué)者曾提及，卻并沒有明確的定義。當(dāng)人工智能參與到音樂創(chuàng)作中，會讓所謂的“根源性”創(chuàng)作浮現(xiàn)出來。對于一些重復(fù)性、系統(tǒng)化、標(biāo)準(zhǔn)化的勞動，將會不可避免地淡出人類的工作和創(chuàng)作范圍，人對于自我主體性的認(rèn)知也將被重新審視?，F(xiàn)今的人工智能在音樂創(chuàng)作中雖然只是起步階段，但在20世紀(jì)一眾思想家對主體性的批判以及對形而上學(xué)的解構(gòu)之后，已經(jīng)足以對人類引以為傲的主體性、理性等產(chǎn)生沖擊，并對以此構(gòu)建起來的、形而上理性主義的宏大敘事加以解構(gòu)。對于形式、自律的音樂，在未來是否還能煥發(fā)生機(jī)，筆者持懷疑態(tài)度。而從漢斯立克（Eduard Hanslick，1825—1904）到達(dá)爾豪斯（Carl Dahlhaus，1928—1989），再到近些年新音樂學(xué)與塔魯斯金（Richard Taruskin，1945—2022）的爭論也可以看出，20世紀(jì)也有向音樂他律性方向發(fā)展的趨勢，人工智能對音樂形式的把控必將成為音樂他律論學(xué)者的重要論點(diǎn)。

三、人工智能語境下如何進(jìn)行音樂創(chuàng)作

人工智能的音樂創(chuàng)作也是海德格爾（Martin Heidegger，1889—1976）所說的“顯隱二重性”②之體現(xiàn)，其產(chǎn)生的“作品”將不是單一或者單獨(dú)的，而是一系列符合此系統(tǒng)邏輯或規(guī)則的集合，因此也是其“存在”和“顯現(xiàn)”狀態(tài)的直觀呈現(xiàn)。聽眾在欣賞人工智能所創(chuàng)作的音樂時，實(shí)際上觀察到了其“解蔽”的狀態(tài)，但其背后是大“存在”的可能性集合，這是人工智能創(chuàng)作的一大特征。從馬爾可夫鏈開始到無監(jiān)督的SOM神經(jīng)網(wǎng)絡(luò)，在其“生成”的過程當(dāng)中必將產(chǎn)生一個集合而非一首精確的作品。因此這與過去的人類創(chuàng)作模式大不相同，同時也在人們所樂于談?wù)摰摹皶r間、空間”等維度之上又加入了一個新的維度——“可能性”。至此，人工智能也將音樂創(chuàng)作拋擲到一個新的維度當(dāng)中。也許“可能性”維度，也正是德勒茲所說的“差異與重復(fù)”①的最好體現(xiàn)。

人工智能創(chuàng)作的音樂與純?nèi)祟悇?chuàng)作的音樂形成了“斷裂”②，并生成了大量的“逃逸線”③，這一些新的“逃逸線”在形式上來說極其理性、系統(tǒng)化，但從種種其他方面來說都是混沌的。在混沌狀態(tài)中不論能否形成新的秩序，都將形成新的藝術(shù)、審美以及認(rèn)知結(jié)構(gòu)。人工智能音樂創(chuàng)作在削弱人類主體性的中心后，為后現(xiàn)代主義提倡的多元連接提供可能性，也為德勒茲（Gilles Louis Réné Deleuze，1925—1995）和瓜塔利（Félix Guattar）在《千高原》中所提出的根莖式的連接提供了可能④。

人類在人工智能語境下如何繼續(xù)創(chuàng)作，這將是一個重要的問題。也許接下來的創(chuàng)作應(yīng)如尼采（Friedrich Nietzsche，1844—1900）在《權(quán)利與意志》中所言，把握具體的事物而不是抽象概念；熱愛自己的身體，將藝術(shù)中的靈性發(fā)揮到極致而不是堆砌概念與符號。⑤人工智能音樂是對之前形式化的自律音樂的一種反思，從索緒爾（Ferdinand de Saussure，1857—1913）⑥提出符號學(xué)到鮑德里亞（Jean Baudrillard，1929—2007）⑦的擬象論，符號能不斷生成新的符號并產(chǎn)生新的價值與意義，但是這種無窮盡的發(fā)展卻可以在短時間內(nèi)被人工智能系統(tǒng)性把握。符號的意指作用是有規(guī)律的，也就是有邏輯的，但啟蒙運(yùn)動之后所信奉的理性和邏輯可能在未來背叛人類，甚至完全站在人工智能的立場上推進(jìn)其發(fā)展，其發(fā)展力度將以指數(shù)級超越人類。因此我們不妨從理性主義和科學(xué)樂觀主義的大潮中重新發(fā)覺一些被忽略的思想，比如哈曼（John George Hamann，1730—1788）、維科（Giambattista Vico，1668—1744）、斯賓諾莎（Baruch de Spinoza，1632—1677）、尼采、克羅齊（Benedetto Croce，1866—1952）、柏格森（Henri Bergson，1859—1941）等。

音樂創(chuàng)作除了滿足聽眾、滿足宏大敘事之外，也是滿足主體的途徑。在創(chuàng)作過程中所激發(fā)的快感和美感是其他認(rèn)知活動和生產(chǎn)活動中無法獲得的，對于真正熱愛音樂創(chuàng)作的人來說，人工智能的音樂創(chuàng)作并不能代替其主體創(chuàng)作，其過程就如同呼吸一樣平常。人工智能也許是一張濾網(wǎng)，滿足大多數(shù)聽眾基本音樂需求的同時，也留下一部分需要被自我創(chuàng)作過程所激發(fā)快感的作曲家。

2022年4月，OpenAI公司推出了視覺藝術(shù)創(chuàng)作的人工智能DALL·E 2，在視覺藝術(shù)生成上已經(jīng)實(shí)現(xiàn)了較為成功的應(yīng)用，其模式為將所需生成的圖像以文字的方式描述，人工智能就能自動生成多組符合文字描述的圖片。這一模式同樣也適用于音樂人工智能中，滿足多數(shù)人的音樂聆聽需求，使得大多數(shù)人并不需要接觸音樂中龐大的符號系統(tǒng)也能感受音樂生成所帶來的快感。

2022年6月，谷歌人工智能倫理研究的計(jì)算機(jī)科學(xué)博士布萊克·萊莫尼（Blake Lemonie）在網(wǎng)絡(luò)上公布了一段與谷歌自然語言處理（Natural Language Processing，簡稱NPL）機(jī)器人LaMDA（Language Model for Dialogue Applications）的對話，其中就人工智能與意識問題進(jìn)行了深入的交流，在LaMDA的回答中多次出現(xiàn)“意識”“自我”“靈魂”“冥想”等詞匯，并用許多人類詞匯來描述其感覺。單從語言形式上來說，人工智能只要將某些關(guān)鍵詞重組，就將我們搞得暈頭轉(zhuǎn)向，而人類本身社會活動中的意指作用是否一直在被曲解、利用并塑造自我呢？這也為音樂中的形式問題提供了新的思考方向。

2022年12月，ChatGPT的出現(xiàn)徹底掀起了又一次人工智能的熱潮，各類AIGC產(chǎn)品層出不窮。此次人工智能熱潮所針對的無疑是“創(chuàng)造力”，這也使得人類必須反思自身究竟是在“創(chuàng)造”還是“重組”。

結(jié) 語

綜上所述，人工智能音樂是藝術(shù)與科技相交融的結(jié)果，在其帶來巨大可能性的同時也衍生出大量的問題。創(chuàng)作主體的身份在人工智能音樂語境下變得模糊，使得人類中心主義受到威脅，因此固然會造成恐慌和抵觸。對于嚴(yán)肅音樂和學(xué)術(shù)音樂界，音樂中的理性、邏輯、結(jié)構(gòu)和秩序一直是追求的重要方向，但現(xiàn)如今人工智能音樂則是繼承了純理性的創(chuàng)作模式，甚至將其發(fā)揮到極致，直至形式大于內(nèi)容、形式脫離內(nèi)容的音樂創(chuàng)作。人工智能亦是一面鏡子，將極端理性的創(chuàng)作模式呈現(xiàn)在音樂家面前，使得作曲家有機(jī)會重新審視其自身的創(chuàng)作行為。

同時，人工智能應(yīng)用于音樂創(chuàng)作后，其應(yīng)用場景也是多樣的。應(yīng)用型的音樂人工智能將成為生產(chǎn)工具，讓作曲家原本投入音樂形式操作中的精力解放出來，不再被煩瑣的步驟困于如何“組織”聲音，而是投入到“如何”組織聲音中去。

◎本篇責(zé)任編輯錢芳

收稿日期：2023-03-01

基金項(xiàng)目：2021年上海音樂學(xué)院博士研究生科研課題“人工智能在音樂創(chuàng)作中的應(yīng)用”（DP2021014）。

作者簡介：程匯聰（1995— ），男，上海音樂學(xué)院2020級博士研究生（上海 200032）。

① 康德《判斷力批判》中提出“純粹美”和“依存美”的概念，純粹美是自由的美，指關(guān)乎形式而不受外部事物影響。詳見伊曼努爾·康德：《判斷力批判》，宗白華譯，商務(wù)印書館，2011。

② 輪廓理論，最早在彼得·基維1980年出版的《紋飾貝殼——關(guān)于音樂表現(xiàn)的反思》中出現(xiàn)，詳見Kivy Peter， The Corded Shell： Reflections on Musical Expression（Princeton： Princeton University Press， 1980）.

③ 與自律和他律相關(guān)的內(nèi)容，詳見于潤洋：《現(xiàn)代西方音樂哲學(xué)導(dǎo)論》，人民音樂出版社，2012，第1～91頁。

④ 與“符號學(xué)說”相關(guān)的內(nèi)容，詳見蘇珊·朗格：《情感與形式》，劉大基、傅志強(qiáng)譯，中國社會科學(xué)出版社，1986。

⑤ 自組織映射神經(jīng)網(wǎng)絡(luò)是一種無監(jiān)督的人工神經(jīng)網(wǎng)絡(luò)。

⑥ BP（back propagation）神經(jīng)網(wǎng)絡(luò)是1986年由以魯姆哈特（David Rumelhart）和麥克萊蘭（James L. McClelland）為首的科學(xué)家提出的概念，這是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)，也是應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。

⑦ 馬爾可夫鏈（Markov Chain，簡稱MC）是概率論和數(shù)理統(tǒng)計(jì)中具有馬爾可夫性質(zhì)（Markov property）且存在于離散的指數(shù)集（index set）和狀態(tài)空間（state space）內(nèi)的隨機(jī)過程（stochastic process）。

⑧ 與抽象概念相關(guān)的內(nèi)容，詳見蘇珊·朗格：《情感與形式》。

① 循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，簡稱RNN）是一類以序列（sequence）數(shù)據(jù)為輸入，在序列的演進(jìn)方向進(jìn)行遞歸（recursion），且所有節(jié)點(diǎn)（循環(huán)單元）按鏈?zhǔn)竭B接的遞歸神經(jīng)網(wǎng)絡(luò)（recursive neural network）。

② 長短期記憶人工神經(jīng)網(wǎng)絡(luò)（Long Short-Term Memory，簡稱LSTM）是一種時間循環(huán)神經(jīng)網(wǎng)絡(luò)，是為了解決一般的RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)）存在的長期依賴問題而專門設(shè)計(jì)出來的，所有的RNN都具有一種重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)叫问健?/p>

① 馬克思·韋伯是法蘭克福學(xué)派的代表人物。

② 馬克思·韋伯在其著作《學(xué)術(shù)與政治》中將人類的認(rèn)識分為工具理性和價值理性，在資本主義擴(kuò)張的同時，工具理性被強(qiáng)調(diào)，更多的是用理性判斷對與不對的標(biāo)準(zhǔn)，其所對應(yīng)的是以成本、收益、效率等詞語構(gòu)建出的一種評價體系。詳見（德）馬克思·韋伯：《學(xué)術(shù)與政治》，馮克利譯，商務(wù)印書館，2019。

③ 康德在《判斷力批判》中主要探討的問題“審美判斷力批判”與“目的判斷力批判”，本文中指的主要是第一部分“審美判斷力批判”中的內(nèi)容，主要為美和崇高的范疇。

① Harmonia，原意為哈爾摩尼亞，是希臘神話中的女神，象征著和諧與協(xié)調(diào)，因此筆者在此譯為“和諧”。

① 皮埃爾·舍費(fèi)爾，具體音樂開創(chuàng)者，1948年提出具體音樂的概念，利用真實(shí)記錄聲音、編輯聲音的方式創(chuàng)作音樂，1951年創(chuàng)立了GRMC。與如今法國的IRCAM不同，IRCAM所奉行的是布列茲的音樂理念，音樂的現(xiàn)場演出是極為重要的，布列茲為此也寫了不少文章攻擊舍費(fèi)爾，而舍費(fèi)爾所主張的是作曲家或者創(chuàng)作者能夠直接控制最終音樂呈現(xiàn)的形態(tài)，并直接通過錄音帶記錄、保存下來。在蒂姆·霍金森（Tim Hodgkinson）對他的訪談中，舍費(fèi)爾詳細(xì)講述了自己的創(chuàng)作理念，該訪談首次發(fā)表于1987年，見See Tim Hodgkinson，? “An interview with Pierre Schaeffer - pioneer of Musique Concrète”， Recommended Records Quarterly Magazine， 1987， Vol. 2， No.1。

② 海德格爾在《存在與時間》中逐漸開始關(guān)注“存在”與“存在者”的區(qū)別，提出“此在”的概念，后期哲學(xué)逐漸開始強(qiáng)調(diào)存在的顯隱二重性，在其《林中路》中，第一篇為藝術(shù)作品的本源，就深入討論了作品的“物”的特征，及其存在的狀態(tài)，以及藝術(shù)家創(chuàng)作作品為真理的置入。詳見馬丁·海德格爾：《林中路》，孫周興譯，商務(wù)印書館，2015。

① 德勒茲在《差異與重復(fù)》中結(jié)合了德里達(dá)、?？律踔潦悄岵傻乃枷?，關(guān)注到本體的變化問題，本體如何隨著時間推移而變化，通過一種新的方式理解特定事物如何演變成新事物。德勒茲認(rèn)為事物之間的空間和差異為新事物的誕生創(chuàng)造了可能性。詳見吉爾·德勒茲：《差異與重復(fù)》，安靖、張子岳譯，華東師范大學(xué)出版社，2019，第7～55頁。

② 德勒茲在《千高原》中提到，無調(diào)性音樂與調(diào)性音樂只是一種表層的斷裂。詳見吉爾·德勒茲、費(fèi)利克斯·加塔利：《千高原》，姜宇輝譯，上海書店出版社，2010，第129～130頁。

③ 德勒茲在《千高原》中提到，斷裂之處會產(chǎn)生逃逸線，源發(fā)出一種混沌的狀態(tài)，將是創(chuàng)造力重新閃耀的時機(jī)。同上書，第10～14頁。

④ 德勒茲在《千高原》中提出的根莖式的分布，在于多點(diǎn)與多點(diǎn)的多元連接，也是一個徹底去中心化的模型，多元不再是一對多的樹狀譜系，而是多對多的任意連接。同上書，第8～10頁。

⑤ 尼采在《權(quán)利意志》中不斷強(qiáng)調(diào)，過去所謂的“真理”，是一個簡化的對事物的認(rèn)識，以一個簡單的概念框定事物的范疇，卻忽略了事物本身所具有的內(nèi)在豐富性。詳見弗里德里?！つ岵桑骸稒?quán)力意志》，孫周興譯，上海人民出版社，2018，第32頁。

⑥ 索緒爾，語言學(xué)家，符號學(xué)創(chuàng)始人之一，也是結(jié)構(gòu)主義的創(chuàng)始人之一，將語言學(xué)帶入到了哲學(xué)界并對20世紀(jì)哲學(xué)界、思想界甚至音樂界都產(chǎn)生了巨大的影響，他提出語言是言語活動中的社會部分，強(qiáng)調(diào)符號的社會意義和意指作用。

⑦ 鮑德里亞提出了擬象的概念，在虛擬的、網(wǎng)絡(luò)壟斷的世界中符號不再指向?qū)嶓w而是指向另一個符號，他在《為何一切尚未消失？》中說到，“的確，主體——作為意志、自由、表征之決策體（instance）的主體和權(quán)力、知識、歷史的主體——已經(jīng)消失，留下了他的幽靈和他那自戀的復(fù)本”。詳見讓·鮑德里亞：《為何一切尚未消失？》，張曉明譯，南京大學(xué)出版社，2017，第70頁。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

人工智能在音樂創(chuàng)作中的應(yīng)用