黃宗權(quán)
“人工智能”(Artificial Intelligence,AI)這一概念誕生于1956年在美國達特茅斯召開的“人工智能夏季研討會”(Summer Research Project on Artificial Intelligence)。不過,當(dāng)時的參會者并沒有就該術(shù)語的界定達成共識,與會者更多是關(guān)注如何用機器來模擬人的智能?,F(xiàn)在學(xué)界普遍認可的界定是科學(xué)家帕特里克·溫斯頓(Patrick Winston)的抽象定義:“人工智能是對計算的研究,以實現(xiàn)感知、推理和行動。”(1)Patrick Henry Winston,Artificial Intelligence,Boston:Addison-Wesley Publishing Company,1992,p.5.
在音樂人工智能領(lǐng)域,被譽為人工智能之父的麻省理工學(xué)院教授馬文·明斯基(Marvin Minsky,1927-2016)(他也是達特茅斯會議的發(fā)起者之一),早年寫過一本重要著作《音樂·意識·意義》(Music,Mind,andMeaning),在書中探討了“我們?yōu)槭裁磿矚g音樂,以及這種‘喜歡’自身的本質(zhì)是什么?”(2)Marvin Minsky,“Music,Mind,and Meaning”,Computer Music Journal,vol.5,No.3,1981,pp.28-44.等問題。
隨著計算機的算力以及數(shù)據(jù)量的指數(shù)級增長,人工智能在音樂領(lǐng)域取得了重大進展,它正迅速成為音樂創(chuàng)作、音樂分析、音樂推薦、音樂信息檢索的重要工具,并以驚人的速度改變我們的創(chuàng)作和欣賞音樂的方式。在音樂表演領(lǐng)域,一些“自動”演奏的系統(tǒng)被不斷開發(fā)出來,另一些研究開始利用人工智能的機器學(xué)習(xí)來進行音樂和舞蹈的交互式表演。(3)Baptiste Caramiaux,Marco Donnarumma,Artificial Intelligence in Music and Performance:A Subjective Art-Research Inquiry,arXiv 15843,2007.
人工智能技術(shù)的潛力及在音樂領(lǐng)域一日千里的快速發(fā)展,讓人們開始思考:音樂人工智能有真正的音樂智慧、音樂理解力、音樂創(chuàng)作力和音樂表演能力嗎?它們是否會有美感經(jīng)驗、情感理解和審美表達?人的音樂實踐有哪些是可以被人工智能取代,哪些不能被取代?這些問題顯然不僅是科學(xué)或技術(shù)問題,更是哲學(xué)和美學(xué)問題。人工智能對人類感性經(jīng)驗領(lǐng)域的“挑戰(zhàn)”,切中了人類主體性的核心要旨,對這些問題進行探究,就必須從哲學(xué)、美學(xué)的維度對音樂創(chuàng)作和表演行為中的意識、主體性、情感、審美認知等問題進行審思。
音樂人工智能的發(fā)展建基在人工智能技術(shù)的整體發(fā)展之上。人工智能技術(shù)的發(fā)展,從20世紀50年代起,大致經(jīng)歷了三個階段:第一個階段為推理期(Logic Reasoning,1956-1960),其實質(zhì)是定理自動證明系統(tǒng),功能以做數(shù)學(xué)運算和推理、證明數(shù)學(xué)公式為主,如西蒙(Herbert A.Simon)和紐厄爾(A.Newell)等人創(chuàng)建的“邏輯理論家”系統(tǒng)(Logic Theorist)。到了20世紀80年代末,以數(shù)理邏輯為基礎(chǔ)的人工智能走到了盡頭。第二階段為知識期(Knowledge Egineering,1970-1980),這一階段的主要研究方向是把人類掌握的知識總結(jié)起來以編碼的方式“教會”機器,即所謂的“專家系統(tǒng)”,如菲根鮑姆(Feigenbaum)等人創(chuàng)建的DENDRAL系統(tǒng)。在這個階段,研究人員最終發(fā)現(xiàn),把知識總結(jié)出來,教給機器其實非常困難。這不僅是因為人類的知識不太容易被總結(jié)和編碼,更因為人類有大量的“默會知識”(Tacit Knowledge,也譯為“隱性知識”)無法被總結(jié)和編碼。第三階段為學(xué)習(xí)期(20世紀90年代至今),這一時期研究的出發(fā)點是讓計算機系統(tǒng)“自我”學(xué)習(xí)。顯然,由于音樂藝術(shù)的特殊性和復(fù)雜性,在前兩個階段,音樂人工智能是無法取得實質(zhì)性突破的。
在第三個階段學(xué)習(xí)期,機器學(xué)習(xí)(Machine Learning,ML)或深度學(xué)習(xí)(Deep Learning,DL)成為了人工智能發(fā)展的主流。所謂的“機器學(xué)習(xí)”,就是“通過算法,使得機器能從大量既有數(shù)據(jù)中學(xué)習(xí)規(guī)律,從而對新的樣本做智能識別或?qū)ξ磥碜龀鲱A(yù)測”(4)余凱等:《深度學(xué)習(xí)的昨天、今天和明天》,《計算機研究與發(fā)展》,2013年,第9期,第1799—1804頁。?!吧疃葘W(xué)習(xí)”是一種基于人工神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)技術(shù),人工神經(jīng)網(wǎng)絡(luò)仿照生物神經(jīng)系統(tǒng)工作原理的計算模型,通過多個人工神經(jīng)元之間的連接和信息傳遞,模擬人類大腦的感知、思維和決策等過程。(5)孫志軍、薛磊等:《深度學(xué)習(xí)研究綜述》,《計算機應(yīng)用研究》,2012年,第29(08)卷,第2806—2810頁。深度學(xué)習(xí)屬于機器學(xué)習(xí)的一個分支,二者的主要區(qū)別在于數(shù)據(jù)的分析方法。前者依賴算法和大量的數(shù)據(jù),后者則是以人腦為模型的人工神經(jīng)網(wǎng)絡(luò)。
基于不同的技術(shù)路線,機器學(xué)習(xí)大致可以分為五大“流派”:符號主義(Symbolists)、聯(lián)結(jié)主義(Connectionist)、貝葉斯派(Bayesians)、進化主義(Evolutionaries)、行為類比主義(Analogizer),這些流派采用不同的算法來模仿人類思維、人體“硬件”(神經(jīng)系統(tǒng))和人類行為,使機器從數(shù)據(jù)中自動學(xué)習(xí),做出預(yù)測和決策。
機器學(xué)習(xí)的興起使得廣義上的聲音創(chuàng)造面臨一場革命。機器學(xué)習(xí)和深度學(xué)習(xí)為音樂人工智能帶來了各種新技術(shù)。這些新技術(shù)被應(yīng)用于從作曲、表演到音樂研究等不同的場景中。
現(xiàn)有人工智能不論采用何種技術(shù)模式,讓機器學(xué)習(xí)的過程實質(zhì)都可以分為三步:訓(xùn)練、預(yù)測和反饋。“訓(xùn)練”是向人工智能輸入大量的數(shù)據(jù)(訓(xùn)練集),并給出希望它做什么的指示,以使人工智能從大量的數(shù)據(jù)中提煉出特定的模式?!邦A(yù)測”是人工智能根據(jù)不同的模式,在不同的場景下,預(yù)測可能會發(fā)生何種狀況,以及如何采取應(yīng)對措施,以產(chǎn)生一定的結(jié)果?!胺答仭笔菍θ斯ぶ悄墚a(chǎn)生的結(jié)果提供評價,讓人工智能不斷修正、提升,然后進入下一個新的循環(huán)。相對應(yīng)的音樂創(chuàng)作過程也大致分為三個步驟:(1)分析音樂(把大量的既有作品作為數(shù)據(jù)加以分析,分解成“模式-部件”)。(2)把分解的“模式-部件”進行相似性的計算、歸類。(3)根據(jù)設(shè)定的算法,把“模式-部件”重組,以生成新的音樂作品。
在人工智能技術(shù)的基礎(chǔ)上,在音樂創(chuàng)作領(lǐng)域產(chǎn)生了各類算法作曲(Algorithmic Composition),也即,采用計算機算法來生成音樂的技術(shù)。其主要的技術(shù)類型有:(1)音樂規(guī)則系統(tǒng)(Rule-Based Systems),根據(jù)預(yù)先定義的音樂理論規(guī)則(如,根據(jù)已有作品的和聲規(guī)則、旋律規(guī)則和節(jié)奏規(guī)則)等來生成新的音樂作品。(2)人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN),使用人工搭建神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)音樂數(shù)據(jù)的特征,并根據(jù)學(xué)到的特征生成新的音樂。常見的神經(jīng)網(wǎng)絡(luò)類型包括循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短時記憶網(wǎng)絡(luò)(LSTM)和變分自編碼器(VAE)等。(3)遺傳算法(Genetic Algorithms,GA),模擬自然界中的進化過程,通過對音樂片段進行變異、交叉和選擇等操作,以生成新的音樂作品。(4)馬爾可夫鏈(Markov Chains),基于概率模型,通過分析音樂數(shù)據(jù)中的狀態(tài)轉(zhuǎn)移概率來生成新的音樂序列。(5)交互式作曲(Interactive Composition),將人類音樂家的創(chuàng)作過程與計算機算法相結(jié)合,實現(xiàn)人機協(xié)作的音樂創(chuàng)作方式。此外,還有隨機生成(Random Generation)等算法,不再一一贅述。
不同的算法和音樂結(jié)合開辟了音樂人工智能的新型應(yīng)用。音樂人工智能可以分析特定的音樂流派、節(jié)奏、模式和旋律,并利用這些信息創(chuàng)作新的音樂作品。比如,音樂形式語法使分析和編寫音樂過程的規(guī)則形式化,它能通過研究巴赫作品的和聲規(guī)則,進而輔助創(chuàng)作新的作品。(6)Salim Perchy,Gerardo Sarria,“Musical Composition with Stochastic Context-Free Grammar”,in Proceedings of 8th Mexican International Conference on Artificial Intelligence (MICAI),November,2009,pp.1-12.音樂人工智能還能模擬民間傳統(tǒng)音樂的創(chuàng)作。比如,希普拉·舒克拉(Shipra Shukla)、海德爾·班卡(Haider Banka)基于馬爾可夫的遺傳算法,探索模擬印度古典音樂的創(chuàng)作。(7)Shipra Shukla,Haider Banka,“Markov-Based Genetic Algorithm with ∈-Greedy Exploration for Indian Classical Music Composition”,Expert Systems with Applications,vol.211,No.118561,2023.
一些音樂家與工程師合作采用組合系統(tǒng),語法,概率和分形(Fractals)來創(chuàng)作一些不再是模仿經(jīng)典名作的新音樂作品。比如,遵循進化算法(Evolutionary Algorithm)程序來使音樂各種要素(旋律、節(jié)奏、和聲等)“進化”。通過各種要素的交叉、組合、突變等一系列操作來讓音樂“進化”成特定的作品。法籍作曲澤納基斯(Iannis Xenakis)的幾部代表作(Metaux,Anaktoria和Terretektorh)等就是根據(jù)數(shù)學(xué)模型來創(chuàng)作的。
此外,研究者們還采用概率語法(Probabilistic Grammars)來分析音樂作品的模型化結(jié)構(gòu)(8)S.Abdallah,N.Gold,A.Marsden,“Analysing Symbolic Music with Probabilistic Grammar”,in D.Meredith(eds)Computational Music Analysis,Springer:Basel,2016,pp.157-189;Donya Quick,“Learning Production Probabilities for Musical Grammars”,Journal of New Music Research,45(4),2016,pp.295-313.、基于馬爾可夫鏈通過在線的“語法歸納生成器”(Grammatical Induction Generator)來即興創(chuàng)作音樂等(9)K.M.Kitani,H.Koike,“Improve Generator:Online Grammatical Induction for on-the-Fly Improvisation Accompaniment”,in Proceedings of 10th Conference on New Interfaces for Musical Expression (NIME),Sydney,Australia,15-18 June 2010,pp.469-472.。
這些通過算法作曲產(chǎn)生的音樂作品的藝術(shù)品質(zhì)如何?2023年,一項基于評估比較的研究得出的結(jié)論認為:“任何算法方法與人類創(chuàng)作的音樂之間仍然存在顯著差距?!?10)Z.Yin,F(xiàn).Reuben,S.Stepney,et al,“Deep Learning’s Shallow Gains:A Comparative Evaluation of Algorithms for Automatic Music Generation”,Machine Learning,2023,pp.1785-1822.不過,突飛猛進的音樂人工智能所顯示出的令人震驚的音樂“創(chuàng)作”能力,還是讓人們禁不住思考,音樂人工智能是否可以創(chuàng)作出“全新”的音樂作品來?這里所謂的“全新”,指的是計算系統(tǒng)不是采用某種一開始就嵌入的特定作曲模型,也不是在選定的幾個作品中進行分析、重組基礎(chǔ)上生成新的音樂作品,而是像人類一樣“無中生有”,創(chuàng)作出與既有作品沒有關(guān)聯(lián)的獨立的音樂作品。人們開始思考,音樂人工智能是否可以不依賴“人工”,而獨立具有“智能”,從而創(chuàng)造新的風(fēng)格或音樂樣式?能否通過音樂表達特定的情感?
之所以圍繞這些問題會產(chǎn)生一些爭論,是因為:一方面,人工智能表現(xiàn)出了令人驚詫的“音樂才能”;而另一方面,現(xiàn)有人工智能在音樂實踐中的局限又是顯而易見的。這種局限表現(xiàn)在其所有訓(xùn)練集的來源均來自既有的數(shù)字化信息(音樂數(shù)據(jù)),而與真實的人類生活世界沒有直接交集。它依賴于特定的算法或數(shù)理邏輯。人們可以理解現(xiàn)有音樂人工智能的不足,將其視為新事物的初始發(fā)展階段,但音樂人工智能在將來是否能突破臨界點而具有獨立創(chuàng)作的能力?音樂人工智能可以取代藝術(shù)家嗎?這些問題并不容易給出簡單的答案。
筆者認為,基于音樂在創(chuàng)作、表演方面的特殊性,在現(xiàn)有技術(shù)條件下,音樂人工智能要實現(xiàn)獨立創(chuàng)作或取代藝術(shù)家,所面臨的挑戰(zhàn)是巨大的。從哲學(xué)(美學(xué))的角度看,音樂人工智能至少要面臨下文所論述的幾方面的問題。這并不是說,人工智能只要解決了這些問題,就能實現(xiàn)對人類的取代,而是說,這些問題如果無法得到根本性的突破,音樂人工智能將有極大可能在經(jīng)過一個階段的快速發(fā)展之后,陷入平臺期。
麥卡錫(J.McCarthy)是當(dāng)年達特茅斯人工智能“會議宣言”的主筆,這位著名的人工智能先驅(qū),在會議倡議書的開篇,寫下了一句著名的論斷:“本研究基于這樣一種推測,即,學(xué)習(xí)的每一個方面或智能的任何其他特征,原則上都可以如此精確地被描述,以至于可以制造一臺機器來模擬它?!?11)Minsky Marvin,Rochester Nathaniel,Claude E.Shannon and McCarthy John,“A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence,August 31,1955”,AI Magazine,27(4),2006,p.12.當(dāng)時與會的人工智能的先行者們都樂觀地認為,人腦的思維是有可能在人腦以外產(chǎn)生的。在他們看來,只要揭開大腦神經(jīng)網(wǎng)絡(luò)背后的秘密,人類就可以構(gòu)建出一個類似于人腦的電子大腦。
然而,現(xiàn)在看來,麥卡錫們當(dāng)年的假設(shè)更像一個美好的愿望。迄今為止,人的智能活動尚未被“精確地描述出來”也未能實現(xiàn)“以一部機器來模擬它”。其困難在于,人類的智能活動還有許多謎題未被解開。在哲學(xué)上,人類的思維過程至今存在許多“難以理解的事情”。比如,“意識難題”(The Hard Problem of Consciousness),也即,我們很難搞清楚人類意識究竟是什么,它是怎么產(chǎn)生的,又是如何起作用的。因此,也就難以把它清楚地描述出來,并讓機器模擬這一過程。
如前文所提及的,在人類的思維過程和日常經(jīng)驗中,存在大量的“默會知識”。這個概念由匈牙利哲學(xué)家邁克爾·波拉尼(Michael Polanyi)首先提出,所以也被后世稱為“波拉尼悖論”(Polanyi’s Paradox)(12)M.Polanyi,“Tacit Knowing:Its Bearing on Some Problems of Philosophy”,Reviews of Modern Physics,34 (4),1962,pp.601-616.。其表達的核心命題是:人類所知遠勝于其所能言傳。這一理念深刻地指出了有很多知識是我們無法借用語言等符號表意系統(tǒng)來闡釋清楚的,也自然無法傳授給人工智能。
具體說來,默會知識通常是指體現(xiàn)在人類的行為、經(jīng)驗和直覺中,難以用語言或符號表達的知識或技能。它與潛意識和非語言的感知、理解密切相關(guān)。它在人的文化和社交環(huán)境中發(fā)揮著關(guān)鍵作用。波拉尼還認為,默會知識是人類理解世界的基礎(chǔ),是大多數(shù)經(jīng)驗(例如技能、直覺、經(jīng)驗和經(jīng)常性的常識(13)同注②。)的本質(zhì),“技術(shù)規(guī)則可以是有用的,但它們并不能決定藝術(shù)實踐;它們只是可以作為藝術(shù)實踐中的一種指導(dǎo)原則,前提是它們能夠被融合到藝術(shù)實踐的實際知識中。它們無法取代這種知識”(14)M.Polanyi,Personal knowledge:Towards a Post-Critical Philosophy,Chicago:University of Chicago Press,1958,p.52.。
從現(xiàn)有技術(shù)條件來看,人工智能(機器)建立的機械化和自動化過程,是一種將知識顯性化、符號化的過程。以外顯符號表征的方式使之成為人工智能可識別的數(shù)據(jù)結(jié)構(gòu)。比如,要讓一臺機器完成圖像識別的任務(wù),必須將圖像掃描、認讀、對照、識別等過程的每個步驟都設(shè)定清楚,才能編寫程序讓機器來執(zhí)行。可以說,使知識顯性化(可表述化)是機器計算的重要前提。然而,音樂的創(chuàng)作和表演卻是一種典型的內(nèi)隱(implicit)知識(技能),它極其難以被顯性化,也因此難以真正地傳授給人工智能。
而且音樂的一個重要特點是,它不具有統(tǒng)一普遍的“規(guī)范”。音樂的邊界往往取決于文化傳統(tǒng)中的“習(xí)俗慣例”或“慣例實踐”(Customary Practice)。音樂藝術(shù)總是會呈現(xiàn)出某一種特定的文化結(jié)構(gòu)要素,體現(xiàn)出某種文化傳統(tǒng)和文化實踐的特征。也即,音樂是一個具有廣闊外延的能指,它囊括了不同文化語境下的音樂形態(tài),而不可能只有一種單一的特征。
包括音樂在內(nèi)的藝術(shù)領(lǐng)域存在的這種一個能指對應(yīng)多個所指的現(xiàn)象,不僅存在于不同的文化傳統(tǒng)當(dāng)中,也存在于不同時代的藝術(shù)作品中。哲學(xué)家丹托所說的“藝術(shù)界”(Art World)就試圖解釋藝術(shù)外延的邊界問題:“把某件物品看作是藝術(shù)作品,需要某種眼睛無法看到的東西——一種藝術(shù)理論的氛圍,一種藝術(shù)史知識:這就是藝術(shù)界?!?15)Arthur C.Danto,“Art World”,in Carolyn Korsmeyer ed.,Aesthetics:The Big Questions,Cambridge:Wiley-Blackwell,1998,p.40.也就是說,在現(xiàn)實生活中,一個“物件”是否成為“藝術(shù)作品”,在一定程度上不是取決于這個物件本身,而是取決于以什么樣的眼光來看待它,或人們賦予了它什么樣的意味。
哲學(xué)家波普爾也指出,藝術(shù)屬于“世界3”的范疇。即,藝術(shù)屬于知識和信息世界,具有非客觀世界的一些屬性(比如價值觀、信仰等),它區(qū)別于物理世界(客觀世界)、精神世界(主觀世界),藝術(shù)是人類對客觀世界和主觀世界的理解和解釋?!笆澜?”屬于“人類心靈產(chǎn)物的世界。例如語言、傳說、故事與宗教神話;科學(xué)猜想或理論以及數(shù)學(xué)建構(gòu);歌曲和交響曲;繪畫和雕塑?!覀兛梢詤^(qū)分科學(xué)世界和虛構(gòu)世界、音樂世界和美術(shù)世界以及工程的世界,……人類心靈產(chǎn)物的世界”(16)〔英〕卡爾·波普爾:《通過知識獲得解放》,范景中、李本正譯,杭州:中國美術(shù)學(xué)院出版社,1996 年,第 365—366頁。?!笆澜?”是人類創(chuàng)造的而非虛構(gòu)之物,它們具有實在性、自主性。波普爾的這一理念,是強調(diào)“從關(guān)注藝術(shù)作品的審美相關(guān)屬性,轉(zhuǎn)而去關(guān)注藝術(shù)作品的社會語境;沒有這一社會語境,藝術(shù)作品就不可能擁有和呈現(xiàn)出那些與審美相關(guān)的屬性”(17)〔新西蘭〕史蒂芬·戴維斯:《藝術(shù)諸定義》,韓振華、趙娟譯,南京:南京大學(xué)出版社,2014年,第161頁。。
這些哲學(xué)思考實質(zhì)是厘清藝術(shù)品的重要特質(zhì),即,在人類社會生活中,包括音樂在內(nèi)的藝術(shù)不僅是一個物理意義上的“物件”,而是具有特定的精神意味和意義指向。比如,一首音樂作品,絕不只是一些聲音的組合,而是蘊含了人的情感訴求和價值追求。這些音響之外的“意義”屬于難以被顯性化的默會知識。
然而,與人類在社會生活中逐步積累的知識經(jīng)驗不同,人工智能的很多“知識”是從數(shù)據(jù)獲取的。人工智能既無法理解默會知識,也不是發(fā)自“內(nèi)心”感受(或意識)到這些默會知識。人工智能并沒有內(nèi)在的情感模型和價值體系,也沒有社會屬性。由此,藝術(shù)品具有的“世界3”的特性,在人工智能這里就消失了。從現(xiàn)狀來看,人工智能的數(shù)理邏輯無法完成如同人類的那樣的思維過程(諸如意識等),人工智能對音樂藝術(shù)的“理解”,也無法像人類那樣導(dǎo)向獨立的精神性。
《樂記》的開篇這樣說道:“凡音之起,由人心生也。人心之動,物使之然也。感于物而動,故形于聲。聲相應(yīng),故生變,變成方,謂之音。”(18)蔡仲德:《中國音樂美學(xué)史資料譯注(上)》,北京:人民音樂出版社,1990年,第225頁。中國的古人很早就意識到,音樂是情感的藝術(shù),情感是音樂的第一源動力。在西方文化中,藝術(shù)家的藝術(shù)創(chuàng)作很大程度上是為了表達自我情感和對外在世界產(chǎn)生的情感。如巴迪歐(Alain Badiou)在《當(dāng)代藝術(shù)十五論》(FifteenThesesonContemporaryArt)之三所說的:“藝術(shù)是真理的過程,這個真理總是感性或感官的真理?!?19)Alain Badiou,“Fifteen Theses on Contemporary”,Art Performance Research,9(4),2004,p.86.這里的“感性”指的是對現(xiàn)實的形式美的感知和理解,其重要部分是人與世界之間的情感聯(lián)系。
由于情感的重要性和獨特性,情感識別與表達也成為人工智能領(lǐng)域的重要問題。由此產(chǎn)生了“情感計算”(Affective Computing)這一新興領(lǐng)域。其主要的研究路徑是開發(fā)可靠的算法,采用多模態(tài)(Multi-Modal)的識別方式,即,采用視頻、音頻、圖像、語音、生理信號等多種數(shù)據(jù),來進行面部表情識別、語音識別、心率監(jiān)測等等,試圖解決人工智能識別、解釋和表達情感的問題,并在此基礎(chǔ)上讓人工智能理解人類的行為和心理狀態(tài)。
情感計算的產(chǎn)生和這樣一種理論觀點有關(guān),即,認為人類的情感可以被認為是由主觀體驗(Subjective Experience)(20)L.Leahu,S.Schwenk,P.Sengers,“Subjective Objectivity:Negotiating Emotional Meaning”,in Johann,G.Marsden ed.,Designing Interactive Systems,New York:ACM Press,2008,pp.425-434.、外部表現(xiàn)(Emotion)(21)H.Binali,V.Potdar,“Emotion Detection State of the Art”,in V.Potdar ed.,Proc.of the Cube Int’l Information Technology Conf,New York:ACM Press,2012,pp.501-507.、以及生理喚醒(Physical Arousal)(22)L.Ashbarry,B.Geelan,K.D.Salas,L.Lewis,“Blood and Violence:Exploring the Impact of Gore in Violent Video Games”,in Proc.of the Symp.on Computer-Human Interaction in Play,New York:ACM Press,2016,pp.44-52.三個核心要素組成的,分別對應(yīng)三個方面:(1)個體對不同情感狀態(tài)的自我感受;(2)表情狀態(tài),即面部表情、姿態(tài)表情、語調(diào)表情、音樂表情(音調(diào)、節(jié)奏、速度等)的變化;(3)情感產(chǎn)生的生理反應(yīng),是一種生理的激活水平,具有不同的反應(yīng)模式。
情感的識別和表達對于信息的交流和理解是必不可少的,這也是人類最大的心理需求之一。人類的認知、行為均受到情感的驅(qū)動,并影響著人際互動以及群體活動。人工智能最早的先行者們,也意識到了人工智能研究必須進行情感問題的探求。馬文·明斯基始終認為情感是機器實現(xiàn)智能不可或缺的能力。在《心智會社》(TheSocietyofMind)中提出智能機器的情感問題之后,(23)M.Minsky,The Society of Mind,New York:Simon &Schuster,1986.他在《音樂·意識·意義》一書里,也探究了音樂的情感認知問題,思考了規(guī)則性韻律和主題重復(fù)是如何影響情感表征框架(Representation Frames)和記憶結(jié)構(gòu)的,樂句及音樂表達又是如何喚起情感反應(yīng)的。(24)M.Minsky,“Music,Mind,and Meaning” (1981),Reprinted in S.M.Schwanauer and D.A.Levitt ed.,Machine Models of Music,Massachusetts:The MIT Press,1993,pp.327-354.
與其他藝術(shù)形式不同,音樂的情感在創(chuàng)作和欣賞中占據(jù)著重要地位,音樂也是所有藝術(shù)中,最善于傳達情感的。音樂作品傳遞的并不是簡單的聲音信息,而是包括了音樂家凝結(jié)在其中的情感。在音樂的表演實踐中,音樂則承載著表演者的情感經(jīng)驗。如果人工智能無法具有情感、無法表達情感,那就無法像人類那樣創(chuàng)作真正的足以表達內(nèi)在情感的音樂作品。如果一個智能體沒有主觀的價值、沒有主觀的情感感知,它就只能停留在表面的聲音處理,也就不可能達到與觀者(聽眾)產(chǎn)生深層的情感共鳴,也就無法通過音樂表演行為對音樂作品賦予可理解的意義。
那么,是否可以通過算法的改進、算力的提升和海量的數(shù)據(jù)來解決情感計算的問題,以使音樂人工智能可以識別、表達情感呢?從理論上來說并非不可能。其難點在于情感表現(xiàn)出來的可感特征與情感的真實狀態(tài)之間具有模糊性和不確定性。
從主觀方面看,情感屬于主觀意識的范疇。情感的表現(xiàn)形式具有高度的主觀隨意性、變化的隨機性、特征模糊性以及個體差異性,所以很難確定某種表情或聲音狀態(tài)與特定的情感狀態(tài)具有一成不變的對應(yīng)關(guān)系。某人表現(xiàn)出泣不成聲的情感狀態(tài),有可能是痛哭流涕,也有可能是喜極而泣,還有可能是悲欣交集。
從客觀方面看,在音樂的音響中,情感和音樂的聲響之間并非簡單絕對的一一對應(yīng)關(guān)系。即,很難說某一(類)特定的音符(或音符組合)與復(fù)雜的、微妙的、不可言傳的情緒(情感)之間具有確定的、必然的對應(yīng)關(guān)系。因此,也就很難用數(shù)學(xué)的方法來對情感進行賦值,或建立數(shù)據(jù)化的模式。也正因為此,人工智能領(lǐng)域?qū)η楦杏嬎愦嬖谝恍幾h,有些研究者甚至認為“情感計算”是一個錯誤的研究方向,因為“它沒有揭示情感的本質(zhì)及內(nèi)在邏輯程序,并且把情感的外部表現(xiàn)方式當(dāng)作情感本身”(25)仇德輝:《情感機器人:人工情感的邏輯框圖與深度算法》,北京:臺海出版社,2018年,第47頁。。
在音樂人工智能與情感表達的問題上,阿迪亞沙·達什(Adyasha Dash)等人的最新研究表明,“基于人工智能的情感音樂生成系統(tǒng)”(AI-based Affective Music Generation Systems,AI-AMG)在情感的表達上面臨兩大挑戰(zhàn):一是,情感“控制”(Control),它指的是允許創(chuàng)作者生成的音樂具有所需要的情感內(nèi)容,同時,又能精確地控制音樂特征,讓這些音樂展示特定的情感信息。二是,“敘述適應(yīng)性”(Narrative Adaptability),它指的是系統(tǒng)能生成連貫的音樂段落,且這些音樂段落可以根據(jù)給定的情感要求,準確可靠地傳達不同情感之間的過渡,以及處理不同情緒特征之間的相互作用。(26)Adyasha Dash,Kat R.Agres.,AI-Based Affective Music Generation Systems:A Review of Methods,and Challenges,arXiv:2301.06890,2023.
音樂情感的復(fù)雜性還在于,“在音樂中感知情感的能力也受文化影響,在跨文化研究中觀察到情感感知的異同”(27)M.Susino,S.Schubert,“Cross-Cultural Anger Communication in Music:Towards a Stereotype Theory of Emotion in Music”,Musicae Scientiae,21,2017,pp.60-74.。同時,由于人的情感的變化很大一部分來源于社會交往活動,音樂作品和其他藝術(shù)品一樣,常常充當(dāng)了人際交往的媒介物,具有社會情感性。音樂表演其實是演奏者和觀者(聽眾)基于某一文化傳統(tǒng),在共同的價值觀、社會規(guī)范、文化常識基礎(chǔ)上的一種交流。人們“從一段音樂中體驗到的情感是結(jié)構(gòu)特征、表演特征、聽眾特征、語境特征和樂曲外特征的綜合效應(yīng)”(28)Susino Marco,Emery Schubert,“Musical Emotions in the Absence of Music:A Cross-Cultural Investigation of Emotion Communication in Music by Extra-Musical Cues”,PLOS ONE,15(11),2020,pp.1-21.。
人工智能沒有類似人類的人際交往或者社會情感方面的認知。這就使得當(dāng)前的“情感計算”最多能讓人工智能看起來“具有”情緒特征,但這只是讓其“表現(xiàn)出有情感”的樣子,與真正有意識的由內(nèi)而外的情緒是兩回事。由此,很難說人工智能具有了人類擁有的一般意義上的情感或情緒。人工智能是根據(jù)特定的程序和訓(xùn)練來“運算”及處理信息,它沒有人類那樣的感知、意識,也不體驗情感。雖然它可能會生成描述或模擬情緒的文本和音響,但并不意味著它自身具有情緒。
在音樂創(chuàng)作和表演中,個體的情感狀態(tài)和作品表現(xiàn)出來的情感特征也并不是總是一致的。聽起來悲傷的作品,完全可能是在快樂的心境下創(chuàng)作。在音樂創(chuàng)作之外,音樂表演也需要情感,音樂表演的重要目的是使人產(chǎn)生共鳴。每個表演者對音樂表情符號的情感表達方式有不同的理解,如果這種理解是基于某種規(guī)則的標準化演奏,則對音樂作品的闡釋會導(dǎo)致僵化。如波蘭鋼琴家和作曲家帕德瑞夫斯基(Ignacy Jan Paderewski,1860-1941)所說的:“當(dāng)使用espressivo、con molto、sentimento、con passione等詞時,都要求(……)一定量的情緒,而情緒排除了規(guī)律性……演奏肖邦的G大調(diào)夜曲,要有節(jié)奏的僵硬和對所指示的運動速度的虔誠尊重,那就是(……)令人難以忍受的單調(diào)(……),肖邦發(fā)自內(nèi)心的演奏。他的演奏不是理性的,而是情緒化的”。(29)E.Coutinho,M.Gimenes,J.M.Martins &E.R.Miranda,“Computational Musicology:An Artificial Life Approach”,2005 Portuguese Conference on Artificial Intelligence,2005,pp.85-93.這種個性化的演奏,顯然是人工智能所無法達到的。人工智能對待音樂作品所“表現(xiàn)”的對象或音樂“傳達”出的意味,與人類的處理方式是完全不同的。由于數(shù)理邏輯的程序化和標準化,人工智能的音樂呈現(xiàn)或許在技術(shù)上是精準無誤,但是在審美價值方面卻極有可能陷入平庸的境況。
傳統(tǒng)的認知理論將人的大腦類比于計算機,能處理大量復(fù)雜的信息,這些信息由感覺、知覺系統(tǒng)輸入,經(jīng)過一系列加工、處理最終完成認知過程。這種“身心二元論”(Mind-Body Dualism)或者“實體二元論”(Substance Dualism)的主張受到了笛卡爾主義(Cartesianism)的影響。該哲學(xué)觀點認為,意識和身體是兩個不同的實體或物質(zhì),由不同的物質(zhì)或要素組成,它們之間存在著互動關(guān)系。但意識是能夠獨立于身體存在的,身體是意識的物理容器。
而現(xiàn)代的具身認知(Embodied Cognition)理論則認為:“首先,認知取決于具有各種感覺運動能力的身體所產(chǎn)生的經(jīng)驗類型;其次,這些個體的感覺運動能力本身嵌入了更廣泛的生物、心理和文化背景中?!?30)F.J.Varela,E.Thompson,&E.Rosch,The Embodied Mind:Cognitive Science and Human Experience,Massachusetts:The MIT Press,1991,pp.172-173.也即,主張“大腦-身體-環(huán)境”在認知發(fā)生過程中構(gòu)成一個動態(tài)的統(tǒng)一體。其中,身體是認知過程發(fā)生的核心;認知是在身體與環(huán)境接觸所獲得經(jīng)驗的基礎(chǔ)上形成的;認知取決于個體的具身行為所產(chǎn)生全部經(jīng)驗。認知由身體的感知、意欲、動作和響應(yīng)過程構(gòu)成。
具身認知理論不支持身心二元論觀點,而是認為,“符號信息加工認知理論和聯(lián)結(jié)主義心理學(xué)等將人類的認知過程定義為對符號、信息的加工和操作,忽視了身體、活動與經(jīng)驗在認知中的作用”(31)葉浩生:《西方心理學(xué)中的具身認知研究思潮》,《華中師范大學(xué)學(xué)報(人文社會科學(xué)版)》,2011年,第4期,第153—160頁。。并認為這種認識忽視了身體的感官系統(tǒng)存在的差異,會導(dǎo)致認知存在偏差。
行為與環(huán)境的“耦合”模型與大腦的內(nèi)部獨立“計算”模型,哪一種更接近人的認知真相?身體情況和環(huán)境對認知過程是否具有重要影響?不同的哲學(xué)立場決定了對此的不同看法。與傳統(tǒng)身心二元論的類計算機模型相反,具身認識觀強調(diào)作為主體的身體在認知能力中的重要性。強調(diào)感(知)覺經(jīng)驗、人的身體,以及外部環(huán)境共同構(gòu)成人的認知系統(tǒng),三者不可分。這種觀點進而主張感(知)覺經(jīng)驗和身體的感(知)覺高度相關(guān)。具身認知支持者的觀點是,身體或身體與環(huán)境的互動構(gòu)成(或促進)了認知。因為,心理過程不是簡單計算過程,“知識沒有單獨存在的實體,而是嵌入、分布在實時的感知、記憶、注意和行動過程中,并與這些心理和行為的過程密不可分”(32)J.Kevin O’Regan,Alva No?,“A Sensorimotor Account of Vision and Visual Consciousness”,Behavioral and Brain Sciences,24,2001,pp.939-1031.。
具身認知理論對我們看待音樂表演實踐是有啟發(fā)的,按照這種觀點,在音樂表演中,無論是表演者的呈現(xiàn)還是聽眾的感知,都不是被動地接收聲音,身體和環(huán)境影響了音樂表演行為和聆聽欣賞。音樂表演的本質(zhì),實際上是在一個特定的“美學(xué)空間”里,演奏者將作曲家創(chuàng)作的“聲音藍圖”,轉(zhuǎn)化成聽眾可感知的聲音結(jié)構(gòu),并清楚地展示給聽眾。每一次的演繹,都有著獨特的聲音存在樣式,這個樣式有著獨一無二的結(jié)構(gòu)和奧秘,有經(jīng)驗的聽眾是可以感受和認知這一奧秘的。而計算機的智能只是機械的智能,它的本質(zhì)還是按照人的指令進行精密、快速的計算,或者按照某種規(guī)則呈現(xiàn)某種聲音,它無法真正代替人類觀賞同類的表演行為。
與身心認知相關(guān)的另一個核心問題是意識。簡單地說,所謂“意識”就是體驗和感知自身和他者存在的一種狀態(tài)及其產(chǎn)生的感受,其重要體現(xiàn)是能夠區(qū)分自我意識(自身的想法)和他我意識(他人的想法),這是心智理論(Theory of Mind)的重要內(nèi)容。
意識能夠把一切經(jīng)驗之物納入思考范圍,這使無限思想成為可能。另一方面,意識能夠?qū)σ庾R本身進行反思,即,把意識自身作為一個思考對象。這是人類和人工智能一個很大的不同。人類并不是只對輸入的信息做出固定的、程序化的反應(yīng),人類會不斷追問諸如“我是誰?”“我的種種主觀的想法、念頭和感受是怎么來的”這類問題,針對意識的意識就具有了“元意識”(Meta Mind)的性質(zhì),這種元意識能夠?qū)λ囆g(shù)的創(chuàng)作、演出行為進行反思。創(chuàng)作者和表演者能夠清楚地意識到自身的行為將會給他者帶來什么,并調(diào)整自身的行為。
這種反思能力是形成自我意識的關(guān)鍵,人類不僅能產(chǎn)生符號化的知覺表征,還能對知覺行為本身進行表征。比如,人類的演奏者,不僅能識別出某個樂譜的符號(一階知覺);還會說(或者在頭腦中默想):我剛才認出了那個音符,或者我剛才演奏了那個音符(二階知覺);可能還會對自己的知覺結(jié)果提出疑問:我剛才看的那個音符是某個音,我會不會看錯(演奏錯了)了?(三階知覺)。這種三階知覺能力,能夠讓人類產(chǎn)生一種非常新穎高級的意識活動,不斷地提升、調(diào)整音樂實踐行為,進而影響聽眾的觀賞體驗。
然而,人工智能并不理解其工作的意義(至少現(xiàn)在和可以預(yù)見的將來是如此)。無論是創(chuàng)作還是表演,人工智能所做的工作實際上是計算出既有作品的特征。從數(shù)學(xué)的角度看,它其實是將一些音樂的特征進行賦值,并依據(jù)特定的算法,用這些賦值產(chǎn)生另外一個作品,但它本身沒有自我意識,也就更談不上即時的互動和反思了。自我意識的缺位,導(dǎo)致人工智能在音樂的創(chuàng)作和表演行為中,并非像人類一樣是發(fā)自內(nèi)心的“自我”驅(qū)動,而是執(zhí)行特定的算法和受到數(shù)據(jù)的驅(qū)動,這一區(qū)別顯然也導(dǎo)致人類和人工智能創(chuàng)作(或通過表演呈現(xiàn))的作品,具有本質(zhì)的不同。
2021年,音樂人工智能界一件備受矚目的事是德國卡拉揚研究所羅德(M.Roder)組織了上百人的一個AI音樂團隊,根據(jù)貝多芬殘存的音樂手稿和其他線索,完成了人工智能版的《貝多芬第十交響曲》的創(chuàng)作和演出。
該項目的主要研究者有:美國羅格斯大學(xué)的艾爾格莫(A.Elgammal),主要負責(zé)用貝多芬的音樂來訓(xùn)練并構(gòu)建AI神經(jīng)網(wǎng)絡(luò)系統(tǒng),再從中生成所需的貝多芬音樂片段;奧地利作曲家沃爾佐瓦(Werzowa),負責(zé)從AI生成的音樂素材中選擇最合適的片段來合成最終的作品;康奈爾大學(xué)計算音樂學(xué)專家高特姆(M.Gotham),負責(zé)貝多芬的樂譜手稿的識別工作,以及AI生成的樂譜編輯合成工作;古譜研究專家(鋼琴演奏家)萊文(R.D.Levin),負責(zé)校訂貝多芬樂譜手稿,擔(dān)任鋼琴視奏,通過視奏AI生成的樂譜,并讓深諳貝多芬風(fēng)格的專家審定AI生成的音樂是否符合貝多芬音樂風(fēng)格。
經(jīng)過手稿研究、數(shù)據(jù)學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)構(gòu)建、算法調(diào)試、MIDI樂譜輸出、試奏視聽、生成樂隊總譜等復(fù)雜工作,最終使作品得以搬上舞臺。不得不說,這部作品具有濃郁的“貝多芬風(fēng)格”,比如,長大的尾聲和貝多芬特有的力度對比、和聲進行、動機展開和終止式等等。熟悉貝多芬作品的人,完全能毫不費力地感受到這首作品與貝多芬本人創(chuàng)作的作品有清晰可辨的“似曾相識”之處。
但是,這是一種還原還是一種創(chuàng)造呢?貝多芬自己創(chuàng)作的九首交響作品每一首的風(fēng)格特點都不盡相同,何以“第十”會是前面九首的“概括式總結(jié)”呢?一位評論家(Henk Douwes)的話也許代表了很多人的困惑:(作品)“聽起來絕對是‘貝多芬式的’。單就音樂而言,聽起來很像對貝多芬之前作品的低級翻版,其中明顯有《第五交響曲》諧謔樂章的痕跡,聽起來很刺耳。其實完全可以學(xué)習(xí)第七、第八或第九《交響曲》的諧謔樂章。即使留存的樂譜草稿確實有貝多芬之前音樂的影子,也不意味著作品就應(yīng)發(fā)展成目前的樣子。天才的貝多芬能容忍這種平庸的‘翻唱’嗎?”(33)韓寶強:《人工智能續(xù)創(chuàng)貝多芬〈第十交響曲〉帶給我們的啟示》,《音樂與表演》(南京藝術(shù)學(xué)院學(xué)報),2022年,第1期,第118—121頁。
其實,早在1981年,美國作曲家、人工智能研究者戴維·庫伯(David Cope)就創(chuàng)立了音樂智能實驗(Experiments in Musical Intelligence),通過人工智能來創(chuàng)作音樂。庫伯分別采用了“通過規(guī)則創(chuàng)作”與“重組匹配”兩種方法來創(chuàng)作音樂,前者要求每次為新作品編寫新的規(guī)則,后者采用重組方法將現(xiàn)有音樂重新組合,以新的邏輯創(chuàng)作新作品。1997年,在一次演講中,他播放了一首以重組方法創(chuàng)作的巴赫作品,聽眾無法分辨到底是計算機創(chuàng)作的還是巴赫本人創(chuàng)作的。(34)見戴維·庫伯的個人網(wǎng)站http://artsites.ucsc.edu/faculty/cope/biography.htm(最后登錄時間2023.4.9)。
在風(fēng)格模仿方面,音樂人工智能的創(chuàng)作早已到了足以“以假亂真”的地步。通過算法和分析,可以輕易地對已有作品的特點進行提煉,并基于提煉的特質(zhì)創(chuàng)作出新作品。但是,在獨立創(chuàng)作方面,目前音樂人工智能的創(chuàng)作尚乏善可陳。這一現(xiàn)象背后的原因并不復(fù)雜,主要歸結(jié)于兩點:一是,音樂人工智能無法實現(xiàn)基于審美經(jīng)驗的藝術(shù)創(chuàng)作;二是,音樂創(chuàng)作中,創(chuàng)造思維的復(fù)雜度遠超過現(xiàn)有人工智能的計算能力。
就藝術(shù)經(jīng)驗而言,以休謨(David Hume,1711-1776)為代表的經(jīng)驗主義者認為,人類的知識和思想都來源于感性經(jīng)驗,即,通過感覺、體驗、經(jīng)歷而獲得經(jīng)驗。所有的概念和原則,是通過感性經(jīng)驗建立的,只有通過經(jīng)驗才能知道世界真相和現(xiàn)實的本質(zhì)。休謨認為:“一切科學(xué)牢固的基礎(chǔ)是人性,而人性的牢固基礎(chǔ)則是經(jīng)驗,即我們要理解人性,只有通過經(jīng)驗以及與之相關(guān)的觀察,在觀察的基礎(chǔ)上得到經(jīng)驗?!?35)文聘元編著:《西方哲學(xué)通史》,南昌:江西美術(shù)出版社,2019年,第157頁。
也許休謨的經(jīng)驗論或多或少有些偏激,但就藝術(shù)創(chuàng)作而言,感性經(jīng)驗而非理性的計算起到了更為重要的作用,這在人類的創(chuàng)作中已經(jīng)無數(shù)次被證明了。經(jīng)歷豐富、情感豐厚的藝術(shù)家總比情感貧乏的人更能創(chuàng)作出打動人心的作品。腦科學(xué)家格林菲爾德(S.Greenfield)的研究也一定程度支持了休謨的觀點:“客觀可觀察的事件如何轉(zhuǎn)變?yōu)楠毺貍€人經(jīng)驗的第一手感覺,無法通過數(shù)學(xué)公式而得到?!?36)〔英〕蘇珊·格林菲爾德:《大腦的一天》,韓萌、范穹宇譯,上海:上海文藝出版社,2020年,第4頁。
與藝術(shù)經(jīng)驗密切相關(guān)的是藝術(shù)創(chuàng)造問題。斯滕伯格(Robert Sternberg)曾提出一個 “三元智能理論”,他把智能劃分為分析問題的能力(Analytical Intelligence)、實際解決問題的能力(Practical Intelligence)、創(chuàng)造力(Creative Intelligence)。(37)Robert J.Sternberg,Beyond IQ:A Triarchic Theory of Human Intelligence,New York:Cambridge University Press,1985.
在《現(xiàn)代漢語大詞典》中,“創(chuàng)造”的意思是“發(fā)明;制造前所未有的事物”?!皠?chuàng)造力”是指“人們創(chuàng)造新事物的才能和力量”(38)阮智富、郭忠新編著:《現(xiàn)代漢語大辭典》(上),上海辭書出版社,2009年,第233頁。?!皠?chuàng)造”的本質(zhì)特征其實是“無中生有”。藝術(shù)創(chuàng)造的本質(zhì)是產(chǎn)生新穎的、異乎尋常的觀念,并創(chuàng)制有藝術(shù)價值的藝術(shù)作品。這是人類最高智慧的體現(xiàn),問題在于,人類自身是如何產(chǎn)生新穎的想法,又是如何產(chǎn)生藝術(shù)靈感的?這些問題至今仍然沒有明確的答案。
現(xiàn)有研究還沒有解開人類創(chuàng)造行為的密碼。但是人們已經(jīng)意識到,人類的“創(chuàng)造性”是一個復(fù)雜綜合的身心過程,它無法單獨通過心理學(xué)、神經(jīng)學(xué)、生理學(xué)來解釋,更難以通過函數(shù)和程序來表示。人工智能的本質(zhì)是數(shù)理邏輯,而創(chuàng)造性有著邏輯或者數(shù)學(xué)難以表達的特質(zhì)。
現(xiàn)有人工智能在音樂領(lǐng)域體現(xiàn)出來的“創(chuàng)作”,其實很難稱得上是真正的“創(chuàng)造”,其實只是特定程序在輸入?yún)?shù)或數(shù)據(jù)之后所做的“組合”。當(dāng)然,對于什么是“真正的創(chuàng)造”的理解本身也沒有統(tǒng)一的標準,但顯然,僅僅用“新”(即,與既有的存在物具有不同特征)來定義“創(chuàng)造性”是不夠的。如趙汀陽所說:”創(chuàng)造性在于改變力,在于能夠改變世界或歷史,改變生活或經(jīng)驗,改變思想或事物,或者說,創(chuàng)造性在于為存在增加一個變量?!?39)趙汀陽:《人工智能提出了什么哲學(xué)問題》,《文化縱橫》,2020年,第1期,第43—57頁。建立一個與人類大腦認知水平相當(dāng)?shù)?,具有?chuàng)造性的人工大腦,在理論上即使具有可能性,在實踐中也是極為困難的,在音樂領(lǐng)域尤其如此。
本文對音樂人工智能的幾點哲學(xué)審思,絕非要否定人工智能已經(jīng)取得的成績,更非低估人工智能巨大無比的潛力,而是認為,音樂人工智能如果不能解決本文所論及的幾個問題,將難以實現(xiàn)取代有真正創(chuàng)造力的作曲家的目標。
如果從人類漫長的歷史來看,人工智能的本質(zhì)不過是人類創(chuàng)造的諸多工具之一,與所有人類創(chuàng)造工具一樣,它們在很多方面勝過了人類的能力。工具的作用是將人類的某一能力給予延伸,并在某一方面代替人類。人工智能與既往人類的工具相比,是人類腦力的延伸,但仍沒有改變其工具的本質(zhì)。
正是基于此,本文認為,在藝術(shù)(尤其是音樂領(lǐng)域),能真正代替音樂家的強人工智能(Artificial General Intelligence)在可見的未來還無法實現(xiàn)。不過,鑒于人工智能驚人的迭代速度,伴隨著人工智能的三駕馬車算法、算力、數(shù)據(jù)一日千里的發(fā)展,我們也有理由對它的廣闊前景報以審慎的樂觀。當(dāng)然,我們?nèi)祟愐灿凶銐虻睦碛杀3诌@樣一種尊嚴和自信:只要我們還會不斷“自我反思”,還會不斷地拓展我們的審美經(jīng)驗,還會不斷增進對同類的理解,還會不斷地探索、拓展我們的藝術(shù)表達手段,人類就一定會持續(xù)創(chuàng)作不朽的音樂,用以充實我們永恒的精神世界。
機器的歸機器,人類的歸人類。