周 莉鄧 陽
(1,2.中國地質(zhì)大學 藝術(shù)與傳媒學院,湖北 武漢 430074)
近年來,音樂人工智能在歐美以及日本等地區(qū)發(fā)展迅速,已成為人工智能的一個重要分支。人工智能作曲由于能將人類的創(chuàng)造力、情感表達、審美等智能與計算機的計算能力、機器人機械系統(tǒng)、自動化控制等技術(shù)相結(jié)合,突破了人類作曲的專業(yè)技術(shù)制約,創(chuàng)造出更具新奇感的音樂效果,同時也節(jié)省了人力成本,提高了音樂創(chuàng)作和音樂表演的效率。在“互聯(lián)網(wǎng)+”以及“工業(yè)制造4.0”的新時代背景下,具備通信、網(wǎng)絡(luò)與人機交互功能的人工智能作曲系統(tǒng)進入教育科普、藝術(shù)表演以及娛樂服務(wù)等領(lǐng)域已是大勢所趨。
隨著人工智能研發(fā)水平的快速提升,自2013年以來,我國的人工智能市場需求連續(xù)多年位居世界前列,在教育科普、醫(yī)療康復(fù)、家庭養(yǎng)老、娛樂服務(wù)等行業(yè)有著廣泛的需求。2017年,國家發(fā)布了《新一代人工智能發(fā)展規(guī)劃》,明確提出將人工智能作為未來優(yōu)先發(fā)展的戰(zhàn)略性技術(shù)。同年底,工信部印發(fā)的《新一代人工智能產(chǎn)業(yè)三年行動計劃(2018—2020)》,為大力發(fā)展人工智能指明了方向。習近平總書記在黨的十九大報告中也指出,要加快人工智能和實體經(jīng)濟深度融合,將人工智能發(fā)展提升到國家戰(zhàn)略高度。
與此同時,用戶對人工智能產(chǎn)品也提出了更高的要求,希望人工智能產(chǎn)品具有“情感智能”(Emotional Intelligence)[1]185-211,能感知識別人類的情感、意圖,并主動為人類服務(wù)。因此,情感型人工智能產(chǎn)品受到國內(nèi)外科技工作者的廣泛關(guān)注,具有情感計算功能的人工智能產(chǎn)品已成為人工智能的未來發(fā)展趨勢。
音樂是人類情感表達的重要形式之一。音樂情感在概念上被認為是一種難以量化的人類情感表達,且隨著音樂的進行發(fā)生著豐富的變化。以人工的方法和技術(shù)讓機器快速識別光學樂譜和實時樂音,通過音樂情感模型的推理和優(yōu)化,獲取人類音樂情感的表達模式,主動與用戶完成人機協(xié)同的智能作曲等相關(guān)服務(wù),對促進基于多源感知的情感型人工智能發(fā)展具有重要的研究價值和實踐意義。
算法作曲(Algorithmic Composition)也稱自動作曲,是試圖使用某個形式化的過程,以使人(或作曲家)在利用計算機進行音樂創(chuàng)作時實現(xiàn)不同程度上的自動化[2]235-265,[3]377-421。目前已有較多計算機輔助算法作曲系統(tǒng)(Computer-Aided Algorithmic Composition,簡稱 CAAC),如 Super Collider、C Sound、MAX/MSP、Kyma、Nyquist、AC Toolbox 等眾多國外研發(fā)的系統(tǒng)。典型的CAAC是一種自動化程度較低的作曲系統(tǒng),這種系統(tǒng)不具備自主創(chuàng)造力(人工介入較多),也不具備較為抽象的高程度音樂知識庫體系。
人工智能作曲(Artificial Intelligence Composition)簡稱AI作曲,隸屬于算法作曲的范疇,是運用人工智能算法進行機器作曲的過程,以使人(或作曲家)在利用計算機進行音樂創(chuàng)作時的介入程度達到最?、貯dam Alpern,Techniques for Algorithmic Composition of Music,1995.http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.23.9364&rep=rep1&type=pdf.。將人工智能運用到計算機輔助算法作曲系統(tǒng),可以模擬作曲家的創(chuàng)作思維,將極大提高作曲系統(tǒng)的自動化程度。具有高自動化程度的AI作曲,不僅可以使作曲家更高效地工作,提高作曲效率,還可以簡化作曲的繁雜性,提高音樂創(chuàng)作的普遍性,更增加了音樂與人工智能等多領(lǐng)域交叉發(fā)展的可能性。自1950年以來,多種基于人工智能的算法被運用到作曲中來。其中主要包括馬爾科夫鏈、神經(jīng)網(wǎng)絡(luò)、遺傳算法,以及多種混合型算法等。
使用計算機作曲的時間最早可以追溯到20世紀50年代中期,而人工智能的概念也幾乎同時在達特茅斯(Darmouth)會議上被提出來。但是當時計算機價格昂貴,速度慢,而且使用起來也很困難,所以經(jīng)過多年后算法作曲才開始與人工智能相結(jié)合。
最早完全由計算機生成的音樂作品是由列哈倫·希勒(Lejaren Hiller)在1956年創(chuàng)作的弦樂四重奏《伊利亞克組曲》(Illiac Suite)。1995年由阿爾佩(Alpern)研發(fā)的EMI作曲系統(tǒng)也是較早的一個成熟的古典音樂作曲系統(tǒng),該系統(tǒng)注重各種音樂的風格,主要采用拼接的方式來創(chuàng)作再現(xiàn)已故作曲家音樂風格的作品。這些作品有類巴赫的創(chuàng)意曲、器樂協(xié)奏曲和組曲,還有類莫扎特的奏鳴曲以及類肖邦的夜曲。
此外,2010年由格奧爾(Georg Boenn)等人研發(fā)的Anton作曲系統(tǒng),是使用答案集編程來構(gòu)建的一個自動化系統(tǒng),是算法作曲領(lǐng)域的一個較大突破。該系統(tǒng)可以在一個框架體系內(nèi)生成音高和節(jié)奏,并識別判斷人為的錯誤。21世紀以來學術(shù)界對算法作曲研究展開了較為全面的描述,2013年費爾南德斯(Fernández)認為算法作曲系統(tǒng)的發(fā)展將從根本上改變音樂作曲的過程,進而影響到音樂的市場,為人工智能作曲研究提供一個全面的視角。
近年來,國外在人工智能作曲領(lǐng)域發(fā)展較為迅速,國外人工智能巨頭公司都對人工智能作曲展開了深入研究,一些由人工智能創(chuàng)作的音樂作品已經(jīng)達到“大師級”水平,甚至可以“以假亂真”。2016年2月,第一部由算法創(chuàng)作的音樂劇《越過墻垣》(Beyond theFence)在倫敦上演,獲得較高評價;2016年6月,谷歌公司研發(fā)的機器學習項目馬真塔(Magenta)通過神經(jīng)學習網(wǎng)絡(luò)創(chuàng)作出一首時長90秒的鋼琴曲;同年9月,索尼計算機科學實驗室利用人工智能程序創(chuàng)作了一首披頭士音樂風格的歌曲《爸爸的汽車》(Daddy'sCar),廣受好評;美國網(wǎng)紅兼流行歌手泰琳·薩頓(Taryn Southern)近日發(fā)表了一張名為《我是人工智能》(Iam AI)的新專輯,成為人類歷史上第一張正式發(fā)行的人工智能歌曲專輯。其中,主打單曲《沖破藩籬》(BreakFree)聽眾普遍反映完全聽不出是由應(yīng)用程序創(chuàng)作完成,和音樂人創(chuàng)作的作品沒有太大差別,改變了人工智能創(chuàng)作的音樂比較機械、情感空白的現(xiàn)狀。
我國在人工智能作曲領(lǐng)域發(fā)展還處在起步階段,百度、平安科技等公司和研究機構(gòu)相繼有AI作曲系統(tǒng)和作品推出,但成果還較為零星,不成體系,且作品的可聽性有待提高。
當前AI作曲與深度學習結(jié)合日益緊密,朝著多元化方向發(fā)展,其中遺傳算法、人工神經(jīng)網(wǎng)絡(luò)、馬爾科夫鏈、混合型算法使用最為廣泛。
遺傳算法(Genetic Algorithm)是一個使用適應(yīng)性函數(shù)來演化樣本的全局優(yōu)化算法,[4]209-215其中變異算子能夠很好地模擬人在其創(chuàng)作當中靈感的閃現(xiàn)。該算法的核心是對于適應(yīng)性函數(shù)的設(shè)計,目前尚無統(tǒng)一標準。
國外已有相關(guān)遺傳算法作曲系統(tǒng),1994年拜爾斯(Biles)構(gòu)建的Gen Jam系統(tǒng)為基于遺傳算法的人機交互系統(tǒng)構(gòu)建提供了一種可能性,其主要采用遺傳算法的交互式即興演奏系統(tǒng),能在一個給定的和弦序列上生成爵士器樂獨奏旋律,與人交互演奏爵士樂。2003年安赫拉(M.Unhera)和歐尼斯瓦(T.Onisawa)提出的音樂作曲系統(tǒng),允許無音樂技能的人介入其作曲系統(tǒng)來創(chuàng)作音樂,出現(xiàn)了讓人代替適應(yīng)性函數(shù)來直接評估染色體的一種方法,即交互式的遺傳算法IGA(Interactive Genetic Algorithm)。所有和交互式的遺傳算法IGA相關(guān)的方法都具有主觀片面性的弊端。
2011年塞特澤(Seitzer)引入了一個新的數(shù)據(jù)結(jié)構(gòu)來跟蹤遺傳算法的執(zhí)行,采用了一種基于時間軸的適應(yīng)度函數(shù)來形成旋律進化。2013年瓦格納(Wagner)論證的島嶼模型遺傳算法,介紹了合適的遷移算子,引入了圖像、視頻和音樂分割等每個鄰域的遺傳算法,通過對音樂結(jié)構(gòu)進行深入的分析,完成了音樂信息檢索、主題性挖掘技術(shù),為實現(xiàn)遺傳算法優(yōu)化操作集合奠定基礎(chǔ)。
2008年,我國學者曹西征等對由計算機自動生成音符序列和音頻文件的具體問題進行了討論;2014年,黃澄宇等針對音樂質(zhì)量評估問題,提出了將相關(guān)音樂知識的規(guī)則和人機交互相結(jié)合的模式,共同對所創(chuàng)作音樂進行合理評價;2017年,郭衡澤等對基于交互式遺傳算法作曲系統(tǒng)的架構(gòu)與實現(xiàn),在編碼機制、人工評估及人機交互操作等諸多方面都有創(chuàng)新的設(shè)計應(yīng)用和實現(xiàn)方法。
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)是一種模仿生物神經(jīng)網(wǎng)絡(luò)行為特征,進行分布式并行信息處理的算法數(shù)學模型。[5]23-26國內(nèi)外已經(jīng)有多種基于神經(jīng)網(wǎng)絡(luò)的作曲系統(tǒng):2009年,陳魁提出使用循環(huán)神經(jīng)網(wǎng)絡(luò)來學習音樂的曲式結(jié)構(gòu);2010年,伊斯塔托(Istituto)提出使用長短時記憶(LSTM)神經(jīng)網(wǎng)絡(luò)可以使生成的音樂更具有完整性;2013年,殷波提出通過神經(jīng)網(wǎng)絡(luò)學習和聲進行可以獲得音樂的內(nèi)在聯(lián)系;2017年,李雄飛等指出人工神經(jīng)網(wǎng)絡(luò)為算法作曲提供了一種新的方式,其優(yōu)勢在于能夠?qū)σ魳纷髌返娜中蕴卣鬟M行學習,但是需采用大量的樣本進行訓練。
針對單一特征難以建立理想音樂分類模型的問題,為了幫助用戶找到自己喜歡的音樂,我國學者趙偉和劉明星分別于2015年、2018年提出了基于BP(Back Propagation,反向傳播)神經(jīng)網(wǎng)絡(luò)的音樂分類模型。通過對音樂旋律特征的音高、音長、音色、節(jié)拍、速度和力度等特征向量的提取,構(gòu)建基于BP神經(jīng)網(wǎng)絡(luò)的情感模型,并用多首不同情感特征的歌曲對其進行訓練和驗證。實驗結(jié)果顯示這一模型的運用取得了較好的效果。
馬爾科夫鏈(MarkovChain)是一種隨機過程,[6]19-26一直被廣泛地應(yīng)用于算法作曲領(lǐng)域,國外已有相關(guān)作曲系統(tǒng)。早在1989年科荷倫(Kohonen)就提出一種基礎(chǔ)馬爾科夫鏈的擴展模型,使基于馬爾科夫鏈的作曲方法得到改進。1999年,內(nèi)特(Neto)認為,在算法作曲中一個簡單但有趣的技術(shù)是按照一個轉(zhuǎn)換表來依次選擇音符,這個轉(zhuǎn)換表就像一個函數(shù),其自變量是當前的音符,而函數(shù)值則是下一個要出現(xiàn)音符的可能性。此后,也有學者采用馬爾科夫鏈對音樂中連續(xù)的旋律片段進行模型構(gòu)建,從而生成具有特定音樂風格的新旋律片段,但是整部作品的曲式結(jié)構(gòu)無法通過馬爾科夫鏈建模。
2010年,結(jié)合馬爾科夫模型在作曲中存在的問題,韓艷玲指出,可以通過馬爾科夫鏈預(yù)測音符來作曲;米歇爾·黛拉文圖拉(Michele Della Ventura)則提出,通過馬爾科夫算法的自我學習模型來生成音樂旋律。2017年,張藝婕通過研究希臘裔法國籍作曲家澤納基斯的馬爾可夫鏈作曲技術(shù)理論與方法,論述了概率、馬爾可夫鏈原理與音樂創(chuàng)作、分析之間的關(guān)系。
混合型算法(Hybrid Algorithm)是將多種不同算法進行組合,可以實現(xiàn)多種算法優(yōu)勢互補。國內(nèi)外對隨機過程與其他算法的結(jié)合有了相關(guān)的嘗試,[7]191-199也有了使用人工神經(jīng)網(wǎng)絡(luò)與遺傳算法相結(jié)合的作曲解決方案。[8]157-177
1990年艾布斯格魯(Ebcioglu)提出了CHORAL系統(tǒng),是一個基于規(guī)則的專家系統(tǒng)。該系統(tǒng)可以為單聲部主旋律構(gòu)造出具有巴赫風格的四聲部合唱曲,且有一定的實用價值,它包含大約350條規(guī)則,這些規(guī)則從合唱曲多個單聲部的旋律線以及和弦結(jié)構(gòu)等多個角度來描述音樂知識。其存在的問題是知識引導(dǎo)機制及相關(guān)規(guī)則的建立既困難又費時,且難以進一步擴充。
1995年雅各布(Jacob)認為遺傳算法與神經(jīng)網(wǎng)絡(luò)的結(jié)合能夠極大提高音樂的可聽性。旋律創(chuàng)作系統(tǒng)ERNN是一個遞歸神經(jīng)網(wǎng),能以一小節(jié)接一小節(jié)的方式來生成類似于貝拉·巴托克(Bela Bartok)風格的短小旋律。同時使用遺傳算法以適應(yīng)函數(shù)來演化ERNN,基于音樂基本理論和貝拉·巴托克作品風格構(gòu)造一系列約束集。該系統(tǒng)可視為基于客觀適應(yīng)函數(shù)進行演化的旋律創(chuàng)作系統(tǒng)的代表。但是這類創(chuàng)作系統(tǒng)的結(jié)果通常都比較簡單,還不具有實用價值,需要引入更多的音樂知識和規(guī)則,才能使系統(tǒng)變得實用和有效。
我國學者馮寅、周昌樂在2006年對交互式電子音樂研究領(lǐng)域進行了較為詳細的文獻梳理,指出智能作曲系統(tǒng)可以朝著集多種方法為一體的混合型系統(tǒng)(hybrid system)的方向發(fā)展,系統(tǒng)應(yīng)在音樂創(chuàng)作的各個層面上提供靈活的人機交互手段,以便提高系統(tǒng)的實用性和有效性。2015年翁詩杰還研究了音樂的節(jié)奏、音高和力度的建模和推理方法,設(shè)計了基于貝葉斯網(wǎng)的輔助作曲與編曲的智能音樂系統(tǒng),實現(xiàn)了基于貝葉斯網(wǎng)研究的半監(jiān)督的音樂作曲原型,并進行了實驗分析,實驗結(jié)果表明這一方法是可行的。
綜上所述,各種作曲算法在使用中都有其自身的優(yōu)勢和不足,智能作曲需要朝多元化混合算法的方向發(fā)展。
通過梳理從算法作曲到人工智能作曲的發(fā)展軌跡和國內(nèi)外研究現(xiàn)狀,我們不難發(fā)現(xiàn),人工智能作曲在快速發(fā)展的同時也存在一定的困境。各種作曲算法在使用中都存在著不同的優(yōu)劣勢,所創(chuàng)作的音樂作品風格和體裁還比較單一,且可聽性不高。國外算法作曲系統(tǒng)的研發(fā)相對活躍,而我國相關(guān)研究則較少,中國民族音樂人工智能作曲系統(tǒng)的研發(fā)更是缺乏。但隨著人工智能整體技術(shù)水平的提升,用戶對作曲系統(tǒng)智能化程度要求的提高,我國人工智能作曲正逐步走出困境,其發(fā)展也呈現(xiàn)出以下趨勢。
由于各種算法在人工智能作曲的使用中都有其自身的優(yōu)勢和不足,目前人工智能作曲的音樂作品風格和體裁比較單一,且可聽性不強。多算法組合優(yōu)化將是人工智能作曲未來發(fā)展的主要方向。在混合型的算法作曲中,各種算法將揚長避短,發(fā)揮各自的優(yōu)勢,作品的風格和體裁將變得豐富且具有一定的可聽性。
現(xiàn)有的人工智能作曲系統(tǒng)大部分整體智能化程度相對較低,大多是基于內(nèi)置MIDI音樂信號進行機器學習和創(chuàng)作,缺乏人類對音樂情感的識別體系,無擬人化音樂作曲思維。人機交互系統(tǒng)也僅限于表層信息交流,機器根據(jù)表層信息交流所獲得的用戶指令,以被動的形式執(zhí)行相應(yīng)的任務(wù)。通過機器視覺、機器聽覺等多渠道智能信息融合來識別人類對音樂情感的譜面和音頻表達體系,再基于深度學習的智能規(guī)劃,是未來人機交互智能作曲系統(tǒng)建構(gòu)的主要基礎(chǔ)。
我國民族音樂資源豐富,是人工智能作曲機器深度學習的理想資料庫。國外人工智能作曲系統(tǒng)的研發(fā)相對活躍,而我國相關(guān)研究則較少。將國際上的人工智能作曲技術(shù)運用到中國民族音樂的分析與創(chuàng)作之中,構(gòu)建中國民族音樂智能作曲系統(tǒng),對發(fā)展和傳播中國民族音樂具有重要意義。
人工智能作曲的實現(xiàn)需要有機器作為載體,隨著機器人學的快速發(fā)展,音樂機器人是比較好的載體選擇。在綜合運用國內(nèi)外音樂機器人相關(guān)研究成果的基礎(chǔ)上,實現(xiàn)情感計算下的音樂機器人智能作曲和協(xié)同演奏是該領(lǐng)域未來發(fā)展的主要途徑。人工智能作曲與機器人的緊密結(jié)合,將為人機交互系統(tǒng)注入情感計算和主動服務(wù)模式的新思路和新方法,為實現(xiàn)音樂機器人的智能化和情感化,使之能夠在感知音樂情感的基礎(chǔ)上主動完成智能作曲與協(xié)同演奏,為消除人與機器人之間的交互障礙,提供了切實可行的解決方案。