江育光,盧盛榮,黃理明
(1.閩西職業(yè)技術學院;2.龍巖學院 福建龍巖 364000)
根據(jù)中共中央辦公廳和國務院辦公廳印發(fā)的《關于深化新時代教育督導體制機制改革的意見》以及福建省教育廳發(fā)布的《新時代福建省義務教育質量監(jiān)測實施方案》,要求進一步深化教育督導管理體制改革,加強對學校的督導,引導學校辦出特色、辦出水平,促進學生德智體美勞全面發(fā)展。充分利用互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等開展督導評估監(jiān)測工作[1-2],從監(jiān)測內容、監(jiān)測頻度等方面加大對學校音體美教育的督導力度,其中一點就是對中小學生的聲樂演唱水平進行客觀量化評價。然而音樂測評不同于傳統(tǒng)的語數(shù)英考試,歌唱是一個主觀性較強的活動,如何通過客觀量化評價方法實現(xiàn)主觀性活動測評,是當前研究的重點和難點。
移動數(shù)字技術的蓬勃發(fā)展和國內版權保護意識的提高,使得音樂流媒體產業(yè)有了長足的增長。國內外誕生了一系列音樂流媒體巨頭如騰訊音樂、網(wǎng)易音樂,國外的如Spotify和Apple Music等。2020年世界唱片行業(yè)協(xié)會公布的數(shù)據(jù)顯示,全球音樂相關的商業(yè)收入同比增長9.7%,其中流媒體音樂營收超過89億美元,占比達到47%[3]。海量的音樂曲目庫使得用戶在音樂信息檢索上面臨巨大挑戰(zhàn)。音樂可以視作一種語音信號,但更為多樣和復雜化,由不同的節(jié)拍、和聲和旋律按照一定規(guī)則組合而成[4]。深度學習的出現(xiàn),使得音樂分類技術進入了新的發(fā)展階段。深度學習在語音識別和圖像處理上的成功,使得其利用在音樂評價領域上成為未來的發(fā)展目標。目前該領域的子研究方向包括音樂流派識別、音樂情感識別和音樂作品推薦等[5]。其中,流媒體(音樂)推薦已成為當下電商系統(tǒng)中不可或缺的重要組成部分,抖音、豆瓣、網(wǎng)易云音樂的成功都離不開流媒體推薦算法的優(yōu)化應用。
基層考場情況復雜,具備豐富實踐經驗的IT技術人員不足,在考試組織上存在不小風險。通過使用SaaS服務,可以大幅度減輕客戶IT基礎設施構建和運營成本風險壓力。義務教育藝術質量監(jiān)測系統(tǒng)采用B/S架構,部署在云端,以SaaS(Software as a Service,軟件即服務)的方式向客戶(考試組織者)提供服務。使用的主要開發(fā)語言包括Java和Python,利用的相關技術和框架有Spring Boot、VUE3以及LIBROSA和MUSIC21。考生在考場通過指定考試機按曲目要求進行歌曲演唱(聲音由聲卡讀入),數(shù)據(jù)加密后,通過互聯(lián)網(wǎng)傳入義務教育藝術質量監(jiān)測系統(tǒng)服務器中,在后臺對目標音頻文件(學生成績)進行算法評價,并給出量化分數(shù)?;鶎涌紙銮闆r復雜,具備豐富實踐經驗的IT技術人員不足,在考試組織上存在不小風險。通過使用SaaS服務,可以大幅度減輕客戶IT基礎設施構建和運營成本風險壓力。該系統(tǒng)的成功上線運行,對人工智能技術的落地實踐、產學結合、電子商務音樂流媒體技術的應用以及對其余中小學學科,如美術和體育等的量化評價研究,都具有很大的啟發(fā)意義和廣闊的市場發(fā)展空間。
圖1是義務教育藝術質量監(jiān)測系統(tǒng)的整體流程圖。教師/管理人員可以登錄教師系統(tǒng)管理端,上傳考試曲目(原音、曲譜、伴奏帶),設置評分權重(不同級別學生要求不同),維護學校、學生信息(以學校為單位進行考試)、創(chuàng)建考試等功能。學生可以在考場教師指導下,登錄考試機,按考試題目要求進行聲樂演唱。系統(tǒng)會自動回收試卷(音頻文件)并提交考試內容,通過互聯(lián)網(wǎng)遠程傳回服務器,由義務教育藝術質量監(jiān)測系統(tǒng)服務器端對考試內容進行量化評分。教師可以導出考試成績并進行教學反思研究。從考生角度而言,基本操作流程可分為以下五個步驟:
圖1 系統(tǒng)流程圖
(1)考生登錄考試端,進行設備調試,確認錄音設備沒問題。
(2)考生查看必唱曲目和選唱曲目。
(3)考生進行試唱準備。
(4)考生進行正式演唱,可根據(jù)節(jié)拍提示(MIDI文件)進行調整。
(5)數(shù)據(jù)提交后臺服務器。
圖2是設備調試環(huán)節(jié)圖??忌斎胭~號密碼進行登陸。系統(tǒng)展示考試流程,提示考生進行規(guī)定的頁面操作流程,而后進行錄音功能調試,確保設備無任何障礙(耳機、聲卡)。系統(tǒng)播放考生錄音結果,根據(jù)調試結果轉向相應環(huán)節(jié)。
圖2 設備調試環(huán)節(jié)圖
圖3是正式演唱環(huán)節(jié)圖。在這部分,考生可先進行試唱而后進行正式演唱。系統(tǒng)會播放音樂伴奏帶(配有節(jié)拍),考生在熱身試唱后,試聽自己的演唱效果,而后進行正式考試。在考試結束后,成績(音頻文件)自動上傳后臺服務器進行評分。
圖3 正式演唱環(huán)節(jié)
人的耳朵構造(耳蝸)可以視為一種信號濾波器,即使在環(huán)境音復雜的情況下(噪音)也能識別出目標聲音。耳蝸中的基底膜會根據(jù)傳入聲音的不同頻率,對人腦進行不同神經電路刺激。聲波在被接收轉換后,可近似用數(shù)字信號理論進行等同處理,這也是數(shù)字音樂處理的基本生理物理原理[6]。音樂處理的基本特征有音高、響度、音色等。音高(音調)是人們能夠最直觀感受的參數(shù),由聲樂信號的頻率決定,單位是赫茲(Hz)。音高越大,聲音感受越尖銳,這就是日常生活中女生聲音尖銳程度普遍高于男生的原因。響度(音量)直觀上體現(xiàn)聲音的大小,單位為分貝(dB)。聲波的振幅決定了響度的大小,振幅越大,發(fā)出的聲音也就越大。各種音樂元素的有機組合,如男女生合唱、多樂器演奏等,組成了不同的音色以及音樂流派。另外,義務教育藝術質量監(jiān)測系統(tǒng)也采集了其他音樂特征,如短時過零率和色度向量等。
從考生成績音頻文件中可以讀出波形信號,波形圖涵蓋了音樂信號隨著時間遞進的響度值(振幅)變化,如圖4(a)。其中橫軸表示音樂時間,縱軸為對應該時刻的振幅值。但這往往不夠,法國學者傅里葉提出的傅里葉變換(FAST Fourier Transform, FFT)是一種線性轉換積分器,可以進行聲音信號在時域和頻域的轉換,通過音樂頻譜來進一步分析音樂文件質量,具體如圖4(b)。其中橫軸表示音樂演唱的各頻率值,縱軸表示對應頻率下的振幅值。頻譜圖參考全生命期的音樂頻譜來計算各頻譜成分的占比,然而該子頻譜單元的有效依存時間往往并不一定等同于完整音樂信號生命期,所以基于全局的傅里葉變換無法準確描述各時間段的頻率分布情況。短時傅里葉變換(Short-Time Fourier Transform, STFT)通過對音樂信號進行分割加窗和離散傅里葉(Discrete Fourier Transform, DTT)操作(把長時音樂信號轉換為短時等長音樂信號片段,而后對每個片段進行傅里葉變換),可以更精確描述實際情況,具體如圖4(c)短時傅里葉頻譜圖[7]。其中,橫軸表示時間,縱軸表示頻率,顏色深度表示振幅值的大小,顏色越深暗表示分貝值越高。
STEVENS等在1937年發(fā)現(xiàn),人類的聽覺是一個復雜的非線性系統(tǒng),對音高的感受并不是簡單的聲音頻率線性關系[8]。人耳的構造更像一個低通濾波器,對低頻的敏感度遠高于對高頻段的敏感度。但是可以通過一個對數(shù)轉換,生成一個與人類音調感知強度變化相符合的參數(shù),即梅爾刻度(Mel Scale)。梅爾刻度同音樂信號頻率的轉換可以通過式(1)實現(xiàn)。其中fmusic表示音樂信號頻率,fMel表示梅爾刻度值。圖4(d)是對應的梅爾頻譜圖。
(1)
t/s(a)波形圖
頻率/Hz(b)頻譜圖
t/s(c)短時傅里葉頻譜圖
t/s(d)梅爾頻譜圖圖4 梅爾頻譜變換序列圖
在2020年的中小學音樂測試中,按照音樂考試組織者的意見,對不同級別的學生應該在測試難度上有所區(qū)分??紤]到小學組的童音、中學組男女生在生理發(fā)育期,嗓音喉道處于變聲期的關鍵時刻,聲樂演唱效果及其評判標準應有不同對待。對學生的演唱音速、音強以及音調做了閾值調整區(qū)間,在具體應用中可以根據(jù)不同級別的考試性質,提供不同尺度評判標準。
(1)音速調節(jié)控制
對學生演唱歌曲節(jié)奏速度進行輕微加速或變慢至原來的a倍,a的值在(0.7, 1.3) 內進行選取,對多出或縮短的演唱時長進行等效剪切或填補。這種處理方式的動機是: 學生的演唱速度往往不一致,可以針對較低年級的學生放寬標準。
(2)音強調節(jié)控制
音強調節(jié)是指對錄音音樂的響度做輕微的改變,可以將原始音樂演唱的響度增加或減少bdB。
(3)音調調節(jié)控制
考慮到男女生的聲帶結構不同,輕微的改變音調不會對原來的曲風帶來顯著的改變,故可以對音樂的音調進行調節(jié)。本文采取的方法是對音頻增加或減少c個半音。
在以往,傳統(tǒng)的機器學習往往采用手工提取的目標特征進行模型訓練,在音樂領域中主要是響度、頻率、節(jié)拍等基本數(shù)據(jù)。但不同流派的音樂往往差別巨大,樂器、節(jié)奏和和聲等聲學抽象特征很難用手工進行設計提取。商業(yè)音樂流媒體爆發(fā)式增長,使得通過人工標注進行音樂推薦在商業(yè)成本上變得不具可行性。深度學習通過多層隱藏層連接產生的非線性關系,能夠自動捕捉目標的高級抽象特征[9]。隨著CPU、GPU運算資源的大幅度提高,該理論變得具備實踐可行性。2014年,SIMONYAN K等人提出了牛津大學組VGG-16(Visual Geometry Group)卷積神經網(wǎng)絡模型組,通過提高卷積神經網(wǎng)絡(Convolutional Neural Networks, CNN)的深度,可以大幅度提高圖像分類的準確度。本文嘗試通過訓練卷積神經網(wǎng)絡讀取梅爾頻譜圖,進行音樂風格判斷。
圖5是VGG-16的結構圖。該網(wǎng)絡基本結構由輸入層(Input Layer)、卷積層(Convolutional Layer)、池化層(Pooling Layer)和全連接層(Fully-connected Layer)組成。輸入層負責接收數(shù)據(jù),尤其是高維數(shù)據(jù)。卷積層通過不同尺寸的卷積核(Convolutional Kernel)進行特征提取,實現(xiàn)一種局部權值共享的效果。面對參數(shù)爆炸帶來的巨額運算量問題,池化層負責對卷積層運算結果進行降維操作和防止過擬合操作,主要的方法包括均值池化和最大池化。全連接層也叫Dense層,負責將高維數(shù)據(jù)映射成一維數(shù)據(jù)。輸出層負責最后的結果判斷,本文在這里是多分類設計。
圖5 VGG-16結構圖
本文使用GTZAN數(shù)據(jù)庫進行音樂分類訓練,GTZAN音樂數(shù)據(jù)庫是按照曲風劃分的公開數(shù)據(jù)庫,由1000首音樂片段組成,10種曲風類型主要涵蓋雷鬼、金屬樂、嘻哈、迪斯科、流行樂、藍調、古典樂、搖滾、鄉(xiāng)村樂、爵士樂等[10]。每種曲風由100個片段組成,時常為30 s,采樣頻率為22050 Hz,單聲道。圖片分辨率采用224×224,激活函數(shù)選擇ReLU,輸出層函數(shù)選擇softmax進行曲風最后分類判斷。 訓練周期Epochs設置為100,批次BatchSize設定為64,使用Adam作為卷積神經網(wǎng)絡訓練收斂過程中的梯度優(yōu)化下降方法。采用2.2節(jié)方法得到的梅爾頻譜圖共1000張,按照時間為10 s每張圖割成3張子圖,共3000張梅爾頻譜子圖。而后按照訓練集和驗證集7∶3進行劃分。作為小規(guī)模數(shù)據(jù)量訓練,把VGG16的卷積層作了適當裁剪,選取13個中的前5個。訓練集和驗證集的準確率變化如圖6所示。大概在40輪次時候達到基本收斂,驗證集的準確率接近于90%。
訓練輪次圖6 訓練集和驗證集的準確率變化圖
本文依據(jù)《新時代福建省義務教育質量監(jiān)測實施方案》要求開展新時代義務教育藝術(音樂)的量化評價機制的指導意見,設計了一款基于SaaS的義務教育藝術質量監(jiān)測系統(tǒng)。使用的主要開發(fā)語言包括Java和Python,利用的相關技術和框架有Spring Boot、VUE3以及LIBROSA和MUSIC21。音樂測評不同于傳統(tǒng)的語數(shù)英考試,歌唱是一個主觀性較強的活動。系統(tǒng)通過讀入基本音樂信號特征如音強、音高、節(jié)拍等進行量化分析,并利用CNN分析音樂圖譜,進行初步的藝術感分析。該系統(tǒng)的成功上線運行,對人工智能技術的落地實踐、產學結合、電子商務、音樂流媒體推薦、提升用戶體驗度以及響應政府“企業(yè)上云”都具有參考意義。電子商務的營銷方式愈來愈離不開基于人工智能的推薦算法支持,后續(xù)將在音樂藝術感分析作進一步探索,如聲樂演唱的情感分析以及自動譜曲等。