馮天培,孫躍東,王巖松,張博強(qiáng),劉寧寧,,郭 輝
(1.上海理工大學(xué)機(jī)械工程學(xué)院,上海 200093; 2.上海工程技術(shù)大學(xué)機(jī)械與汽車(chē)工程學(xué)院,上海 201620;3.河南工業(yè)大學(xué)機(jī)電工程學(xué)院,鄭州 450007)
深度學(xué)習(xí)網(wǎng)絡(luò)模擬人類(lèi)神經(jīng)系統(tǒng)及其非線(xiàn)性層次化特性,逐層對(duì)信息進(jìn)行非線(xiàn)性特征抽取并綜合處理,適用于建立車(chē)輛聲品質(zhì)評(píng)價(jià)模型[1-2]。梁凱等[1]利用能夠直接處理二維面板信號(hào)的卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN),構(gòu)建內(nèi)燃機(jī)噪聲的聽(tīng)覺(jué)時(shí)頻譜聲特征與煩躁度全局主觀(guān)評(píng)價(jià)結(jié)果之間的映射關(guān)系,結(jié)果表明整體煩躁度CNN評(píng)價(jià)模型的預(yù)測(cè)性能高于前饋神經(jīng)網(wǎng)絡(luò)模型。
非平穩(wěn)噪聲聲品質(zhì)的瞬時(shí)主觀(guān)評(píng)價(jià)研究發(fā)現(xiàn),時(shí)變聲品質(zhì)主觀(guān)評(píng)價(jià)時(shí)間序列是平滑的,而提取的A計(jì)權(quán)聲壓級(jí)與響度等聲特征序列是波動(dòng)的[3-4]。利用波動(dòng)的聲特征時(shí)間序列建立時(shí)變聲品質(zhì)評(píng)價(jià)模型,導(dǎo)致預(yù)測(cè)曲線(xiàn)呈現(xiàn)波動(dòng)性,降低了對(duì)非平穩(wěn)噪聲平滑性時(shí)變聲品質(zhì)的評(píng)價(jià)效果。對(duì)于車(chē)輛噪聲整體綜合煩躁度CNN評(píng)價(jià)模型,時(shí)域波動(dòng)聽(tīng)覺(jué)譜的直接使用會(huì)限制模型預(yù)測(cè)性能。對(duì)聽(tīng)覺(jué)譜進(jìn)行時(shí)域平滑預(yù)處理,獲取時(shí)序平滑聽(tīng)覺(jué)譜聲特征,可改善模型預(yù)測(cè)性能。
本文中對(duì)采集的汽車(chē)勻速和加速車(chē)內(nèi)噪聲進(jìn)行綜合煩躁度全局主觀(guān)評(píng)價(jià)試驗(yàn),使用Savitzky-Golay濾波器時(shí)間序列平滑法(SG濾波器)對(duì)噪聲樣本激勵(lì)級(jí)譜進(jìn)行時(shí)域平滑預(yù)處理,分別以激勵(lì)級(jí)譜與時(shí)序平滑譜為聲特征,利用CNN構(gòu)建噪聲樣本的聲特征與整體綜合煩躁度主觀(guān)評(píng)價(jià)結(jié)果之間的映射關(guān)系,研究方法如圖1所示,分析聽(tīng)覺(jué)時(shí)頻譜的時(shí)域平滑預(yù)處理對(duì)車(chē)內(nèi)噪聲整體綜合煩躁度CNN評(píng)價(jià)模型性能的改進(jìn)效果。
圖1 車(chē)內(nèi)噪聲整體綜合煩躁度評(píng)價(jià)的激勵(lì)級(jí)譜與時(shí)序平滑譜CNN模型
人類(lèi)聲品質(zhì)評(píng)價(jià)系統(tǒng)包括耳朵、聽(tīng)覺(jué)神經(jīng)系統(tǒng)與大腦,涵蓋了聲音信息的收集、傳遞、處理與主觀(guān)判斷。其中,耳蝸將中耳傳來(lái)的聲振信號(hào)進(jìn)行聽(tīng)覺(jué)頻帶解析處理并轉(zhuǎn)換為電化學(xué)信號(hào),通過(guò)刺激聽(tīng)神經(jīng)向聽(tīng)覺(jué)神經(jīng)系統(tǒng)傳遞電脈沖信息。聽(tīng)覺(jué)中樞對(duì)攜帶頻帶聲信息的生物電信號(hào)進(jìn)行非線(xiàn)性層次化處理,綜合形成對(duì)聲事件的聽(tīng)覺(jué)感知。大腦結(jié)合聽(tīng)覺(jué)感知與個(gè)人主觀(guān)因素如心理活動(dòng)、社會(huì)經(jīng)歷、偏好與性格等,形成對(duì)聲音聲品質(zhì)的判斷與評(píng)價(jià)結(jié)果。聲信號(hào)的耳蝸聽(tīng)覺(jué)頻帶濾波與聽(tīng)覺(jué)神經(jīng)系統(tǒng)的非線(xiàn)性層次化信息處理是聲品質(zhì)形成的重要過(guò)程。
心理聲學(xué)客觀(guān)參量包括響度、尖銳度與粗糙度等,常用于測(cè)量與評(píng)價(jià)車(chē)輛聲品質(zhì)。粗糙度反映聽(tīng)覺(jué)系統(tǒng)對(duì)聲音在時(shí)域上幅值快速變化的一種感覺(jué)。Aures粗糙度模型[5]是典型的粗糙度計(jì)算方法,利用24個(gè)聽(tīng)覺(jué)頻帶廣義調(diào)制系數(shù)計(jì)算粗糙度。尖銳度感覺(jué)被聲音頻譜包絡(luò)影響,反映聲音的刺耳程度。響度表征聲音強(qiáng)弱的主觀(guān)感覺(jué)。Zwicker響度模型[6]已被國(guó)際標(biāo)準(zhǔn) ISO 532B采用[7],是最常用的響度提取算法。其利用1/3倍頻程濾波器組模擬耳蝸,對(duì)聲音信號(hào)的功率譜密度進(jìn)行帶通濾波,計(jì)算聽(tīng)覺(jué)特征頻帶激勵(lì)級(jí)與沿臨界頻帶率分布的特征響度,積分獲得響度值,具體流程如圖2所示??紤]加權(quán)因子的Zwicker尖銳度模型是常用的尖銳度提取方法,如圖2所示,并被德國(guó)標(biāo)準(zhǔn)DIN 45692所采用[8]。綜上可知,常用心理聲學(xué)客觀(guān)參量的計(jì)算方法充分考慮了聽(tīng)覺(jué)頻帶濾波特性,所以頻帶聲信息如激勵(lì)級(jí)時(shí)頻譜,可作為聲特征建立車(chē)輛聲品質(zhì)評(píng)價(jià)模型[2]。
圖2 Zwicker響度與尖銳度計(jì)算方法
車(chē)輛聲品質(zhì)評(píng)價(jià)分為全局評(píng)價(jià)(global evaluation)與瞬時(shí)評(píng)價(jià)(instantaneous evaluation)[9]、主觀(guān)評(píng)價(jià)與客觀(guān)評(píng)價(jià)兩個(gè)維度,如圖3所示。
圖3 車(chē)輛聲品質(zhì)評(píng)價(jià)體系
主觀(guān)評(píng)價(jià)研究以人為主體,采用聽(tīng)音評(píng)價(jià)試驗(yàn)的方式進(jìn)行[10]。在車(chē)輛噪聲聲品質(zhì)主觀(guān)評(píng)價(jià)試驗(yàn)中,選定評(píng)價(jià)指標(biāo)與評(píng)價(jià)方法,組織評(píng)審團(tuán)對(duì)車(chē)輛噪聲樣本進(jìn)行聽(tīng)音評(píng)價(jià),統(tǒng)計(jì)并分析聲品質(zhì)評(píng)價(jià)結(jié)果。其中,常用的主觀(guān)評(píng)價(jià)指標(biāo)包括響度、尖銳度、粗糙度等單維度指標(biāo)和綜合煩躁度、偏好性與運(yùn)動(dòng)感等多維度綜合性評(píng)價(jià)指標(biāo)。主觀(guān)評(píng)價(jià)數(shù)據(jù)的典型統(tǒng)計(jì)量,如平均評(píng)價(jià)值,能夠反映出評(píng)審團(tuán)對(duì)車(chē)輛噪聲直觀(guān)全面的聽(tīng)覺(jué)感受,代表了車(chē)輛噪聲的真實(shí)聲品質(zhì)水平,所以主觀(guān)評(píng)價(jià)是車(chē)輛聲品質(zhì)評(píng)價(jià)的基本研究方法。
客觀(guān)評(píng)價(jià)研究分為傳統(tǒng)客觀(guān)評(píng)價(jià)與智能評(píng)價(jià)。傳統(tǒng)客觀(guān)評(píng)價(jià)以心理聲學(xué)客觀(guān)參量計(jì)算模型為典型代表,采用儀器測(cè)得的聲學(xué)客觀(guān)量來(lái)進(jìn)行聲品質(zhì)評(píng)判。傳統(tǒng)評(píng)價(jià)模型的算法過(guò)程復(fù)雜,對(duì)心理因素的計(jì)算模擬存在較大難度,所以在更靠近心理活動(dòng)的綜合性評(píng)價(jià)指標(biāo)的客觀(guān)評(píng)價(jià)計(jì)算上存在不足。智能客觀(guān)評(píng)價(jià)利用機(jī)器學(xué)習(xí)方法構(gòu)建噪聲特征與主觀(guān)評(píng)價(jià)結(jié)果之間的映射關(guān)系,建立車(chē)輛噪聲聲品質(zhì)客觀(guān)評(píng)價(jià)模型[11-13],將對(duì)心理活動(dòng)的模擬融入模型中,可對(duì)聲品質(zhì)進(jìn)行較為精確的量化估計(jì),是常用的對(duì)綜合性聲品質(zhì)評(píng)價(jià)指標(biāo)的客觀(guān)評(píng)價(jià)方法。其中多元線(xiàn)性回歸[14]、人工神經(jīng)網(wǎng)絡(luò)[15]、支持向量機(jī)[16]與深度學(xué)習(xí)[1-2,17]是有效的建模機(jī)器學(xué)習(xí)方法,心理聲學(xué)客觀(guān)參量[11-12,14]與聽(tīng)覺(jué)譜[1,15]是常用聲特征。主觀(guān)評(píng)價(jià)與智能客觀(guān)評(píng)價(jià)是研究車(chē)輛噪聲聲品質(zhì)評(píng)價(jià)的兩個(gè)遞進(jìn)的層次,主觀(guān)評(píng)價(jià)是客觀(guān)評(píng)價(jià)的基礎(chǔ),客觀(guān)評(píng)價(jià)升華了主觀(guān)評(píng)價(jià)的研究。
全局主觀(guān)評(píng)價(jià)試驗(yàn)常采用等級(jí)評(píng)分法、成對(duì)比較法和語(yǔ)義細(xì)分法等評(píng)價(jià)方法,獲取評(píng)價(jià)人員對(duì)評(píng)價(jià)對(duì)象的整體聲品質(zhì)評(píng)價(jià)單值,可對(duì)車(chē)輛噪聲聲品質(zhì)進(jìn)行全局整體性認(rèn)識(shí)。利用機(jī)器學(xué)習(xí)方法構(gòu)建噪聲樣本的全局主觀(guān)評(píng)價(jià)結(jié)果與提取聲特征之間的映射關(guān)系,建立整體聲品質(zhì)評(píng)價(jià)模型,評(píng)價(jià)速度快、一致性好,適合于工程應(yīng)用。與全局評(píng)價(jià)不同,瞬時(shí)評(píng)價(jià)主要針對(duì)非平穩(wěn)噪聲。在車(chē)輛噪聲聲品質(zhì)瞬時(shí)主觀(guān)評(píng)價(jià)中,評(píng)價(jià)人員根據(jù)回放的噪聲樣本實(shí)時(shí)給出相應(yīng)的瞬時(shí)聲品質(zhì)評(píng)價(jià)值,獲得并統(tǒng)計(jì)針對(duì)評(píng)價(jià)對(duì)象的時(shí)變聲品質(zhì)評(píng)價(jià)序列,在瞬時(shí)主觀(guān)感受變化方面對(duì)非平穩(wěn)車(chē)輛噪聲的聲品質(zhì)進(jìn)行微觀(guān)局部性認(rèn)識(shí)[3,9]。利用機(jī)器學(xué)習(xí)方法構(gòu)建時(shí)變聲品質(zhì)主觀(guān)評(píng)價(jià)序列與聲特征序列間的映射關(guān)系[11],建立時(shí)變聲品質(zhì)評(píng)價(jià)模型,可測(cè)量與分析車(chē)輛時(shí)變聲品質(zhì)環(huán)境、監(jiān)控車(chē)內(nèi)實(shí)時(shí)聲品質(zhì)水平。全局評(píng)價(jià)與瞬時(shí)評(píng)價(jià)的研究成果可以相互借鑒。本文中研究汽車(chē)車(chē)內(nèi)噪聲整體綜合煩躁度的智能客觀(guān)評(píng)價(jià)。
依據(jù)國(guó)家標(biāo)準(zhǔn)GB/T 18697—2002《聲學(xué)— 汽車(chē)車(chē)內(nèi)噪聲測(cè)量方法》[18],本文中采集汽車(chē)勻速和加速工況下車(chē)內(nèi)噪聲。試驗(yàn)車(chē)輛選擇3輛不同品牌的國(guó)產(chǎn)轎車(chē),分別標(biāo)記為A、B與C車(chē)。工況設(shè)為30、40、50、60、70、80、90、100 km/h勻速行駛15 s及50~120 km/h全油門(mén)加速行駛,整個(gè)過(guò)程不能換擋。采集設(shè)備為B&K公司的PULSE聲音采集系統(tǒng)和兩只1/2英寸類(lèi)型4189-A-21的傳聲器,采樣頻率為65 536 Hz,采集車(chē)輛前排司機(jī)位、副駕駛位與后排左乘客位(分別標(biāo)記為 I、II、III位置)雙耳處噪聲。
每種試驗(yàn)條件下測(cè)量3次以上,使用B&K公司的Sound Quality軟件對(duì)現(xiàn)場(chǎng)采集的車(chē)內(nèi)噪聲信號(hào)進(jìn)行采樣頻率為44 100 Hz的重采樣。通過(guò)聽(tīng)音回放,并分析噪聲信號(hào)聲學(xué)參量如A計(jì)權(quán)聲壓級(jí)、響度等隨時(shí)間變化情況,選出每種條件下運(yùn)行工況穩(wěn)定且受其他因素影響小的最佳噪聲信號(hào)。考慮到人類(lèi)聽(tīng)覺(jué)主觀(guān)感知的形成過(guò)程,從選出的噪聲信號(hào)中剪輯出時(shí)間長(zhǎng)度為5 s[19]的音頻信號(hào)作為一個(gè)噪聲樣本,其中加速噪聲信號(hào)持續(xù)時(shí)長(zhǎng)均在10 s以上,在加速噪聲信號(hào)的前半部分與后半部分各截取一段5 s的噪聲樣本。每輛車(chē)可獲取30個(gè)噪聲樣本。根據(jù)采集車(chē)輛、位置與工況對(duì)樣本進(jìn)行編號(hào),如AI-70表示A車(chē)駕駛員位70 km/h勻速行駛車(chē)內(nèi)噪聲樣本,BII-a表示B車(chē)副駕駛位50~120 km/h加速行駛前半部分時(shí)長(zhǎng)5 s的噪聲樣本,CIII-b表示C車(chē)后排左乘客位50~120 km/h加速行駛后半部分時(shí)長(zhǎng)5 s的樣本,建立本文中汽車(chē)車(chē)內(nèi)噪聲樣本庫(kù),共90個(gè)樣本,包括72個(gè)勻速噪聲樣本與18個(gè)加速噪聲樣本。其中AI-b、BII-70與C車(chē)后排左乘客位勻速噪聲樣本的聲學(xué)參量測(cè)量值如圖4所示。
圖4 噪聲樣本聲學(xué)參量時(shí)序圖與主觀(guān)評(píng)價(jià)結(jié)果分布圖
本文中選擇綜合煩躁度作為評(píng)價(jià)指標(biāo),參考語(yǔ)義細(xì)分法[20]為評(píng)價(jià)方法,設(shè)置描述噪聲綜合煩躁度主觀(guān)感受程度的等級(jí)評(píng)價(jià)詞,如表1所示。對(duì)比噪聲樣本的心理聲學(xué)參量值并組織一次語(yǔ)義細(xì)分法綜合煩躁度預(yù)評(píng)價(jià),選定CI-60為參考樣本,其綜合煩躁度為“有些煩躁”。利用Adobe Audition軟件將參考樣本和各噪聲樣本分別組合,形成90個(gè)試驗(yàn)評(píng)價(jià)樣本。組織由25位高校學(xué)生構(gòu)成的評(píng)審團(tuán)進(jìn)行聽(tīng)音評(píng)價(jià)試驗(yàn),評(píng)價(jià)人員先聽(tīng)參考樣本,對(duì)噪聲樣本聽(tīng)音完畢后,結(jié)合參考樣本的聲品質(zhì)水平對(duì)噪聲樣本進(jìn)行評(píng)價(jià)。將評(píng)價(jià)人員選擇的評(píng)價(jià)詞匯根據(jù)表1進(jìn)行量化,得到其對(duì)各樣本的整體綜合煩躁度評(píng)價(jià)值。對(duì)每個(gè)樣本的各評(píng)價(jià)人員評(píng)價(jià)值取均值,作為評(píng)審團(tuán)對(duì)該樣本的整體綜合煩躁度評(píng)價(jià)結(jié)果。C車(chē)后排左乘客位各勻速噪聲樣本的整體綜合煩躁度主觀(guān)評(píng)價(jià)結(jié)果與A聲級(jí)對(duì)比見(jiàn)圖4(c)。
表1 參考語(yǔ)義細(xì)分法綜合煩躁度等級(jí)評(píng)價(jià)詞及分值
針對(duì)聲特征時(shí)間序列的波動(dòng)性,可利用平滑法提取具有時(shí)序平滑特性的序列。平滑法是進(jìn)行時(shí)間序列趨勢(shì)性分析的一種常用方法,利用修勻技術(shù)削弱短期隨機(jī)波動(dòng)對(duì)序列的影響,使序列平滑化。除了移動(dòng)平均法與指數(shù)平滑法,SG濾波器[21]是常用的時(shí)間序列平滑技術(shù)。在SG濾波器的設(shè)計(jì)中,階數(shù)與采樣窗長(zhǎng)是兩個(gè)重要參數(shù)。設(shè)p為階數(shù),一般取 2、3或 4[22-23],2M+1為窗長(zhǎng),可根據(jù)待平滑時(shí)間序列的長(zhǎng)度進(jìn)行適當(dāng)設(shè)置,且p≤2M。SG濾波器通過(guò)構(gòu)造一個(gè)p階多項(xiàng)式fi,來(lái)擬合窗內(nèi)時(shí)序數(shù)組{yi|i=-M,…,0,…,M},然后在時(shí)間序列上平移,完成對(duì)整個(gè)時(shí)間序列的平滑[24]。其中 fi為
解式(4)得最優(yōu)系數(shù)組合{ar|r=0,1,…,p},可確定多項(xiàng)式fi,完成對(duì)數(shù)組的平滑擬合。
由于CNN能直接識(shí)別二維面板特征,本文中提取噪聲樣本的激勵(lì)級(jí)時(shí)頻譜,作為建立整體綜合煩躁度CNN評(píng)價(jià)模型的聲特征。在Matlab中編制聲音信號(hào)的激勵(lì)級(jí)譜提取程序:在時(shí)域上運(yùn)用Hanning窗(窗寬800 ms,窗移200 ms)對(duì)信號(hào)進(jìn)行分割,按照Z(yǔ)wicker響度模型[6-7]計(jì)算每一個(gè)子信號(hào)的聽(tīng)覺(jué)特征頻帶激勵(lì)級(jí);時(shí)域上取中間連續(xù)20個(gè)時(shí)間區(qū)塊,頻域上取前20個(gè)聽(tīng)覺(jué)頻帶,獲得尺寸為20×20的噪聲樣本激勵(lì)級(jí)譜。
在Matlab中設(shè)計(jì)SG濾波器,階數(shù)設(shè)置為3,窗長(zhǎng)為41個(gè)采樣點(diǎn),對(duì)激勵(lì)級(jí)譜進(jìn)行時(shí)域平滑,提取噪聲樣本的時(shí)序平滑激勵(lì)級(jí)譜聲特征。AI-a的激勵(lì)級(jí)譜與時(shí)序平滑譜分別如圖5(a)與圖5(b)所示,第2與第4聽(tīng)覺(jué)頻帶的激勵(lì)級(jí)時(shí)間序列及其平滑序列分別如圖5(c)與圖5(d)所示。
圖5 噪聲樣本AI-a的聲特征提取
受啟發(fā)于Hubel-Wiesel生物視覺(jué)模型[22],卷積神經(jīng)網(wǎng)絡(luò)(CNN)通過(guò)順序堆疊多個(gè)卷積— 池化層模擬視神經(jīng)系統(tǒng)的局部感受野與非線(xiàn)性層次化處理特性[23-25]。具有局部連接、權(quán)值共享與降采樣特點(diǎn)的CNN,其典型結(jié)構(gòu)見(jiàn)圖6,包含5種神經(jīng)網(wǎng)絡(luò)層。
圖6 CNN的結(jié)構(gòu)與特點(diǎn)
(1)輸入層:可接收單通道(如灰度圖像或單通道噪聲聽(tīng)覺(jué)時(shí)頻譜)或多通道(雙耳語(yǔ)音信號(hào)、三通道彩色圖像)面板信號(hào)。圖6所示輸入層接收三通道信號(hào),每通道輸入信號(hào)均是尺寸為17行17列的二維矩陣,則該輸入層的尺寸為3@17×17。輸入層接收輸入信號(hào)并傳遞至卷積層。
(2)卷積層:具有局部感受野特性的卷積層神經(jīng)元對(duì)上一層輸出信號(hào)進(jìn)行局部連接加權(quán)運(yùn)算,通過(guò)激活函數(shù)映射獲得該層神經(jīng)元輸出:
y=f(x·w-θ) (5)式中:x為卷積層神經(jīng)元以局部連接方式接收的輸入?yún)^(qū)域信號(hào);w為該神經(jīng)元權(quán)重矩陣;θ為閾值;f(·)為激活函數(shù);y為神經(jīng)元輸出。
卷積層將層內(nèi)神經(jīng)元局部感受野統(tǒng)一為相同大小并排列在有限個(gè)相同尺寸的面板上,同一面板上的神經(jīng)元擁有相同的連接權(quán)重矩陣(即權(quán)值共享特性,該權(quán)重集被稱(chēng)為卷積核),一個(gè)面板稱(chēng)為一個(gè)特征圖。卷積層同一面板上相鄰神經(jīng)元在輸入信號(hào)上的局部感受野按其在面板上空間次序?qū)?yīng)排列,相鄰局部感受野在垂直與水平方向上的距離稱(chēng)為步長(zhǎng)。通過(guò)在輸入面板信號(hào)高度與寬度方向上的補(bǔ)零操作,卷積層同一面板神經(jīng)元局部感受野的并集覆蓋整個(gè)輸入信號(hào)。圖6中第一個(gè)卷積層的卷積核尺寸為6@3×3(卷積核個(gè)數(shù)@神經(jīng)元感受野尺寸),通過(guò)運(yùn)用尺寸為2×2的步長(zhǎng)與0×0補(bǔ)零操作,該卷積層可輸出6個(gè)尺寸為8×8的特征圖(6@8×8)并傳遞至池化層。
(3)池化層:具有局部感受野特性的池化層神經(jīng)元對(duì)上一層輸出特征圖進(jìn)行局部連接加權(quán)運(yùn)算(如最大值或平均值運(yùn)算,即降采樣特性),獲得該層神經(jīng)元輸出。池化層將層內(nèi)神經(jīng)元局部感受野統(tǒng)一為相同大小并排列在有限個(gè)相同尺寸的面板上,面板數(shù)量與前一卷積層輸出特征圖個(gè)數(shù)相同,并以一一對(duì)應(yīng)的方式接收輸出特征圖,見(jiàn)圖6。常用的降采樣運(yùn)算包括最大池化(max-pooling)和平均池化(average-pooling),池化層采用同一降采樣運(yùn)算對(duì)輸入信號(hào)提取更高階的相對(duì)關(guān)系特征,降低特征維度與計(jì)算復(fù)雜度。圖6中第一個(gè)池化層包含6個(gè)通道,分別對(duì)應(yīng)前一卷積層輸出的6個(gè)特征圖,層內(nèi)神經(jīng)元感受野尺寸為2×2,則該池化層可表示為6@2×2。通過(guò)運(yùn)用尺寸為2×2的步長(zhǎng)與0×0補(bǔ)零操作,該池化層輸出尺寸為6@4×4的特征圖并傳遞至下一層卷積層或全連接層。
(4)全連接層:層內(nèi)神經(jīng)元線(xiàn)性排列,每個(gè)神經(jīng)元均連接至前一層所有神經(jīng)元,按式(5)對(duì)前一層輸出信號(hào)進(jìn)行接收、處理與計(jì)算。
(5)輸出層:層內(nèi)神經(jīng)元線(xiàn)性排列,每個(gè)神經(jīng)元均連接至最后一層全連接層的所有神經(jīng)元,并按式(5)對(duì)輸入信號(hào)進(jìn)行激活輸出。輸出層神經(jīng)元個(gè)數(shù)等于類(lèi)別個(gè)數(shù)(分類(lèi)問(wèn)題)或響應(yīng)變量數(shù)(回歸問(wèn)題)。
在CNN中,ReLU函數(shù)是常用激活函數(shù):
基于小批量隨機(jī)梯度下降的誤差反向傳播算法是常用的訓(xùn)練算法,如圖7所示。迭代學(xué)習(xí)過(guò)程一直進(jìn)行,直到滿(mǎn)足終止條件(如達(dá)到最大訓(xùn)練輪數(shù)),輸出最優(yōu)網(wǎng)絡(luò)權(quán)值閾值,CNN訓(xùn)練完畢。在迭代訓(xùn)練中,慣量因子可提高收斂速度并幫助尋優(yōu)過(guò)程越過(guò)局部極小。
式中:η為學(xué)習(xí)率;W和ΔW分別為一次迭代過(guò)程中網(wǎng)絡(luò)前向計(jì)算使用權(quán)值閾值和獲得的權(quán)值閾值調(diào)整量;E為一次迭代中網(wǎng)絡(luò)前向計(jì)算誤差;ΔW*為前一次迭代訓(xùn)練中學(xué)習(xí)到的網(wǎng)絡(luò)權(quán)值閾值調(diào)整量;γ為慣量因子。
圖7 基于小批量隨機(jī)梯度下降的CNN誤差反向傳播學(xué)習(xí)過(guò)程
本文中在Matlab平臺(tái)上構(gòu)建CNN結(jié)構(gòu)并設(shè)置網(wǎng)絡(luò)學(xué)習(xí)參數(shù)對(duì)CNN進(jìn)行訓(xùn)練,分別建立車(chē)內(nèi)噪聲整體綜合煩躁度的激勵(lì)級(jí)譜與時(shí)序平滑激勵(lì)級(jí)譜CNN評(píng)價(jià)模型,其采用相同的CNN結(jié)構(gòu)參數(shù),如圖8所示,包括一個(gè)輸入層、兩個(gè)卷積— 池化組合層(C1-P2與C3-P4)、一個(gè)全連接層(FC5)與一個(gè)回歸輸出層。
輸入層中輸入尺寸設(shè)置為1@20×20,以接收尺寸為20×20的二維面板聲特征(激勵(lì)級(jí)譜或平滑激勵(lì)級(jí)譜);C1層利用尺寸為6@2×2的卷積核對(duì)輸入二維聲特征進(jìn)行局部平面域感知與濾波;P2層接收C1層輸出的尺寸為6@19×19的特征圖,進(jìn)行核為6@3×1的最大池化操作,并向 C3層輸出尺寸為6@7×19的特征圖;C3-P4層的卷積核分別為10@3×3與10@2×1并采用最大池化;FC5層利用30個(gè)全連接神經(jīng)元對(duì)輸入信息進(jìn)行綜合處理,提取高階特征;包含一個(gè)全連接神經(jīng)元的輸出層輸出CNN前向計(jì)算的綜合煩躁度評(píng)價(jià)結(jié)果。卷積層、全連接層與輸出層中激活函數(shù)均設(shè)置為ReLU函數(shù),各層步長(zhǎng)、補(bǔ)零及輸出特征圖尺寸見(jiàn)圖8。
圖8 車(chē)內(nèi)噪聲整體綜合煩躁度客觀(guān)評(píng)價(jià)模型
設(shè)置相同的CNN訓(xùn)練參數(shù):采用基于小批量隨機(jī)梯度下降的反向傳播學(xué)習(xí)算法來(lái)訓(xùn)練CNN,其中小批量訓(xùn)練樣本容量設(shè)置為12。學(xué)習(xí)率設(shè)置為0.000 7,慣量因子為0.9。在網(wǎng)絡(luò)可訓(xùn)練參數(shù)的初始化方面,初始權(quán)重服從均值為0、方差為0.01的高斯分布,初始閾值均設(shè)置為0。最大訓(xùn)練輪數(shù)終止條件設(shè)置為4 000輪。在Matlab中根據(jù)訓(xùn)練參數(shù)的設(shè)置對(duì)建立的激勵(lì)級(jí)譜與時(shí)序平滑激勵(lì)級(jí)譜CNN評(píng)價(jià)模型進(jìn)行訓(xùn)練。
利用留一法對(duì)本文中建立的汽車(chē)車(chē)內(nèi)噪聲整體綜合煩躁度CNN評(píng)價(jià)模型的性能進(jìn)行檢驗(yàn)。首先,建立訓(xùn)練集與留一測(cè)試集,并歸一化處理;然后,利用訓(xùn)練集與訓(xùn)練參數(shù)對(duì)CNN網(wǎng)絡(luò)進(jìn)行訓(xùn)練,學(xué)習(xí)過(guò)程如圖7所示,分別輸出最優(yōu)化的激勵(lì)級(jí)譜與時(shí)序平滑激勵(lì)級(jí)譜CNN評(píng)價(jià)模型;最后,利用留一測(cè)試集檢驗(yàn)?zāi)P托阅?,檢驗(yàn)項(xiàng)目為整體綜合煩躁度主觀(guān)評(píng)價(jià)結(jié)果與預(yù)測(cè)結(jié)果之間的Pearson線(xiàn)性相關(guān)系數(shù)(度量預(yù)測(cè)一致性)、預(yù)測(cè)誤差均值(度量預(yù)測(cè)精度)與方差(度量預(yù)測(cè)穩(wěn)定性),其中相關(guān)系數(shù)的顯著性檢驗(yàn)水平設(shè)置為0.05。留一法檢驗(yàn)結(jié)果見(jiàn)表2與圖9。
表2中相關(guān)系數(shù)均高于0.85,p值均小于0.05,說(shuō)明綜合煩躁度主觀(guān)評(píng)價(jià)結(jié)果與模型預(yù)測(cè)結(jié)果之間一致性較高。但是相比于激勵(lì)級(jí)譜CNN評(píng)價(jià)模型,基于時(shí)序平滑激勵(lì)級(jí)譜的CNN評(píng)價(jià)模型,其預(yù)測(cè)誤差均值降低10.43%、方差降低44.26%、Pearson相關(guān)系數(shù)升高4.13%,如圖9所示。說(shuō)明時(shí)序平滑激勵(lì)級(jí)譜CNN評(píng)價(jià)模型的預(yù)測(cè)精度、穩(wěn)定性與一致性均有提高,性能高于基于激勵(lì)級(jí)譜的CNN評(píng)價(jià)模型。車(chē)輛噪聲聲品質(zhì)瞬時(shí)評(píng)價(jià)研究中的時(shí)變聲品質(zhì)主觀(guān)評(píng)價(jià)時(shí)間序列平滑特性,提高了聲品質(zhì)全局評(píng)價(jià)中的整體綜合煩躁度CNN評(píng)價(jià)模型的性能,提高了聲特征對(duì)車(chē)內(nèi)噪聲整體綜合煩躁度的表達(dá)能力,即時(shí)序平滑激勵(lì)級(jí)譜的表達(dá)能力高于聽(tīng)覺(jué)激勵(lì)級(jí)譜。相比于傳統(tǒng)常用聽(tīng)覺(jué)譜如激勵(lì)級(jí)譜,時(shí)序平滑激勵(lì)級(jí)譜是較為優(yōu)化的聲特征,更適于汽車(chē)車(chē)內(nèi)噪聲整體綜合煩躁度的CNN客觀(guān)評(píng)價(jià)。
表2 CNN評(píng)價(jià)模型的留一法檢驗(yàn)結(jié)果
圖9 CNN評(píng)價(jià)模型的留一法檢驗(yàn)結(jié)果對(duì)比
考慮到車(chē)輛噪聲時(shí)變聲品質(zhì)主觀(guān)評(píng)價(jià)序列的時(shí)序平滑特性,時(shí)序波動(dòng)激勵(lì)級(jí)譜聲特征的直接使用會(huì)制約汽車(chē)車(chē)內(nèi)噪聲整體綜合煩躁度CNN評(píng)價(jià)模型的性能。本文中利用SG濾波器提取汽車(chē)車(chē)內(nèi)勻速和加速噪聲樣本的時(shí)序平滑激勵(lì)級(jí)譜,利用CNN構(gòu)建二維面板聲特征與整體綜合煩躁度主觀(guān)評(píng)價(jià)結(jié)果之間的映射關(guān)系,建立基于時(shí)序平滑激勵(lì)級(jí)譜的車(chē)內(nèi)噪聲整體綜合煩躁度CNN評(píng)價(jià)模型。留一法交叉檢驗(yàn)結(jié)果表明,相比于基于激勵(lì)級(jí)譜的CNN評(píng)價(jià)模型,時(shí)序平滑激勵(lì)級(jí)譜CNN評(píng)價(jià)模型的預(yù)測(cè)精度、穩(wěn)定性與一致性更高,性能更好。說(shuō)明相比于激勵(lì)級(jí)譜等傳統(tǒng)常用聽(tīng)覺(jué)時(shí)頻譜,時(shí)序平滑聽(tīng)覺(jué)譜,如時(shí)序平滑激勵(lì)級(jí)譜,是較為優(yōu)化的聲特征,更適于汽車(chē)車(chē)內(nèi)噪聲整體綜合煩躁度的CNN客觀(guān)評(píng)價(jià)。