国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于音頻多模態(tài)研究的信號分析系統(tǒng)設(shè)計(jì)*

2024-03-05 06:53武雅琴鄧林強(qiáng)楊晨藝公徐路
山西電子技術(shù) 2024年1期
關(guān)鍵詞:嗓音位數(shù)音頻

武雅琴,鄧林強(qiáng),楊晨藝,呂 嘉,公徐路

(山西農(nóng)業(yè)大學(xué),山西 晉中 030801)

0 引言

隨著信息技術(shù)的不斷發(fā)展,音頻信號處理技術(shù)正發(fā)揮著舉足輕重的作用。語音隸屬于音頻研究范疇,作為信息交互的媒介,相比圖像文本等其他交互方式,語音表達(dá)更加簡潔直觀。語音交互傳遞信息比較靈活自然,因此成為現(xiàn)實(shí)生活中最直接有效的溝通方式[1]。語音除了包含人想要傳達(dá)的命令之外,還包含有各種聲學(xué)特征,通過分析提取聲學(xué)特征除了可進(jìn)行情感識別[2-3]、語音識別等傳統(tǒng)聲學(xué)研究外[4]、還可作為病理嗓音疾病的診斷依據(jù)[5-6],在音頻信號處理與病理嗓音醫(yī)學(xué)交叉應(yīng)用領(lǐng)域中起到了舉足輕重的作用。

病理嗓音信號研究大都以多模態(tài)信號為主體,通過各種拾音設(shè)備和分析軟件采集、分析、保存為不同格式。涉及到拾音設(shè)備領(lǐng)域,目前主要?dú)饬鳉鈮翰杉O(shè)備是美國KAY公司的言語發(fā)聲空氣動力學(xué)系統(tǒng),但由于該設(shè)備采集保存的文件格式為.NSP,現(xiàn)有多模態(tài)音頻分析軟件無法對該格式文件進(jìn)行處理。此外,通過對現(xiàn)有文獻(xiàn)的分析,存在未完整考慮文件結(jié)構(gòu)、編解碼特征、存儲格式和評測方法單一的問題。因此,本文設(shè)計(jì)一種將NSP模態(tài)轉(zhuǎn)為WAV模態(tài)的信號分析系統(tǒng),以實(shí)現(xiàn)音頻多模態(tài)分析研究的目的。

1 音頻多模態(tài)研究分析

1.1 NSP文件分析

由于鮮有資料對NSP文件進(jìn)行詳細(xì)介紹,因此本文采用UltraEdit軟件打開讀取該文件,通過統(tǒng)計(jì)對比的方法來分析確定文件的頭部與數(shù)據(jù)起始部分。如圖1所示,文件數(shù)據(jù)存儲為十六進(jìn)制碼,每行存放16組數(shù)據(jù)。本文通過統(tǒng)計(jì)對比大量NSP文件的內(nèi)碼得出:氣流氣壓信號NSP文件均以“5344415F”為界,在該分界之前為頭文件信息,該分界之后緊接的4組數(shù)據(jù)代表文件數(shù)據(jù)總數(shù),剩余部分至結(jié)束為NSP文件的真實(shí)數(shù)據(jù)部分。

圖1 NSP文件內(nèi)碼圖

1.2 WAV文件分析

WAV文件格式是微軟開發(fā)的一種音頻格式,可以直接存儲聲音波形,是一種很常見、最經(jīng)典的多媒體音頻文件。本論文從文件結(jié)構(gòu)、編碼特征、影響因素和存儲格式對WAV文件進(jìn)行分析。

1.2.1 文件結(jié)構(gòu)

在Windows環(huán)境下,大部分的多媒體文件是按照資源互換文件格式存放信息,簡稱為RIFF格式。WAV文件分為兩部分,一部分是WAV頭部文件,另一部分是PCM編碼的音頻數(shù)據(jù)部分。該文件類型遵循RIFF格式,內(nèi)容以區(qū)塊(chunk)為最小單位進(jìn)行存儲,一般由三個(gè)區(qū)塊組成:RIFFchunk、Format chunk和Datachunk。其中RIFFchunk代表文件標(biāo)識符,Formatchunk包括WAV文件編碼格式類型、聲道數(shù)、采樣頻率、采樣位數(shù)、數(shù)據(jù)塊長度等重要參數(shù),Datachunk記錄音頻數(shù)據(jù)。

1.2.2 編碼特征

WAV文件支持非壓縮的PCM脈沖編碼調(diào)制格式。PCM脈沖編碼調(diào)制主要是對連續(xù)的模擬信號每隔一段時(shí)間進(jìn)行取樣操作,變?yōu)樵跁r(shí)間軸上離散的抽樣信號,并將取樣的值按四舍五入進(jìn)行量化取整,最后將取樣值按二進(jìn)制碼的方式表示抽樣脈沖的幅值。

1.2.3 影響因素

1) 采樣頻率:采樣頻率也稱為采樣率,定義為每秒從連續(xù)信號中提取并組成離散信號的次數(shù),是描述聲音文件音質(zhì)、音調(diào)、聲卡的質(zhì)量標(biāo)準(zhǔn)。其值越高,采樣的間隔越短,即單位時(shí)間內(nèi)獲得的聲音數(shù)據(jù)越多,波形的表示也就越準(zhǔn)確。

2) 采樣位數(shù):采樣位數(shù)是衡量量化的參數(shù),是指聲卡數(shù)字信號的二進(jìn)制位數(shù),即對聲音的辨析度。數(shù)值越大,分辨率也就越大,發(fā)聲能力越強(qiáng),目前計(jì)算機(jī)中配置的16位聲卡的采樣位數(shù)包括8位和16位兩種。

3) 聲道數(shù):聲道數(shù)是音質(zhì)傳輸?shù)闹匾笜?biāo),有單聲道和雙聲道(立體聲)之分,雙聲道在硬件中要占兩條線路,音質(zhì)、音色會比單通道時(shí)表現(xiàn)更好,其數(shù)字化后數(shù)據(jù)所占的空間是單聲道的兩倍。

4) 存儲格式:對于WAV文件的Data模塊,聲道數(shù)、采樣率和采樣位數(shù)的不同,會直接影響數(shù)據(jù)的存儲格式,圖2展示了WAV文件不同采樣位數(shù)和聲道數(shù)組合的存儲格式情況。

通過對NSP和WAV文件的分析,本文得出:要設(shè)計(jì)實(shí)現(xiàn)適用于音頻多模態(tài)的信號分析系統(tǒng),實(shí)現(xiàn)NSP模態(tài)轉(zhuǎn)為WAV模態(tài)的目的,必須全面綜合考慮待處理音頻模態(tài)文件的聲道數(shù)、編碼位數(shù)、采樣率等重要指標(biāo)。

2 系統(tǒng)總體設(shè)計(jì)

本文設(shè)計(jì)的基于音頻多模態(tài)研究的信號分析系統(tǒng),主要包括預(yù)處理、數(shù)據(jù)標(biāo)識、轉(zhuǎn)換生成三大模塊。首先,預(yù)處理模塊用以對NSP模態(tài)文件進(jìn)行真實(shí)數(shù)據(jù)起始和終止部分的準(zhǔn)確定位和截取保存處理,預(yù)處理模塊的輸出數(shù)據(jù)會順序傳入數(shù)據(jù)標(biāo)識模塊進(jìn)行采樣點(diǎn)定位;其次,數(shù)據(jù)標(biāo)識模塊用以對預(yù)處理模塊的輸出數(shù)據(jù)根據(jù)采樣位數(shù)和通道數(shù)進(jìn)行定位處理,該模塊的輸出為后續(xù)轉(zhuǎn)換生成模塊提供采樣點(diǎn)數(shù)據(jù);最后,轉(zhuǎn)換生成模塊結(jié)合采樣率和聲道數(shù),用以對數(shù)據(jù)標(biāo)識模塊輸出的所有采樣點(diǎn)數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理,得到最終生成的WAV模態(tài)文件?;谝纛l多模態(tài)研究的信號分析系統(tǒng)設(shè)計(jì)框圖如圖3所示。

圖3 基于音頻多模態(tài)研究的信號分析系統(tǒng)設(shè)計(jì)框圖

3 實(shí)驗(yàn)設(shè)計(jì)與分析

3.1 數(shù)據(jù)集

本文采用由美國KAY公司的言語發(fā)聲空氣動力學(xué)系統(tǒng)采集保存的CD-ROM版的病理嗓音數(shù)據(jù)庫4337型,該數(shù)據(jù)庫包含來自大約700個(gè)發(fā)音人的1400多個(gè)嗓音樣本,被視為病理嗓音臨床和研究領(lǐng)域的經(jīng)典語料。

3.2 實(shí)現(xiàn)流程

基于音頻多模態(tài)研究的信號分析系統(tǒng)實(shí)現(xiàn)包含以下三個(gè)步驟:

1) 預(yù)處理:將CD-ROM版的病理嗓音數(shù)據(jù)庫中存儲的NSP文件輸入預(yù)處理模塊進(jìn)行數(shù)據(jù)解碼,NSP模態(tài)文件具有不同通道、采樣率和采樣位數(shù)等參數(shù)信息,基于UltraEdit軟件打開待轉(zhuǎn)換的NSP文件,根據(jù)分界線數(shù)據(jù)組“53 44 41 5F”準(zhǔn)確定位真實(shí)數(shù)據(jù)的起始和終止部分;將全部真實(shí)數(shù)據(jù)截取復(fù)制保存,便于后續(xù)對數(shù)據(jù)進(jìn)行標(biāo)識處理。

2) 數(shù)據(jù)標(biāo)識:基于待轉(zhuǎn)換NSP文件的通道數(shù)和采樣位數(shù),按照不同的組合情況,結(jié)合圖2的存儲結(jié)構(gòu)定位NSP文件每個(gè)采樣點(diǎn)的數(shù)據(jù)信息(16進(jìn)制編碼信息),直至全部采樣點(diǎn)定位結(jié)束。以輸入單通道、25 kHz、16位采樣位數(shù)的NSP模態(tài)文件為例,將按照圖2(c)格式收集采樣點(diǎn)。

3) 轉(zhuǎn)換生成:結(jié)合NSP模態(tài)文件的通道和采樣率信息,依據(jù)WAV文件格式對數(shù)據(jù)標(biāo)識模塊獲得的所有采樣點(diǎn)的數(shù)據(jù)(16進(jìn)制編碼信息)進(jìn)行編碼處理,直至所有采樣點(diǎn)轉(zhuǎn)換完成停止,得到最終轉(zhuǎn)換后的對應(yīng)的WAV模態(tài)文件。

3.3 結(jié)果對比分析

為了驗(yàn)證本文設(shè)計(jì)實(shí)現(xiàn)的基于音頻多模態(tài)研究的信號分析系統(tǒng)的有效性,將從文件內(nèi)碼、文件參數(shù)信息、信號聲波波形和主觀聽覺感受方面進(jìn)行綜合對比分析。

1) 文件內(nèi)碼:如圖4,基于本文設(shè)計(jì)的系統(tǒng),將轉(zhuǎn)換生成的WAV模態(tài)文件打開后,根據(jù)WAV文件data區(qū)塊的存儲結(jié)構(gòu)定位的總數(shù)據(jù)長度和data數(shù)據(jù)塊,發(fā)現(xiàn)轉(zhuǎn)換后的WAV模態(tài)文件和對應(yīng)待轉(zhuǎn)化的NSP模態(tài)文件內(nèi)碼信息一致,表明在轉(zhuǎn)換的過程中數(shù)據(jù)沒有發(fā)生任何丟失與改變,與預(yù)期結(jié)果相符。

圖4 系統(tǒng)轉(zhuǎn)換前后NSP和WAV文件內(nèi)碼對比圖

2) 文件參數(shù)對比:將轉(zhuǎn)換后的WAV模態(tài)文件使用專業(yè)音頻處理軟件GoldWave打開,查看該文件采樣頻數(shù)、采樣位數(shù)、通道數(shù)等信息,通過對比發(fā)現(xiàn)和待轉(zhuǎn)換NSP文件參數(shù)保持一致。以輸入單通道,25 kHz、16位采樣位數(shù)的NSP模態(tài)文件為例,生成的對應(yīng)的WAV模態(tài)文件在GoldWave中的參數(shù)信息如圖5所示,與待處理的NSP模態(tài)文件參數(shù)信息一致。

圖5 WAV文件參數(shù)信息圖

3) 信號聲波波形和主觀聽覺感受:如圖6,將轉(zhuǎn)換后的WAV模態(tài)文件采用專業(yè)音頻處理軟件GoldWave進(jìn)行處理,通過觀察WAV信號聲波圖,可以看到波形分布均勻,有明顯的周期性,未出現(xiàn)數(shù)據(jù)截?cái)?、缺失等問題;且從主觀聽覺感受來講,未存在卡頓、不清晰、不完整的情況。

圖6 WAV信號聲波圖

4 結(jié)論

音頻信號的處理分析是人工智能領(lǐng)域的一個(gè)重要研究方向,隨著不同模態(tài)音頻信號在諸多領(lǐng)域的廣泛應(yīng)用,對音頻信號分析系統(tǒng)的設(shè)計(jì)帶來了新的挑戰(zhàn)。本文通過創(chuàng)新性地構(gòu)建預(yù)處理、數(shù)據(jù)標(biāo)識、轉(zhuǎn)換生成三個(gè)模塊,設(shè)計(jì)實(shí)現(xiàn)一種適用于音頻多模態(tài)研究的信號分析系統(tǒng),相比現(xiàn)有技術(shù),該系統(tǒng)克服了現(xiàn)有技術(shù)中存在的缺點(diǎn)和不足,同時(shí)也為各種拾音采集設(shè)備和音頻信號分析系統(tǒng)處理多模態(tài)信號提供了一種不同構(gòu)思的技術(shù)方案。此外,該系統(tǒng)處理轉(zhuǎn)換的NSP格式信號與病理嗓音數(shù)據(jù)庫息息相關(guān),也代表對音頻信號中涉及到的病理嗓音信號分析研究衍生出了一種新的技術(shù)發(fā)展趨勢,為應(yīng)用于計(jì)算機(jī)和嗓音醫(yī)學(xué)診療交叉學(xué)科領(lǐng)域提供了技術(shù)支持,為嗓音臨床分析和研究提供了重要的支撐作用。

猜你喜歡
嗓音位數(shù)音頻
嗓音
五次完全冪的少位數(shù)三進(jìn)制展開
必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
基于Daubechies(dbN)的飛行器音頻特征提取
黃綺珊:我的嗓音為什么是這樣?
“世界嗓音日”——中央音樂學(xué)院嗓音研究中心在行動
音頻分析儀中低失真音頻信號的發(fā)生方法
Pro Tools音頻剪輯及修正
遙感衛(wèi)星CCD相機(jī)量化位數(shù)的選擇
“判斷整數(shù)的位數(shù)”的算法分析