国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

識(shí)音頻,懂聲音

2021-03-24 11:58楊磊
中國(guó)信息技術(shù)教育 2021年5期
關(guān)鍵詞:時(shí)域音調(diào)聲波

楊磊

編者按:近年來(lái),隨著人工智能技術(shù)和硬件設(shè)備的快速發(fā)展,越來(lái)越多的人工智能應(yīng)用產(chǎn)品走進(jìn)我們的日常生活,語(yǔ)音識(shí)別、語(yǔ)音合成和說(shuō)話人識(shí)別等相關(guān)智能產(chǎn)品如雨后春筍般出現(xiàn)在人們的視野內(nèi)。人們不禁好奇:人工智能領(lǐng)域的語(yǔ)音技術(shù)是什么?它和我們中學(xué)時(shí)代物理課上學(xué)習(xí)的聲波有什么聯(lián)系?本期就讓我們談?wù)動(dòng)嘘P(guān)聲音的故事。

圖像和聲音作為人機(jī)智能交互領(lǐng)域的兩個(gè)最重要媒介,正在吸引著全世界的科學(xué)家開(kāi)展各類的相關(guān)算法研究和產(chǎn)品應(yīng)用開(kāi)發(fā)。由于二者的數(shù)據(jù)結(jié)構(gòu)存在重大差異導(dǎo)致相應(yīng)的研究工作主要分為圖像和聲音兩個(gè)基本的發(fā)展方向。前者主要是指和圖片處理相關(guān)的工作,關(guān)注圖片內(nèi)部元素的空間排列;后者主要是指處理與音頻信號(hào)相關(guān)的工作,注重音頻信號(hào)內(nèi)部元素的時(shí)間關(guān)聯(lián)性。音頻信號(hào)的范圍廣泛,它除了包括語(yǔ)音研究外,還包含其他很多重要而有趣的研究方向,如聲音場(chǎng)景分析、音樂(lè)風(fēng)格分類和語(yǔ)音情緒識(shí)別等。因此,我們可以將音頻視作為傳遞信息、主觀意向、情緒表達(dá)的重要溝通工具,它是人類最為熟悉和運(yùn)作最為有效的消息傳遞方式之一。隨著多媒體信息處理技術(shù)的發(fā)展、計(jì)算機(jī)數(shù)據(jù)處理能力的增強(qiáng),音頻處理技術(shù)及其相關(guān)現(xiàn)實(shí)場(chǎng)景的開(kāi)發(fā)應(yīng)用正受到越來(lái)越多的關(guān)注。

聲波、聲音、語(yǔ)音和音樂(lè)

認(rèn)識(shí)音頻之前,我們先弄清楚幾個(gè)概念——聲波、聲音、語(yǔ)音和音樂(lè)。

從物理學(xué)范疇來(lái)定義聲波。介質(zhì)是一系列相互聯(lián)系、相互作用的粒子,由于聲波的傳播需要粒子與粒子之間的相互作用,所以聲波被定義為一種機(jī)械波。一切聲音的產(chǎn)生都源于發(fā)音體的振動(dòng),發(fā)音體振動(dòng)時(shí),會(huì)擾動(dòng)周圍的空氣或其他媒介,使之產(chǎn)生波動(dòng),這樣就形成了聲波。聲波是一種典型的縱波,橫波的傳播方向垂直于振動(dòng)粒子,而縱波則與振動(dòng)粒子的傳播方向相同。在空氣傳播過(guò)程中,聲波由分別稱為壓縮和稀疏的高壓和低壓區(qū)域組成。圖1為空氣傳播過(guò)程中聲波波形的一種可視化表現(xiàn),較亮的區(qū)域是低壓,而較暗的區(qū)域是高壓。

和其他波相同,我們用速度、頻率和波長(zhǎng)這三項(xiàng)指標(biāo)來(lái)描述聲波的性質(zhì)。波長(zhǎng)、頻率和速度的關(guān)系為:速度=頻率×波長(zhǎng)。振源和介質(zhì)決定了波長(zhǎng),聲波的速度取決于傳播介質(zhì)的性質(zhì)。聲速在固體材料中傳播較快,在液體或氣體中較慢,這是因?yàn)椴牧系拿芏群蛷椥孕阅艿牟煌9腆w材料之間粒子的相互作用最強(qiáng),其次是液體,然后是氣體。介質(zhì)的這種性質(zhì)被稱作彈性性質(zhì),它是影響聲速的重要因素之一。彈性性能被視為決定材料在外力作用下保持其形狀而不變形的能力。介質(zhì)密度是影響聲速的另一個(gè)重要的因素,介質(zhì)密度越大,聲音傳播的速度就越快,這兩個(gè)因素相比較而言,彈性性能比密度對(duì)聲速有更大的影響。眾所周知,在標(biāo)準(zhǔn)大氣壓和溫度下,聲波以每秒343米的速度在空氣中傳播,下頁(yè)表1列出了同一振源在不同介質(zhì)條件下的聲波傳播速度。

聲音是指可被人耳聽(tīng)到的,其振動(dòng)頻率在20Hz~20kHz之間的聲波。我們把低于這個(gè)范圍的聲音稱為次聲波,高于這個(gè)范圍的聲波稱為超聲波。由此可見(jiàn),聲音是聲波的一個(gè)子集,二者的關(guān)系如同可見(jiàn)光和光的關(guān)系。自然界包含各種各樣的聲音,如風(fēng)聲、雷聲、樂(lè)器聲等。許多動(dòng)物的聽(tīng)力范圍要比人類的更廣,如狗可以檢測(cè)到低至約50Hz~45kHz的聲波;貓可以檢測(cè)到大約45Hz~85kHz的聲波;蝙蝠則可以檢測(cè)出高達(dá)120kHz的聲波,這主要是由于蝙蝠是夜間活動(dòng)的生物,它必須依靠聲音回聲定位來(lái)進(jìn)行導(dǎo)航和狩獵,所以它對(duì)聲波的檢測(cè)范圍更寬廣;海豚檢測(cè)出的聲波頻率可以達(dá)到200kHz。自然界是否存在次聲波檢測(cè)的高手呢?有,它就是大象,它的可聽(tīng)范圍約為5Hz~10kHz。

那么,語(yǔ)音是如何產(chǎn)生的?首先要明確語(yǔ)音是聲音的一個(gè)子集。語(yǔ)音是由人體的發(fā)音器官在大腦的控制下做生理運(yùn)動(dòng)產(chǎn)生的、有一定的語(yǔ)法和意義的聲音,它的頻率通常在80~1.1kHz,最高可達(dá)1.5kHz。人體發(fā)音器官主要由肺和氣管、喉、聲道組成。肺是語(yǔ)音產(chǎn)生的能源所在;氣管連接著肺部和喉部,它是肺部與聲道的聯(lián)系通道;喉是由一個(gè)軟骨和肌肉組成的復(fù)雜系統(tǒng),其中包含著重要的發(fā)音器官——聲帶,聲帶為產(chǎn)生語(yǔ)音提供了主要的激勵(lì)源;聲道是指聲門(mén)(喉)至嘴唇的所有發(fā)音器官,包括咽喉、口腔和鼻腔,如圖2所示。聲音經(jīng)過(guò)氣流通道所形成的共鳴系統(tǒng)或經(jīng)過(guò)濾波器以后,頻譜發(fā)生改變,再經(jīng)過(guò)口唇和鼻腔時(shí)頻譜又發(fā)生了改變。不同音位之間的差別可以是由發(fā)聲源引起的,也可以是由聲道的形狀和空氣柱的長(zhǎng)度不同所引起的。聲波發(fā)生后經(jīng)過(guò)一個(gè)共鳴系統(tǒng)后,其頻譜可以發(fā)生變化。這樣的共鳴系統(tǒng)就相當(dāng)于一個(gè)聲學(xué)濾波器,濾波器的作用可以用頻響曲線,即各個(gè)頻率的增益或輸出來(lái)表達(dá)??梢哉f(shuō),濾波在言語(yǔ)的產(chǎn)生過(guò)程中起到重要的作用。咽喉、口腔、牙齒、口唇、鼻腔組成了一個(gè)聲道,此聲道即為一共鳴腔,對(duì)從氣管或聲帶發(fā)出的聲波進(jìn)行濾波。之后,通過(guò)外部空氣的傳導(dǎo),到達(dá)人的耳朵里,就產(chǎn)生了語(yǔ)音的感覺(jué)。

音樂(lè)是一種人造聲音,它有節(jié)拍和旋律,被視為一種聲音藝術(shù)。人們用音程來(lái)描述音樂(lè),音程與聲音的頻率有關(guān),頻率比為2:1的聲音稱為八度音,5:4的聲音被稱為三度音,4:3的聲音稱為四度音,3:2的聲音稱為五度音。任何音符都有一個(gè)獨(dú)特的頻率,任何物體都有一個(gè)可以振動(dòng)的固有頻率。音樂(lè)家使用的樂(lè)器能夠以特定的頻率振動(dòng)。以弦樂(lè)器為例,弦樂(lè)器通過(guò)振動(dòng)的琴弦發(fā)出聲音,并且音高會(huì)因琴弦的粗細(xì)、張力和長(zhǎng)度而改變。弦樂(lè)器可以以多種方式演奏,并且可以有多種變化。弦樂(lè)器的種類繁多,如七弦琴、吉他、小提琴和鋼琴等。所有的弦樂(lè)器都會(huì)用張緊的琴弦發(fā)出聲音,較長(zhǎng)的弦相比較短的弦產(chǎn)生較低的音調(diào),較緊的弦相比較松的弦產(chǎn)生更高的聲音,較粗的琴弦相比較細(xì)的琴弦產(chǎn)生的聲音更低,這就是為什么即使吉他上的所有弦長(zhǎng)都相同但它們的音色卻不同。弦樂(lè)器必須通過(guò)擰緊或放松樂(lè)器上的弦來(lái)進(jìn)行完美調(diào)音。弦樂(lè)器以不同的方式產(chǎn)生不同的音符,如古箏、豎琴和鋼琴之類的樂(lè)器具有一組平行的弦,每個(gè)音符對(duì)應(yīng)一個(gè)弦,可以單獨(dú)聽(tīng)起來(lái),也可以一起發(fā)音以制作和弦。

聽(tīng)覺(jué)的主觀感受:樂(lè)音三要素

生活中的各種聲音能夠給人的聽(tīng)覺(jué)帶來(lái)不同的主觀感受,有的悅耳動(dòng)聽(tīng),有的刺耳難耐。聲音由于振動(dòng)的不同可分為樂(lè)音和噪音。在音樂(lè)中所使用的音也既有樂(lè)音又有噪音。樂(lè)音的振動(dòng)比較有規(guī)律,聽(tīng)起來(lái)音高很明顯,如果在示波器上則能顯示為規(guī)則的正弦曲線。在音樂(lè)中所使用的有固定頻率的音一般都是樂(lè)音,如小提琴、二胡、鋼琴等樂(lè)器發(fā)出的聲音。而噪音的振動(dòng)比較雜亂,聽(tīng)起來(lái)音高不很明顯,在示波器上顯示為十分復(fù)雜的曲線。當(dāng)然,音樂(lè)所用的噪音是經(jīng)過(guò)挑選的打擊樂(lè)器,如鑼、鼓、梆子、木魚(yú)等。在物理學(xué)上,把聲源有規(guī)律振動(dòng)時(shí)發(fā)出的聲音叫做樂(lè)音,用響度、音調(diào)和音色來(lái)描述它,即稱為樂(lè)音三要素。

①響度是人耳對(duì)聲音強(qiáng)弱程度即聲音輕、響的主觀反應(yīng),與聲源的幅度有關(guān)。每單位時(shí)間傳輸經(jīng)過(guò)介質(zhì)給定區(qū)域的能量數(shù)量稱為聲波強(qiáng)度。介質(zhì)粒子的振動(dòng)幅度越大,能量通過(guò)介質(zhì)傳輸?shù)乃俾示驮酱?,并且聲波越?qiáng)烈,用瓦特/米來(lái)表示。響度隨離振源距離的增大而減小,人的健康和年齡對(duì)識(shí)別不同頻率和分貝的能力有很大的影響。聽(tīng)覺(jué)閾值是人類耳朵能探測(cè)到的最微弱的聲音,聽(tīng)覺(jué)閾值一般為10~12瓦特/米或0分貝。分貝是對(duì)數(shù)標(biāo)度(以10的冪為基礎(chǔ)),用它來(lái)表示聲功率級(jí)。人耳對(duì)3000~4000Hz聲音的音強(qiáng)感覺(jué)最靈敏,正常人能感知的聲強(qiáng)范圍是0~140分貝。

②音調(diào)是指聲音頻率的高低,主要由聲音的頻率決定,同時(shí)也與聲音強(qiáng)度有關(guān)。它表示人的聽(tīng)覺(jué)分辨一個(gè)聲音的調(diào)子高低的程度。人類感知音調(diào)的能力與撞擊在耳朵上的聲波頻率有關(guān)。由于通過(guò)空氣傳播的聲波是縱波,會(huì)在給定頻率下對(duì)空氣顆粒產(chǎn)生高壓和低壓擾動(dòng),因此,耳朵具有檢測(cè)此類頻率并將其與音調(diào)關(guān)聯(lián)的能力。對(duì)一定強(qiáng)度的純音,音調(diào)隨頻率的升降而升降;對(duì)一定頻率的純音、低頻純音的音調(diào)隨聲強(qiáng)增加而下降,高頻純音的音調(diào)卻隨強(qiáng)度增加而上升。經(jīng)過(guò)音樂(lè)訓(xùn)練的人,能夠檢測(cè)到兩種單獨(dú)的聲音之間的頻率差僅為2Hz。當(dāng)同時(shí)播放兩個(gè)頻率差大于7Hz的聲音時(shí),大多數(shù)人都能夠檢測(cè)到由于兩個(gè)聲波的干擾和疊加而導(dǎo)致的復(fù)雜波型的存在。當(dāng)同時(shí)播放(和聽(tīng)到)某些聲波時(shí),聽(tīng)到時(shí)會(huì)產(chǎn)生特別令人愉悅的感覺(jué)。例如,頻率為2:1的任何兩種聲音被說(shuō)成是用八度音程分開(kāi)的,聽(tīng)到時(shí)會(huì)讓人產(chǎn)生特別愉悅的感覺(jué)。也就是說(shuō),如果一種聲音的頻率是另一種聲音的兩倍,則兩個(gè)聲波一起播放時(shí)聽(tīng)起來(lái)不錯(cuò)。類似地,頻率比率為5:4的兩種聲音間隔三分之一,這樣的聲波一起演奏時(shí)聽(tīng)起來(lái)也不錯(cuò)。

③音色也稱音質(zhì)。樂(lè)器和聲帶在振動(dòng)時(shí)發(fā)出的聲音都是由一系列頻率、振幅各不相同的振動(dòng)復(fù)合而成的。發(fā)音體整體振動(dòng)產(chǎn)生的音,叫做基音,決定音調(diào);發(fā)音體部分振動(dòng)產(chǎn)生的音,叫做泛音,決定音色;基音和泛音結(jié)合在一起而形成的音,叫做復(fù)合音。日常我們所聽(tīng)到的聲音多為復(fù)合音。所以,除了音調(diào)所對(duì)應(yīng)的頻率f外,還伴隨著一些高頻的泛音成分(2f、3f……),這些泛音成分幅度各不相同,所以造就了獨(dú)特的聽(tīng)覺(jué)感受,如下頁(yè)圖3所示。對(duì)語(yǔ)音而言,男聲基音頻率在64~523Hz左右,泛音可擴(kuò)展到7~9kHz;女聲基音頻率在160Hz~1.2kHz左右,泛音可擴(kuò)展到9~10kHz。

音頻信號(hào)的處理方法

說(shuō)完人們是如何描述聲音的,接下來(lái)談?wù)剻C(jī)器是如何識(shí)別聲波的。我們把有關(guān)聲波的信號(hào)稱為音頻信號(hào)。

①時(shí)域與頻域。時(shí)域是描述數(shù)學(xué)函數(shù)或物理信號(hào)對(duì)時(shí)間的關(guān)系。例如,一個(gè)信號(hào)的時(shí)域波形可以表達(dá)信號(hào)隨著時(shí)間的變化。時(shí)域是真實(shí)世界,因?yàn)槲覀兊慕?jīng)歷都是在時(shí)域中發(fā)展和驗(yàn)證的,已經(jīng)習(xí)慣于事件按時(shí)間的先后順序發(fā)生。以信號(hào)為例,信號(hào)在時(shí)域下的圖形可以顯示信號(hào)如何隨著時(shí)間變化,如圖4a所示。頻域是指在對(duì)函數(shù)或信號(hào)進(jìn)行分析時(shí),分析其和頻率有關(guān)的部分,而不是和時(shí)間有關(guān)的部分,和時(shí)域一詞相對(duì)。通過(guò)傅里葉變換將一個(gè)復(fù)雜的信號(hào)分解為更簡(jiǎn)單的部分,將復(fù)雜信號(hào)描述為多個(gè)單頻率分量的總和,進(jìn)而確定復(fù)雜信號(hào)由哪些頻率組成。傅里葉變換是一種線性積分變換,用于信號(hào)在時(shí)域和頻域之間的變換,在物理學(xué)和工程學(xué)中有許多應(yīng)用。因其基本思想首先由法國(guó)學(xué)者傅里葉系統(tǒng)地提出,所以,以其名字來(lái)命名以示紀(jì)念。光學(xué)里,棱鏡可以根據(jù)波長(zhǎng)(頻率)將光分解為不同的顏色。傅里葉變換其實(shí)就是數(shù)學(xué)中的棱鏡,其可以將函數(shù)基于頻率分解為不同的成分。函數(shù)或信號(hào)可以透過(guò)傅里葉變換在時(shí)域及頻域之間轉(zhuǎn)換。信號(hào)在頻域下的圖形一般稱為頻譜,可以顯示信號(hào)分布在哪些頻率及其比例,如圖4b所示。

②時(shí)頻分析。一般來(lái)說(shuō),時(shí)域的表示較為形象與直觀,頻域分析則更為簡(jiǎn)練,剖析問(wèn)題更為深刻和方便。信號(hào)分析的趨勢(shì)是從時(shí)域向頻域發(fā)展。時(shí)域分析是以時(shí)間軸為坐標(biāo)表示動(dòng)態(tài)信號(hào)的關(guān)系。以語(yǔ)音信號(hào)為例,語(yǔ)音信號(hào)為非平穩(wěn)信號(hào),不能直接應(yīng)用于傅里葉變換,但由于語(yǔ)音信號(hào)隨時(shí)間變化緩慢,故可以將語(yǔ)音切分成有限長(zhǎng)度,應(yīng)用短時(shí)傅里葉變換,從而得到聲譜圖。聲譜圖是時(shí)序相關(guān)的傅里葉分析的顯示圖像,可以反映音樂(lè)信號(hào)頻譜隨時(shí)間改變而變換,聲譜圖的橫坐標(biāo)是時(shí)間,縱坐標(biāo)是頻率,坐標(biāo)點(diǎn)值為語(yǔ)音數(shù)據(jù)能量。由于是采用二維平面表達(dá)三維信息,所以,能量值的大小是通過(guò)顏色來(lái)表示的,顏色深,表示該點(diǎn)的語(yǔ)音能量越強(qiáng),如圖5所示。

聲譜圖中顯示了大量與聲音信號(hào)特性相關(guān)的信息,如共振峰、能量等頻域參數(shù)隨時(shí)間的變化情況,它同時(shí)具有時(shí)域波形與頻譜圖的特點(diǎn)。聲譜圖本身包含了聲音信號(hào)的所有的頻譜信息。聲譜圖中的花紋有橫線、亂紋和豎直條等,橫線是與時(shí)間軸平行的亮顏色帶紋,它們是共振峰,從橫線對(duì)應(yīng)的頻率可以確定相應(yīng)的共振峰頻率,在一段音頻的聲譜圖中有沒(méi)有橫線出現(xiàn)是判斷它是不是濁音的重要標(biāo)志;豎直條是與時(shí)間軸垂直的條紋,每個(gè)豎直條相當(dāng)于一個(gè)基音,條紋的起點(diǎn)相當(dāng)于聲紋脈沖的起點(diǎn),條紋之間的距離表示基音,條紋越密表示基音頻率越高。

③梅爾頻譜圖(Mel-Spectrogram)與梅爾頻率倒譜系數(shù)(MFCC)。音調(diào)與頻率有關(guān),頻率低的聲音聽(tīng)起來(lái)音調(diào)低,頻率高的聲音聽(tīng)起來(lái)音調(diào)高。但音調(diào)與頻率不成正比,而近似為對(duì)數(shù)關(guān)系,如圖6所示。音調(diào)還與聲音強(qiáng)度及波形有關(guān)。客觀上用頻率(Hz)表示音調(diào),主觀感覺(jué)上的音調(diào)單位為美(mel),它是音調(diào)的度量單位。

通過(guò)對(duì)原始聲音每一幀的短時(shí)傅里葉變換,我們捕獲了每一幀頻譜包絡(luò)線,即連接所有共振峰的曲線,如圖7a所示。但實(shí)驗(yàn)表明,人耳只專注于某些區(qū)域,而不是使用整個(gè)頻譜。基于人類感知實(shí)驗(yàn)觀察到人耳僅感知某些頻率分量,類似濾波器的作用。梅爾濾波器組在頻率軸上的間距不均勻,低頻中的濾波器更多,高頻區(qū)域的濾波器較少,目的是模擬人耳對(duì)聲音的非線性感知,在較低的頻率下更具辨別力,在較高的頻率下則不具辨別力,如圖7b所示。將每一幀原始聲音的頻譜經(jīng)過(guò)梅爾濾波器去處理后,得到梅爾頻譜,進(jìn)而形成梅爾頻譜圖,如圖7c所示。

共振峰是語(yǔ)音信號(hào)中的主頻分量,帶有聲音的重要識(shí)別的特征。如圖7a所示,在頻譜中可以看到出共振峰的包絡(luò)線。在聲音處理過(guò)程中,采用倒譜分析將此包絡(luò)線從頻譜中分離出來(lái),進(jìn)而獲得梅爾倒譜系數(shù),如圖8所示。MFCC是重要的語(yǔ)音特征。

本期,我們從認(rèn)識(shí)聲音入手,最終得到表示聲音的梅爾頻譜和梅爾頻率倒譜系數(shù),從而使一段語(yǔ)音被映射為時(shí)間軸上一系列的向量集合,這些集合再通過(guò)一些規(guī)整的操作后,即可成為反映語(yǔ)音特性的特征集合。下期,我們將討論語(yǔ)音信號(hào)處理在人工智能領(lǐng)域的應(yīng)用。

猜你喜歡
時(shí)域音調(diào)聲波
晚霞淺淡少年糖
聽(tīng)力障礙幼兒音調(diào)異常矯治的實(shí)施建議
聲波殺手
聲波實(shí)驗(yàn)
音調(diào)語(yǔ)言讓人更有樂(lè)感
基于MATLAB 的信號(hào)時(shí)域采樣及頻率混疊現(xiàn)象分析
兩種常用漂浮式風(fēng)力機(jī)平臺(tái)動(dòng)態(tài)特性分析
“隱身 金字塔”
不同入射角風(fēng)波流海上漂浮式風(fēng)力機(jī)頻域與時(shí)域動(dòng)態(tài)特性
聲波大炮
鄱阳县| 安远县| 旬阳县| 新巴尔虎左旗| 新干县| 呼和浩特市| 滦平县| 措勤县| 新巴尔虎右旗| 甘德县| 盖州市| 神农架林区| 财经| 图片| 新巴尔虎右旗| 黎平县| 扶沟县| 桓台县| 梓潼县| 临泽县| 巩留县| 乃东县| 金昌市| 资源县| 海伦市| 那曲县| 南宁市| 溧水县| 青铜峡市| 潼南县| 吉安市| 贵定县| 扎赉特旗| 永胜县| 额尔古纳市| 泽普县| 长垣县| 中方县| 抚州市| 嘉定区| 宣化县|