李 偉,李 碩
(1.復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 201203; 2.復(fù)旦大學(xué) 上海市智能信息處理重點(diǎn)實(shí)驗(yàn)室,上海 200433)
聲音在現(xiàn)實(shí)世界中無所不在,種類繁多.有的聲音由人創(chuàng)造,有的存在于自然界和日常生活中.聽覺和視覺對于感知系統(tǒng)一樣重要,密不可分,缺一不可.聲音蘊(yùn)含著極大的信息量.例如,轟隆隆的雷聲預(yù)示快要下雨,動物的叫聲表征其種類,人類語言可用于分辨性別甚至具體的人,交響樂隊(duì)的樂器聲讓人知道這是一場古典音樂會,鳥叫聲通常暗示周圍有很多樹,槍炮聲代表戰(zhàn)爭場面,有經(jīng)驗(yàn)的技師聽到汽車發(fā)動機(jī)的聲音就能大體判斷出存在的故障,經(jīng)過訓(xùn)練的聲吶員通過聲吶接收的水下聲信號就可以判斷水下目標(biāo)的類型,諸如此類,無法盡數(shù).因此,對聲音的內(nèi)容進(jìn)行基于信息科技的自動分析與理解,在語言交互、數(shù)字音樂、工業(yè)、農(nóng)業(yè)、生物、軍事、安全等幾乎所有的自然和社會領(lǐng)域都具有重要的現(xiàn)實(shí)意義.本文闡述的局限于人耳能聽到的聲音,人類感覺不到的超聲波和次聲波不在所述范圍之內(nèi).
聲音是一種物理波動現(xiàn)象,即聲源振動或氣動發(fā)聲所產(chǎn)生的聲波.聲波通過空氣、固體、液體等介質(zhì)傳播,并能被人或動物的聽覺器官所感知.人類聽到的聲音基本都是在空氣中傳播.振動源周圍空氣分子的振動形成疏密相間的縱波傳播機(jī)械能,一直延續(xù)到振動消失.聲波具有一般波的各種特性,包括反射(Reflection)、折射(Refraction)和衍射(Diffraction)等.聲音還是一種心理感受,不僅與人的生理構(gòu)造和聲音的物理性質(zhì)有關(guān),還受到環(huán)境和背景的影響.例如,同樣的一段樂曲,輕松時(shí)聽起來讓人愉悅,緊張時(shí)聽起來卻讓人煩躁.
圖1 正弦波模型示意圖Fig.1 A schematic diagram of sine wave model
從信號的角度看,聲音可分為純音(Pure tone)、復(fù)合音(Compound tone)和噪聲(Noise).純音和復(fù)合音都是周期性聲音,波型具有一定的重復(fù)性,具有明顯的音高(Pitch).純音是只具有單一頻率的正弦波,通常只能由音叉、電子器件或合成器產(chǎn)生,在自然環(huán)境下一般不會發(fā)生.我們在日常生活和自然界中聽到的聲音大多是復(fù)合音(有少量不是,例如清輔音),由許多參數(shù)不同的正弦波分量疊加而成.復(fù)合音信號可用正弦波模型(Sinusoidal Model, SM)模擬,即任何復(fù)雜的周期振動都可以分解為多個(gè)具有不同頻率、不同強(qiáng)度、不同相位的正弦波的疊加,如圖1所示,圖形所示波的頻率從上到下依次升高.該模型也稱為傅里葉分析(Fourier Analysis, FA)或頻譜分析(Spectral Analysis, SA),純音和復(fù)合音之間可以互相合成與分解.
通常在復(fù)合音中,頻率最低的正弦波(即整個(gè)波形振動的頻率)稱為基頻(Fundamental frequency),記為f0,f0決定聲音的音高.其他頻率較高的的正弦分量(如2f0,2.5f0,3f0,…)稱為泛音(Overtone),泛音決定聲音的音色(Timbre).泛音之中頻率是f0整數(shù)倍的正弦分量(如2f0,3f0,…)連同f0統(tǒng)稱為諧音(Harmonics).特殊情況下,在復(fù)合音中,頻率最低的正弦波不是基頻.例如當(dāng)手機(jī)或計(jì)算機(jī)音箱播放不出低頻(例如100Hz)以下的聲音時(shí),出現(xiàn)基頻缺失現(xiàn)象.另一個(gè)相關(guān)的概念是物理上的諧波(Partial),包含f0與所有泛音.在f0的整數(shù)倍上諧波與諧音相同,但與泛音次數(shù)不同.如1次諧波/諧音定義為f0,2次諧波/諧音定義為1次泛音,3次諧波/諧音定義為2次泛音,依此類推.
聲音是一種時(shí)間域(Time-domain)隨機(jī)信號.聲音的基本物理維度(或要素)是時(shí)間、頻率(Frequency)、強(qiáng)度(Intensity)和相位(Phase).頻率即每秒鐘振動的次數(shù),單位是赫茲(Hz),振動越快音高越高;強(qiáng)度與振幅的大小成正比,單位是分貝(dB),體現(xiàn)為聲音的強(qiáng)弱(Dynamics);相位指特定時(shí)刻聲波所處的位置,是信號波形變化的度量,以角度作為單位.兩個(gè)聲波相位相反會相互抵消,相位相同則相互加強(qiáng).
與純音和復(fù)合音不同,噪聲是非周期性聲音,由許多頻率、幅度和相位各不相同的聲音成分無規(guī)律地組合而成.噪聲一般具有不規(guī)則的聲音波形,沒有明顯的音高,聽起來感到不舒服甚至刺耳.噪聲的測量單位是分貝(dB).按照頻譜的分布規(guī)律,噪聲可分為白噪聲(White noise)、粉紅噪聲(Pink noise)和褐色噪聲(Brown noise)等.白噪聲是指功率譜密度(Power Spectrum Density, PSD)在整個(gè)可聽頻域(20~20000Hz)內(nèi)均勻分布為常數(shù)的噪聲,聽感上是比較刺耳的沙沙聲.粉紅噪聲能量分布與頻率成反比,主要集中于中低頻帶.頻率每上升一個(gè)八度(Octave)能量就衰減3dB,所以又被稱做頻率反比(1/f)噪聲.粉紅噪聲可以模擬出自然界常見的瀑布或者下雨的聲音,在人耳聽感上經(jīng)常會比較悅耳.褐色噪聲的功率譜主要集中在低頻帶,能量下降曲線為1/f2.聽感上有點(diǎn)和工廠里面轟隆隆的背景聲相似.
從聽覺感受的角度看,聲音可分為樂音(Musical tone)和噪聲兩種.樂音是讓人感覺愉悅的聲音,通常由有規(guī)則的振動產(chǎn)生,具有明顯的音高.如圖2所示,樂音包括語音、歌聲、各種管弦和彈撥類樂器(如小提琴、薩克斯、鋼琴、吉他等)等發(fā)出的復(fù)合音(Compound Tone-Speech and Music, Compound Tone-SM),部分環(huán)境聲中的復(fù)合音(Compound Tone-General Audio, Compound Tone-GA)如鳥叫,以及少量稱為噪樂音(Noise tone)的打擊類樂器(如鑼、鈸、鼓、沙錘、梆子、木魚等)發(fā)出的噪聲.噪聲是讓人聽起來不悅耳的聲音,通常由無規(guī)則的振動產(chǎn)生,沒有明顯的音高.去掉噪樂音之后其余的絕大部分噪聲可稱為一般噪聲(Ordinary noise),包括自然界及日常生活中的風(fēng)雨聲、雷電聲、海浪聲、流水聲、敲打聲、機(jī)器轟鳴聲、物體撞擊聲、汽車聲、施工嘈雜聲等.
從聲音特性的角度看,聲音可劃分為語音(Speech)、音樂(Music)和一般音頻/環(huán)境聲(General audio/ambient sound)3大類.人類的語言具有特定的詞匯及語法結(jié)構(gòu),用于在人類中傳遞信息.語音是語言的聲音載體,語音信號屬于復(fù)合音,其基本要素是音高、強(qiáng)度、音長、音色等.音樂是人類創(chuàng)造的復(fù)雜的藝術(shù)形式,組成成分是上述的各種樂音,包括歌聲、各種管弦和彈撥類樂器發(fā)出的復(fù)合音、少量來自環(huán)境聲的復(fù)合音以及一些來自打擊樂器的噪樂音.其基本要素包括節(jié)奏、旋律、和聲、力度、速度、調(diào)式、曲式、織體、音色等.除了人類創(chuàng)造的語音和音樂,在自然界和日常生活中,還存在著其他數(shù)量巨大、種類繁多的聲音,統(tǒng)稱為一般音頻或環(huán)境聲.如圖2所示,一般音頻/環(huán)境聲包含噪樂音、一般音頻復(fù)合音、一般噪聲,后兩者是本文所述的內(nèi)容.一般音頻中的噪樂音主要對應(yīng)于打擊樂器等各種藝術(shù)化的噪聲,其對應(yīng)的主要學(xué)科領(lǐng)域是音樂聲學(xué)(Music Acoustics,MA)和音樂信息檢索技術(shù)(Music Information Retrieval, MIR)(見圖3),因此不在本文討論的范圍內(nèi).專門處理語音的學(xué)科是語音信息處理,以語言聲學(xué)為基礎(chǔ),歷史悠久,發(fā)展相對成熟,已獨(dú)立成為一門學(xué)科.本文涉及的媒體是一般音頻復(fù)合音與一般噪聲,如圖2中黑色加粗框所顯示,對應(yīng)的學(xué)科領(lǐng)域則稱為基于一般音頻/環(huán)境聲的計(jì)算機(jī)聽覺(Computer Audition, CA).如圖3所示,該學(xué)科與語音信息處理、音樂信息檢索(MIR)技術(shù)高度相似,也主要使用音頻信號處理及機(jī)器學(xué)習(xí)這兩種技術(shù),屬于人工智能(Artificial Intelligence, AI)與音頻領(lǐng)域的交叉學(xué)科,同時(shí)需要用到對應(yīng)聲音種類的聲學(xué)知識.與相對成熟的語音信息處理和音樂信息檢索技術(shù)相比,基于一般音頻/環(huán)境聲的CA技術(shù)由于各種原因發(fā)展更慢.
圖2 聲音的種類關(guān)系圖Fig.2 A relation graph of sound type
圖3 聽覺信息處理各學(xué)科關(guān)系圖Fig.3 A relation graph of different disciplines about auditory information processing
人類聽覺系統(tǒng)(Human Auditory System, HAS)將外界的聲音通過外耳和中耳組成的傳音系統(tǒng)傳遞到內(nèi)耳,在內(nèi)耳將聲波的機(jī)械能轉(zhuǎn)變?yōu)槁犛X神經(jīng)上的神經(jīng)沖動,神經(jīng)沖動傳送到大腦皮層的聽覺中樞,產(chǎn)生主觀感覺.人類的聽覺感知能力主要體現(xiàn)在通過聲音特性產(chǎn)生主觀感受(Subjective perception)、音頻事件檢測(Audio event detection)、聲音目標(biāo)識別(Acoustic target detection)、聲源定位(Sound source location)等幾個(gè)方面.
近20年來,半導(dǎo)體技術(shù)、互聯(lián)網(wǎng)、音頻壓縮技術(shù)、錄音設(shè)備及技術(shù)的共同發(fā)展使得數(shù)字格式的各種聲音數(shù)量急劇增加.在人類聽覺機(jī)制的啟發(fā)下,誕生了一個(gè)新的學(xué)科—計(jì)算機(jī)聽覺,也可稱為機(jī)器聽覺(Machine listening).計(jì)算機(jī)聽覺是一個(gè)面向數(shù)字音頻和音樂(Audio and music),研究用計(jì)算機(jī)軟件(主要是信號處理及機(jī)器學(xué)習(xí))來分析和理解海量數(shù)字音頻音樂內(nèi)容的算法和系統(tǒng)的學(xué)科.
CA涉及樂理(Music theory)、一般聲音的語義(General sound semantics)等領(lǐng)域知識,與音頻信號處理(Audio signal processing)、音樂信息檢索(MIR)、音頻場景分析(Auditory science analysis)、計(jì)算音樂學(xué)(Computational musicology)、計(jì)算機(jī)音樂(Computer music)、聽覺建模(Auditory modelling)、音樂感知和認(rèn)知(Music perception and cognition)、模式識別(Pattern recognition)、機(jī)器學(xué)習(xí)(Machine learning)、心理學(xué)(Psychology)等學(xué)科有交叉.
從技術(shù)的角度看,CA的研究可以被粗略地分成以下6個(gè)子問題.
(1) 音頻時(shí)頻表示(Time-frequency representation)
音頻時(shí)頻表示包括音頻本身的表示,如信號或符號(Signal or symbolic)、單聲道或雙聲道(Monaural or stereo)、模擬或數(shù)字(Analog or digital)、聲波樣本、壓縮算法的參數(shù)等;音頻信號的各種時(shí)頻(Time-frequency, T-F)表示,如短時(shí)傅里葉變換(Short-time Fourier Transform, STFT)、小波變換(Wavelet Transform, WT)、小波包變換(Wavelet Packet Transform, WPT)、連續(xù)小波變換(Continuous Wavelet Transform, CWT)、常數(shù)Q變換(Constant-Q Transform, CQT)、S變換(S-Transform, ST)、希爾伯特-黃變換(Hilbert-Huang Transform, HHT)、離散余弦變換(Discrete Cosine Transform, DCT)等;音頻信號的建模表示由于種類繁多,又通常包含多個(gè)聲源,無法像語音信號那樣被有效地表示成某個(gè)特定的模型,如源-濾波器模型(Source-filter model),通常使用濾波器組(Filter banks)或正弦波模型來獲取并捕捉多個(gè)聲音參數(shù)(Sound parameters).
(2) 特征提取(Feature extraction)
音頻特征是對音頻內(nèi)容的緊致反映,用來刻畫音頻信號的特定方面,有時(shí)域特征、頻域譜特征、T-F特征、統(tǒng)計(jì)特征、感知特征、中層特征、高層特征等數(shù)十種.典型的時(shí)域特征如過零率(Zero-Crossing Rate, ZCR)、能量(Energy),頻域譜特征如譜質(zhì)心(Spectral Centroid, SC)、譜通量(Spectral Flux, SF),T-F特征如基于頻譜圖的Zernike矩、基于頻譜圖的(Scale Invariant Feature Transform, SIFT)描述子,統(tǒng)計(jì)特征如峰度(Kurtosis)、均值(Mean),感知特征如梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients, MFCC)、線性預(yù)測倒譜系數(shù)(Linear Predictive Cepatral Coefficient, LPCC),中層特征如半音類(Chroma),高層特征如旋律(Melody)、節(jié)奏(Rhythm)、頻率顫音(Vibrato)等.
(3) 聲音相似性(Sound similarity)
兩段音頻之間或者一段音頻內(nèi)部各子序列(Subsequence)之間的相似性一般通過計(jì)算音頻特征之間的各種距離(Distance)來度量.距離越小,相似度越高.在某些時(shí)域(Temporal)信息很重要的場合,通常使用動態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)來計(jì)算相似度.也可通過機(jī)器學(xué)習(xí)方法進(jìn)行音頻相似性計(jì)算.
(4) 聲源分離(Sound Source Separation, SSS)
與通常只有一個(gè)聲源的語音信號不同,現(xiàn)實(shí)聲音場景中的環(huán)境聲及音樂的一個(gè)基本特性就是包含多個(gè)同時(shí)發(fā)聲的聲源,因此SSS問題成為一個(gè)極其重要的技術(shù)難點(diǎn).音樂中的各種樂器及歌聲按照旋律、和聲及節(jié)奏耦合起來,對其進(jìn)行分離比分離環(huán)境聲中各種基本不相關(guān)的聲源要更加困難,至今沒有方法能很好地解決這個(gè)問題.
(5) 聽覺感知(Auditory cognition)
人類欣賞音樂時(shí)引起的的情感效應(yīng)(Emotional effect)以及人類和動物對于聲音傳遞的信息的理解,都需要從心理和生理(Psycho-physiological)的角度加以研究理解,不能只依賴于特定的聲音特性和機(jī)器學(xué)習(xí)方法.
(6) 多模態(tài)分析(Multi-modal analysis)
人類對世界的感知都是結(jié)合各個(gè)信息源綜合得到的.因此,對數(shù)字音頻和音樂進(jìn)行內(nèi)容分析理解時(shí),理想情況下也需要結(jié)合文本、視頻、圖像等多種媒體進(jìn)行多模態(tài)的跨媒體研究.
從實(shí)際應(yīng)用的角度出發(fā),一個(gè)完整的CA算法系統(tǒng)應(yīng)該包括的幾個(gè)步驟如圖4所示.首先使用麥克風(fēng)(Microphone)/聲音傳感器(Acoustic sensor)采集聲音數(shù)據(jù);之后進(jìn)行預(yù)處理(例如將多聲道音頻轉(zhuǎn)換為單聲道、重采樣、解壓縮等);音頻是長時(shí)間的流媒體,需要將有用的部分分割出來,即進(jìn)行音頻事件檢測(Audio Event Detection, AED)或端點(diǎn)檢測(Endpoint Detection, ED);采集的數(shù)據(jù)經(jīng)常是多個(gè)聲源混雜在一起,還需進(jìn)行聲源分離,將有用的信號分離提取出來,或至少消除部分噪聲,進(jìn)行有用信號增強(qiáng);然后根據(jù)具體聲音的特性提取各種時(shí)域、頻域、T-F域音頻特征,進(jìn)行特征選擇(Feature selection)或特征抽取(Feature extraction),或采用深度學(xué)習(xí)(Deep Learning, DL)進(jìn)行自動特征學(xué)習(xí)(Feature learning);最后送入淺層統(tǒng)計(jì)分類器或深度學(xué)習(xí)模型進(jìn)行聲景(Sound scape)分類、聲音目標(biāo)識別或聲音目標(biāo)定位.機(jī)器學(xué)習(xí)模型通常采用有監(jiān)督學(xué)習(xí)(Supervised learning),需要事先用標(biāo)注好的已知數(shù)據(jù)進(jìn)行訓(xùn)練.本文所述的基于一般音頻/環(huán)境聲的CA算法設(shè)計(jì)與語音信息處理及音樂信息檢索(MIR)技術(shù)高度類似,區(qū)別在于聲音的本質(zhì)不同,需要更有針對性的設(shè)計(jì)各個(gè)步驟的算法,另外需要某種特定聲音的領(lǐng)域知識.
圖4 計(jì)算機(jī)聽覺技術(shù)算法系統(tǒng)的框架圖Fig.4 A frame diagram of computer audition algorithm system
音頻事件(Audio event)指一段具有特定意義的連續(xù)聲音,時(shí)間可長可短,例如笑聲、鼓掌聲、槍聲、犬吠、警笛聲等,也可稱為音頻鏡頭(Audio shot).音頻事件檢測(AED),亦稱聲音事件檢測(Sound Event Detection, SED)、環(huán)境聲音識別(Environmental Sound Recognition, ESR),旨在識別音頻流中事件的起止時(shí)間(Event onsets and offsets)和類型[1-2],有時(shí)還包括其重要性(Saliency)[2].面向?qū)嶋H系統(tǒng)的AED需要在各種背景聲音的干擾下,在連續(xù)音頻流中找到聲音事件的邊界再進(jìn)行分類,比單純的分類問題要更困難[3].雖然聲音識別的研究在傳統(tǒng)上側(cè)重于語音和音樂信號,但面向一般音頻/環(huán)境聲的聲音識別問題早在1999年即已開始[4],而且近年來得到了越來越多的關(guān)注[5].AED應(yīng)用范圍廣泛,典型的如多媒體分析,對人類甚至動物生活的監(jiān)控,槍聲識別(Gunshot recognition)[6],聲音監(jiān)控(Acoustic surveillance)和智能家居(Smart home automation)[7]、犯罪調(diào)查等安全系統(tǒng)[8],行車環(huán)境的音頻監(jiān)控[9],推斷人類活動和位置[10]等.
環(huán)境聲音是非結(jié)構(gòu)化的(Unstructured),類似于噪聲[8].麥克風(fēng)是最常見的聲音采集設(shè)備,從單麥克風(fēng)[11]到雙麥克風(fēng)[7]甚至4個(gè)麥克風(fēng)[6].聲源往往來自不同聲學(xué)環(huán)境下的未知距離,混有噪聲,并且是混響(Reverberant).例如,在家庭環(huán)境的噪聲中,最難處理的是非平穩(wěn)干擾如電視、收音機(jī)或音樂TV[7].物聯(lián)網(wǎng)(Internet of Things, IoT)平臺有大量的分布式麥克風(fēng)可用,能夠?qū)碜远鄠€(gè)傳感器的信息進(jìn)行融合,從而使各麥克風(fēng)組成多麥克風(fēng)系統(tǒng),可提高AED系統(tǒng)的識別精度[12].一個(gè)很具有挑戰(zhàn)性的任務(wù)是從單通道(Single channel)音頻中同時(shí)識別出重疊的音頻事件(Overlapping sound events)[13].
傳統(tǒng)的基于幀(Frame-based)的方法不太適合環(huán)境聲音識別,因?yàn)槊總€(gè)時(shí)間幀都混合了來自多個(gè)聲源的信息[13].基于聲音場景或事件(Acoustic scenes or events)分割更適合于識別.場景具有明確的語義,適用于預(yù)先知道目標(biāo)類別的應(yīng)用.事件適用于監(jiān)督程度較低的情況,通常在基本音頻流分割單元上聚類得到[2,14].文獻(xiàn)[14]使用基于經(jīng)驗(yàn)?zāi)J椒纸?Empirical Mode Decomposition, EMD)產(chǎn)生的第1到第6個(gè)本征模態(tài)函數(shù)(Intrinsic Mode Functions, IMF)的投票(Voting)方法來檢測音頻事件的端點(diǎn),進(jìn)行盲分割.環(huán)境聲音在日常生活中經(jīng)常重復(fù),音頻分割的一個(gè)特例就是環(huán)境聲音的重復(fù)識別(Repeat recognition),對于這些聲音的緊致表示(Compact representation)和預(yù)測至關(guān)重要.文獻(xiàn)[15]根據(jù)能量包絡(luò)的形狀將輸入的環(huán)境聲信號分成幾個(gè)單元,計(jì)算每對單元之間的聽覺距離(Auditory distance),然后利用近似匹配算法(Approximate matching algorithm)檢測重復(fù)的部分.
在實(shí)際情況下,各種干擾噪聲和背景聲音與感興趣的音頻事件同時(shí)存在,濾波等傳統(tǒng)降噪方法完全無效[16].文獻(xiàn)[17]采用概率潛在成分分析(Probabilistic Latent Component Analysis, PLCA)進(jìn)行噪聲分離(Noise separation).為了減輕聲源分離引入的人工痕跡(Artifacts),應(yīng)用一系列頻譜加權(quán)(Spectral weightings)技術(shù)來提高聲譜(Audio spectra)的可靠性.文獻(xiàn)[7,16]使用一種新型的基于回歸的噪聲消除(Regression-based Noise Cancellation, RNC)技術(shù)以減少干擾.對于殘留噪聲,采用頻帶功率分布的圖像特征(Subband Power Distribution-Image Feature, SPD-IF)增強(qiáng)框架,將噪聲和信號定位到不同的區(qū)域.然后對可靠部分進(jìn)行缺失特征分類,利用頻帶上的時(shí)間信息來估計(jì)頻帶功率分布.
在非平穩(wěn)(Non-stationary)環(huán)境中,T-F表示是一種強(qiáng)大的分析工具,可進(jìn)行信號的分類或檢測[18].常見的如Gabor變換[19],EMD[14]等.EMD將信號表示為一組IMFs,然后將這些IMFs的動態(tài)表示為線性動態(tài)系統(tǒng)(Linear dynamical system),采用線性和非線性技術(shù)來學(xué)習(xí)系統(tǒng)動態(tài),可以區(qū)分不同類別的聲音紋理(Sound textures)[20].非線性時(shí)序分析技術(shù)在處理環(huán)境聲音方面具有較大潛力[21].
音頻特征影響AED系統(tǒng)的性能[22].最近的研究集中在非平穩(wěn)特性的新特征,力求將與信號的時(shí)間和頻譜特征有關(guān)的信息(Temporal and spectral characteristics)內(nèi)容最大化[5].使用過的音頻特征有MFCC[10,23-26]及其變種Binaural MFCC[23]、log MFCC[23]、小波(Wavelet)系數(shù)[24]、使用OpenSMILE提取的兩個(gè)不同的大規(guī)模時(shí)間池特征(Large-scale temporal pooling features)[23]、mile983(983維)、Smile6k(6573維)[25]、線性預(yù)測系數(shù)(Linear Prediction Coefficient, LPC)、匹配追蹤(Matching Pursuit, MP)[8]、伽瑪通倒譜系數(shù)(Gammatone Cepstral Coefficients, GCC)[27]、降維對數(shù)譜特征(Log-spectral features)[28]、STE[26]、SE[26]、ZCR[26]、SC[26]、SBW[26]、f0[26]、為結(jié)合CNN使用的低級空間特征(Low-level spatial features)[29]、頻譜圖(Spectrogram)[25]等.文獻(xiàn)[30]認(rèn)為背景聲比前景聲更具魯棒性,在復(fù)雜的聲音環(huán)境中可以從背景聲中提取音頻特征.文獻(xiàn)[16]提出一種基于類補(bǔ)償(Class-Based Compensation, CBC)的方法,基本思想是為分類器的每一個(gè)類學(xué)習(xí)一組過濾器,將較高的權(quán)重分配給最能區(qū)分類信息的頻率成分,以增強(qiáng)特征的區(qū)分能力.
與以上聲音特征不同,從頻譜圖中提取的聲音子空間(Acoustic subspaces)矩陣可以作為識別的基本元素,有效地描述了頻譜圖的時(shí)間-譜模式(Temporal-spectral patterns)[17,19].文獻(xiàn)[19]通過從Gabor頻譜圖中提取子空間,進(jìn)一步對低秩(Low-rank)的突出的(Prominent)T-F模式進(jìn)行編碼.子空間特征需要通過兩步得到: 首先,在復(fù)雜向量空間中通過目標(biāo)事件分析建立子空間庫(Subspace bank);然后,通過將觀測向量(Observation vectors)投影到子空間庫上,可以減少噪聲效應(yīng)(Noise effect),生成源自不同事件子空間(Event subspaces)的判別字符(Discriminant characters)[31].
受圖像處理技術(shù)啟發(fā),在2維T-F頻譜圖上計(jì)算LBP,提取頻譜相關(guān)的局部特征,可以更好地描述音頻[32],而且通常認(rèn)為局部特性比全局特性更重要[8].文獻(xiàn)[33]將本地的統(tǒng)計(jì)數(shù)據(jù)、均值、標(biāo)準(zhǔn)偏差結(jié)合在一起,建立了魯棒的LBP.文獻(xiàn)[13]提出一種基于局部頻譜圖特征(Local Spectrogram Features, LSF)的方法,找出頻譜圖中稀疏的、有區(qū)分性的峰值作為關(guān)鍵點(diǎn),在圍繞關(guān)鍵點(diǎn)的2維區(qū)域內(nèi)提取局部頻譜信息.通過一組具有代表性的LSF簇(Clusters)和它們在頻譜圖中的出現(xiàn)時(shí)間(Occurrences)來模擬音頻事件.
音頻片段長度即粒度(Granularity)對分類識別結(jié)果有影響.文獻(xiàn)[8]使用較長持續(xù)時(shí)間(6s),比使用較短持續(xù)時(shí)間(1s)顯著提高了分類精度,而沒有增加額外開銷.較大的訓(xùn)練和標(biāo)簽集也有益于分類任務(wù)[34].文獻(xiàn)[11]也表明分類準(zhǔn)確度受分類粒度的影響.文獻(xiàn)[8]研究了關(guān)于分類準(zhǔn)確性與窗口大小和采樣率(Sampling rate)的關(guān)系,以找出每個(gè)因素的合適的值,還研究了這些因素的所有組合.
在很多的候選特征中需確定最佳特征(Optimal feature)組合并進(jìn)行特征融合.文獻(xiàn)[35]通過因子分析(Factor analysis)研究特征的性能,并確定特征組合.文獻(xiàn)[36]利用進(jìn)化算法(Evolutional algorithm)中的粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法和遺傳算法(Genetic Algorithm, GA)從大量音頻特征中選擇最重要的聲音特征.
選取最佳特征集后,有時(shí)還需進(jìn)行后處理(Post-processing),增強(qiáng)區(qū)分能力和魯棒性.文獻(xiàn)[33]采用L2-Hellinger歸一化(Normalization)技術(shù).文獻(xiàn)[37]在給定的時(shí)間窗口中,計(jì)算內(nèi)部所有幀的心理聲學(xué)(Psychoacoustic)特征,即梅爾和伽瑪通頻率倒譜系數(shù)(Mel and Gammatone-Frequency Cepstral Coefficients, MGFCC).按照學(xué)習(xí)好的碼本(Codebook)將特征量化為音頻詞袋(Bag of Audio Words, BoAW),即直方圖(Histogram).特征袋方法計(jì)算成本低,對于在線處理特別有用.文獻(xiàn)[38-41]也采用了類似的音頻詞袋方法.文獻(xiàn)[29]擴(kuò)展了CNN,分別學(xué)習(xí)多通道特征.該網(wǎng)絡(luò)不是將各個(gè)通道的特征連接到一個(gè)單獨(dú)的特征向量中,而是將多聲道音頻中的音頻事件作為單獨(dú)的卷積層來更好地學(xué)習(xí).
音頻事件通常發(fā)生在非結(jié)構(gòu)化的環(huán)境中,頻率內(nèi)容和時(shí)間結(jié)構(gòu)都有很大的變化.早期的算法通?;谑止ぶ谱?Hand-crafted)特征.隨著DL的流行,大量基于DL的算法被用于自動特征學(xué)習(xí).CNN能夠提取反映本質(zhì)內(nèi)容的特征,并且對局部頻譜和時(shí)間變化不敏感[42].文獻(xiàn)[43]提出一種使用CNN的新型端到端(End-to-end)的ESC系統(tǒng),直接從原始波形(Raw waveforms)中學(xué)習(xí)特征用于分類.因?yàn)槿狈γ鞔_的語義單元,對音頻事件進(jìn)行端到端的識別通常需要較長的時(shí)間片段,文獻(xiàn)[38]引入了具有更大輸入域(Input field)的CNN.文獻(xiàn)[22]使用多流分層深度神經(jīng)網(wǎng)絡(luò)(Multi-stream Hierarchical Deep Neural Network, MS-H-DNN)提取音頻深度特征(Deep feature),融合了多個(gè)輸入特性流的潛在互補(bǔ)信息,更具區(qū)分性.基于極端學(xué)習(xí)機(jī)的自動編碼器(Extreme Learning Machine-based Auto-Encoder, ELM-AE)是一種新的DL算法,具有優(yōu)異的表現(xiàn)性能和快速的訓(xùn)練過程.文獻(xiàn)[44]提出一種雙線性多列(Bilinear Multi-column ELM-AE, B-MC-ELM-AE)算法,以提高原始ELM-AE算法的魯棒性、穩(wěn)定性和特征表示能力,學(xué)習(xí)聲信號的特征表示.
簡單的音頻事件種類識別可采用核Fisher判別(Kernel Fisher Discriminant, KFD)分析法[19],正則化核Fisher判別(Regularized KFD)分析法[17],DTW[24],矢量量化(Vector Quantization, VQ)[24].但更多的采用統(tǒng)計(jì)分類器,如K近鄰(K-Nearest Neighbors, KNN)[8,36],GMM[23,25,45],隨機(jī)森林(Random Forest, RF)[14],支持向量機(jī)(Support Vector Machine, SVM)[16,25-26],HMM[28],人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)[24,46],DNN[23,25],RNN[23,25],CNN[23,25],RDNN[25],I-Vector[23],EC[47]等.文獻(xiàn)[46]在相同數(shù)據(jù)集上對兩種不同的神經(jīng)網(wǎng)絡(luò)(Neural Network, NN)進(jìn)行分析,后向傳播神經(jīng)網(wǎng)絡(luò)(Back-Propagation Neural Network, BPNN)與徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(Radial-Basis Function Neural Network, RBFNN)相比,識別結(jié)果具有顯著性和有效性.文獻(xiàn)[34]研究了幾個(gè)深度NN架構(gòu),包括全連接DNN(Fully-connected DNN)、CNN-AlexNet、CNN-VGG、CNN-GoogLeNet Incepetion和CNN-ResNet,發(fā)現(xiàn)CNN類網(wǎng)絡(luò)表現(xiàn)良好.文獻(xiàn)[25]全面研究各種統(tǒng)計(jì)分類器后,發(fā)現(xiàn)深度學(xué)習(xí)模型與傳統(tǒng)淺層模型相比具有一定的優(yōu)越性,但沒有一個(gè)模型能在所有數(shù)據(jù)集上優(yōu)于所有其他模型,說明模型的性能隨著特征的不同而有很大差異.文獻(xiàn)[48]的研究也表明,在AED任務(wù)上,基于DNN的系統(tǒng)比使用GFB特征與多類GMM-HMM相結(jié)合的系統(tǒng)識別精度要差.
序列學(xué)習(xí)(Sequential learning)方法被用來捕捉環(huán)境聲音的長期變化[5].RNN擅長學(xué)習(xí)音頻信號的長時(shí)上下文信息,而CNN在分類任務(wù)上表現(xiàn)良好,文獻(xiàn)[42]將這兩種方法結(jié)合形成CRNN(Convolutional Recurrent Neural Network),性能在日常復(fù)合音頻事件(Polyphonic sound event detection)檢測任務(wù)中有很大的改進(jìn).但在文獻(xiàn)[23]和[25]的實(shí)驗(yàn)中,表現(xiàn)最好的模型是非時(shí)態(tài)(Non-temporal)DNN,表明DCASE(IEEE Challenge on Detection and Classification of Acoustic Scenes and Events)挑戰(zhàn)中的聲音不會表現(xiàn)出強(qiáng)烈的時(shí)間動態(tài)(Temporal dynamics),這與文獻(xiàn)[42]的結(jié)論相反.關(guān)于時(shí)序信息對于音頻事件檢測的作用還有待進(jìn)一步研究.
在決策階段,文獻(xiàn)[23]對多個(gè)分類器的結(jié)果采用后期融合方法(Late-fusion approach).文獻(xiàn)[13]使用廣義霍夫變換(Generalized Hough Transform, GHT)投票系統(tǒng),對許多獨(dú)立的關(guān)鍵點(diǎn)的信息進(jìn)行匯總,產(chǎn)生起始假設(shè)(Onset hypotheses),可以檢測到頻譜圖中任何音頻事件的任意組合.對每個(gè)假設(shè)進(jìn)行評分,以識別頻譜圖中的重疊音頻事件.
訓(xùn)練統(tǒng)計(jì)模型必須具備較大的數(shù)據(jù)量,完全監(jiān)督的訓(xùn)練數(shù)據(jù)需要在一個(gè)音頻片段中只清楚地包含某個(gè)特定的音頻事件.所需時(shí)間及人力、經(jīng)濟(jì)代價(jià)巨大,經(jīng)常還需要各類聲音的領(lǐng)域知識.為使收集大量訓(xùn)練聲音數(shù)據(jù)的過程更容易,文獻(xiàn)[49]設(shè)計(jì)了基于游戲的環(huán)境聲音采集框架“Sonic home”.為降低訓(xùn)練數(shù)據(jù)量的要求,通常使用主動學(xué)習(xí)(Active learning)或半監(jiān)督學(xué)習(xí)(Semi-supervised learning)技術(shù)[50].文獻(xiàn)[51]提出一種新的主動學(xué)習(xí)方法.首先在未標(biāo)記的聲音片段上進(jìn)行K-medoids聚類,并將簇的中心點(diǎn)(Medoids)呈現(xiàn)給標(biāo)注者進(jìn)行標(biāo)記,中心點(diǎn)帶標(biāo)注的標(biāo)簽用于派生其他簇成員的預(yù)測標(biāo)簽.該方法優(yōu)于對所有數(shù)據(jù)進(jìn)行標(biāo)注的傳統(tǒng)主動學(xué)習(xí)法如隨機(jī)抽樣(Random sampling)、基于確定性的主動學(xué)習(xí)(Certainty-based active learning)和半監(jiān)督學(xué)習(xí).在保持相同識別準(zhǔn)確率的同時(shí),可節(jié)省50%~60%訓(xùn)練音頻事件分類器的標(biāo)注工作量.文獻(xiàn)[52]使用一個(gè)基于全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks, FCN)的模型,基于弱監(jiān)督學(xué)習(xí)(Wakly-supervised learning)識別音頻事件,而且能夠在只有片段級別(Clip-level)沒有幀級別(Frame-level)標(biāo)注的訓(xùn)練下進(jìn)行音頻事件定位.文獻(xiàn)[53]提出一個(gè)與文獻(xiàn)[52]類似的FCN結(jié)構(gòu),從YouTube上的弱標(biāo)記數(shù)據(jù)識別音頻事件.該網(wǎng)絡(luò)有5個(gè)卷積層,后邊沒有采用最常見的全連接層(Fully connected dense layers),而是采用了另外2個(gè)卷積層,最后是一個(gè)全局最大池化層(Global max-pooling layer),形成了一個(gè)全卷積的CNN架構(gòu).與將時(shí)間域信息全部混合起來得到最后結(jié)果的全連接架構(gòu)不同,使用全局最大池化層可以在時(shí)間軸上選擇最有效的片段輸出最后的預(yù)測結(jié)果.因此,在訓(xùn)練和測試中能有效處理可變長度的輸入音頻,不需要進(jìn)行固定分割的前處理過程,可進(jìn)行粗略的音頻事件定位.文獻(xiàn)[54]結(jié)合帶標(biāo)記的音頻訓(xùn)練數(shù)據(jù)集和互聯(lián)網(wǎng)上的未標(biāo)記音頻進(jìn)行自訓(xùn)練(Self-training)來改進(jìn)聲音模型.首先在帶標(biāo)記音頻上訓(xùn)練,然后在YouTube下載的音頻上測試.當(dāng)檢測器以較高的置信度識別出任何已知的聲音事件時(shí),就把這個(gè)未標(biāo)記的音頻加入到訓(xùn)練集進(jìn)行重新訓(xùn)練.
彌補(bǔ)目標(biāo)域(Target domain)訓(xùn)練樣本的不足還可以采用遷移學(xué)習(xí)(Transfer learning),調(diào)用在其他具有類似特點(diǎn)的大型數(shù)據(jù)庫已預(yù)先訓(xùn)練好的模型[55].該技術(shù)旨在將數(shù)據(jù)和知識從源域(Source domain)轉(zhuǎn)移到目標(biāo)域,即使源和目標(biāo)具有不同的特性分布和標(biāo)簽集[56].基于DNN的遷移學(xué)習(xí)已經(jīng)被證明在視覺對象分類(Visual Object Classification, VOC)中是有效的,文獻(xiàn)[55]利用VOC-DNN在其訓(xùn)練環(huán)境之外的學(xué)習(xí)能力,遷移到AED領(lǐng)域.文獻(xiàn)[56]假設(shè)所有的音頻事件都有相同的基本聲音構(gòu)件(Basic acoustic building blocks)集合,只是在這些聲音構(gòu)件的時(shí)間順序上存在差異.構(gòu)造一個(gè)DNN,它具有一個(gè)卷積層來提取聲音構(gòu)件,和一個(gè)遞歸層(Recurrent layer)來捕獲時(shí)間順序(Temporal order).在上述假設(shè)下,通過將卷積層從源域(合成源數(shù)據(jù)庫)轉(zhuǎn)移到目標(biāo)域(DCASE 2016的目標(biāo)數(shù)據(jù)庫),實(shí)現(xiàn)從源域轉(zhuǎn)換到具有不同聲音構(gòu)件及順序的目標(biāo)域的遷移學(xué)習(xí).注意,遞歸層是直接從目標(biāo)域?qū)W習(xí)的,無法通過轉(zhuǎn)移來檢測與源領(lǐng)域中聲音構(gòu)件不同的事件.
訓(xùn)練數(shù)據(jù)的多樣性對于防止過擬合(Overfitting),獲得魯棒的模型具有關(guān)鍵作用.文獻(xiàn)[38]提出一種新的數(shù)據(jù)增強(qiáng)(Data augmentation)方法來引入數(shù)據(jù)變化,以充分利用CNN網(wǎng)絡(luò)的建模能力.文獻(xiàn)[57]在訓(xùn)練過程中使用模擬仿真,將目標(biāo)聲音(Target sounds)與各種環(huán)境聲音按照不同的角度配置(Angular source configuration)和信噪比(Signal-to-Noise Ratio, SNR)疊加在一起,增強(qiáng)其泛化性能,稱為多條件訓(xùn)練(Multi-conditional training).
環(huán)境聲的種類無法盡數(shù),在研究中只能選擇個(gè)別類型作為例子.文獻(xiàn)[47]使用了兩個(gè)基準(zhǔn)數(shù)據(jù)集: RWCP(Real World Computing Partnership)數(shù)據(jù)庫和Sound Dataset.文獻(xiàn)[23]使用了最大的數(shù)據(jù)集之一——DCASE 2016,將聲音分類為15種常見的室內(nèi)和室外聲音場景,如公共汽車(Bus)、咖啡館(Cafe)、汽車(Car)、市中心(City center)、森林道路(Forest path)、圖書館(Library)、火車(Train)等,共13h的立體聲錄音.文獻(xiàn)[26]將環(huán)境聲分為6類,即車鳴聲、鐘聲、風(fēng)聲、冰塊聲、機(jī)床聲、雨聲.文獻(xiàn)[28]包含男性演講(Male speech)、女性演講(Female speech)、音樂(Music)、動物聲音(Animal sounds)等.文獻(xiàn)[6]則專門識別燃放鞭炮(Firecracker)、9mm和44mm口徑發(fā)令槍(Starter pistol)、爆炸(Explosion)、射擊(Firing)等沖擊型聲音.文獻(xiàn)[36]將聲音分為6類: 語音(Speech)、音樂(Music)、噪聲(Noise)、掌聲(Applause)、笑聲(Laughing)、哭聲(Crying).文獻(xiàn)[20]錄制5種聲音組成了一個(gè)數(shù)據(jù)集,包括噼啪的火焰聲(Crackling fire)、打字聲(Typewriter action)、暴雨聲(Rainstorms)、碳酸飲料聲(Carbonated beverages)和觀眾的掌聲(Crowd applause).網(wǎng)絡(luò)視頻提供了一個(gè)幾乎無限的音頻來源,文獻(xiàn)[58]在100萬部YouTube視頻中提取45kh的音頻,構(gòu)成一個(gè)多樣化語料庫.文獻(xiàn)[59]建立的ESRD03數(shù)據(jù)庫從21張音效CD和RWCP數(shù)據(jù)庫中收集數(shù)據(jù),包括16000多個(gè)音軌,大部分發(fā)生在家庭環(huán)境中.
AED還可用于自動和快速標(biāo)記音頻記錄(Audio tagging).這是一項(xiàng)具有挑戰(zhàn)性的任務(wù),音頻事件變化無窮,對應(yīng)的標(biāo)簽數(shù)量眾多,不同的標(biāo)注者可能提供不完整或不明確的標(biāo)簽.為了處理這些問題,文獻(xiàn)[60]使用一個(gè)共同正則化(Co-regularization)方法來學(xué)習(xí)一對聲音和文本上的分類器.第一個(gè)分類器將低級音頻特性映射到真正的標(biāo)簽列表,第二個(gè)分類器將損壞的標(biāo)簽映射到真正的標(biāo)簽,減少了由第一個(gè)分類器中的低級聲學(xué)變化引起的不正確映射,并用額外的相關(guān)標(biāo)簽進(jìn)行擴(kuò)充.音頻信息還可以輔助進(jìn)行視頻事件檢測(Video Event Detection, VED).文獻(xiàn)[61]提出一種音頻算法,基于STE、ZCR、MFCC、基于統(tǒng)計(jì)特性的改進(jìn)特征、HMM,對視頻中的尖叫片段進(jìn)行檢測.
音頻場景(Audio scenes)是一個(gè)保持語義相關(guān)或一致性(Semantic consistant)的聲音片段,通常由多個(gè)音頻事件組成.例如,一段包含槍聲、炮聲、吶喊聲、爆炸聲等聲音事件的音頻很可能對應(yīng)一個(gè)戰(zhàn)爭場景.對于實(shí)際應(yīng)用中的連續(xù)音頻流,音頻場景識別(Audio Scene Recognition, ASR)首先進(jìn)行時(shí)間軸語義分割,得到音頻場景的起止時(shí)間即邊界(Audio scene cut),再進(jìn)行音頻場景分類(Audio Scene Classification, ASC).ASR是提取音頻結(jié)構(gòu)和內(nèi)容語義的重要手段,是基于內(nèi)容的音頻、視頻檢索和分析的基礎(chǔ)[26,62].目前場景檢測(Scene detection)的研究主要基于圖像和視頻.音頻同樣具有豐富的場景信息,基于音頻既可獨(dú)立進(jìn)行場景分析,也可以輔助視頻場景分析,以獲得更為準(zhǔn)確的場景檢測和分割.音頻場景的類別并沒有固定的定義,依賴于具體應(yīng)用場景.在電影等視頻中,可粗略分為語音、音樂、歌曲、環(huán)境音、帶音樂伴奏的語音等幾類[62].環(huán)境音還可以進(jìn)行更細(xì)粒度的劃分.基于音頻分析的方法用戶容易接受,計(jì)算量也比較少[63-64].
音頻場景由主要的幾個(gè)聲源所刻畫.換句話說,音頻場景可以定義為一個(gè)包含多個(gè)聲源的集合[65].當(dāng)大多數(shù)聲源變化時(shí),就會發(fā)生場景變化.基于一個(gè)模擬人類聽覺的具有時(shí)間兩個(gè)參數(shù)(Attention-span和Memory)的模型[66],文獻(xiàn)[65]逐塊提取能量、過零率、譜特征、倒譜特征等多個(gè)音頻特征,對每個(gè)特征擬合最佳包絡(luò)線,通過計(jì)算包絡(luò)線之間的相關(guān)度,基于閾值進(jìn)行邊界分割.參數(shù)Attention-span增加時(shí)性能提升.文獻(xiàn)[67]假設(shè)大多數(shù)廣播包含語音、音樂、掌聲、歡呼聲等聲音類別,將每秒音頻包含的分類構(gòu)成直方圖形式的紋理(Texture)表示,基于紋理的變化進(jìn)行場景變化檢測.文獻(xiàn)[68]首先使用模糊C均值聚類(Fuzzy C-means)算法檢測Audio shot cuts,之后計(jì)算音頻鏡頭之間的語義相關(guān)性,語義相關(guān)的音頻鏡頭被合并為音頻場景.文獻(xiàn)[69]基于音頻事件進(jìn)行音頻場景檢測,符合人類的思維習(xí)慣.與文本信息檢索中的罕見詞和常見詞類似,給更能反映音頻內(nèi)容主題(Topic)的音頻事件賦予更大的權(quán)重,而給在多個(gè)主題中出現(xiàn)的常見音頻事件賦予較小的權(quán)重,會有助于音頻場景的檢測.
聲音特征的確定是音頻場景自動識別中的一個(gè)重要問題,提取正確的特性集是獲得系統(tǒng)高性能的關(guān)鍵.設(shè)計(jì)選擇音頻特征與對應(yīng)的音頻場景有很強(qiáng)的相關(guān)性.例如,在文獻(xiàn)[70]的水聲、風(fēng)聲、鳥叫聲、城市聲音等4種類型的聲音中,一般來說,水和風(fēng)的聲音都有較低的音高值和音高強(qiáng)度;鳥叫聲有很高的音高值和音高強(qiáng)度;城市的聲音有很低的音高值和相對廣泛的音高強(qiáng)度.
人們已經(jīng)提出了各種各樣的音頻特征,但過去的絕大多數(shù)工作都利用結(jié)構(gòu)化數(shù)據(jù)(如語音和音樂)的特性,并假定這種關(guān)聯(lián)會自然地傳遞到非結(jié)構(gòu)化的聲音[71].ASR使用的特征有MFCC[25-26,53,72],短時(shí)能量(Short-Time Energy, STE)[26],頻帶能量(Subband Energy, SE)[26],ZCR[26],f0[26],SC[26,72],頻譜帶寬(Spectral Band Width, SBW)[72],MPEG-7特征[26,39,73],基于幅度調(diào)制濾波器組(Amplitude modulation filterbank)與Gabor濾波器組(Gabor Filterbank, GFB)的特征[48].文獻(xiàn)[70]使用音高特征(Pitch features),包括音高值、音高強(qiáng)度、可聽音高隨時(shí)間變化的百分比.文獻(xiàn)[74]通過線性正交變換的主成分分析(Principal Component Analysis, PCA)將多通道觀測幅度的對數(shù)轉(zhuǎn)換為特征向量.文獻(xiàn)[71]基于匹配追蹤進(jìn)行環(huán)境聲音的特征提取.利用字典來選擇特征,得到靈活、直觀、物理可解釋的表示形式,對噪聲的敏感度較低,能夠有效地代表來自不同聲源和不同頻率范圍的聲音.通常特征向量只描述單個(gè)幀(Frame)的信息,但與時(shí)間動態(tài)(Temporal dynamics)相關(guān)的局部特征會有益于環(huán)境聲信號的分析.文獻(xiàn)[72]將幀級的MFCC特征視為2維圖像,采用局部二進(jìn)制模式(Local Binary Pattern, LBP)來描述時(shí)間動態(tài)的隱藏(Latent)信息,并使用LBP對演化(Evolution)過程進(jìn)行編碼.由于音頻場景有豐富的內(nèi)容,多個(gè)特征的組合將是獲得良好性能的關(guān)鍵.
與傳統(tǒng)的手工特征相比,矩陣分解(Matrix factorization)類的非監(jiān)督學(xué)習(xí)方法包括稀疏性(Sparsity)、基于內(nèi)核(Kernel-based)、卷積(Convolutive)、PCA的新方法,可以自動從T-F表示中學(xué)習(xí)場景的更好表示[75].文獻(xiàn)[76]通過有監(jiān)督的非負(fù)矩陣分解(Supervised Non-negative Matrix Factorization, NMF)進(jìn)行矩陣分解,研究了使用監(jiān)督特征學(xué)習(xí)方法從聲場記錄中提取具有相關(guān)性和區(qū)分性(Relevant and discriminative)特征的方法.文獻(xiàn)[77]使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)作為特征提取器,從標(biāo)簽樹嵌入圖像(Label-tree embedding image)中自動學(xué)習(xí)對分類任務(wù)有用的特征模板.文獻(xiàn)[74]通過PCA得到的線性正交變換將多通道觀測幅度的對數(shù)轉(zhuǎn)換為特征向量.
ASR使用的模型包括高斯混合模型(Gaussian Mixture Model, GMM)[25,48],隱馬爾可夫模型(Hidden Markov Model, HMM)[48],SVM[25-26,78-79],I-Vector[53],集成分類器(Ensemble Classifier, EC)[72],深度神經(jīng)網(wǎng)路(Deep Neural Network, DNN)[25,48]、遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[25,48]、遞歸深度神經(jīng)網(wǎng)絡(luò)(Recurrent Deep Neural Network, RDNN)[25]、CNN[25]等.文獻(xiàn)[48]采用能夠像RNN一樣分析長期上下文信息(Long contextual information),且訓(xùn)練代價(jià)與傳統(tǒng)DNN類似的時(shí)延神經(jīng)網(wǎng)絡(luò)(Time-Delay Neural Network, TDNN)系統(tǒng).
聲音與視覺信息互為補(bǔ)充是人類感知環(huán)境的重要方式[25].音頻場景分析被大量用于輔助視頻場景分析、檢測和分割,提高對視頻內(nèi)容的識別準(zhǔn)確率,解決諸如圖像變化而實(shí)際場景并未變化的困難,且整體運(yùn)算復(fù)雜度更低[64].音頻場景分析可應(yīng)用于視頻內(nèi)容監(jiān)控及特定視頻片段的檢索與分割[78],即使在視頻數(shù)據(jù)丟失的情況下,也能檢測到目標(biāo)聲源的活動[80].文獻(xiàn)[81]使用聲音識別廣播新聞中說話人的變化位置,定位每一個(gè)主題的開始,實(shí)現(xiàn)快速自動瀏覽.文獻(xiàn)[82]結(jié)合音、視頻特點(diǎn),對足球視頻進(jìn)行基于進(jìn)球語義事件的檢索,滿足觀眾的個(gè)性化檢索要求.為滿足網(wǎng)絡(luò)視頻的監(jiān)管需求,文獻(xiàn)[39]提取音頻流的MPEG-7低層(SC、SBW)和高層音頻特征(音頻簽名),采用獨(dú)特的權(quán)重分配機(jī)制形成音頻詞袋特征,輸入SVM對暴力和非暴力視頻進(jìn)行分類.文獻(xiàn)[40]結(jié)合視頻靜圖特征、運(yùn)動特征以及聲音特征,建立一個(gè)多模態(tài)色情視頻檢測算法.文獻(xiàn)[79]首先用兩層(粗/細(xì))SVM識別爆炸/類似爆炸的音頻區(qū)間,得到爆炸的備選場景.對這些備選場景再判斷其對應(yīng)的視覺特征是否發(fā)生劇烈突變,得到最后的識別結(jié)果.
如前所述,CA是一個(gè)運(yùn)用音頻信號處理、機(jī)器學(xué)習(xí)等方法對數(shù)字音頻和音樂進(jìn)行內(nèi)容分析理解的學(xué)科.其中音樂部分的技術(shù)綜述參見文獻(xiàn)[83],本文面向一般音頻/環(huán)境聲,以國民經(jīng)濟(jì)行業(yè)分類國家標(biāo)準(zhǔn)[84]中的各個(gè)領(lǐng)域?yàn)橹骶€,總結(jié)已有的CA技術(shù)的典型算法.
人的身體本身和許多疾病,都會產(chǎn)生各種各樣的聲音.借助CA進(jìn)行輔助診斷與治療,既可部分減輕醫(yī)生的負(fù)擔(dān),又可普惠廣大消費(fèi)者,是智慧醫(yī)療的重要方面.
4.1.1 呼吸系統(tǒng)疾病
常見的與病人呼吸系統(tǒng)相關(guān)的音頻事件有咳嗽、打鼾、言語、喘息、呼吸等.監(jiān)控病人狀態(tài),在發(fā)生特定音頻事件時(shí)觸發(fā)警報(bào)以提醒護(hù)士或家人具有重要意義[85].聽診器是診斷呼吸系統(tǒng)疾病的常規(guī)設(shè)備,文獻(xiàn)[86]研制光電型智能聽診器,能存儲和回放聲音,顯示聲音波形并比對,同時(shí)對聲音進(jìn)行智能分析,給醫(yī)生診斷提供參考.
咳嗽(Cough)是人體的一種應(yīng)激性的反射保護(hù)機(jī)制,可以有效清除位于呼吸系統(tǒng)內(nèi)的異物.但是,頻繁、劇烈和持久的咳嗽也會給人體造成傷害,是呼吸系統(tǒng)疾病(Respiratory disease)的常見癥狀.不同呼吸疾病可能具有不同的咳嗽特征.目前對咳嗽的判斷主要依靠病人的主觀描述,醫(yī)生的人工評估過程繁瑣、主觀,不適合長期記錄,還有傳染危險(xiǎn).鑒于主觀判斷的不足,研究客觀測量及定量評估咳嗽頻率(Cough frequency)、強(qiáng)度(Cough intensity)等特性的咳嗽音自動識別與分析系統(tǒng),為臨床診斷提供信息,就非常必要[87-88].有時(shí)還需要專門針對兒科人群(Pediatric population)的技術(shù)[89].
文獻(xiàn)[90]通過臨床實(shí)驗(yàn)測試了人類根據(jù)聽覺和視覺來識別和計(jì)算咳嗽的準(zhǔn)確性,還評估了一個(gè)全自動咳嗽監(jiān)視器(Pulmotrack).被試依靠聽覺可以很好地識別咳嗽,視覺數(shù)據(jù)對于咳嗽計(jì)數(shù)也有顯著影響.雖然Pulmotrack自動測試的咳嗽頻率和人類結(jié)果有較大差距,但文獻(xiàn)[91]研發(fā)的基于音頻的自動咳嗽檢測(Audio-based automatic cough detection)優(yōu)于使用4個(gè)傳感器的商用系統(tǒng),說明了這種技術(shù)具有一定的可行性.
從含有背景噪聲的音頻流中識別咳嗽音頻事件(Cough events)的技術(shù)框架與上述AED相同,只是集中于識別分類為咳嗽聲的音頻片段.最簡單的端點(diǎn)檢測是分幀[92],并對疑似咳嗽的片段進(jìn)行初步篩選.文獻(xiàn)[88]和[93]基于STE和ZCR的雙門限檢測算法對咳嗽信號進(jìn)行端點(diǎn)檢測.文獻(xiàn)[88]研究了基于WT的含噪咳嗽信號降噪方法,通過實(shí)驗(yàn)確定小波函數(shù)和分解層數(shù)、閾值等.在已有工作中,幾乎所有的咳嗽聲音特征提取方法都來自語音或音樂領(lǐng)域,如LPC[88],MFCC[88,92-93],香農(nóng)熵(Shannon entropy)[89],倒譜系數(shù)(Cepstral coefficients)[89],線性預(yù)測倒譜系數(shù)(Linear Predictive Cepstral Coefficient, LPCC)[88],結(jié)合WPT和MFCC的WPT-MFCC特征[88]等.從咳嗽的生理學(xué)特性和聲學(xué)特點(diǎn)可知,咳嗽聲屬于典型的非平穩(wěn)信號,具有突發(fā)性.在咳嗽頻譜(Cough spectrum)中能量是高度分散的,與語音和音樂信號明顯不同.為提取更符合咳嗽的聲音特性,文獻(xiàn)[87]基于Gammatone濾波器組在部分頻帶提取音頻特征.在咳嗽聲分類識別階段,文獻(xiàn)[92]使用DTW將咳嗽疑似幀的MFCC特征和模板庫進(jìn)行基于距離的匹配.文獻(xiàn)[87]使用SVM、KNN和RF分別訓(xùn)練和測試,集成各種輸出做出最終決策.文獻(xiàn)[92]使用ANN,文獻(xiàn)[93]使用HMM,文獻(xiàn)[88]使用GMM對咳嗽片段進(jìn)行分類.在咳嗽聲錄音里經(jīng)常出現(xiàn)的聲音種類一般還有說話聲、笑聲、清喉音、音樂聲等[88].
在CA的醫(yī)學(xué)應(yīng)用領(lǐng)域,目前各項(xiàng)研究都是用自行搜集的臨床數(shù)據(jù).文獻(xiàn)[87]收集了18個(gè)呼吸系統(tǒng)疾病患者的真實(shí)數(shù)據(jù),并由人類專家進(jìn)行了標(biāo)注.文獻(xiàn)[89]搜集了14個(gè)受試者的數(shù)據(jù),錄音長度840min.在識別咳嗽音頻事件的基礎(chǔ)上,如果集成更多咳嗽方面的專家知識,可以更精確地幫助提高疾病類型臨床診斷的精確度[92].
肺的狀況直接影響肺音(Lung sound).肺音包含豐富的肺生理(Physiological)和病理(Pathological)信息,在聽診(Auscultation)過程中對肺部噪聲振動頻率(Lung noise vibration frequency)、聲波振幅(Amplitude)和振幅波動梯度(Amplitude fluctuation gradient)等特征進(jìn)行分析來判斷病因.研究塵肺患者肺部聲音的改變,可以探索聽聲辨病的可行性[94].文獻(xiàn)[95]對30多份相同類型的肺音進(jìn)行小波分解,每個(gè)頻帶小波系數(shù)加權(quán)優(yōu)化后,通過BPNN對大型、中型和小型濕羅音(Wet rale)和喘息聲(Wheezing sound)進(jìn)行分類識別.文獻(xiàn)[96]采集肺音信號,使用WT濾波抑制噪聲獲得更純凈的肺音,然后使用WT進(jìn)行分析,將肺音信號分解為7層,并從頻帶中提取一組統(tǒng)計(jì)特征輸入BPNN,分類識別為正常和肺炎兩種結(jié)果.
阻塞性睡眠呼吸暫停(Obstructive Sleep Apnea, OSA)是一種常見的睡眠障礙,伴隨打鼾,在睡眠時(shí)上呼吸道(Upper airway)有反復(fù)的阻塞,發(fā)生在夜間不易被發(fā)現(xiàn),對人身健康造成極大的危害,對其進(jìn)行預(yù)防與診斷十分重要.此疾病監(jiān)測要對患者的身體安裝許多附件來追蹤呼吸和生理變化,讓患者感到不適,并影響睡眠.目前使用的診斷設(shè)備-多導(dǎo)睡眠儀需要患者整夜待在睡眠實(shí)驗(yàn)室,連接大量的生理電極,無法普及到家庭.鼾聲信號的聲音分析方法具有非侵入式、廉價(jià)易用的特點(diǎn),在診斷OSA上表現(xiàn)出極大的潛力.
鼾聲信號采集通常使用放于枕頭兩端的聲音傳感器[97].整夜鼾聲音頻記錄持續(xù)時(shí)間較長,而且伴有其他非鼾聲信號.首先需進(jìn)行端點(diǎn)檢測,如文獻(xiàn)[98]采用集成經(jīng)驗(yàn)?zāi)B(tài)分解(Ensemble Empirical Mode Decomposition, EEMD)算法,文獻(xiàn)[99]采用更加適合鼾聲這種非線性、非平穩(wěn)聲信號的自適應(yīng)縱向盒算法,文獻(xiàn)[100]采用基于STE、ZCR的時(shí)域自相關(guān)算法.文獻(xiàn)[101]通過整夜鼾聲聲壓級(響度)、鼾聲暫停間隔等特征,得到區(qū)分單純鼾癥(Simple Snoring, SS)與OSA患者的簡便篩查方法.文獻(xiàn)[100]通過數(shù)字濾波器、快速傅里葉變換(Fast Fourier Transform, FFT)、線性預(yù)測分析等技術(shù)提取呼吸音相關(guān)特征,并用DTW算法進(jìn)行匹配識別.文獻(xiàn)[102]采用由f0、SC、譜擴(kuò)散(Spectral spread)、譜平坦度(Spectral flatness)組成的對噪聲具有一定魯棒性的特征集,以及SVM分類器,對笑聲、尖叫聲(Scream)、打噴嚏(Sneeze)和鼾聲進(jìn)行分類,并進(jìn)一步對鼾聲和OSA分類識別.文獻(xiàn)[98]采用類似方法,提取共振峰頻率(Formant Frequency,F(xiàn)F)、MFCC和新提出的基頻能量比(f0energy ratio)特征,經(jīng)SVM訓(xùn)練后可有效區(qū)分出OSA與單純打鼾者.而且將呼吸、血氧信號與鼾聲信號相結(jié)合,優(yōu)勢互補(bǔ),提高了整個(gè)系統(tǒng)的篩查能力.文獻(xiàn)[103]使用相機(jī)記錄患者的視頻和音頻,并提取與OSA相關(guān)聯(lián)的特征.進(jìn)行視頻時(shí)間域降噪后,跟蹤患者的胸部和腹部運(yùn)動.從視頻和音頻中分別提取特征,用于分類器訓(xùn)練和呼吸事件檢測.文獻(xiàn)[99]提取能夠描述打鼾時(shí)聲道特性的特征(即共振峰)后進(jìn)行K-means聚類,將音頻事件中的鼾聲檢測出來.
4.1.2 心臟系統(tǒng)疾病
心音信號(Heart Sounds, HS)是人體內(nèi)一種能夠反映心臟及心血管系統(tǒng)運(yùn)行狀況的重要生理信號.對心音信號進(jìn)行檢測分析,能夠?qū)崿F(xiàn)多種心臟疾病的預(yù)警和早期診斷.針對心音的分析研究已從傳統(tǒng)的人工聽診定性分析,發(fā)展到對T-F特征的定量分析.
真實(shí)心臟聲信號的錄制可使用電子聽診器[104],或布置于人體心臟外胸腔表面的聲音傳感器[105].胎兒的心音可通過超聲多普勒終端檢測后經(jīng)音頻接口轉(zhuǎn)換為聲信號[106].利用心音信號的周期性和生理特征可對心音信號進(jìn)行自動分段[107].
心音信號非常復(fù)雜且不穩(wěn)定.在采集過程中,不可避免地會受到噪聲和其他器官活動聲音(如肺音等)的干擾,在T-F域上存在非線性混疊.文獻(xiàn)[108]對原始心音信號通過WT進(jìn)行降噪處理.文獻(xiàn)[109]使用針對非平穩(wěn)信號的EMD方法初步分離心音.為解決模態(tài)混疊問題,又對EMD獲得的IMFs分量進(jìn)行奇異值分解(Singular Value Decomposition, SVD).對各個(gè)特征分量進(jìn)行篩選重構(gòu)后,獲得較為清晰的心音信號,優(yōu)于傳統(tǒng)的小波閾值消噪等方法.
心音信號檢測使用的T-F表示包括STFT、Wigner分布(Wigner Distribution, WD)和WT[110].使用的特征主要是第一心音(S1)和第二心音(S2)的共振峰頻率FF[104,108]、從功率譜分布中提取的特征[111]、心電圖(Electrocardiograph,ECG)等輔助數(shù)據(jù)特征[112].S1和S2具有重要的區(qū)分特性.實(shí)驗(yàn)表明,只依靠S1和S2這兩個(gè)聲音特征,無需參考ECG,也不需要結(jié)合S1和S2的單個(gè)持續(xù)時(shí)間或S1-S2和S2-S1的時(shí)間間隔,即可得到好的識別結(jié)果[104].
心音信號檢測使用的統(tǒng)計(jì)分類器有SVM[108]、全貝葉斯神經(jīng)網(wǎng)絡(luò)模型(Full Bayesian Neural Network Model, FBNNM)[111]、DNN[104]、小波神經(jīng)網(wǎng)絡(luò)(Wavelet Neural Network, WNN)[113]等.文獻(xiàn)[111]定義了8種不同類型的心音.由于臨床采集困難,目前研究中心音數(shù)據(jù)量都不大.文獻(xiàn)[111]中有64個(gè)樣本,文獻(xiàn)[107]有48例心音(異常10例),每例提取2個(gè)時(shí)長5s的樣本,共96個(gè)樣本.
4.1.3 其他相關(guān)醫(yī)療
文獻(xiàn)[114]使用自相關(guān)法提取嗓音的f0特征,用SVM進(jìn)行分類識別,區(qū)分病態(tài)嗓音和正常嗓音,完成對嗓音疾病的早期診斷.文獻(xiàn)[115]采集胎音和胎動信號,獲得胎音信號最強(qiáng)的位置,即胎兒心臟的位置,以此判斷出胎兒頭部位置和胎兒的體位姿態(tài).文獻(xiàn)[116]檢測片劑、丸劑或膠囊暴露于腸胃系統(tǒng)時(shí)所產(chǎn)生的聲波,以確定該人已經(jīng)吞服了所述片劑、丸劑或膠囊.文獻(xiàn)[117]使用X射線圖像確定血液速度的空間分布,根據(jù)速度分布人工合成可視譜所定義的聲音.該方法允許心臟病學(xué)家和神經(jīng)科學(xué)者以增強(qiáng)的方式分析血管,對脈管病變進(jìn)行估計(jì),并對血流質(zhì)量進(jìn)行更好的控制.肌音信號(Mechanomyographic, MMG)是人體發(fā)生動作時(shí)由于肌肉收縮所產(chǎn)生的聲信號,蘊(yùn)含了豐富的能夠反映人體肢體運(yùn)動狀態(tài)的肌肉活動信息.文獻(xiàn)[118]通過肌音傳感器采集人體前臂特定肌肉的聲信號,基于模式分類開發(fā)相應(yīng)的假肢手控制系統(tǒng).
安全保護(hù)經(jīng)常采用智能監(jiān)控方式,按照地點(diǎn)可分為公共場所監(jiān)控和私密場所監(jiān)控兩種.公共場所包括公園、車站、廣場、商場、街道、學(xué)校、電影院、劇場等地點(diǎn),經(jīng)常人員密集,對其進(jìn)行有效的安防智能監(jiān)控來維護(hù)社會安全是最主要的應(yīng)用.目前公共場所的監(jiān)控系統(tǒng)主要都基于視頻,但是視線被遮擋時(shí)存在盲區(qū),而且容易受到光線、惡劣天氣等因素的影響.異常事件通常會伴隨異常聲音的發(fā)生,異常聲音本身即能有效地反應(yīng)重大事故和危急情況的發(fā)生,且具有復(fù)雜度低、易獲取、不受空間限制等優(yōu)勢[119-120].一個(gè)完整的公共場所智能監(jiān)控系統(tǒng)應(yīng)當(dāng)充分利用場景中視聽覺信息的相關(guān)性,將其有機(jī)地融合到一起[121].例如,文獻(xiàn)[122]采集ATM機(jī)監(jiān)控區(qū)域內(nèi)的聲信號,提取特征后判斷是否為異常聲音,與視頻監(jiān)控相結(jié)合可以解決ATM機(jī)暴力犯罪的問題.私密場所主要包括家庭、宿舍、醫(yī)院病房、浴室、KTV包房、軍事基地等地點(diǎn),由于或多或少的隱私性及保密性,不方便采用可能暴露被監(jiān)護(hù)人隱私的視頻監(jiān)控,采用基于AED的音頻監(jiān)控更為合適[123-124].典型的應(yīng)用包括老年人、殘疾人、嬰兒和兒童的家庭日常生活監(jiān)控,病人的醫(yī)療監(jiān)控及輔助護(hù)理,浴室、學(xué)生寢室等私密性公共場所的安全監(jiān)控等[125-127].與已有的基于穿戴式設(shè)備的個(gè)體監(jiān)護(hù)技術(shù)相比,音頻監(jiān)控受到的限制較小,成本也降低很多[128].
對公共場所及私密場所進(jìn)行音頻監(jiān)控的技術(shù)框架相同,區(qū)別在于可能發(fā)生的異常聲音種類不同.異常聲音是指正常聲音比如開門聲、關(guān)門聲、電話鈴聲、腳步聲、談話聲、音樂聲、車輛行駛聲等之外的在特殊情況下才發(fā)出的聲音.文獻(xiàn)中研究較多的公共場合異常聲音種類通常有槍聲[129-132]、爆炸聲[133-134]、玻璃破碎聲[134]、亂扔垃圾聲[135]等,私密場合研究較多的異常聲音種類通常有摔門聲[131]、跑步聲[131,136]、玻璃破碎聲[131,133]、人的尖叫聲[131,133]、嬰兒或小孩的哭聲[133,137]、老人摔倒聲[136,138-139]、呼救聲[136]、漏水聲[140]等.注意這種劃分并不是絕對的,只是按照發(fā)生的可能性進(jìn)行的粗略分類,有時(shí)也會交叉.比如人的尖叫聲除了可能發(fā)生在家庭吵架場合,也會發(fā)生在廣場恐怖事件這樣比較少數(shù)的場合.音頻監(jiān)控系統(tǒng)主要基于軟硬件的系統(tǒng)集成.文獻(xiàn)[141]在智能家居領(lǐng)域發(fā)明了一種具有聲音監(jiān)聽功能的智能電視,智能電視和聲音監(jiān)聽模塊通過無線通信連接.當(dāng)聲音監(jiān)聽模塊監(jiān)聽到特定的聲音或者音量超限時(shí),智能電視會自動調(diào)成靜音.
在已有的音頻監(jiān)控文獻(xiàn)中,采集聲音數(shù)據(jù)通常使用麥克風(fēng)[136]或麥克風(fēng)陣列(Microphone array)[138].文獻(xiàn)[131]構(gòu)建了一個(gè)大約1000個(gè)聲音片段的音頻事件數(shù)據(jù)集和一個(gè)監(jiān)視系統(tǒng)的真實(shí)情況數(shù)據(jù)集.文獻(xiàn)[136]模擬了一個(gè)包含105個(gè)設(shè)計(jì)場景、21個(gè)音頻事件的音頻事件數(shù)據(jù)庫.
文獻(xiàn)[133]使用MFCC的第1維系數(shù)改進(jìn)聲音活動檢測算法,確定異常聲音的端點(diǎn).文獻(xiàn)[142]針對公共場所異常聲音的特點(diǎn),提出一種綜合短時(shí)優(yōu)化ZCR和短時(shí)對數(shù)能量的自適應(yīng)異常聲音端點(diǎn)檢測方法.文獻(xiàn)[134]通過WT分析信號的高頻特性,采用基于能量變化的算法檢測異常聲音片段.文獻(xiàn)[119]基于STE時(shí)間閾值進(jìn)行音頻事件端點(diǎn)檢測.文獻(xiàn)[120]則另辟蹊徑,首先用基于單類SVM的異常聲音檢測算法進(jìn)行粗分類,根據(jù)MFCC、STE、SC、短時(shí)平均ZCR等特征判斷每一幀聲音是否異常.當(dāng)窗長2s的滑動窗內(nèi)有連續(xù)多個(gè)幀出現(xiàn)異常時(shí),則判定這一段聲音為異常聲音.通過對各段聲音進(jìn)行中值濾波(Median filtering)平滑后得到音頻事件的分割,從而直接省去端點(diǎn)檢測的步驟.文獻(xiàn)[143]使用了小波降噪方法進(jìn)行信號提純.
音頻監(jiān)控使用的音頻特征包括STE[129,143]、ZCR[144]、短時(shí)平均ZCR[129]、SC[144]、滾降點(diǎn)(Roll-off point)[144]、MFCC[123,129,134,136-137,139,143-144]、ΔMFCC[134,136,143]、ΔΔMFCC[136]、Teager能量算子[133]、感知特征(Perceptual features)[135]、MPEG-7特征[145-146]等.考慮到異常聲信號具有非平穩(wěn)、突發(fā)性等特點(diǎn),文獻(xiàn)[120]將信號通過EEMD處理獲得不同層的IMF,對每一層的IMF提取MFCC等特征,并使用特征組合成最終稱為EEMD-MFCC的特征矢量,識別效果比MFCC有明顯提升.文獻(xiàn)[41]在提取音頻特征后不立即進(jìn)行分類,而是先送入概率潛在語義分析模型(Probabilistic Latent Semantic Analysis, PLSA),通過訓(xùn)練獲取聲音主題詞袋模型,降低音頻信號特征矩陣的維數(shù)[41].文獻(xiàn)[128]認(rèn)為特征融合很重要.文獻(xiàn)[131]研究了不同的幀大小對音頻特征提取的影響,結(jié)果表明不同的音頻幀大小會引起分類精度變化.整合多幀特征生成一個(gè)新的特征集,可以實(shí)現(xiàn)更好的性能.
音頻監(jiān)控使用的音頻事件匹配識別算法有模板匹配法[126]、DTW[129,137]、動態(tài)規(guī)劃(Dynamic Programming, DP)[139].使用過的統(tǒng)計(jì)分類器包括SVM[145]、KNN[41]、GMM[143-144]、HMM[123,133-134]、適合處理時(shí)間序列數(shù)據(jù)的脈沖神經(jīng)網(wǎng)絡(luò)(Pulsed Neural Networks, PulsedNN)[147]、層次結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)(Hierarchical Structure Neural Network, HSNN)[148]、條件隨機(jī)場(Conditional Random Field, CRF)[127]、基于模糊規(guī)則的單類分類器(Fuzzy rule-based one-class classifiers)[135]等.通常系統(tǒng)會根據(jù)音頻事件的種類數(shù)量訓(xùn)練相同數(shù)量的模型,如文獻(xiàn)[136]訓(xùn)練了與其音頻事件數(shù)據(jù)庫對應(yīng)的21個(gè)HMM.大多數(shù)異常聲音監(jiān)控系統(tǒng)采用直接識別法,只適用于少量異常聲音種類的檢測,當(dāng)檢測種類上升時(shí)效果變差[120].通過增加訓(xùn)練文件的數(shù)量和減少每個(gè)訓(xùn)練文件中樣本的數(shù)量,可以獲得更高的識別準(zhǔn)確率[6].機(jī)器學(xué)習(xí)并不是識別音頻事件的唯一辦法,文獻(xiàn)[140]研究了一種基于氣泡聲學(xué)物理模型的識別系統(tǒng),不需要訓(xùn)練.
CA在交通運(yùn)輸、倉儲業(yè)具有多個(gè)應(yīng)用.例如,CA可自動進(jìn)行車輛檢測、車型識別、車速判斷、收費(fèi)、交通事故認(rèn)定、剎車片材質(zhì)好壞識別、飛行數(shù)據(jù)分析等,對于水、陸、空智能交通都具有重要意義[149-151].
4.3.1 鐵路運(yùn)輸業(yè)
文獻(xiàn)[152]發(fā)明一種地鐵故障檢測裝置,用麥克風(fēng)檢測列車發(fā)出的聲信號并轉(zhuǎn)換為電信號.若電信號的幅值變量與基準(zhǔn)幅值變量相同,則繼續(xù)檢測;若不相同,則觸發(fā)報(bào)警模塊,記錄當(dāng)前時(shí)刻,并顯示列車故障點(diǎn)的位置.
4.3.2 道路運(yùn)輸業(yè)
4.3.2.1 車型及車距識別
車型自動識別廣泛應(yīng)用于收費(fèi)系統(tǒng)、交通數(shù)據(jù)統(tǒng)計(jì)等相關(guān)工作中.傳統(tǒng)方法是在公路上埋設(shè)電纜線及感應(yīng)線圈,通過攝像頭抓拍進(jìn)入視線的車輛照片進(jìn)行車型識別.此外,還有超聲波檢測法、微波檢測法、紅外線檢測法等.但對路段有破壞性,設(shè)備后期維護(hù)要求高,受雨霧等天氣狀況影響大,不適合沿道路大量鋪設(shè)[149].基于音頻信號的識別技術(shù)具有非接觸性、維護(hù)簡單、價(jià)格低等特點(diǎn),在很大程度上彌補(bǔ)傳統(tǒng)車輛檢測設(shè)備易損壞、破壞路面、受環(huán)境影響明顯、價(jià)格昂貴等不足,具有非常重要的現(xiàn)實(shí)意義[150].
早在1998年,文獻(xiàn)[153]就提出一種根據(jù)物體發(fā)出的聲音來對軍用車輛進(jìn)行分類的統(tǒng)計(jì)方法.文獻(xiàn)[149]基于車輛聲信號進(jìn)行車型識別.文獻(xiàn)[154]提出一種基于聲音特征的運(yùn)動車輛類型(Vehicle types)和距離的簡單分類算法,對行駛車輛的接近程度進(jìn)行識別,幫助不能聽到車輛從背后接近的聽障(Hearing impaired)人士降低戶外行動的危險(xiǎn).記錄車輛在不同環(huán)境條件和不同車速下的聲音以及對應(yīng)的車輛類型和距離作為訓(xùn)練數(shù)據(jù).文獻(xiàn)[155]的算法可以識別車輛類型.文獻(xiàn)[156]將車輛與人的距離分為接近(Approaching)、通過(Passing)和遠(yuǎn)離(Receding)3類,通過對道路行駛車輛在不同階段感知到的噪聲差異進(jìn)行識別.為了防止碰撞,文獻(xiàn)[157]研發(fā)了一種根據(jù)車輛輪胎發(fā)出的聲音來識別接近車輛(Approaching vehicle)的方案.
車型識別的CA技術(shù)框架基本一致,只是對應(yīng)的各種聲音來源及種類有所不同.文獻(xiàn)[158]選用了駐極體麥克風(fēng)和AD7606數(shù)據(jù)采集模塊,采集了東風(fēng)農(nóng)用三輪車和大眾Sagitar 1.4T轎車的通過噪聲.文獻(xiàn)[159]使用DARPA SensIT實(shí)驗(yàn)中的真實(shí)數(shù)據(jù),其中包含了履帶車和重型卡車的大量聲信號.文獻(xiàn)[157]使用測量車上的一對麥克風(fēng)來檢測接近的車輛.文獻(xiàn)[160]使用聲音傳感器,采集多條車道上行駛車輛的混疊聲信號.
行駛車輛的聲音可能會受到環(huán)境噪聲(Ambient noises)和人所在車輛發(fā)出聲音的影響.文獻(xiàn)[157]利用多對麥克風(fēng)的譜減技術(shù)(Spectral subtraction)來降低發(fā)動機(jī)、冷卻風(fēng)扇以及其他環(huán)境噪聲的影響.盲信號分離或盲源分離(Blind Source Separation, BSS)在未知源信號與混合系統(tǒng)參數(shù)的情況下,僅由傳感器搜集的觀測信號估計(jì)出源信號.文獻(xiàn)[160]通過盲源分離模型估計(jì)信號分量個(gè)數(shù)及瞬時(shí)幅度,將單個(gè)車輛信號從混合信號中分離出來.文獻(xiàn)[150]采用MP稀疏分解方法,用Gabor原子進(jìn)行信號的分解及重構(gòu),重構(gòu)后的信號能較好地反映原信號的特征.文獻(xiàn)[150]認(rèn)為發(fā)動機(jī)聲信號相對平穩(wěn),信號分解后頻域相對穩(wěn)定,采用單幀進(jìn)行識別可滿足實(shí)時(shí)性要求.文獻(xiàn)[161]采用200ms的較長時(shí)間幀來計(jì)算頻譜.
使用的音頻特征有自回歸(Autoregressive)[154]、STE[149]、ZCR[149]、基頻周期[149]、MFCC[161]、基于聽覺Gammatone濾波器的頻譜特征[162]、使用WPT提取的16維信號特征[159]等.文獻(xiàn)[160]利用HHT抽取信號分量的時(shí)域包絡(luò)線,并提取特征向量.文獻(xiàn)[155]使用零均值調(diào)整樣本的協(xié)方差矩陣的均值向量和最重要主成分特征向量,來共同表征其聲音特征.文獻(xiàn)[162]首先在多個(gè)時(shí)間幀上對Gammatone過濾的特征向量進(jìn)行組合,建立一個(gè)高維的時(shí)間譜表示(Spectro-Temporal Representation, STR).此外,由于運(yùn)動車輛的確切聲音特征是未知的,因此文獻(xiàn)[162]采用非線性Hebbian學(xué)習(xí)(Nonlinear Hebbian Learning, NHL)規(guī)則從T-F特征提取出具代表性的獨(dú)立特征并減少特征空間的維度.STR和NHL均能準(zhǔn)確提取原始輸入數(shù)據(jù)的關(guān)鍵特征.該模型在噪聲環(huán)境下的性能優(yōu)于同類模型.對于加性高斯白噪聲和一般有色噪聲,該模型具有良好的魯棒性.在SNR為0dB時(shí),它可以減少3%的錯(cuò)誤率,同時(shí)提高21%~34%的性能;在SNR為-6dB時(shí),其他模型已經(jīng)不能正常工作,而它也才只有7%~8%的錯(cuò)誤率.
使用的統(tǒng)計(jì)分類器有BPNN[150,154,160]、GMM[161]、HMM[161]、SVM[159]、基于STFT的貝葉斯子空間方法[161]等.在單節(jié)點(diǎn)識別結(jié)果上,文獻(xiàn)[159]提出基于能量的全局決策融合算法,對多個(gè)節(jié)點(diǎn)做出的決策進(jìn)行融合.文獻(xiàn)[161]研究了在相似工作條件下產(chǎn)生的各種車輛聲音的向量分布,使用一組典型的聲音樣本集合作為訓(xùn)練數(shù)據(jù)集.文獻(xiàn)[156]將各種聲音數(shù)據(jù)按層次分類,結(jié)果比沒有層次結(jié)構(gòu)的傳統(tǒng)水平分類方案要好.文獻(xiàn)[156]同時(shí)表明了當(dāng)前AI系統(tǒng)的識別能力,通常低于人類專家,但高于未受訓(xùn)練的普通人.
4.3.2.2 交通事故識別
在重大交通事故發(fā)生時(shí),車輛運(yùn)行狀態(tài)與正常行駛狀態(tài)相比發(fā)生了很大變化,伴隨有劇烈碰撞的聲音,而且與周圍的噪聲存在較大的差別.因此,可以通過聲音傳感器實(shí)時(shí)采集并分析車輛周圍的聲音,判別車輛的運(yùn)行情況,一旦有事故發(fā)生,可立即提取碰撞聲并識別,并及時(shí)向后臺救護(hù)系統(tǒng)發(fā)出報(bào)警信號[163].
聲音采集裝置成本低廉,體積小,安裝方便,可靠性強(qiáng),不易損壞,維護(hù)容易.聲音檢測系統(tǒng)的計(jì)算方法相對簡單,信號處理量小,既可實(shí)時(shí)處理又可遠(yuǎn)程傳輸,快速準(zhǔn)確,不易受雨雪天氣和交通條件的影響,可以全天候工作.在事故發(fā)生后,報(bào)警信號應(yīng)該將包括事故地理位置在內(nèi)的信息盡快地傳遞到指揮中心,可用無線網(wǎng)絡(luò)來傳輸數(shù)據(jù)[163].建立一個(gè)快速、高效的應(yīng)急救援系統(tǒng),能提高交通事故檢測的實(shí)時(shí)性和準(zhǔn)確度[164].
人耳對相同強(qiáng)度、不同頻率的聲音變化的敏感程度不同.文獻(xiàn)[165]利用此特點(diǎn),用基于人耳等響度曲線的A計(jì)權(quán)濾波器對聲信號進(jìn)行加權(quán),使聲信號映射到真實(shí)的人耳聽覺頻域,然后再進(jìn)行音頻事件檢測.文獻(xiàn)[164]采用單類SVM進(jìn)行異常點(diǎn)檢測.文獻(xiàn)[165]采用互信息(Mutual information)分析噪聲低頻域與高頻域的相關(guān)性,分別作為輸入和輸出向量,用RBFNN建模后估計(jì)高頻域噪聲,用譜減法降噪后獲取較純凈的聲信號.
在提取音頻特征方面,文獻(xiàn)[164]使用Haar-WT提取聲信號的頻域特征.文獻(xiàn)[166]以小波分解后不同頻帶的重構(gòu)信號能量作為特征向量.文獻(xiàn)[165]首先二值化目標(biāo)音頻事件的頻譜圖,定位要保留的頻帶,提取其中最主要的頻率成分.與全頻域的MFCC特征相比,能降低計(jì)算量,提高檢測速度,適用于行車環(huán)境下的實(shí)時(shí)音頻事件檢測.在類型識別方面,文獻(xiàn)[166]采用多個(gè)SVM構(gòu)成的交通事件分類器,對正常行駛、剎車、碰撞事件的聲信號進(jìn)行識別.
4.3.2.3 交通流量檢測
現(xiàn)有交通流量數(shù)據(jù)采集設(shè)備造價(jià)高,采集精度不夠,后期分析困難.文獻(xiàn)[167]提取車輛噪聲的時(shí)域特征STE、ZCR,檢測端點(diǎn)和特征跳變點(diǎn),進(jìn)行車型辨別和分類,統(tǒng)計(jì)出交通流量數(shù)據(jù).為保證音頻信息采集的有效性,數(shù)據(jù)采集設(shè)備安裝在車輛加速行駛路段或凸形豎曲線頂部附近.文獻(xiàn)[168]依據(jù)道路擁堵時(shí)機(jī)動車怠速聲音在環(huán)境中所占比例較高的原理,發(fā)明一種道路擁堵檢測方法.將一定時(shí)間內(nèi)采集到的道路聲音進(jìn)行FFT,在低頻區(qū)域(20~40Hz)內(nèi),擁堵與暢通兩種狀態(tài)下的頻域能量譜有明顯區(qū)別.擁堵時(shí)怠速頻率處將有明顯尖峰,將尖峰陡峭程度轉(zhuǎn)換成系數(shù)k,基于k值進(jìn)行道路狀況評判.文獻(xiàn)[169]基于聲信號判斷是否有汽車到來,尤其適用于車流量稀少、基礎(chǔ)設(shè)施比較差的區(qū)域以及智能公路的前期建設(shè)階段,同時(shí)對路燈進(jìn)行智能控制,環(huán)保節(jié)能.
4.3.2.4 道路質(zhì)量檢測
汽車行駛產(chǎn)生的道路噪聲與不同類型、不同磨損狀況的路面直接相關(guān).文獻(xiàn)[170]基于正常車輛行駛下獲得的輪胎聲音,使用ANN分類器,能夠正確預(yù)測3種路面類型及其磨損情況.該技術(shù)可用于創(chuàng)建數(shù)字地圖,自動識別對車輛行駛道路噪聲帶來強(qiáng)烈影響的路段,估計(jì)道路宏觀紋理.對于土木工程部門、道路基礎(chǔ)設(shè)施運(yùn)營商以及高級駕駛員輔助系統(tǒng)都有很大好處.文獻(xiàn)[171]采集聲信號,基于短時(shí)平均幅值對信號進(jìn)行端點(diǎn)檢測.以MFCC和基于HHT的希爾伯特邊際譜作為特征,結(jié)合BPNN實(shí)現(xiàn)基于聲振法的水泥混凝土路面脫空狀況檢測.
4.3.3 水上運(yùn)輸業(yè)
CA在江河海洋領(lǐng)域主要用于水聲目標(biāo)識別、船舶定位、安全監(jiān)控等.利用被動聲吶(Passive sonar),如安裝在海床上的單水聽器來檢測船舶和自主水下航行器(Autonomous underwater vehicles)的活動,是對海洋保護(hù)區(qū)和受限水域進(jìn)行遠(yuǎn)程監(jiān)測的一種有效方法.傳統(tǒng)方法利用水聲數(shù)據(jù)的倒譜分析來測量直接路徑到達(dá)和第一次多徑到達(dá)之間的時(shí)間延遲,從而估計(jì)聲源的實(shí)時(shí)范圍[172].水下聲道的環(huán)境不確定性常常是聲場(Acoustic field)預(yù)測誤差的主要來源[173].
近年來,基于AI測量船舶距離的方法開始發(fā)展起來.文獻(xiàn)[172]基于數(shù)據(jù)增強(qiáng)進(jìn)行模型訓(xùn)練.在不同SNR情況下,運(yùn)用倒譜數(shù)據(jù)的CNN能夠比傳統(tǒng)的被動聲吶測距方法更遠(yuǎn)距離地檢測出船只,并估計(jì)出船只所在的范圍.文獻(xiàn)[174]在圣巴巴拉海峽進(jìn)行深水(600m)船只距離估計(jì)實(shí)驗(yàn).將觀測船的采集數(shù)據(jù)作為前饋神經(jīng)網(wǎng)絡(luò)(Feed-forward Neural Network, FNN)和SVM分類器的訓(xùn)練和測試數(shù)據(jù).分類器表現(xiàn)良好,檢測范圍達(dá)到10km,遠(yuǎn)超傳統(tǒng)匹配場處理的約4km的檢測范圍.
CA技術(shù)同樣在水聲目標(biāo)識別領(lǐng)域得到應(yīng)用.文獻(xiàn)[175]在淺水環(huán)境中記錄了25個(gè)包括干擾的聲源信號.每個(gè)聲源使用單獨(dú)的類,基于子空間學(xué)習(xí)法(Subspace learning)和自組織特征映射(Self-Organizing Feature Maps, SOFM)進(jìn)行分類.文獻(xiàn)[176]采用基于核函數(shù)的SVM模型,在二類(Binary-class)和多類(Multi-class)分類的情況下,準(zhǔn)確率均超過線性分類器(Linear classifiers).文獻(xiàn)[177]使用水聲傳感器采集魚群攝食時(shí)的聲音,分析其與攝食量的關(guān)系,給出攝食時(shí)間、攝食量的估計(jì),對于漁業(yè)養(yǎng)殖有重要意義.使用機(jī)器學(xué)習(xí)方法需要注意過擬合問題.如文獻(xiàn)[175]中,測試時(shí)使用訓(xùn)練中出現(xiàn)的信號樣本,準(zhǔn)確率可以達(dá)到80%~90%;若使用來自相同聲源的全新記錄樣本,準(zhǔn)確率則下降為40%~50%.
4.3.4 航空運(yùn)輸業(yè)
4.3.4.1 航空飛行器識別
文獻(xiàn)[45]使用嵌入式麥克風(fēng)陣列采集一個(gè)四旋翼飛行器(Quadrotor)的聲信號進(jìn)行飛行事件識別.室外飛行環(huán)境很嘈雜,包括轉(zhuǎn)子(Rotors)、風(fēng)(Wind)和其他聲源產(chǎn)生的噪聲.對于單聲道音頻降噪使用魯棒主成分分析(Robust Principal Component Analysis, RPCA)方法,對于多通道音頻降噪使用幾何高階去相關(guān)的源分離方法(Geometric High-order Decorrelation based Source Separation, GHDSS).聲源盲分離提高了輸入聲音的SNR,然后對改善后的聲音基于堆疊降噪自動編碼機(jī)(Stacked Denoising Autoencoder, SDA)和CNN進(jìn)行聲源識別(Sound Source Identification, SSI).GHDSS和CNN的結(jié)合效果更好.文獻(xiàn)[180]同樣通過聲信號檢測旋翼飛行器,基于MFCC特征和DTW匹配,實(shí)現(xiàn)對于直徑范圍為40~60cm的旋翼飛行器的短距離檢測和預(yù)警.
4.3.4.2 航空飛行數(shù)據(jù)分析
黑匣子于1953年由澳大利亞的載維·沃倫博士發(fā)明,是飛機(jī)上的記錄儀器.一種是飛行數(shù)據(jù)記錄儀(Flight Data Recorder, FDR),記錄飛機(jī)的高度、速度、航向、爬升率、下降率、加速情況、耗油量、起落架放收、格林威治時(shí)間、系統(tǒng)工作狀況、發(fā)動機(jī)工作參數(shù)等飛行參數(shù).另一種是座艙話音記錄儀(Cockpit Voice Recorder, CVR),實(shí)際上就是一個(gè)無線電通話記錄器,分4條音軌分別記錄駕駛艙內(nèi)所有的聲音,包括飛行員與地面管制人員的通話,組員間的對話,機(jī)長、空中小姐對乘客的講話,威脅、爆炸、發(fā)動機(jī)聲音異常以及駕駛艙內(nèi)各種聲音如開關(guān)手柄的聲音、機(jī)組座位的移動聲、風(fēng)擋玻璃刮水器的馬達(dá)聲等.FDR可以向人們提供飛機(jī)失事瞬間和失事前一段時(shí)間里飛機(jī)的飛行狀況、機(jī)上設(shè)備的工作情況等,CVR能幫助人們根據(jù)機(jī)上人員的各種對話分析事故原因,以便對事故作出正確的結(jié)論[181-182].
我國在民航事故調(diào)查中仍然沿用傳統(tǒng)的人耳辨聽座艙聲音,自動化程度很低.有些聲音識別超出了人的生理功能極限,而且經(jīng)常受到各種噪聲掩蓋,影響駕駛艙話音記錄器作用的發(fā)揮.研發(fā)基于CA技術(shù)的駕駛艙話音記錄器聲音識別系統(tǒng)已迫在眉睫.文獻(xiàn)[182]對艙音中的微弱信號——開關(guān)手柄聲音特性進(jìn)行分析,驗(yàn)證其符合暫態(tài)噪聲脈沖模型.對信號進(jìn)行STFT得到頻譜,進(jìn)行WPT得到信號在不同頻帶的能量.以歸一化的頻譜幅值、頻譜幅值熵、歸一化的小波SE、小波SE熵作為開關(guān)手柄聲音的特征,分析其各自的適用范圍,使用SVM進(jìn)行識別.
4.3.5 管道運(yùn)輸業(yè)
在各種管道傳輸中,可能會發(fā)生因人為損壞或自然因素造成的泄漏事故.如輸水管道的漏水、油氣輸送管道的第三方破壞(Third Party Destroy, TPD)等.此外,在傳輸管道中頻繁使用的閥門也會出現(xiàn)泄漏現(xiàn)象.管道和閥門的泄露現(xiàn)象不易檢測.傳統(tǒng)的方式是人工監(jiān)聽,需要有豐富的經(jīng)驗(yàn),容易造成誤判.基于泄漏聲音的自動檢測是一類很有希望的方法.
早在1991年,文獻(xiàn)[183]就報(bào)導(dǎo)了日本電力中央研究所和東亞閥門公司根據(jù)聲音檢測閥門漏泄.文獻(xiàn)[184]研究基于FFT自相關(guān)算法并嵌入到DSP芯片的便攜式智能昕漏儀,能夠在復(fù)雜背景噪聲中檢測出漏水點(diǎn).文獻(xiàn)[185]采用小波降噪,快速有效地提取TPD信號,對其奇異點(diǎn)進(jìn)行定位,以小波分解SE和相關(guān)統(tǒng)計(jì)量作為特征輸入SVM進(jìn)行分類,能正確區(qū)分切割、挖掘、敲擊等典型的TPD信號,監(jiān)控的有效檢測距離達(dá)到1400m.文獻(xiàn)[186]基于LPCC特征,利用HMM識別損傷或泄漏信號.文獻(xiàn)[187]用聲音傳感器采集聲信號,提取MFCC特征輸入HMM識別異常聲音,及時(shí)發(fā)現(xiàn)閥門泄漏并報(bào)警.文獻(xiàn)[188]研究軟管隔膜活塞泵進(jìn)出口閥門聲音實(shí)時(shí)檢測系統(tǒng),該系統(tǒng)使用MFCC作為特征,利用HMM分類器識別故障.
管道內(nèi)檢測器用來檢測管道腐蝕、局部形變以及焊縫裂紋等缺陷.檢測器進(jìn)行檢測工作時(shí),容易在管壁的形變處、三通處和閥門處等位置發(fā)生卡堵事件.輕則影響管道正常運(yùn)輸,重則引發(fā)凝管事故、導(dǎo)致整條管道報(bào)廢.因此,研究地面管道內(nèi)檢測器追蹤定位技術(shù)具有重要意義.文獻(xiàn)[189]通過建立聲音在土壤中的傳播模型實(shí)現(xiàn)對卡堵位置的準(zhǔn)確定位,后續(xù)可用機(jī)器學(xué)習(xí)模型加以研究.
4.3.6 倉儲業(yè)
制煉廠中產(chǎn)生的聲音可以用來檢測在容器內(nèi)發(fā)生反應(yīng)的進(jìn)展,或檢測生產(chǎn)線內(nèi)的流體流動.聲音通過安裝在容器外部的傳感器來接收.該技術(shù)是非侵入性(Non-invasive)的,不需要對過程流體進(jìn)行采樣,避免了污染等潛在風(fēng)險(xiǎn)[190].
在農(nóng)業(yè)上,由于糧食儲藏后期技術(shù)不過關(guān),蟲害導(dǎo)致的玉米損失總量非常龐大.基于聲音的害蟲檢測技術(shù)逐漸成為研究熱點(diǎn)[191],已開始實(shí)倉多點(diǎn)應(yīng)用[192].文獻(xiàn)[193]研究玉米象、米象、雜擬谷盜等3種害蟲在玉米中活動的聲信號.首先進(jìn)行加漢寧(Hanning)窗,50階帶通濾波,小波降噪等預(yù)處理,計(jì)算STE、ZCR,在時(shí)域進(jìn)行聲信號端點(diǎn)檢測,然后提取能量峰值頻率,MFCC、ΔMFCC作為音頻特征.當(dāng)信號能量達(dá)到11dB左右時(shí)判斷可能有害蟲存在.采用兩種識別辦法: 一是將聲信號的第1,4,5,6能量峰值頻率輸入Probalistic NN進(jìn)行分類識別;二是將聲信號的MFCC、ΔMFCC,振動信號的LPC、ΔLPC輸入HMM進(jìn)行分類識別.前者比后者識別效果要好.文獻(xiàn)[194]在隔音環(huán)境下,采集谷蠹、米象和赤擬谷盜等3種儲糧害蟲的爬行聲信號,然后進(jìn)行頻域分析獲取其功率譜,提取特征向量,輸入BPNN進(jìn)行分類識別.
近些年,CA技術(shù)在制造業(yè)的數(shù)十個(gè)細(xì)分領(lǐng)域中開始逐步產(chǎn)生應(yīng)用.例如,基于聲信號的故障診斷技術(shù)被大量應(yīng)用在機(jī)械工程的各個(gè)領(lǐng)域,逐漸成為故障診斷領(lǐng)域的一個(gè)研究熱點(diǎn).對于很多設(shè)備如發(fā)動機(jī)、螺旋槳、揚(yáng)聲器等,故障發(fā)生在內(nèi)部,在視覺、觸覺、嗅覺等方面經(jīng)常沒有明顯變化.而產(chǎn)生的聲音作為特例卻通常具有明顯變化,可用于機(jī)械損傷檢測[195],成為獨(dú)特的優(yōu)勢.此外,傳統(tǒng)上采用的基于攝像機(jī)和傳感器的方法,也不能進(jìn)行早期的故障異常檢測[18,196].
4.4.1 鐵路、船舶、航空航天和其他運(yùn)輸設(shè)備制造業(yè)
轉(zhuǎn)轍機(jī)用于鐵路道岔的轉(zhuǎn)換和鎖閉,其結(jié)構(gòu)損傷會直接影響行車安全.在生產(chǎn)過程中,需要對高鐵轉(zhuǎn)轍機(jī)的重要零件全部進(jìn)行無損檢測.基于聲信號進(jìn)行結(jié)構(gòu)損傷檢測具有非接觸、高效等優(yōu)點(diǎn).文獻(xiàn)[197]基于核主分量分析提取聲信號特征,用SVM進(jìn)行結(jié)構(gòu)損傷分類識別.
水泥廠輸送帶托輥運(yùn)行工況惡劣,數(shù)量眾多,又要求連續(xù)運(yùn)轉(zhuǎn),并且在線檢修不便.要保證輸送機(jī)長期連續(xù)穩(wěn)定的運(yùn)行,對有故障托輥的快速發(fā)現(xiàn)和及時(shí)處理非常重要.為快速安全可靠地發(fā)現(xiàn)有故障隱患的托輥,需適時(shí)安排檢修,避免托輥帶病運(yùn)轉(zhuǎn)可能造成的更高的停機(jī)維修成本及產(chǎn)量損失,減少工人的工作強(qiáng)度[198].瑞典的SKF軸承公司發(fā)明了一種托輥聲音檢測儀,原理是對運(yùn)行中的托輥發(fā)出的聲音進(jìn)行辨別,從而判斷托輥是否正常,并對異常聲音發(fā)出報(bào)警信號.該裝置設(shè)有聲音遮蓋技術(shù),可以區(qū)分托輥良好運(yùn)行和帶故障運(yùn)行所發(fā)聲音的區(qū)別.即使在高噪聲環(huán)境下,亦能過濾出周邊部件的信號,準(zhǔn)確捕捉故障托輥信號.
4.4.2 通用設(shè)備制造業(yè)
4.4.2.1 發(fā)動機(jī)
發(fā)動機(jī)是飛機(jī)、船舶、各種行走機(jī)械的核心部件[199],有柴油機(jī)(Diesel engine)、汽油機(jī)(Gasoline engine)、內(nèi)燃機(jī)(Internal combustion engine)、燃?xì)鉁u輪發(fā)動機(jī)(Gas turbine engines)等幾種.發(fā)動機(jī)故障是發(fā)動機(jī)內(nèi)部發(fā)生的嚴(yán)重事故,傳統(tǒng)的發(fā)動機(jī)故障診斷高度依賴于工程師的技術(shù)能力,如文獻(xiàn)[200]根據(jù)發(fā)動機(jī)的高、中、低3個(gè)頻帶的頻譜特性對其進(jìn)行分析,通過分析汽車噪聲的強(qiáng)度可大致判斷出汽車發(fā)動機(jī)部件的故障.人工判斷具有很大的局限性,一些經(jīng)驗(yàn)豐富的技術(shù)人員也會有一些失敗率,造成時(shí)間和金錢的嚴(yán)重浪費(fèi).因此,急需一種自動化的故障診斷(Fault diagnosis)方法[201].系統(tǒng)既可直接用于自動診斷,提高系統(tǒng)可靠性,節(jié)約維護(hù)成本,也可作為經(jīng)驗(yàn)不足的技術(shù)人員的訓(xùn)練模塊.而且避免了拆分機(jī)器安裝振動傳感器的傳統(tǒng)診斷方式的麻煩[202].
發(fā)動機(jī)在正常工作時(shí),其振動的聲音及振動頻譜是有規(guī)律的.在發(fā)生各種故障時(shí),會發(fā)出各種異常響聲[203],頻譜會出現(xiàn)變異和失真.每一個(gè)發(fā)動機(jī)故障都有一個(gè)特定的可以區(qū)分的聲音相對應(yīng)[201,204],可用于進(jìn)行基于聲信號的故障診斷,此類研究早在1989年即已開始[205].常見的發(fā)動機(jī)故障有失速[204],正時(shí)鏈張緊器損壞[206],定時(shí)鏈條故障(Timing chain faults)[207],閥門調(diào)整(Valve-setting)[207-208],消聲器泄漏(Muffler leakage)[207],發(fā)動機(jī)啟動問題(Engine start problem)[208],驅(qū)動帶分析(Drive-belt analysis)[208],發(fā)動機(jī)軸瓦故障[209],漏氣[210],齒輪異常嚙合[210],連桿大瓦異響[210],斷缸故障[211],油底殼處異響[212]、前部異響[212]、氣門挺柱異響[212],發(fā)動機(jī)喘振[213],滑動主軸承磨損故障[214],箱體異響[215],右蓋異響[215],左蓋異響[215]等.
發(fā)動機(jī)聲信號的采集通常使用麥克風(fēng)/聲音傳感器[211,216-219],也有的系統(tǒng)使用智能手機(jī)[208].聲音采集具有非接觸式的特點(diǎn),如文獻(xiàn)[218]利用發(fā)動機(jī)缸蓋上方的聲壓信號對發(fā)動機(jī)進(jìn)行故障診斷.文獻(xiàn)[208]采用基于頻譜功率求和(Spectral power sum)與頻譜功率跳躍(Spectral power hop)兩種不同的聚類技術(shù)將音頻流分割.使用的T-F表示有CWT[220]、STFT[196,208,213,221]、WT[222]、HHT[209]、稀疏表示[223]等.
使用的聲信號降噪采用各種濾波,如SVD濾波、WT濾波、EMD濾波[224].理論描述表明,發(fā)動機(jī)噪聲產(chǎn)生機(jī)理與獨(dú)立成分分析(Independent Component Analysis, ICA)模型的原理相同.文獻(xiàn)[220]用ICA將發(fā)動機(jī)噪聲信號分解成多個(gè)獨(dú)立成分(Independent Components, IC).文獻(xiàn)[215]研究表明,小波閾值降噪效果較好,但是具有突變、不連續(xù)特性的發(fā)動機(jī)聲信號會產(chǎn)生偽Gibbs現(xiàn)象,進(jìn)一步改進(jìn)為基于平移不變小波的閾值降噪法.文獻(xiàn)[209]基于一種改進(jìn)的HHT進(jìn)行EMD分解,利用端點(diǎn)優(yōu)化對稱延拓和鏡像延拓聯(lián)合法抑制端點(diǎn)效應(yīng),同時(shí)采用相關(guān)性分析法去除EMD分解的虛假分量,用快速獨(dú)立成分分析(Fast ICA)去除噪聲.文獻(xiàn)[213]對低頻區(qū)域的聲信號使用db8小波的7層分解進(jìn)行降噪.文獻(xiàn)[225]利用Fast ICA盲源分離法對船舶柴油機(jī)的噪聲信號進(jìn)行分離.
初級的故障檢測可以只區(qū)分正常和異常[232],更高級的方法可識別具體的故障種類.故障識別可采用模板匹配的方法[216].文獻(xiàn)[201]收集和分析了不同類型汽車的聲音樣本,代表不同類型的故障,并建立了一個(gè)頻譜圖數(shù)據(jù)庫.將測試中的故障與數(shù)據(jù)庫中的故障進(jìn)行比較,匹配度最高的數(shù)據(jù)庫中的故障被認(rèn)為是檢測到的故障.使用的距離有灰色系統(tǒng)(Grey system)的關(guān)聯(lián)度量(Relational measure)[205]、馬氏距離(Mahalanobis distance)[205]、Kullback-Leiber距離[205].文獻(xiàn)[203]采用線性預(yù)測方法模擬發(fā)動機(jī)聲音時(shí)域特征與轉(zhuǎn)速(表征發(fā)動機(jī)狀態(tài))之間的關(guān)系.更多的方法是基于機(jī)器學(xué)習(xí)統(tǒng)計(jì)分類器,如SVM[224,231],HMM[228],高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model, GMM-UBM)[227],模糊邏輯推理(Fuzzy logic inference)系統(tǒng)[208],BPNN[196,208,213,217],概率神經(jīng)網(wǎng)絡(luò)(Probabilistic Neural Network, Probabilistic NN)[215],小波包與BPNN相結(jié)合的WNN[202].文獻(xiàn)[207]采用DTW進(jìn)行兩級故障檢測.第一階段將樣本粗分為健康和故障兩類,第二階段細(xì)分故障種類.若有其他相關(guān)證據(jù),可利用信息融合理論對發(fā)動機(jī)故障進(jìn)行綜合診斷[218].
4.4.2.2 金屬加工機(jī)械制造
刀具狀態(tài)是保證切削加工過程順利進(jìn)行的關(guān)鍵,迫切需要研制準(zhǔn)確、可靠、成本低廉的刀具磨損狀態(tài)監(jiān)控系統(tǒng).切削聲信號采集裝置成本低廉,結(jié)構(gòu)簡單,安放位置可調(diào)整.基于它的檢測技術(shù),信號直接來源于切削區(qū),靈敏度高,響應(yīng)快,非常適用于刀具磨損監(jiān)控.需要注意的是,切削聲信號頻率低,容易受到環(huán)境噪聲、機(jī)床噪聲等的干擾,獲取高SNR的刀具狀態(tài)聲音是監(jiān)控系統(tǒng)的關(guān)鍵[233].
早在1991年,文獻(xiàn)[234]已利用金屬切削過程中的聲音輻射檢測工具的狀態(tài),即鋒利、磨損、破損.以5kHz為邊界,低頻和高頻帶的頻譜成分作為特征,可以很容易地區(qū)分鋒利和磨損工具.對于破損的情況,鑒別需要更多的特征.
文獻(xiàn)[233]首先采集刀具在不同磨損狀態(tài)下的切削聲信號.通過時(shí)域統(tǒng)計(jì)分析和頻域功率譜分析,發(fā)現(xiàn)時(shí)域統(tǒng)計(jì)特征均方值與刀具磨損狀態(tài)具有明顯的對應(yīng)關(guān)系,與刀具磨損相關(guān)的特征頻率段為2~3kHz.還實(shí)驗(yàn)研究了不同主軸轉(zhuǎn)速、進(jìn)給速率對刀具磨損狀態(tài)的影響.基于小波分析,將聲信號分為8個(gè)不同的頻帶,以不同SE占信號總能量的百分比作為識別刀具磨損狀態(tài)的特征向量,用BPNN進(jìn)行狀態(tài)識別.
加工的主要目標(biāo)是產(chǎn)生高質(zhì)量的表面光潔度,但是只能在加工周期結(jié)束時(shí)才能進(jìn)行測量.文獻(xiàn)[235]在加工過程中對加工質(zhì)量進(jìn)行檢測,形成一種實(shí)時(shí)、低成本、準(zhǔn)確的檢測方法,能夠動態(tài)調(diào)整加工參數(shù),保持目標(biāo)表面的光潔度,并且調(diào)查了車削過程中發(fā)出的聲信號與表面光潔度的關(guān)系.AISI 52100淬火鋼的實(shí)驗(yàn)表明,這種相關(guān)性確實(shí)存在,從聲音中提取MFCC可以檢測出不同的表面粗糙度水平.
文獻(xiàn)[236]利用采煤機(jī)切割的聲信號進(jìn)行切割模式的識別.將工業(yè)麥克風(fēng)安裝在采煤機(jī)上,采集聲信號.利用多分辨率WPT分解原始聲音,提取每個(gè)節(jié)點(diǎn)的歸一化能量(Normalized energy)作為特征向量.結(jié)合果蠅和遺傳優(yōu)化算法(Fruitfly and Genetic Optimization Algorithm, FGOA),利用模糊C均值(Fuzzy C-Means, FCM)和混合優(yōu)化算法對信號進(jìn)行聚類.通過在基本果蠅優(yōu)化算法(Fruitfly Optimization Algorithm, FOA)中引入遺傳比例系數(shù),克服傳統(tǒng)FCM算法耗時(shí)且對初始質(zhì)心敏感的缺點(diǎn).
沖壓工具磨損會顯著降低其沖壓的產(chǎn)品的質(zhì)量,其狀態(tài)檢測為許多制造行業(yè)迫切需求.文獻(xiàn)[237]研究了發(fā)出的聲信號與鈑金沖壓件磨損狀態(tài)的關(guān)系.原始信號和提取信號的頻譜分析表明,磨損進(jìn)程與發(fā)出的聲音特征之間存在重要的定性關(guān)系.文獻(xiàn)[238]介紹了一種金剛石壓機(jī)頂錘檢測與防護(hù)裝置.運(yùn)用聲紋識別技術(shù),提取頂錘斷裂聲特征參數(shù),建立頂錘斷裂聲模板庫.再將金剛石壓機(jī)工作現(xiàn)場聲音特征參數(shù)與頂錘斷裂聲模板庫進(jìn)行比對,相符則切斷金剛石壓機(jī)工作電源,實(shí)現(xiàn)了對其余完好頂錘的保護(hù).
有經(jīng)驗(yàn)的焊接工人僅憑焊接電弧聲音的響度和音調(diào)特征就可以判斷焊縫質(zhì)量.文獻(xiàn)[239]基于焊接自動化系統(tǒng)采集焊接聲信號,可忽略噪聲的影響.根據(jù)鋁合金脈沖焊接聲信號的特點(diǎn),提取3164~4335Hz內(nèi)聲信號的短時(shí)幅值平均值、幅值標(biāo)準(zhǔn)差、能量和、對數(shù)能量平均值作為特征,通過SVM識別鋁合金脈沖熔透狀態(tài),用粒子群優(yōu)化算法對SVM模型的參數(shù)進(jìn)行優(yōu)化.
4.4.2.3 軸承、齒輪和傳動部件制造
旋轉(zhuǎn)機(jī)械(軸承、齒輪等)在整個(gè)機(jī)械領(lǐng)域中有著舉足輕重的地位,發(fā)生故障的概率又遠(yuǎn)遠(yuǎn)高于其他機(jī)械結(jié)構(gòu),因此對該類部件進(jìn)行狀態(tài)檢測與故障診斷就尤為重要[240].針對傳統(tǒng)的振動傳感器需要拆分機(jī)器、不易安裝的缺點(diǎn),可通過在整機(jī)狀態(tài)下檢測特定部位的噪聲來判定軸承與齒輪等是否異常[241].
滾動軸承是列車中極易損壞的部件,其故障會導(dǎo)致列車故障甚至脫軌.非接觸式的軌旁聲學(xué)檢測系統(tǒng)(Trackside Acoustic Detector System, TADS)采集并分析包含圓錐或球面軸承運(yùn)動信息的振動、聲音等信號[240,242-243].由美國Seryo公司設(shè)計(jì)的軸承檢測探傷器[244]除了用軌道旁的聲音傳感器收集滾動軸承發(fā)出的聲音,還包括紅外線探傷器.文獻(xiàn)[245]提出一種鐵路車輪自動化探傷裝置,研究所需探測的缺陷類型.通過傳聲器檢測發(fā)射到空氣中的聲音可用于發(fā)現(xiàn)輪輞或輻板的裂紋,而擦傷或輪輞破損則最好由安裝在鋼軌上的加速度計(jì)來探測.
文獻(xiàn)[240]提出兩種針對列車軸承信號的分離技術(shù).第一種通過多普勒畸變信號的偽T-F分布,來獲取不同聲源的時(shí)間中心和原始頻率等參數(shù),利用多普勒濾波器實(shí)現(xiàn)對不同聲源信號的逐一濾波分離;第二種基于T-F信號融合和多普勒匹配追蹤獲取相關(guān)參數(shù),再通過T-F濾波器組的設(shè)計(jì)運(yùn)用,得到各個(gè)聲源的單一信號.
使用的音頻特征有MFCC[242]、小波熵比值即峭熵比(Kurtosis Entropy Ratio, KER)[243]和EEMD[243].分類器有BPNN[242]、SVM[242].文獻(xiàn)[244]則采用類似單類識別的方法,識別從某一軸承中產(chǎn)生的任何所接收到的標(biāo)準(zhǔn)信號.一旦檢測出非標(biāo)準(zhǔn)頻率信號,將報(bào)警.能在因表面發(fā)熱導(dǎo)致紅外線探測器觸發(fā)前檢測出損壞的軸承.
4.4.2.4 包裝專用設(shè)備制造
文獻(xiàn)[246]公開了一種基于聲信號的瓶蓋密封性檢測方法.聲信號的產(chǎn)生由電磁激振裝置對瓶子封蓋激振產(chǎn)生,由麥克風(fēng)采集.文獻(xiàn)[247]基于聲信號實(shí)現(xiàn)啤酒瓶密封性快速檢測.瓶蓋受激發(fā)后產(chǎn)生受迫振動,其振動幅度和振動頻率與瓶蓋的密封性存在一定的關(guān)系.瓶內(nèi)壓力增高時(shí),若瓶蓋密封性好,其振動頻率就高,振幅就??;反之,若密封性差,振動頻率就比較低,振幅也比較大.
4.4.3 電氣機(jī)械和器材制造業(yè)
電機(jī)是用于驅(qū)動各種機(jī)械和工業(yè)設(shè)備、家用電器的最通用裝置.電機(jī)有很多種,如同步電機(jī)(Synchronous motors)[248]、直流電機(jī)(DC machine)[249]、感應(yīng)電機(jī)(Induction motor)[250].為保證其安全穩(wěn)定運(yùn)行,常常需要工作人員定期檢修、維護(hù).電機(jī)在發(fā)生故障時(shí),維護(hù)人員聽電機(jī)發(fā)出的聲音,以人工方式判斷故障的類型,耗費(fèi)大量人力,而且無法保證及時(shí)檢測到故障,急需自動化檢測系統(tǒng)[251].基于聲信號的聲紋識別系統(tǒng)將提取的音頻特征與某一類型的故障聯(lián)系起來[250],可以識別出電機(jī)異響[252]及各種類型的故障,如線圈破碎和定子線圈短路[253].
文獻(xiàn)[251]利用聲音傳感器在電機(jī)軸向位置采集電機(jī)的聲信號.文獻(xiàn)[254]結(jié)合EMD與ICA,通過EMD的自適應(yīng)分解能力,解決ICA中信號源數(shù)目的限制問題;同時(shí)利用ICA方法的盲源分離能力,避免EMD分解的模態(tài)混疊現(xiàn)象.通常需要對音頻信號進(jìn)行預(yù)加重、分幀、加窗等預(yù)處理[255].文獻(xiàn)[255]使用自適應(yīng)門限的音頻流端點(diǎn)檢測進(jìn)行分割.
使用的T-F表示有FFT[253]、WT及WPT[252,256-260].小波分析對信號的高頻部分分辨率差,小波包分解方法能夠?qū)π盘柛哳l部分進(jìn)行更加細(xì)化地分解并能更有效地檢測出發(fā)電機(jī)故障.因?yàn)槿硕鷮ο辔徊幻舾校恍枰獙Ψ茸V進(jìn)行分析[252].使用的音頻特征有LPC[249],LPCC[255],根據(jù)SVD得到的特征向量[252],MFCC[255,261],基于加權(quán)、差分的MFCC動態(tài)特征[255],故障信號與正常信號小波能量包的相對熵、各頻帶的綜合小波包能量相對熵[259].PCA被用來進(jìn)行特征維度壓縮[252].
使用的統(tǒng)計(jì)分類器有線性SVM[253]、KNN[248]、HMM[255,261]、BPNN[146,256,257,260].針對BPNN收斂速度慢的問題,文獻(xiàn)[260]提出了兩點(diǎn)改進(jìn): 利用區(qū)域映射代替點(diǎn)映射和動態(tài)改變學(xué)習(xí)速率.考慮到電機(jī)的故障率很低,很難收集到足夠多的各類故障樣本,且電機(jī)異音形成過程復(fù)雜,文獻(xiàn)[251]和[252]基于SVM進(jìn)行單類學(xué)習(xí)(Single class learning)實(shí)現(xiàn)異音電機(jī)檢測.以足夠數(shù)量的正常、無異音電機(jī)樣本為基礎(chǔ)建立一個(gè)判別電機(jī)聲音是否異常的判別函數(shù),不需要異音樣本,凡是檢測有不符合正常電機(jī)聲音特征的樣本一律判為有故障樣本.文獻(xiàn)[259]根據(jù)小波包能量相對熵首先確定電機(jī)是否有故障,之后通過比較大小判斷故障所處的頻帶位置,從而確定電機(jī)為何種故障.
電力系統(tǒng)中的許多設(shè)備在運(yùn)行或操作時(shí)會產(chǎn)生聲音,對應(yīng)于各種狀態(tài).高壓斷路器是電力系統(tǒng)不間斷供電的關(guān)鍵性保護(hù)裝置,斷路器合閘的聲信號可用于識別其運(yùn)行時(shí)的機(jī)械狀態(tài)[262].變壓器是變電站中的重要設(shè)備.變壓器在正常運(yùn)行時(shí),有較輕微、均勻的嗡嗡聲.如果突然出現(xiàn)異常的聲音,則表明發(fā)生故障.不同的聲音對應(yīng)于不同的故障[263].電力電纜發(fā)生故障時(shí),故障電弧會發(fā)出聲音[264],可用于故障定位.電力開關(guān)柜的內(nèi)部故障電弧在劇烈放電前的局部放電會產(chǎn)生電弧聲音,可用于故障電孤檢測與預(yù)警[265].航天繼電器中多余物的存在會導(dǎo)致其可靠性下降,不同的聲音對應(yīng)于不同的材質(zhì).
各種電力設(shè)備主要依靠人工進(jìn)行故障檢測,耗時(shí)耗力.電力設(shè)備在運(yùn)行時(shí)經(jīng)常是高電壓和強(qiáng)電磁場等復(fù)雜環(huán)境,不利于接觸式設(shè)備故障檢測方法.有經(jīng)驗(yàn)的技術(shù)人員可以直接憑借電氣設(shè)備工作時(shí)所發(fā)出的聲音來判斷設(shè)備是否發(fā)生異常,基于聲信號的故障診斷近年來逐漸發(fā)展起來.采集聲音數(shù)據(jù)的方法各不相同.文獻(xiàn)[264]在低壓電氣輸電線路導(dǎo)線絕緣層上設(shè)置聲音傳感器,文獻(xiàn)[266]采用麥克風(fēng)陣列,有效抑制周圍噪聲干擾并將波束對準(zhǔn)目標(biāo)信號.
聲音采集過程中經(jīng)常會混合干擾信號如人的說話聲,與電氣設(shè)備發(fā)出的聲音是統(tǒng)計(jì)獨(dú)立的[266].文獻(xiàn)[266]采用ICA來分離有用的電氣設(shè)備聲信號.文獻(xiàn)[262]利用改進(jìn)的勢函數(shù)法進(jìn)行聲源數(shù)估計(jì),通過EEMD得到多個(gè)IMF分量,重構(gòu)形成符合聚類聲源數(shù)的多維信號,利用擬牛頓法優(yōu)化快速ICA算法提取斷路器操作產(chǎn)生的聲信號.文獻(xiàn)[267]總結(jié)了常見的線性模型盲信號分離算法: 基于負(fù)熵的固定點(diǎn)算法,信息極大化的自然梯度算法,聯(lián)合近似對角化算法,并將這3種算法分別用于對電力設(shè)備作業(yè)現(xiàn)場多種混合聲源信號進(jìn)行分離.文獻(xiàn)[268]提出一種基于WPT分解信號、自適應(yīng)濾波估計(jì)噪聲與遺傳算法尋優(yōu)重構(gòu)相結(jié)合的聲信號增強(qiáng)算法.
文獻(xiàn)[262]根據(jù)包絡(luò)特征比對識別斷路器的狀態(tài).文獻(xiàn)[269]使用SVM實(shí)現(xiàn)對斷路器當(dāng)前狀態(tài)的識別.文獻(xiàn)[270]對航天繼電器中多余顆粒物碰撞噪聲的聲音脈沖包絡(luò)進(jìn)行分析,使用RBFNN將顆粒自動分為金屬、非金屬兩類.文獻(xiàn)[271]提取0~1000Hz內(nèi)的21個(gè)諧波作為特征,建立樣本庫,利用VQ的LBG算法訓(xùn)練得到變壓器和高抗設(shè)備的碼本,與未知聲音特征匹配后實(shí)現(xiàn)運(yùn)行狀態(tài)的識別.文獻(xiàn)[266]用MFCC作為聲信號特征,與專家故障診斷庫中各種各樣的故障信號進(jìn)行匹配,根據(jù)DTW判斷是否發(fā)生電氣設(shè)備故障.
4.4.4 紡織業(yè)
細(xì)紗斷頭的低成本自動檢測一直是紡紗企業(yè)急需解決的一個(gè)問題.文獻(xiàn)[272]利用定向麥克風(fēng)采集5個(gè)周期的鋼絲圈轉(zhuǎn)動產(chǎn)生的聲信號.正常紡紗時(shí)的聲信號都具有分布均勻的5個(gè)較高波峰,而發(fā)生紡紗斷頭時(shí)采集到的聲信號不具有該特點(diǎn).按照此標(biāo)準(zhǔn)即可判斷紗線是否發(fā)生斷頭.
4.4.5 黑色及有色金屬冶煉和壓延加工業(yè)
文獻(xiàn)[273]對金屬和非金屬粘接結(jié)構(gòu)施加微力,在頻域提取與粘接有關(guān)的聲信號的特征用于后續(xù)模式識別.文獻(xiàn)[274]撞擊非晶合金產(chǎn)品使其產(chǎn)生振動,并采集發(fā)出的聲信號.以聲信號衰減時(shí)間的長短作為特征,判斷產(chǎn)品的合格性,可以準(zhǔn)確地檢測出非晶合金產(chǎn)品內(nèi)部是否存在收孔或裂紋等缺陷.
文獻(xiàn)[275]采集氧化鋁熟料與滾筒窯撞擊所產(chǎn)生的聲音,通過分析頻譜、幅度等數(shù)據(jù)區(qū)別出熟料的3種狀態(tài): 正常、過燒、欠燒,進(jìn)行自動質(zhì)量檢測.文獻(xiàn)[276]采集成品熟料與滾筒窯撞擊所產(chǎn)生的聲音,經(jīng)濾波、譜分析等處理后,對燒結(jié)工序中的異常狀態(tài)進(jìn)行判斷并報(bào)警.
在鋁電解生產(chǎn)過程中,電解槽內(nèi)電解質(zhì)和錙液循環(huán)流動、界面波動、槽內(nèi)陽極氣體的排出、陽極效應(yīng)的出現(xiàn)都伴隨著相應(yīng)的特征聲音.檢測這些特征聲信號并分析,能夠判斷出鋁電解槽的運(yùn)行狀況[277].針對鋁錠鑄造是否脫模的故障檢測難題,文獻(xiàn)[278]嘗試?yán)描T模敲擊聲信號進(jìn)行診斷分析.首先基于改進(jìn)的小波包算法對敲擊聲音進(jìn)行降噪.進(jìn)行頻域分析后發(fā)現(xiàn),某次敲擊后如果鋁錠脫模,那么將與下一次敲擊聲音存在明顯的峰值頻率差.此現(xiàn)象可作為故障特征,進(jìn)行基于閾值的檢測.
角鋼是鐵塔加工的必備原料.若不同材質(zhì)的鋼材混用,將對鐵塔的強(qiáng)度、韌性、硬度產(chǎn)生很大影響.在鐵塔加工過程中,角鋼進(jìn)行沖孔時(shí)會發(fā)出一定的聲音,不同材質(zhì)的角鋼加工時(shí)會發(fā)出不同的聲音.Q235和Q345是兩種標(biāo)準(zhǔn)角鋼材質(zhì).文獻(xiàn)[279]利用傳感器采集并提取單個(gè)沖孔周期的聲信號,基于MFCC和DTW計(jì)算待測模板與Q235和Q345兩種標(biāo)準(zhǔn)模板之間的距離,距離小者判定為該種角鋼材質(zhì).文獻(xiàn)[280]分析Q235和Q345兩種材質(zhì)角鋼聲信號的頻譜特征,計(jì)算在特定高頻頻帶與低頻頻帶的能量比值,找到能區(qū)別兩種材質(zhì)的能量比取值范圍作為特征.
4.4.6 非金屬礦物制品業(yè)
熱障涂層(Thermal Barrier Coatings, TBC)是一層陶瓷涂層,沉積在耐高溫金屬或超合金的表面,對基底材料起到隔熱作用,使得用其制成的器件(如發(fā)動機(jī)渦輪葉片)能在高溫下運(yùn)行.TBC有4種典型的失效模式: 表面裂紋、滑動界面裂紋、開口界面裂紋、底層變形.文獻(xiàn)[281]以WPT特征頻帶的小波系數(shù)為特征,BPNN為分類器,基于聲信號進(jìn)行TBC失效檢測.文獻(xiàn)[282]提取沖擊聲的T-F域特征及聽覺感知特征,通過模式識別研究基于沖擊聲的聲源材料自動識別.
4.4.7 汽車制造業(yè)
汽車的NVH(Noise, Vibmtion, Harshness)表示噪聲、振動與舒適性.汽車噪聲主要來自發(fā)動機(jī),是影響汽車乘坐舒適性的重要因素.對發(fā)動機(jī)、車輛傳動系等進(jìn)行聲品質(zhì)分析及控制的研究具有重要意義.聲品質(zhì)的改善目標(biāo)是獲得容易被人接受的、不令人厭煩的聲音[283-284].
文獻(xiàn)[285]針對C級車,在一汽技術(shù)中心的半消聲室內(nèi)采集4個(gè)車型、5個(gè)勻速工況下由發(fā)動機(jī)引起的車內(nèi)噪聲,用等級評分法對聲音樣本的煩躁度打分,計(jì)算出聲音樣本的7個(gè)客觀心理聲學(xué)參數(shù),對主觀評價(jià)值和客觀參數(shù)進(jìn)行相關(guān)分析.與主觀評價(jià)值相關(guān)性較大的心理聲學(xué)參數(shù)是響度、尖銳度、粗糙度.文獻(xiàn)[284]使用EEMD獲得的IMF的熵作為特征,比心理聲學(xué)參量效果更佳.
以心理聲學(xué)參數(shù)作為聲品質(zhì)預(yù)測模型的輸入,主觀評價(jià)值作為聲品質(zhì)預(yù)測模型的輸出,建立聲品質(zhì)煩躁度的預(yù)測模型[283].文獻(xiàn)[285]訓(xùn)練確定BPNN的結(jié)構(gòu),包括輸入、輸出層神經(jīng)元個(gè)數(shù)、隱含層數(shù)、隱含層神經(jīng)元個(gè)數(shù)和傳遞函數(shù).用遺傳算法(GA)對BPNN的權(quán)值和閾值進(jìn)行編碼,采用選擇、交叉和變異等操作尋求全局最優(yōu)解,將遺傳輸出結(jié)果作為BPNN的初始權(quán)值和閾值,得到聲品質(zhì)煩躁度的GA-BPNN預(yù)測模型.文獻(xiàn)[284]以Morlet小波基函數(shù)作為隱含層節(jié)點(diǎn)的傳遞函數(shù)構(gòu)建WNN,同時(shí)運(yùn)用GA優(yōu)化WNN的層間權(quán)值和層內(nèi)閾值,構(gòu)造GA-WNN模型用于傳動系聲品質(zhì)預(yù)測.
文獻(xiàn)[283]研究結(jié)果表明,響度是影響人們對車輛排氣噪聲主觀感受的最主要因素,和滿意度呈負(fù)相關(guān).使用多元線性回歸(Multiple Linear Regression, MLR)與BPNN理論分別建立了柴油發(fā)動機(jī)噪聲聲品質(zhì)預(yù)測模型,實(shí)驗(yàn)表明BPNN模型預(yù)測值與實(shí)測值更接近,能夠更好地反映客觀參數(shù)和主觀滿意度間的非線性關(guān)系.文獻(xiàn)[285]表明,在網(wǎng)絡(luò)訓(xùn)練誤差目標(biāo)相同的情況下,GA-BPNN預(yù)測模型比BPNN預(yù)測模型的收斂速度提高了5倍.由于BPNN預(yù)測模型初始權(quán)值和閾值的隨機(jī)性,導(dǎo)致相同樣本每次的預(yù)測結(jié)果都存在較大差異.而GA-BPNN預(yù)測模型采用遺傳算法對BPNN的初始權(quán)值和閾值進(jìn)行優(yōu)化,保證了網(wǎng)絡(luò)的穩(wěn)定性,對聲音樣本聲品質(zhì)預(yù)測結(jié)果有較高的一致性.文獻(xiàn)[284]研究表明GA-WNN網(wǎng)絡(luò)較GA-BPNN網(wǎng)絡(luò)能更準(zhǔn)確、有效地對傳動系聲品質(zhì)進(jìn)行預(yù)測.
汽車內(nèi)部安靜并不是好汽車的唯一目標(biāo),不同的汽車要有對其合適的聲音.文獻(xiàn)[286]研究發(fā)動機(jī)聲音和客戶偏好之間的關(guān)系,對汽車聲音進(jìn)行主觀評價(jià).研究發(fā)現(xiàn),加速度和恒定速度下的聲音感知明顯不同,不同的車主群體有不同的感知.
4.4.8 農(nóng)副食品加工業(yè)
在雞蛋、鴨蛋等的加工過程中,從生產(chǎn)線上分選出破損蛋是一道重要工序.國內(nèi)主要依靠工人在燈光下觀察是否有裂紋,或轉(zhuǎn)動互碰時(shí)聽蛋殼發(fā)出的聲音等方法來識別和剔除破損雞蛋.這種方法效率低下,精度差,勞動強(qiáng)度大,成本高.研究自動化的禽蛋破損檢測方法意義重大[287].經(jīng)驗(yàn)表明,好蛋的蛋殼發(fā)出的聲音清脆,而破損蛋的蛋殼發(fā)出的聲音沙啞、沉悶[287],這使得基于聲音音色進(jìn)行蛋類質(zhì)量判別成為可能.
文獻(xiàn)[288]以雞蛋赤道部位的4個(gè)點(diǎn)(1,2,3,4)作為敲擊位置,采集雞蛋的聲信號.文獻(xiàn)[287]對鴨蛋自動連續(xù)敲擊,采集鴨蛋的聲信號.在實(shí)際環(huán)境中,還需要音頻分離或降噪技術(shù).文獻(xiàn)[289]根據(jù)海蘭褐蛋雞聲音與風(fēng)機(jī)噪聲的PSD在1000~1500Hz頻率范圍內(nèi)存在的差異,從風(fēng)機(jī)噪聲環(huán)境中分離提取蛋雞聲音.文獻(xiàn)[290]用自制的橡膠棒分別敲擊雞蛋中間、中間偏大頭一點(diǎn)、中間偏小頭一點(diǎn)等3個(gè)位置,低通濾波消除噪聲干擾,每次采樣128點(diǎn)數(shù)據(jù).
已用的音頻特征各不相同,文獻(xiàn)[288]使用雞蛋最大、最小2個(gè)特征頻率(fmax,fmin)的差值Δf(=fmax-fmin),文獻(xiàn)[291]使用敲擊聲信號的衰竭時(shí)間、最小FF、4點(diǎn)最大頻率差,文獻(xiàn)[292]使用共振峰對應(yīng)的模擬量頻率值、功率譜面積、高頻帶額外峰功率譜幅值和第32點(diǎn)前后頻帶功率譜面積的比值.除了常規(guī)的好、壞兩種分類,文獻(xiàn)[291]進(jìn)一步將雞蛋分類為正常蛋、破損蛋、鋼殼蛋、尖嘴蛋等4種.已用的識別方法有的基于規(guī)則,如文獻(xiàn)[288]以1000Hz作為裂紋雞蛋的識別閾值.有的基于機(jī)器學(xué)習(xí)模式識別,如Bayes判別[287,292]、基于最大隸屬度原則的模糊識別[290-291]、ANN[293]等.
4.4.9 機(jī)器人制造
機(jī)器人需要對周圍環(huán)境的聲音具有聽覺感知能力.AED在技術(shù)角度也屬于CA,但專用于機(jī)器人的各種應(yīng)用場景[294].如文獻(xiàn)[295]面向消費(fèi)者的服務(wù)消費(fèi)機(jī)器人,在室內(nèi)環(huán)境中識別日常音頻事件.文獻(xiàn)[296]面向?yàn)?zāi)難響應(yīng)的特殊作業(yè)機(jī)器人,識別噪聲環(huán)境中的某些音頻事件,并執(zhí)行給定的操作.文獻(xiàn)[297]面向閥廳智能巡檢的工業(yè)機(jī)器人,對設(shè)備進(jìn)行智能檢測和狀態(tài)識別.
文獻(xiàn)[295]將機(jī)器人聽覺的整體技術(shù)框架分為分割連續(xù)音頻流、用穩(wěn)定的聽覺圖像(Stabilized Auditory Image, SAI)對聲音進(jìn)行T-F表示、提取特征、分類識別等步驟.使用的音頻特征有PSD[294],MFCC[294],對數(shù)尺度頻譜圖的視覺顯著性[294],小波分解的第五層細(xì)節(jié)信號的質(zhì)心、方差、能量和熵[297],從Gammatone對數(shù)頻譜圖中提取的多頻帶LBP特征,提高對噪聲的魯棒性,更好地捕捉頻譜圖的紋理信息[298].使用的機(jī)器學(xué)習(xí)模型有SVM[294]、BPNN[297]、深度學(xué)習(xí)中的受限玻爾茲曼機(jī)(Restricted Boltzmann Machine, RBM)[296].基于人與機(jī)器人的交互,建立了一個(gè)新的音頻事件分類數(shù)據(jù)庫,即NTUSEC數(shù)據(jù)庫[298].
4.5.1 農(nóng)業(yè)
在現(xiàn)代綠色農(nóng)業(yè)中,噴灑農(nóng)藥需首先判斷農(nóng)作物上的昆蟲是否是害蟲.害蟲活動的聲音經(jīng)常具有明顯特點(diǎn),例如文獻(xiàn)[299]使用麥克風(fēng)在隔音箱內(nèi)錄制黃粉蟲成蟲的爬行和咬食活動的聲音,發(fā)現(xiàn)咬食活動聲音脈沖信號的時(shí)間帶有明顯規(guī)律性,時(shí)間間隔約為0.68s.咬食活動聲音頻率的主峰值在70~93Hz,低于爬行活動的140~180Hz.文獻(xiàn)[300]結(jié)合聲信號分離和聲音活動端點(diǎn)檢測,基于頻譜圖模板進(jìn)行害蟲的匹配識別.在確定存在害蟲后,為避免噴灑農(nóng)藥量過多或不足,需根據(jù)病蟲害的實(shí)際情況和分布種類混藥進(jìn)行變量式噴霧.文獻(xiàn)[301]首先識別混雜在復(fù)雜背景音下的不同病蟲害的聲音,用DNN自動學(xué)習(xí)特征并分類,并根據(jù)識別的病蟲害種類及分布情況進(jìn)行自動在線混藥.
文獻(xiàn)[302]將聽診器改裝成一種裝置,用以在檢疫檢驗(yàn)中探測在水果和谷粒中昆蟲嚼食的聲音.先是在實(shí)驗(yàn)室進(jìn)行實(shí)驗(yàn),從柚子、枇杷、木瓜中迅速而準(zhǔn)確地將實(shí)蠅檢測出來.僅一條剛剛孵化出一天的幼蟲也能從柚子中檢測出來.后來發(fā)現(xiàn)谷蠹和麥蛾也能從玉米、水稻和小麥的谷粒中檢測出來.
小麥?zhǔn)亲钪匾霓r(nóng)作物之一,其硬度是評價(jià)小麥品質(zhì)的重要指標(biāo),需建立自動、客觀、準(zhǔn)確的檢測技術(shù).文獻(xiàn)[303]采集單粒小麥籽粒下落碰撞產(chǎn)生的聲信號,進(jìn)行譜估計(jì)和WT,提取時(shí)域和頻域的16個(gè)特征,采用回歸分析(Regression analysis)和ANN建立小麥聲音特性與千粒重和硬度之間的數(shù)學(xué)模型,以達(dá)到預(yù)測小麥品質(zhì)的目的.文獻(xiàn)[304]自制小麥自動進(jìn)料器,使小麥逐粒、自然地下落擊靶,采用聲音傳感器接收小麥擊靶發(fā)出的聲信號.經(jīng)調(diào)理、放大、A/D轉(zhuǎn)換及預(yù)處理后,在時(shí)域提取ZCR、波形指標(biāo)、脈沖因子等特征,在頻域提取基于FFT和DCT的特征,利用線性回歸(Linear Regression, LR)、BPNN建立特征參數(shù)和對應(yīng)的小麥硬度指數(shù)之間的預(yù)測模型.文獻(xiàn)[305]進(jìn)一步在不同采樣頻率、不同下落高度情況下,在時(shí)域和FFT、DCT、WT等頻域分別提取特征.研究表明,無論是時(shí)域還是頻域,在采樣頻率為200kHz、下落高度為40cm時(shí),聲音特征與小麥硬度指數(shù)相關(guān)性較好,最后運(yùn)用LR分析和BPNN建立了小麥硬度基于聲音的預(yù)測模型.
榴蓮是東南亞的一種綠色尖刺水果.因?yàn)閮r(jià)格昂貴,又很難從外觀上判斷榴蓮的成熟度,迫切需要開發(fā)一種在不進(jìn)行切割或破壞條件下的自動識別榴蓮成熟度的方法,這對果農(nóng)、消費(fèi)者和零售商都很重要.文獻(xiàn)[306]提取信號的頻譜特征,用HMM模型識別榴蓮是否已成熟,并確定成熟的程度.當(dāng)敲擊次數(shù)從1次增加到5次時(shí)(每次不超過80ms),識別準(zhǔn)確率會隨之增加.文獻(xiàn)[307]提取聲音特征后使用N-gram模型識別榴蓮是否成熟,利用多數(shù)投票從N-best列表中找到成熟度.
同樣的道理,為滿足采收前后對西瓜成熟度的無損檢測的需求,文獻(xiàn)[308]實(shí)現(xiàn)了在田間環(huán)境下通過聲音自動檢測西瓜成熟度的方法.使用STE和ZCR判斷擊打信號的起止點(diǎn),完整提取每次敲擊西瓜的聲音片段,濾波消除干擾噪聲.不同成熟度的西瓜敲擊聲音對應(yīng)不同的功率譜峰值頻率范圍,作為西瓜成熟度檢測的規(guī)則.
4.5.2 林業(yè)
我國的森林盜伐現(xiàn)象猖獗.文獻(xiàn)[309]專門設(shè)計(jì)實(shí)現(xiàn)了一種基于聲音識別的森林盜伐檢測傳感器.文獻(xiàn)[310]通過對聲信號的頻譜特征分析、相似度值及SNR計(jì)算,檢測是否存在鏈鋸伐木行為.
蛀干害蟲是一類危害嚴(yán)重的森林害蟲.因其生活隱蔽,林木受害表現(xiàn)滯后,使得檢測和防治極其困難.基于聲音識別的害蟲檢測技術(shù)具有無損、快速、準(zhǔn)確等優(yōu)勢,潛力巨大.文獻(xiàn)[311]研究紅棕象甲蟲、亞洲長角草甲蟲、天牛甲蟲幼蟲等3種木蛀蟲的生物聲學(xué)(Bioacoustics)規(guī)律.發(fā)現(xiàn)通過咬音和摩擦音可以有效地進(jìn)行物種識別.
文獻(xiàn)[312]用高靈敏度錄音機(jī)采集雙條杉天牛害蟲的活動聲信號.采用ANN和濾波器消噪,提取較為純凈的雙條杉天牛幼蟲活動聲音.發(fā)現(xiàn)其幼蟲活動聲音脈沖數(shù)量隨害蟲密度增加而增加,呈線性關(guān)系,且取食聲信號能量大于爬行聲信號能量.
文獻(xiàn)[313]在野外環(huán)境下,距離50cm內(nèi),采集云杉大墨天牛、光肩星天牛和臭椿溝眶象3種蛀干害蟲的幼蟲在活動、取食時(shí)產(chǎn)生的聲信號.受風(fēng)聲和汽車噪聲影響較大,但是與鳥鳴和蟲鳴噪聲在T-F域有顯著差別,可相對容易地分離.研究發(fā)現(xiàn)不同種類幼蟲產(chǎn)生的聲信號在T-F域特征上均有明顯差異,但與數(shù)量無明顯關(guān)系.幼蟲聲音脈沖個(gè)數(shù)與幼蟲數(shù)量正相關(guān),可利用脈沖個(gè)數(shù)估計(jì)幼蟲數(shù)量.
4.5.3 畜牧業(yè)
在養(yǎng)殖業(yè)中,準(zhǔn)確高效地檢測畜禽信息,有助于提高養(yǎng)殖及加工效率,及時(shí)發(fā)現(xiàn)生病或異常個(gè)體,減少經(jīng)濟(jì)損失.人工觀察方式主觀性強(qiáng)且精度低,嵌入式檢測手段又會造成動物應(yīng)激反應(yīng),發(fā)展智能自動檢測手段是目前的研究熱點(diǎn)[314].禽畜的聲音直接反應(yīng)了它們的各種狀況,可用于狀態(tài)監(jiān)測.例如,針對豬的大規(guī)模養(yǎng)殖中頻發(fā)的呼吸道疾病問題,可通過檢測咳嗽狀況對豬的健康狀況進(jìn)行預(yù)警[315].
對采集的豬的聲音,首先進(jìn)行加窗分幀[316]等預(yù)處理.音頻流分割需要端點(diǎn)檢測[315].文獻(xiàn)[317]通過ZCR和STE進(jìn)行端點(diǎn)檢測,文獻(xiàn)[318]基于雙門限進(jìn)行端點(diǎn)檢測.之后進(jìn)行降噪處理,如譜減法[315]、小波閾值法[318].已用的音頻特征有MFCC[315,317-318]、ΔMFCC[318].文獻(xiàn)[316]和[318]分別定義了豬在8種行為狀態(tài)下的聲音.常用的識別匹配及分類算法有VQ[319]、HMM[315-316,318]、SVM[316-317]、Adaboost[316]等.
4.6.1 水利管理業(yè)
錢塘江潮涌高且迅猛,傷人事故頻發(fā).為提高潮涌實(shí)時(shí)檢測與預(yù)報(bào)水平,文獻(xiàn)[320]提出一種基于音頻能量幅值技術(shù)的潮涌識別方法.通過采集沿江各危險(xiǎn)點(diǎn)潮涌來臨前后的聲音,經(jīng)濾波后進(jìn)行FFT幅頻特性分析,提取潮涌音頻能量幅值特征值,自動識別并進(jìn)行潮涌實(shí)時(shí)檢測與預(yù)報(bào).
為最大限度開發(fā)利用空中水資源,減輕干旱、冰雹等造成的損失,利用高炮、火箭實(shí)施人工影響天氣作業(yè)是解決水資源緊缺的有效途徑.文獻(xiàn)[321]實(shí)現(xiàn)了一種基于炮彈聲音采集、識別、處理的高炮作業(yè)用彈量統(tǒng)計(jì)系統(tǒng).
4.6.2 生態(tài)保護(hù)和環(huán)境治理業(yè)
動物發(fā)出的各種聲音具有不同的聲學(xué)特點(diǎn),作為交流的手段.例如,沙蝦虎魚發(fā)出的聲音由一系列脈沖組成,以每秒23~29次的速度重復(fù).單脈沖的頻譜為20~500Hz,峰值在100Hz左右.絕對聲壓水平在1~3cm范圍內(nèi)為118~138dB[322].雄性石首魚集體的聲音甚至可以掩蓋捕魚船的引擎噪聲[323].大熊貓“唔”的叫聲是警告性行為,“唔”音的長短和強(qiáng)弱反映大熊貓的情緒及警告程度.若警告無效,“唔”音加強(qiáng)和變急,進(jìn)一步轉(zhuǎn)變成發(fā)怒的叫聲“汪”、“呢”和“哞”,下一步即可能發(fā)生打斗行為[324].
生態(tài)環(huán)境中的聲音在自動物種識別(Species recognition)與保護(hù),野生動物及瀕危鳥類監(jiān)控,森林聲學(xué)和健康檢測,以及對相關(guān)環(huán)境、進(jìn)化、生物多樣性、氣候變化、個(gè)體交流等的理解分析上都有重要應(yīng)用[325-334].文獻(xiàn)中根據(jù)聲音研究分析過的動物已有很多種,如海豹[335],海豚[336],大象[337],魚類[322-323,338-339],蛙類[340],鳥類[341-348],昆蟲[349-353]等.
文獻(xiàn)[342]在鳥類背上綁定麥克風(fēng)采集聲音.除了真實(shí)錄制的數(shù)據(jù),還可以采用合成聲音數(shù)據(jù)[354].在真實(shí)場景中,存在風(fēng)或其他動物的叫聲等背景噪聲干擾[341],需要來抑制噪聲[327].文獻(xiàn)[355]采用ICA進(jìn)行野外動物聲音的聲源分離.文獻(xiàn)[353]和[333]分別使用Adobe Adition和Gold Wave軟件對錄制的聲音文件進(jìn)行人工降噪.文獻(xiàn)[325]將早期的短時(shí)譜估計(jì)算法與一種基于雙向路徑搜索的噪聲功率譜動態(tài)估計(jì)算法相結(jié)合,提出一種適用于高度非平穩(wěn)噪聲環(huán)境下的音頻增強(qiáng)算法.文獻(xiàn)[356]使用改進(jìn)的多頻帶譜減法進(jìn)行降噪.文獻(xiàn)[332]研究了基于DWT的聲音降噪方法.傳統(tǒng)的噪聲估計(jì)需要假設(shè)背景噪聲是平穩(wěn)的,不能適應(yīng)實(shí)際的非平穩(wěn)環(huán)境噪聲.文獻(xiàn)[347]將一種基于雙向路徑搜索的動態(tài)噪聲功率譜估計(jì)算法與經(jīng)典的短時(shí)譜聲音增強(qiáng)技術(shù)相結(jié)合,進(jìn)行非平穩(wěn)環(huán)境噪聲下的聲音增強(qiáng).此外,傳感器節(jié)點(diǎn)的能量消耗也是實(shí)際系統(tǒng)的一個(gè)問題[345].
進(jìn)行動物識別需要將連續(xù)音頻流分割為有意義的單元.文獻(xiàn)[356]和[325]采用基于STE的門限進(jìn)行端點(diǎn)檢測.文獻(xiàn)[329]通過聚類在聲音記錄中檢測4種音頻事件,即哨聲(Whistles)、點(diǎn)擊(Clicks)、含糊音(Slurs)和塊(Blocks).文獻(xiàn)[329]對通過WT后的中、低頻聲信號進(jìn)行端點(diǎn)檢測,不但可以去除高斯噪聲,而且可以去除高頻脈沖噪聲對系統(tǒng)的影響.文獻(xiàn)[347]通過比較每個(gè)2維T-F矩陣點(diǎn)的幅度譜來定位每個(gè)鳥叫音節(jié)(Syllable)在整個(gè)T-F圖中的起始位置,實(shí)現(xiàn)連續(xù)鳥叫聲音的音節(jié)分割.文獻(xiàn)[348]將遙感領(lǐng)域使用的圖像分割技術(shù)引入頻譜圖進(jìn)行鳥叫聲分割.
頻譜圖是最常用的T-F表示,有時(shí)需要形態(tài)學(xué)濾波(Morphological filtering)等預(yù)處理[343].文獻(xiàn)[339]為克服特征提取時(shí)間長、數(shù)量多等問題,采用稀疏表示.文獻(xiàn)[357]從神經(jīng)機(jī)制方面研究了聽覺的特征.使用的音頻特征有LPC[328,358]、MFCC[328,351,353,358-359]、頻譜圖特征(Spectrogram feature)[340]、音色特征[360]、基于特征學(xué)習(xí)自動提取的特征[342,359]、基于頻帶的倒譜(Sub-Band based Cepstral, SBC)[361].此外,文獻(xiàn)[341]從頻譜圖提取特征.文獻(xiàn)[335]采用海豹叫聲的持續(xù)時(shí)間作為特征反映海豹之間的個(gè)體差異.文獻(xiàn)[334]使用MP算法提取有效信號的T-F特征.動物叫聲經(jīng)常在T-F圖上表現(xiàn)出不同的紋理特征.文獻(xiàn)[325]用和差統(tǒng)計(jì)法進(jìn)行T-F紋理特征提取,在4種不同位置關(guān)系下計(jì)算5個(gè)二次統(tǒng)計(jì)特征,得到一個(gè)20維的T-F紋理特征向量.文獻(xiàn)[347]使用圖像處理中的灰度共生矩陣紋理分析法,提取T-F圖4個(gè)方向上的5種紋理特征.文獻(xiàn)[362]使用A-DCTNet(Adaptive DCTNet)提取鳥叫的聲音特征作為分類器的輸入.A-DCTNet與CQT類似,其濾波器組的中心頻率以幾何間距排列,能比MFCC等特征更好地捕獲對人類聽覺敏感的低頻聲音信息.文獻(xiàn)[344]在研究鳴禽的過程中,發(fā)現(xiàn)除了傳統(tǒng)的絕對音高(Absolute Pitch, AP)信息,頻譜形狀等音色類特征也可以用于鳴禽的叫聲.文獻(xiàn)[345]首先基于Sigmoid函數(shù)進(jìn)行音調(diào)區(qū)域探測(Tonal Region Detection, TRD),然后采用基于分位數(shù)的倒譜歸一化(Quantile-based cepstral normalization)方法提取Gammatone-Teager能量倒譜系數(shù)(Gammatone-Teager Energy Cepstral Coefficients, GTECC),形成最終的TRD-GTECC特征.文獻(xiàn)[356]對頻譜圖進(jìn)行Radon變換和WT提取特征.文獻(xiàn)[332]針對不同頻帶的重要程度,提出了基于WT和MFCC的小波Mel倒譜系數(shù)WT-MFCC.文獻(xiàn)[346]為克服MFCC對噪聲的敏感性,提取更符合人耳聽覺特性的Gammatone濾波器倒譜系數(shù)(GFCC)及小波系數(shù),組合后作為特征向量.文獻(xiàn)[339]基于稀疏表示利用正交匹配追蹤法(Orthogonal Matching Pursuit, OMP)提取與水聲信號最為匹配的少數(shù)原子作為特征.
對于待識別的聲音種類,文獻(xiàn)[329]首先為這些目標(biāo)構(gòu)建模板,之后用DTW等進(jìn)行匹配[341],這適用于數(shù)據(jù)有限的情況.文獻(xiàn)[363]基于鳥聲在T-F平面高度結(jié)構(gòu)化的特點(diǎn),利用閾值方法對鳥類聲音進(jìn)行幀級的二元決策,并融合得到最終結(jié)果.文獻(xiàn)[360]基于頻譜-時(shí)間激發(fā)模式(Spectro-Temporal Excitation Patterns, STEP)進(jìn)行聽覺距離匹配.更多的方法采用機(jī)器學(xué)習(xí)分類器,如HMM[328,341,343,345],GMM[333,343],RF[325,347],KNN[358],RNN[362],ANN[352],DNN[345],SVM[328,334,339,356],Probalistic NN[351,353],PLCA[342],遷移學(xué)習(xí)[359],CNN[359,364-365],基于內(nèi)核的極限學(xué)習(xí)機(jī)(Kernel-based Extreme Learning Machine, KELM)[326]等.分類模型的設(shè)計(jì)及調(diào)試需考慮實(shí)際應(yīng)用場景.例如,文獻(xiàn)[366]對每種鳥類的鳴叫聲和鳴唱聲建立雙重GMM模型,并討論不同階數(shù)對GMM模型的影響.使用多個(gè)模型時(shí),可使用后期融合(Late-fusion)方法將模型融合起來[364].文獻(xiàn)[349]采用Probalistic NN和GMM的分?jǐn)?shù)級融合(Score-level fusion),提出一種針對昆蟲層次結(jié)構(gòu)(如亞目、科、亞科、屬和種)的高效的分層(Hierarchic)分類方案.
機(jī)器學(xué)習(xí)的方法需要較多的標(biāo)注數(shù)據(jù).例如文獻(xiàn)[340]的數(shù)據(jù)集包括來自美國的48個(gè)無尾目類動物物種的736個(gè)叫聲數(shù)據(jù),文獻(xiàn)[367]使用數(shù)千個(gè)未處理的鳥類現(xiàn)場錄音.數(shù)據(jù)量不足時(shí)可使用數(shù)據(jù)增強(qiáng)方法增加訓(xùn)練數(shù)據(jù)[364].為充分利用大量無標(biāo)簽的動物聲音(如鳥叫),文獻(xiàn)[324]使用基于稀疏實(shí)例的主動學(xué)習(xí)(Sparse-Instance based Active Learning, SI-AL)和基于最小置信度的主動學(xué)習(xí)(Least-Confidence-Score-based Active Learning, LCS-AL)方法,有效地減少專家標(biāo)注.
以色列科學(xué)家發(fā)現(xiàn)一種檢測水污染的新方法——聽水生植物發(fā)出的聲音.用一束激光照射浮在水面的藻類植物,根據(jù)藻類反射的聲波,分析出水中的污染物類型以及水受污染的程度.激光能刺激藻類吸收熱量完成光合作用,在這一過程中,一部分熱量會被反射到水中,形成聲波.健康狀況不同的藻類的光合作用能力不同,反射出的熱量形成的聲波強(qiáng)度也不一樣.
4.7.1 土木工程建筑業(yè)
地下電纜經(jīng)常遭到手持電鎬、電錘、切割機(jī)、機(jī)械破碎錘、液壓沖擊錘、挖掘機(jī)等工程機(jī)械的破壞[368-369],影響供電系統(tǒng)穩(wěn)定性.電纜防破壞成為電力部門所面臨的一個(gè)重大技術(shù)難題,急需研發(fā)基于聲音的地下電纜防外力破壞方法,識別挖掘設(shè)備的聲音,進(jìn)行預(yù)警判斷,對事發(fā)地定位.
文獻(xiàn)[368]對聲信號采集、預(yù)加重、分幀、加窗預(yù)處理后,使用LPCC及提出的單邊自相關(guān)線性預(yù)測系數(shù)倒譜系數(shù)(One-Sided Autocorrelation LPCC, OSA-LPCC)作為特征,用SVM進(jìn)行分類,OSA-LPCC的抗噪聲性能優(yōu)于LPCC.文獻(xiàn)[369]采用8通道的麥克風(fēng)十字陣列,在夜晚環(huán)境下對4種挖掘設(shè)備在不同距離作業(yè)下采集聲信號,建立聲音特征庫.使用MFCC、ΔMFCC、ΔΔMFCC、頻譜動態(tài)特征,輸入BPNN、KNN和極限學(xué)習(xí)機(jī)(Extreme Learning Machine, ELM)進(jìn)行設(shè)備識別.文獻(xiàn)[370]使用STE比值SFER(Short-term Frames Energy Ratio)、短時(shí)T-F譜幅值比(Short-term Spectrum Amplitude Ratio, SSAR)、短時(shí)T-F譜幅值比占比(Short-term Spectrum Amplitude Ratio Rate, SSARR)、沖擊脈沖寬度(Width of Pulse, WoP)、沖擊脈沖間隔(Interval of Pulse, IoP)等統(tǒng)計(jì)特征識別,受距離變化影響較小,性能穩(wěn)定,比LPCC、MFCC等經(jīng)典特征泛化能力更好.
4.7.2 房屋建筑業(yè)
文獻(xiàn)[371]通過單點(diǎn)單次敲擊抹灰墻采集聲信號,通過MFCC特征和DTW對抹灰墻黏結(jié)缺陷進(jìn)行識別.文獻(xiàn)[372]通過燒磚的敲擊聲音判斷燒磚內(nèi)部是否存在缺陷,并進(jìn)一步區(qū)分缺陷類別.采用無限沖擊響應(yīng)(Infinite Impulse Response, IIR)濾波器進(jìn)行降噪,采用近似熵方法判斷敲擊聲音端點(diǎn).以頻譜峰值點(diǎn)之間的關(guān)系作為特征,用PCA方法進(jìn)行故障檢測.老房子的木質(zhì)結(jié)構(gòu)和家具中可能存有木蛀蟲,是物體腐朽的主要原因.文獻(xiàn)[373]基于木蛀蟲的活動聲音檢測其是否存在.因?yàn)橛紫x發(fā)出的聲音相對較低,背景噪聲會大大降低檢測的準(zhǔn)確性.文獻(xiàn)[374]采集建筑物內(nèi)部金屬斷裂的聲音進(jìn)行分析,識別可能出現(xiàn)在建筑物內(nèi)部的裂縫,避免倒塌等災(zāi)難性后果的發(fā)生.
4.8.1 采礦業(yè)
為監(jiān)測鉆井過程中的井壁坍塌、井底巖爆等井下工況信息,文獻(xiàn)[375]采集返出巖屑在排砂管中運(yùn)輸所產(chǎn)生的聲信號.根據(jù)STE確定聲音段的起止點(diǎn),利用NN算法去噪,DTW識別巖屑的大小,計(jì)算巖屑流量,進(jìn)而判斷井下工況.
4.8.2 日常生活
CA技術(shù)在日常生活中也有許多應(yīng)用.烹飪過程中會產(chǎn)生特定的聲音,可用于進(jìn)行烹飪過程的檢測和控制.文獻(xiàn)[376]基于聲信號識別水沸騰的狀態(tài).文獻(xiàn)[377]發(fā)明另一種基于聲信號的裝置,檢測電磁爐水沸騰狀態(tài),而且還能自動關(guān)機(jī).文獻(xiàn)[378]發(fā)明一種風(fēng)扇異音檢測系統(tǒng).文獻(xiàn)[379]發(fā)明的一種智能吸油煙機(jī)能對廚房的各種環(huán)境聲音進(jìn)行分析檢測,判斷該聲音是否是烹飪過程發(fā)出的聲音.進(jìn)而判斷該烹飪聲音所對應(yīng)的油煙量級別,設(shè)置對應(yīng)的吸油煙機(jī)的啟動或關(guān)閉或調(diào)節(jié)風(fēng)機(jī)轉(zhuǎn)速,實(shí)現(xiàn)對吸油煙機(jī)的智能控制.文獻(xiàn)[380]發(fā)明一種帶有保健檢測的手表,通過翻身聲響檢測人的睡眠質(zhì)量.文獻(xiàn)[381]使用耳墊聲音傳感器采集咀嚼食物的聲信號,基于模式識別技術(shù)實(shí)時(shí)獲取咀嚼周期和食物類型,預(yù)測固體食物的食量,進(jìn)行飲食指導(dǎo).文獻(xiàn)[382]分別使用動圈式麥克風(fēng)(Dynamic microphone)和電容式麥克風(fēng)(Condenser microphone)采集在有償自動回收機(jī)(Reverse Vending Machines, RVM)中進(jìn)入廢物的聲音,基于SVM和HMM對廢物的種類和大小進(jìn)行分類,如自由落體、氣動撞擊、液體沖擊.文獻(xiàn)[383]基于PCA處理后的聲音的幀能量,根據(jù)方差最小原則判斷同型號待測打印紙的柔軟度,分為5級.文獻(xiàn)[384]發(fā)明一種日用陶瓷裂紋檢測裝置.通過敲擊碗坯發(fā)出聲音,聲音傳感器捕獲信號后判斷是否有裂紋.文獻(xiàn)[385]中的地震聲響測定儀基于FFT模型快速識別不同聲音的地震脈沖,預(yù)測將要發(fā)生危險(xiǎn)的地帶.
4.8.3 身份識別
腳步聲是人最主要的行為特征之一.正常情況下每個(gè)人走路的腳步聲是不一樣的,蘊(yùn)含著性格、年齡、性別等多方面信息,具有可靠性和唯一性.腳步聲識別在家庭監(jiān)控、安全防盜、軍事偵察等領(lǐng)域具有重要意義.常規(guī)算法采用MFCC特征,GMM分類器識別.由于同一人穿不同的鞋,在不同的地板上走路時(shí)腳步聲會有差異,這類對不同發(fā)聲機(jī)制較為敏感的方法具有很大的約束性和限制性,魯棒性不足.
文獻(xiàn)[386]采用雙門限比較端點(diǎn)檢測法分割腳步聲,維納濾波降噪.提出一種新的特征,即腳步聲的持續(xù)時(shí)間與腳步聲的間隔時(shí)間,使用KNN分類識別.對于同一個(gè)人在不同發(fā)聲機(jī)制下的腳步聲識別具有良好的魯棒性和適用性.文獻(xiàn)[387]用譜減法對頻譜圖降噪.在訓(xùn)練過程中,計(jì)算在安靜環(huán)境下采集的每個(gè)訓(xùn)練樣本的對數(shù)能量,形成2維頻譜圖.應(yīng)用數(shù)字圖像中的關(guān)鍵點(diǎn)檢測與表征技術(shù)在2維頻譜圖中檢測關(guān)鍵點(diǎn),形成每個(gè)關(guān)鍵點(diǎn)的局部頻譜特征.在識別過程中,利用基于最小錯(cuò)誤率的貝葉斯決策(Bayesian decision)理論對待識別樣本進(jìn)行分類.
手寫聲音(Hand writing sound)是真實(shí)環(huán)境中存在的一種噪聲,其信息不僅可以用來識別文字如數(shù)字字符,還可以進(jìn)行書寫者身份識別(Writer recognition).文獻(xiàn)[388]記錄受試者用圓珠筆在紙上寫字時(shí)的聲音.采用MFCC、ΔMFCC、ΔΔMFCC作為特征,HMM作為分類器模型,進(jìn)行書寫者身份識別.
4.8.4 軍事
CA在軍事上也有許多重要應(yīng)用.下邊僅舉幾例.
4.8.4.1 目標(biāo)識別
現(xiàn)代化的智能偵察與作戰(zhàn)方式需要準(zhǔn)確感知到自身周圍是否出現(xiàn)機(jī)動目標(biāo),并判別它們的類別和數(shù)量,以配合目標(biāo)定位、跟蹤和攻擊等功能.文獻(xiàn)[389]設(shè)計(jì)實(shí)現(xiàn)一個(gè)車輛聲音識別系統(tǒng).提取STE、ZCR、諧波集、SC、LPC、MFCC和小波能量等音頻特征,用遺傳算法對備選特征庫進(jìn)行優(yōu)化產(chǎn)生最終的特征子集,對兩類目標(biāo)車輛進(jìn)行分類.文獻(xiàn)[390]基于聲信號對戰(zhàn)場上的車輛進(jìn)行分類識別,集成諧波集、MFCC、小波能量等3種特征,并用PCA進(jìn)行降維融合處理.
被動聲音目標(biāo)識別也稱為被動式聲雷達(dá)(Passive acoustic radar).與傳統(tǒng)雷達(dá)探測技術(shù)相比,有抗干擾、低功耗、不易被發(fā)現(xiàn)等優(yōu)點(diǎn),可以彌補(bǔ)雷達(dá)低空探測存在盲區(qū)的不足.聲音傳感器實(shí)時(shí)接收目標(biāo)的聲音信息,與典型的聲信號(如坦克、輪式車輛、直升機(jī)等)通過模式匹配進(jìn)行自動識別.文獻(xiàn)[391]基于MFCC和DTW對低空四旋翼飛行器的聲信號進(jìn)行聲紋識別.文獻(xiàn)[392]提出在戰(zhàn)場上對同時(shí)多低空目標(biāo)進(jìn)行分類的方法.采用ICA將混合信號分為若干個(gè)聲源并去除噪聲.提取MFCC作為特征,使用K-means聚類后產(chǎn)生訓(xùn)練和識別的特征向量(Eigenvector),輸入模擬聲信號時(shí)域變化的HMM進(jìn)行分類.
文獻(xiàn)[393]基于無線聲音傳感器網(wǎng)絡(luò)(Wireless Sound Sensor Networks, WSSN)搜集數(shù)據(jù),結(jié)合MFCC和DTW實(shí)現(xiàn)一個(gè)海上無人值守偵察系統(tǒng),對進(jìn)入偵察區(qū)域的目標(biāo)進(jìn)行外形輪廓和聲音的識別.由于海上船只、海面飛行物、海鳥以及海洋背景聲音的復(fù)雜性,只能對進(jìn)入偵察海域的聲音進(jìn)行初步感知.
在復(fù)雜的電磁環(huán)境中,對雷達(dá)輻射源音頻信號進(jìn)行人工識別耗時(shí)長、易于誤判和錯(cuò)判.文獻(xiàn)[394]結(jié)合MFCC和DTW實(shí)現(xiàn)基于聲紋技術(shù)的雷達(dá)輻射源音頻自動識別.文獻(xiàn)[395]利用戰(zhàn)術(shù)無人機(jī)上的聲音傳感器探測和定位地面間接火力源(如迫擊炮和火炮),需先對發(fā)動機(jī)噪聲和空氣流動噪聲進(jìn)行降噪處理.
4.8.4.2 其他應(yīng)用
槍聲分析在現(xiàn)實(shí)中有著很多應(yīng)用.槍聲信號的聲音特征顯示出強(qiáng)烈的空間依賴性,文獻(xiàn)[396]使用空間信息和一種基于它的決策融合規(guī)則來處理多聲道聲音武器分類.文獻(xiàn)[397]在自行火炮實(shí)車測試中,利用瞬態(tài)過程中的聲信號對齒輪箱進(jìn)行故障診斷,避免了常規(guī)振動測試方法無法實(shí)現(xiàn)非接觸、不解體、無損在線檢測的弊端,采用倒譜分析克服FFT不能分析非穩(wěn)態(tài)信號的不足.文獻(xiàn)[398]基于振動信號和聲信號用于火炮發(fā)射現(xiàn)場對發(fā)射次數(shù)的計(jì)數(shù),解決了火炮發(fā)射人工計(jì)數(shù)準(zhǔn)確性差的問題.文獻(xiàn)[399]采用Probabilistic NN在火炮音頻特征和火炮零部件(凸輪軸)硬度之間進(jìn)行非線性映射,實(shí)現(xiàn)零部件的硬度分類.
本文全面總結(jié)了基于一般音頻/環(huán)境聲的計(jì)算機(jī)聽覺技術(shù)涉及的相關(guān)聲學(xué)基礎(chǔ)、概念與原理、典型技術(shù)框架、已有的應(yīng)用領(lǐng)域.與語音信息處理、音樂信息檢索(MIR)、自然語言處理(Natural Language Processing, NLP)、計(jì)算機(jī)視覺(Computer Vision, CV)等相關(guān)領(lǐng)域相比,該學(xué)科在國內(nèi)外發(fā)展都比較緩慢.
影響CA發(fā)展的幾個(gè)原因包括: (1) 環(huán)境聲音具有非平穩(wěn)、強(qiáng)噪聲、弱信號、多聲源混合等特點(diǎn).一個(gè)實(shí)際系統(tǒng)必須經(jīng)過音頻分割、聲源分離或增強(qiáng)/去噪后,才能進(jìn)行后續(xù)的內(nèi)容分析理解.音頻特征經(jīng)常需要根據(jù)具體應(yīng)用場景下聲音的特點(diǎn)進(jìn)行專門設(shè)計(jì),直接套用語音信息處理或MIR中的特征則效果較差.(2) 各種音頻數(shù)據(jù)都源自特定場合和物體,難以全面搜集和標(biāo)注.文獻(xiàn)中使用最多的兩個(gè)公共數(shù)據(jù)庫是DCASE和RWCP,但是這兩個(gè)數(shù)據(jù)庫主要面向日常生活場景中的一些典型聲音種類.對于其他絕大多數(shù)CA應(yīng)用領(lǐng)域,不僅數(shù)據(jù)不公開,而且數(shù)據(jù)規(guī)模小,種類不全甚至完全不同,嚴(yán)重影響了算法的研究及比較.(3) 基于一般音頻/環(huán)境聲的CA幾乎都是交叉學(xué)科,除了日常生活場景,絕大多數(shù)應(yīng)用需要了解相關(guān)各領(lǐng)域的專業(yè)知識和經(jīng)驗(yàn).(4) 作為新興學(xué)科,還存在社會發(fā)展水平、科研環(huán)境、科技評價(jià)、人員儲備等各種非技術(shù)類原因阻礙著CA技術(shù)的發(fā)展.
聲音信號具有豐富的信息量,在很多視覺、觸覺、嗅覺不合適的場合下,具有獨(dú)特的優(yōu)勢.聲音信號通常被認(rèn)為與振動信號具有較大的相關(guān)性,但聲音信號具有非接觸性,避免了振動信號采集數(shù)據(jù)的困難.基于一般音頻/環(huán)境聲的CA技術(shù)屬于AI在音頻領(lǐng)域的分支,直接面向社會經(jīng)濟(jì)生活的各個(gè)方面,在醫(yī)療衛(wèi)生,安全保護(hù),交通運(yùn)輸、倉儲,制造業(yè),農(nóng)、林、牧、漁業(yè),水利、環(huán)境和公共設(shè)施管理業(yè),建筑業(yè),采礦業(yè),日常生活,身份識別,軍事等數(shù)十個(gè)領(lǐng)域具有眾多應(yīng)用,是一門非常實(shí)用的技術(shù).目前該領(lǐng)域在國內(nèi)外已開始起步發(fā)展,但在許多研究和應(yīng)用領(lǐng)域仍接近于空白,具有無限廣闊的發(fā)展前景.