黃楠欣 楊盈昀
面向智慧家居的音頻事件識(shí)別及應(yīng)用
黃楠欣 楊盈昀
(中國(guó)傳媒大學(xué) 信息與通信工程學(xué)院,北京 100024)
音頻事件識(shí)別在人工智能中有重要的應(yīng)用,例如智慧家居系統(tǒng)中的安全監(jiān)護(hù)。音頻監(jiān)控相對(duì)視頻監(jiān)控有不受光線、遮擋物等因素影響優(yōu)勢(shì),但開放環(huán)境中的音頻事件復(fù)雜、相互混疊且只有較少的事件能提供有用的信息。音頻場(chǎng)景分析是一件困難的工作。傳統(tǒng)單一種類的音頻特征很難提高音頻事件的識(shí)別準(zhǔn)確率,在此基礎(chǔ)上,提取音頻事件的時(shí)域、頻域和灰度紋理圖像特征進(jìn)行組合及實(shí)驗(yàn)方法研究。實(shí)驗(yàn)數(shù)據(jù)采用自創(chuàng)建的音頻數(shù)據(jù)庫(kù),實(shí)驗(yàn)結(jié)果顯示組合特征相對(duì)傳統(tǒng)的單一特征的平均識(shí)別率提高了18%。
音頻事件識(shí)別;音頻場(chǎng)景分析;智慧家居
近幾年,音頻場(chǎng)景和事件識(shí)別引起了廣泛科研工作者的關(guān)注[1]。機(jī)器識(shí)別環(huán)境聲音的應(yīng)用已經(jīng)深入到人們的日常生活,例如安全監(jiān)控、生物音頻分析和環(huán)境保護(hù)等[2-4]。最近十年,隨著IP網(wǎng)絡(luò)技術(shù)的發(fā)展和網(wǎng)絡(luò)芯片的微型化,幾乎可以將世界上任何物體連接到互聯(lián)網(wǎng)上,從而實(shí)現(xiàn)新的服務(wù)和創(chuàng)造價(jià)值。從而產(chǎn)生了著名的“the Internet of things (IoT)”,與眾不同的新興行業(yè)出現(xiàn),例如智慧城市、智慧交通、智慧家居和智慧穿戴等[5-6],其中音頻事件識(shí)別在這些新興行業(yè)中占有一席之地。音頻事件識(shí)別在智慧家居系統(tǒng)中有非常重要的應(yīng)用,例如針對(duì)獨(dú)居老人的安全監(jiān)護(hù)。在我國(guó),很快將進(jìn)入老齡化的高峰期。隨著社會(huì)老齡化日益加劇,獨(dú)居老人也在持續(xù)增長(zhǎng),解決獨(dú)居老人的養(yǎng)老問題是社區(qū)重要的工作。智慧家庭中的音頻監(jiān)控在針對(duì)獨(dú)居老人上有非常廣的應(yīng)用前景。音頻場(chǎng)景分析,即通過音頻場(chǎng)景和異常音頻事件的識(shí)別來分析獨(dú)居老人的安全和行為,例如識(shí)別盥洗室的跌倒、客廳中的痛哭、起居室里的呼吸困難等音頻事件。
音頻事件不同于語音,語音有準(zhǔn)平穩(wěn)性的特點(diǎn),而音頻事件之間的特性相差大,例如有短時(shí)的碰撞聲音或尖脈沖聲音,也有長(zhǎng)時(shí)間的持續(xù)聲音。音頻場(chǎng)景是由多種音頻事件相互混疊而成,采用傳統(tǒng)單一特征識(shí)別不同類型的音頻事件是非常困難的。本文采用組合特征(特征+特征)方法來識(shí)別異常音頻事件。通常,區(qū)分性好的音頻特征可以去除原始信號(hào)中的冗余信息,實(shí)現(xiàn)數(shù)據(jù)降維。對(duì)音頻信號(hào)的波形進(jìn)行一系列的轉(zhuǎn)換后提取不同的時(shí)域、頻域、灰度紋理圖像特征進(jìn)行組合。時(shí)域特征主要是提取能反映出音頻信號(hào)的能量變換、波形相似程度和波形正負(fù)改變的頻次等內(nèi)容的特性,主要有時(shí)域包絡(luò)、過零率(ZCR)和短時(shí)能量(STE)等。相對(duì)時(shí)域特征,音頻特征中的頻域特征更能體現(xiàn)出音頻信號(hào)的固有特性。音頻場(chǎng)景或音頻事件識(shí)別主要采用音頻信號(hào)的頻域特征,頻域特征最常用的梅爾倒譜系數(shù)(MFCCs),其他的頻譜特征有譜質(zhì)心(SC)、譜通量(SF)和譜亮度(SB)等。近幾年,計(jì)算機(jī)視覺技術(shù)中的紋理圖像特征是用來識(shí)別音頻場(chǎng)景或音頻事件的有效方法之一。
視頻監(jiān)控受光線、遮擋物等因素的影響,音頻監(jiān)控可以克服視頻監(jiān)控的不足。音頻場(chǎng)景分析的主要任務(wù)就是音頻事件識(shí)別或音頻事件上下文關(guān)系識(shí)別,音頻場(chǎng)景一般指有一定物理意義的一系列音頻事件的組合,例如說話聲、鐵軌摩擦聲等構(gòu)成地鐵場(chǎng)景。家居環(huán)境的音頻場(chǎng)景有盥洗室、客廳、起居室、廚房等。異常音頻事件是音頻場(chǎng)景分析或音頻監(jiān)控重點(diǎn)關(guān)注的對(duì)象,例如火車站的槍炮聲,火車站屬于音頻場(chǎng)景,而槍炮聲屬于異常音頻事件[7]。文獻(xiàn)[8]定義5類異常音頻事件和音頻場(chǎng)景:尖叫、劇烈咳嗽、哭聲、痛苦呻吟、跌倒和家居環(huán)境的背景(即音頻場(chǎng)景)。在識(shí)別任務(wù)中,本文將這5類異常音頻事件注入到背景聲中。
音頻事件的識(shí)別類似于語音或說話人識(shí)別,有效音頻特征的提取是識(shí)別任務(wù)中最重要的步驟之一。工程上,音頻特征的提取依賴于特征工程(feature engineering),即為區(qū)分音頻事件從數(shù)據(jù)的低階表示(low-level representations)方式中制作特定的特征,如圖1所示。
圖1音頻事件識(shí)別框圖
家居環(huán)境的音頻事件類型多且相互混疊。以目前的技術(shù),識(shí)別相互混疊的音頻事件是一件不容易實(shí)現(xiàn)的事情,且識(shí)別率不高。為了提高識(shí)別率,研究不同特征的組合或融合方法是行之有效的手段之一。特征組合的具體步驟是首先對(duì)音頻信號(hào)進(jìn)行分割等預(yù)處理,然后提取時(shí)域、頻域和灰度紋理圖像特征,根據(jù)實(shí)際場(chǎng)景和事件的先驗(yàn)知識(shí)進(jìn)行特征組合,如圖2所示。
圖2 特征提取及組合
采用計(jì)算機(jī)視覺技術(shù)的灰度紋理圖像特征,相對(duì)于傳統(tǒng)的梅爾頻率倒譜系數(shù)(MFCC)特征對(duì)音頻事件識(shí)別有較好的性能。局部紋理模式的二進(jìn)制模式(local binary pattern,LBP)特征在灰度紋理特征中具有代表性,它的提取方式是音頻信號(hào)轉(zhuǎn)換成頻譜圖,然后從頻譜圖轉(zhuǎn)變成灰度紋理圖像,再提取LBP特征,該特征特點(diǎn)是能對(duì)不同灰度的像數(shù)值大小進(jìn)行統(tǒng)計(jì)計(jì)算為特征?;舅悸肥窃诿總€(gè)胞腔(cell)根據(jù)灰度的中心像素點(diǎn)和它周圍8個(gè)點(diǎn)值大小進(jìn)行比較并進(jìn)行統(tǒng)計(jì),能較好地描述音頻信號(hào)頻域特性的變化。LBP特征計(jì)算方式是采用每個(gè)區(qū)域的中心像素點(diǎn)與它鄰近的像素點(diǎn)的值進(jìn)行比較,如圖3所示。LBP特征的計(jì)算公式為
其中:c是頻譜圖一個(gè)胞腔(cell)的中心,胞腔的劃分通常是采用3×3或5×5的方式;g是與中心點(diǎn)c相鄰的點(diǎn);表示與其相鄰點(diǎn)且均勻分布在半徑為的圓周上的像素點(diǎn)的數(shù)量;本文=8。通過式(1)計(jì)算可得到256維的統(tǒng)計(jì)值[8]。
實(shí)驗(yàn)研究音頻特征的不同組合及有效性是本文的重點(diǎn)。介紹數(shù)據(jù)集,實(shí)驗(yàn)數(shù)據(jù)從Freesound網(wǎng)站下載了一部分異常音頻事件數(shù)據(jù)和錄制一些音頻場(chǎng)景數(shù)據(jù)。數(shù)據(jù)集包括5種類型的異常音頻事件和真實(shí)家居場(chǎng)景,其中異常音頻事件的錄音數(shù)據(jù)包含至少一個(gè)有完整的音頻事件,如劇烈咳嗽,真實(shí)家居場(chǎng)景即背景有盥洗室、廚房、起居室等,數(shù)據(jù)列于表1。
表1 數(shù)據(jù)集
所有的實(shí)驗(yàn)采用交叉驗(yàn)證方法,即從總樣本數(shù)中隨機(jī)抽取80%作為訓(xùn)練集,再隨機(jī)抽取20%作為測(cè)試集,共迭代20次,求出平均值,其數(shù)學(xué)表達(dá)式為
第一個(gè)實(shí)驗(yàn)是提取數(shù)據(jù)集中音頻事件的LBP灰度紋理圖像特征并進(jìn)行驗(yàn)證,其識(shí)別結(jié)果列于表2。
表2 異常事件識(shí)別結(jié)果 單位:%
從表2可以看出,真實(shí)家居環(huán)境的異常音頻事件識(shí)別,我們把異常音頻事件和背景聲音串接在一起,從實(shí)驗(yàn)檢測(cè)結(jié)果可以看出,灰度紋理圖像特征對(duì)有類似語音的音頻事件,如“劇烈咳嗽”和“尖叫”有較高的識(shí)別率,分析原因是這類型音頻事件通常在通帶內(nèi)含有較高的基音且有較高的能量。從聽覺上來判斷,“哭喊”和“痛苦呻吟”有可能判為同一事件,而且這類音頻事件通常含有相同的文本內(nèi)容。
實(shí)驗(yàn)對(duì)5類音頻事件分別采用不同的特征進(jìn)行識(shí)別,然后求出每一個(gè)特征的平均識(shí)別結(jié)果,結(jié)果如圖4所示。7種單一類型的特征對(duì)混雜在家居真實(shí)場(chǎng)景的5類異常音頻事件識(shí)別如圖4(a)所示,其平均識(shí)別準(zhǔn)確率為61%,其中紋理圖像特征LBP識(shí)別準(zhǔn)確率為89%。顯然除了LBP特征以外,其他類型的單一特征對(duì)音頻事件的識(shí)別精度不高,也就是說單一種類型的特征對(duì)真實(shí)環(huán)境的音頻事件識(shí)別率不高。LBP算子是在音頻信號(hào)的頻譜圖中的每個(gè)像素點(diǎn)得到一個(gè)“LBP”編碼,對(duì)一個(gè)記錄頻率信息的每個(gè)像素點(diǎn)的灰度值的灰度紋理頻譜圖提取原始的LBP算子之后,得到的原始LBP特征依然是一副反映出頻率及位置信息的頻譜圖。LBP相對(duì)其他的特征有較高的準(zhǔn)確率可能是因?yàn)樵撎卣鞲纛l信號(hào)的頻率位置信息緊密聯(lián)系,將一個(gè)頻譜圖劃分若干子區(qū)域,對(duì)每個(gè)子區(qū)域內(nèi)的像素點(diǎn)提取LBP特征,然后,在每個(gè)區(qū)域內(nèi)建立LBP特征的子區(qū)域,對(duì)每個(gè)子區(qū)域的每個(gè)像素點(diǎn)提取LBP特征,然后在每個(gè)子區(qū)域內(nèi)建立LBP特征的統(tǒng)計(jì)直方圖。這種特征能較好地統(tǒng)計(jì)出每個(gè)音頻信號(hào)的位置頻率,從而提高音頻場(chǎng)景和音頻事件的識(shí)別準(zhǔn)確率。利用時(shí)域和頻域的組合特征融合方法對(duì)上述5類異常音頻事件的識(shí)別結(jié)果如圖4(b)所示,平均準(zhǔn)確率為79%,比單一種類的特征提高了18個(gè)百分點(diǎn),顯然,特征組合的方法能有效提高真實(shí)環(huán)境中的音頻事件識(shí)別率。
圖4 單一和組合特征識(shí)別準(zhǔn)確率
其中,LBP+RQA(recursive quantitative analyzing)兩種特征的準(zhǔn)確率最高,為93%。原因可能是這類型的特征融合,可以導(dǎo)致較高維度的特征向量,并達(dá)到較好的泛化能力。另外,特征在音頻特性的描述上互補(bǔ)從而提高音頻事件的識(shí)別率,例如頻譜亮度特性是反映出聲音從沉悶到尖銳的變化過程。頻譜亮度能粗略指示出頻率譜的能量分布情況等,這種特性能很好地體現(xiàn)尖叫、大聲哭喊等音頻事件的特征。
人工智能時(shí)代,智慧家居系統(tǒng)飛速發(fā)展,基于音頻場(chǎng)景分析在智能安全監(jiān)控中有重要的應(yīng)用前景。但真實(shí)家居環(huán)境中的音頻事件種類多且相互混疊,以目前的技術(shù)識(shí)別混疊的多源音頻事件是復(fù)雜和困難的任務(wù),采用傳統(tǒng)單一類型的音頻特征很難達(dá)到高的識(shí)別準(zhǔn)確率。本文研究了音頻特征組合和融合的方法,通過實(shí)驗(yàn)來證明某一特征組合對(duì)音頻事件的這些組合特征可以對(duì)不同類型的音頻事件特征互補(bǔ)。實(shí)驗(yàn)證明:這種方法對(duì)真實(shí)家居環(huán)境的音頻事件的平均識(shí)別精度達(dá)到了79%左右,比單一類型的特征提高了18%,其中LBP+RQA特征達(dá)到93%的準(zhǔn)確識(shí)別率。
[1]陳愛武.家居音頻場(chǎng)景識(shí)別關(guān)鍵技術(shù)研究[D].廣州:華南理工大學(xué),2020.
[2]BARDELI R, WOLFF D, KURTH F, et al. Detecting bird sounds in a complex acoustic environment and application to bioacoustic monitoring[J]. Pattern Recognition Letters, 2010, 31(12): 1524-1534.
[3]MARIN-CUDRAZ T, MUFFAT-JOLY B, NOVOA C, et al. Acoustic monitoring of rock ptarmigan: A multi-year comparison with point-count protocol[J]. Ecological indicators, 2019, 101: 710-719.
[4]AIDE T M, CORRADA-BRAVO C, CAMPOS-CERQUEIRA M, et al. Real-time bioacoustics monitoring and automated species identification[J]. PeerJ, 2013, 1: e103.
[5]CHAMOSO P, GONZáLEZ-BRIONES A, RODRíGUEZ S, et al. Tendencies of Technologies and Platforms in Smart Cities: A State-of-the-Art Review[J]. Wireless Communications and Mobile Computing, 2018, 2018: 1-17.
[6]SHEN Y, HE K, ZHANG W Q. SHome Activity Monitoring Based on Gated Convolutional Neural Networks and System Fusion[C]. DCASE2018 Challenge, 2018.
[7]CHEN A W, HE Q H, WANG X, et al. Home security surveillance based on acoustic scenes analysis[C]. 2017 10th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI), 2017: 1-5.
[8]ABIDIN S, TOGNERI R, SOHEL F. Spectrotemporal analysis using local binary pattern variants for acoustic scene classification[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(11): 2112-2121.
TN912.34
A
1673-2219(2021)05-0033-03
2021-08-15
黃楠欣(2000-),女,湖南永州人,中國(guó)傳媒大學(xué)2018級(jí)廣播電視工程專業(yè)學(xué)生,研究方向?yàn)閿?shù)字電視制播。
楊盈昀(1969-),女,四川安岳人,博士,教授,研究方向?yàn)橹悄芤曇纛l處理。
(責(zé)任編校:宮彥軍)