面向智慧家居的音頻事件識(shí)別及應(yīng)用

2022-01-20 06:29黃楠欣楊盈昀

湖南科技學(xué)院學(xué)報(bào) 2021年5期

黃楠欣楊盈昀

黃楠欣楊盈昀

（中國(guó)傳媒大學(xué) 信息與通信工程學(xué)院，北京 100024）

音頻事件識(shí)別在人工智能中有重要的應(yīng)用，例如智慧家居系統(tǒng)中的安全監(jiān)護(hù)。音頻監(jiān)控相對(duì)視頻監(jiān)控有不受光線、遮擋物等因素影響優(yōu)勢(shì)，但開放環(huán)境中的音頻事件復(fù)雜、相互混疊且只有較少的事件能提供有用的信息。音頻場(chǎng)景分析是一件困難的工作。傳統(tǒng)單一種類的音頻特征很難提高音頻事件的識(shí)別準(zhǔn)確率，在此基礎(chǔ)上，提取音頻事件的時(shí)域、頻域和灰度紋理圖像特征進(jìn)行組合及實(shí)驗(yàn)方法研究。實(shí)驗(yàn)數(shù)據(jù)采用自創(chuàng)建的音頻數(shù)據(jù)庫(kù)，實(shí)驗(yàn)結(jié)果顯示組合特征相對(duì)傳統(tǒng)的單一特征的平均識(shí)別率提高了18%。

音頻事件識(shí)別；音頻場(chǎng)景分析；智慧家居

近幾年，音頻場(chǎng)景和事件識(shí)別引起了廣泛科研工作者的關(guān)注[1]。機(jī)器識(shí)別環(huán)境聲音的應(yīng)用已經(jīng)深入到人們的日常生活，例如安全監(jiān)控、生物音頻分析和環(huán)境保護(hù)等[2-4]。最近十年，隨著IP網(wǎng)絡(luò)技術(shù)的發(fā)展和網(wǎng)絡(luò)芯片的微型化，幾乎可以將世界上任何物體連接到互聯(lián)網(wǎng)上，從而實(shí)現(xiàn)新的服務(wù)和創(chuàng)造價(jià)值。從而產(chǎn)生了著名的“the Internet of things (IoT)”，與眾不同的新興行業(yè)出現(xiàn)，例如智慧城市、智慧交通、智慧家居和智慧穿戴等[5-6]，其中音頻事件識(shí)別在這些新興行業(yè)中占有一席之地。音頻事件識(shí)別在智慧家居系統(tǒng)中有非常重要的應(yīng)用，例如針對(duì)獨(dú)居老人的安全監(jiān)護(hù)。在我國(guó)，很快將進(jìn)入老齡化的高峰期。隨著社會(huì)老齡化日益加劇，獨(dú)居老人也在持續(xù)增長(zhǎng)，解決獨(dú)居老人的養(yǎng)老問題是社區(qū)重要的工作。智慧家庭中的音頻監(jiān)控在針對(duì)獨(dú)居老人上有非常廣的應(yīng)用前景。音頻場(chǎng)景分析，即通過音頻場(chǎng)景和異常音頻事件的識(shí)別來分析獨(dú)居老人的安全和行為，例如識(shí)別盥洗室的跌倒、客廳中的痛哭、起居室里的呼吸困難等音頻事件。

音頻事件不同于語音，語音有準(zhǔn)平穩(wěn)性的特點(diǎn)，而音頻事件之間的特性相差大，例如有短時(shí)的碰撞聲音或尖脈沖聲音，也有長(zhǎng)時(shí)間的持續(xù)聲音。音頻場(chǎng)景是由多種音頻事件相互混疊而成，采用傳統(tǒng)單一特征識(shí)別不同類型的音頻事件是非常困難的。本文采用組合特征（特征+特征）方法來識(shí)別異常音頻事件。通常，區(qū)分性好的音頻特征可以去除原始信號(hào)中的冗余信息，實(shí)現(xiàn)數(shù)據(jù)降維。對(duì)音頻信號(hào)的波形進(jìn)行一系列的轉(zhuǎn)換后提取不同的時(shí)域、頻域、灰度紋理圖像特征進(jìn)行組合。時(shí)域特征主要是提取能反映出音頻信號(hào)的能量變換、波形相似程度和波形正負(fù)改變的頻次等內(nèi)容的特性，主要有時(shí)域包絡(luò)、過零率（ZCR）和短時(shí)能量（STE）等。相對(duì)時(shí)域特征，音頻特征中的頻域特征更能體現(xiàn)出音頻信號(hào)的固有特性。音頻場(chǎng)景或音頻事件識(shí)別主要采用音頻信號(hào)的頻域特征，頻域特征最常用的梅爾倒譜系數(shù)（MFCCs），其他的頻譜特征有譜質(zhì)心（SC）、譜通量（SF）和譜亮度（SB）等。近幾年，計(jì)算機(jī)視覺技術(shù)中的紋理圖像特征是用來識(shí)別音頻場(chǎng)景或音頻事件的有效方法之一。

1 異常音頻事件識(shí)別

1.1 異常音頻事件類型

視頻監(jiān)控受光線、遮擋物等因素的影響，音頻監(jiān)控可以克服視頻監(jiān)控的不足。音頻場(chǎng)景分析的主要任務(wù)就是音頻事件識(shí)別或音頻事件上下文關(guān)系識(shí)別，音頻場(chǎng)景一般指有一定物理意義的一系列音頻事件的組合，例如說話聲、鐵軌摩擦聲等構(gòu)成地鐵場(chǎng)景。家居環(huán)境的音頻場(chǎng)景有盥洗室、客廳、起居室、廚房等。異常音頻事件是音頻場(chǎng)景分析或音頻監(jiān)控重點(diǎn)關(guān)注的對(duì)象，例如火車站的槍炮聲，火車站屬于音頻場(chǎng)景，而槍炮聲屬于異常音頻事件[7]。文獻(xiàn)[8]定義5類異常音頻事件和音頻場(chǎng)景：尖叫、劇烈咳嗽、哭聲、痛苦呻吟、跌倒和家居環(huán)境的背景（即音頻場(chǎng)景）。在識(shí)別任務(wù)中，本文將這5類異常音頻事件注入到背景聲中。

1.2 特征提取及組合

音頻事件的識(shí)別類似于語音或說話人識(shí)別，有效音頻特征的提取是識(shí)別任務(wù)中最重要的步驟之一。工程上，音頻特征的提取依賴于特征工程（feature engineering），即為區(qū)分音頻事件從數(shù)據(jù)的低階表示（low-level representations）方式中制作特定的特征，如圖1所示。

圖1音頻事件識(shí)別框圖

家居環(huán)境的音頻事件類型多且相互混疊。以目前的技術(shù)，識(shí)別相互混疊的音頻事件是一件不容易實(shí)現(xiàn)的事情，且識(shí)別率不高。為了提高識(shí)別率，研究不同特征的組合或融合方法是行之有效的手段之一。特征組合的具體步驟是首先對(duì)音頻信號(hào)進(jìn)行分割等預(yù)處理，然后提取時(shí)域、頻域和灰度紋理圖像特征，根據(jù)實(shí)際場(chǎng)景和事件的先驗(yàn)知識(shí)進(jìn)行特征組合，如圖2所示。

圖2 特征提取及組合

采用計(jì)算機(jī)視覺技術(shù)的灰度紋理圖像特征，相對(duì)于傳統(tǒng)的梅爾頻率倒譜系數(shù)（MFCC）特征對(duì)音頻事件識(shí)別有較好的性能。局部紋理模式的二進(jìn)制模式（local binary pattern，LBP）特征在灰度紋理特征中具有代表性，它的提取方式是音頻信號(hào)轉(zhuǎn)換成頻譜圖，然后從頻譜圖轉(zhuǎn)變成灰度紋理圖像，再提取LBP特征，該特征特點(diǎn)是能對(duì)不同灰度的像數(shù)值大小進(jìn)行統(tǒng)計(jì)計(jì)算為特征?；舅悸肥窃诿總€(gè)胞腔（cell）根據(jù)灰度的中心像素點(diǎn)和它周圍8個(gè)點(diǎn)值大小進(jìn)行比較并進(jìn)行統(tǒng)計(jì)，能較好地描述音頻信號(hào)頻域特性的變化。LBP特征計(jì)算方式是采用每個(gè)區(qū)域的中心像素點(diǎn)與它鄰近的像素點(diǎn)的值進(jìn)行比較，如圖3所示。LBP特征的計(jì)算公式為

其中：c是頻譜圖一個(gè)胞腔（cell）的中心，胞腔的劃分通常是采用3×3或5×5的方式；g是與中心點(diǎn)c相鄰的點(diǎn)；表示與其相鄰點(diǎn)且均勻分布在半徑為的圓周上的像素點(diǎn)的數(shù)量；本文=8。通過式（1）計(jì)算可得到256維的統(tǒng)計(jì)值[8]。

1.3 實(shí)驗(yàn)設(shè)置及結(jié)果分析

實(shí)驗(yàn)研究音頻特征的不同組合及有效性是本文的重點(diǎn)。介紹數(shù)據(jù)集，實(shí)驗(yàn)數(shù)據(jù)從Freesound網(wǎng)站下載了一部分異常音頻事件數(shù)據(jù)和錄制一些音頻場(chǎng)景數(shù)據(jù)。數(shù)據(jù)集包括5種類型的異常音頻事件和真實(shí)家居場(chǎng)景，其中異常音頻事件的錄音數(shù)據(jù)包含至少一個(gè)有完整的音頻事件，如劇烈咳嗽，真實(shí)家居場(chǎng)景即背景有盥洗室、廚房、起居室等，數(shù)據(jù)列于表1。

表1 數(shù)據(jù)集

所有的實(shí)驗(yàn)采用交叉驗(yàn)證方法，即從總樣本數(shù)中隨機(jī)抽取80%作為訓(xùn)練集，再隨機(jī)抽取20%作為測(cè)試集，共迭代20次，求出平均值，其數(shù)學(xué)表達(dá)式為

第一個(gè)實(shí)驗(yàn)是提取數(shù)據(jù)集中音頻事件的LBP灰度紋理圖像特征并進(jìn)行驗(yàn)證，其識(shí)別結(jié)果列于表2。

表2 異常事件識(shí)別結(jié)果單位：%

從表2可以看出，真實(shí)家居環(huán)境的異常音頻事件識(shí)別，我們把異常音頻事件和背景聲音串接在一起，從實(shí)驗(yàn)檢測(cè)結(jié)果可以看出，灰度紋理圖像特征對(duì)有類似語音的音頻事件，如“劇烈咳嗽”和“尖叫”有較高的識(shí)別率，分析原因是這類型音頻事件通常在通帶內(nèi)含有較高的基音且有較高的能量。從聽覺上來判斷，“哭喊”和“痛苦呻吟”有可能判為同一事件，而且這類音頻事件通常含有相同的文本內(nèi)容。

實(shí)驗(yàn)對(duì)5類音頻事件分別采用不同的特征進(jìn)行識(shí)別，然后求出每一個(gè)特征的平均識(shí)別結(jié)果，結(jié)果如圖4所示。7種單一類型的特征對(duì)混雜在家居真實(shí)場(chǎng)景的5類異常音頻事件識(shí)別如圖4（a）所示，其平均識(shí)別準(zhǔn)確率為61%，其中紋理圖像特征LBP識(shí)別準(zhǔn)確率為89%。顯然除了LBP特征以外，其他類型的單一特征對(duì)音頻事件的識(shí)別精度不高，也就是說單一種類型的特征對(duì)真實(shí)環(huán)境的音頻事件識(shí)別率不高。LBP算子是在音頻信號(hào)的頻譜圖中的每個(gè)像素點(diǎn)得到一個(gè)“LBP”編碼，對(duì)一個(gè)記錄頻率信息的每個(gè)像素點(diǎn)的灰度值的灰度紋理頻譜圖提取原始的LBP算子之后，得到的原始LBP特征依然是一副反映出頻率及位置信息的頻譜圖。LBP相對(duì)其他的特征有較高的準(zhǔn)確率可能是因?yàn)樵撎卣鞲纛l信號(hào)的頻率位置信息緊密聯(lián)系，將一個(gè)頻譜圖劃分若干子區(qū)域，對(duì)每個(gè)子區(qū)域內(nèi)的像素點(diǎn)提取LBP特征，然后，在每個(gè)區(qū)域內(nèi)建立LBP特征的子區(qū)域，對(duì)每個(gè)子區(qū)域的每個(gè)像素點(diǎn)提取LBP特征，然后在每個(gè)子區(qū)域內(nèi)建立LBP特征的統(tǒng)計(jì)直方圖。這種特征能較好地統(tǒng)計(jì)出每個(gè)音頻信號(hào)的位置頻率，從而提高音頻場(chǎng)景和音頻事件的識(shí)別準(zhǔn)確率。利用時(shí)域和頻域的組合特征融合方法對(duì)上述5類異常音頻事件的識(shí)別結(jié)果如圖4（b）所示，平均準(zhǔn)確率為79%，比單一種類的特征提高了18個(gè)百分點(diǎn)，顯然，特征組合的方法能有效提高真實(shí)環(huán)境中的音頻事件識(shí)別率。

圖4 單一和組合特征識(shí)別準(zhǔn)確率

其中，LBP+RQA（recursive quantitative analyzing）兩種特征的準(zhǔn)確率最高，為93%。原因可能是這類型的特征融合，可以導(dǎo)致較高維度的特征向量，并達(dá)到較好的泛化能力。另外，特征在音頻特性的描述上互補(bǔ)從而提高音頻事件的識(shí)別率，例如頻譜亮度特性是反映出聲音從沉悶到尖銳的變化過程。頻譜亮度能粗略指示出頻率譜的能量分布情況等，這種特性能很好地體現(xiàn)尖叫、大聲哭喊等音頻事件的特征。

2　結(jié)束語

人工智能時(shí)代，智慧家居系統(tǒng)飛速發(fā)展，基于音頻場(chǎng)景分析在智能安全監(jiān)控中有重要的應(yīng)用前景。但真實(shí)家居環(huán)境中的音頻事件種類多且相互混疊，以目前的技術(shù)識(shí)別混疊的多源音頻事件是復(fù)雜和困難的任務(wù)，采用傳統(tǒng)單一類型的音頻特征很難達(dá)到高的識(shí)別準(zhǔn)確率。本文研究了音頻特征組合和融合的方法，通過實(shí)驗(yàn)來證明某一特征組合對(duì)音頻事件的這些組合特征可以對(duì)不同類型的音頻事件特征互補(bǔ)。實(shí)驗(yàn)證明：這種方法對(duì)真實(shí)家居環(huán)境的音頻事件的平均識(shí)別精度達(dá)到了79%左右，比單一類型的特征提高了18%，其中LBP+RQA特征達(dá)到93%的準(zhǔn)確識(shí)別率。

[1]陳愛武.家居音頻場(chǎng)景識(shí)別關(guān)鍵技術(shù)研究[D].廣州:華南理工大學(xué),2020.

[2]BARDELI R, WOLFF D, KURTH F, et al. Detecting bird sounds in a complex acoustic environment and application to bioacoustic monitoring[J]. Pattern Recognition Letters, 2010, 31(12): 1524-1534.

[3]MARIN-CUDRAZ T, MUFFAT-JOLY B, NOVOA C, et al. Acoustic monitoring of rock ptarmigan: A multi-year comparison with point-count protocol[J]. Ecological indicators, 2019, 101: 710-719.

[4]AIDE T M, CORRADA-BRAVO C, CAMPOS-CERQUEIRA M, et al. Real-time bioacoustics monitoring and automated species identification[J]. PeerJ, 2013, 1: e103.

[5]CHAMOSO P, GONZáLEZ-BRIONES A, RODRíGUEZ S, et al. Tendencies of Technologies and Platforms in Smart Cities: A State-of-the-Art Review[J]. Wireless Communications and Mobile Computing, 2018, 2018: 1-17.

[6]SHEN Y, HE K, ZHANG W Q. SHome Activity Monitoring Based on Gated Convolutional Neural Networks and System Fusion[C]. DCASE2018 Challenge, 2018.

[7]CHEN A W, HE Q H, WANG X, et al. Home security surveillance based on acoustic scenes analysis[C]. 2017 10th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI), 2017: 1-5.

[8]ABIDIN S, TOGNERI R, SOHEL F. Spectrotemporal analysis using local binary pattern variants for acoustic scene classification[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(11): 2112-2121.

TN912.34

1673-2219（2021）05-0033-03

2021-08-15

黃楠欣（2000－），女，湖南永州人，中國(guó)傳媒大學(xué)2018級(jí)廣播電視工程專業(yè)學(xué)生，研究方向?yàn)閿?shù)字電視制播。

楊盈昀（1969－），女，四川安岳人，博士，教授，研究方向?yàn)橹悄芤曇纛l處理。

（責(zé)任編校：宮彥軍）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

面向智慧家居的音頻事件識(shí)別及應(yīng)用

1 異常音頻事件識(shí)別

1.1 異常音頻事件類型

1.2 特征提取及組合

1.3 實(shí)驗(yàn)設(shè)置及結(jié)果分析

2 結(jié)束語

2　結(jié)束語