国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

應(yīng)用支持向量機和人工神經(jīng)網(wǎng)絡(luò)對大氣次聲信號識別的初步實驗

2020-06-08 02:29:26吳涢暉鄒士亞龐新良陳曉雷
應(yīng)用聲學(xué) 2020年2期
關(guān)鍵詞:超平面波包特征向量

吳涢暉 鄒士亞 龐新良 陳曉雷

(防化研究院 北京 102205)

0 引言

將核爆炸或自然界事件信號從背景噪聲中提取出來,然后對事件信號進行分析識別,是核爆監(jiān)測的基本內(nèi)容之一。事件信號提取的方法主要是首先通過濾波的方法降低噪聲的干擾,然后采用信號檢測算法或人工的方法提取事件數(shù)據(jù)[1]。這些方法都需要根據(jù)實際噪聲和信號的特點設(shè)置相應(yīng)的閾值,來對信號進行檢測,而閾值的設(shè)定則依賴于研究人員對信號的分析結(jié)果或者經(jīng)驗,需要花費大量的時間針對每一個不同的環(huán)境進行研究。即便如此,仍然會不可避免地將噪聲檢測為事件。

隨著核爆次聲監(jiān)測網(wǎng)絡(luò)的建設(shè),大量的實時監(jiān)測數(shù)據(jù)將源源不斷地發(fā)送到數(shù)據(jù)處理中心,對這些監(jiān)測數(shù)據(jù)的實時分析需要一種有效的技術(shù)方法來支持,而機器學(xué)習(xí)的快速發(fā)展為解決這個問題提供了有效的手段,其中基于仿生學(xué)的人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)和基于統(tǒng)計學(xué)習(xí)的支持向量機(Support vector machine,SVM)在解決實際問題中表現(xiàn)出良好的性能。

ANN作為一種通用的模式分類器,其泛化能力取決于樣本的選取和模型的結(jié)構(gòu)與參數(shù),在實際應(yīng)用中不需要太多先驗知識,但需要經(jīng)過大量的實驗摸索,才能確定合適的神經(jīng)網(wǎng)絡(luò)模型以及相關(guān)參數(shù)的設(shè)置,其分類效果與樣本數(shù)量具有很大關(guān)系,需要對模型不斷優(yōu)化來防止過擬合。

SVM是一種基于統(tǒng)計學(xué)習(xí)理論的分類方法,它從理論上系統(tǒng)地研究了有限樣本下經(jīng)驗風(fēng)險與期望風(fēng)險的關(guān)系,能較好地解決小樣本問題,通過將樣本特征映射到高維空間,解決了非線性不可分的問題,并利用內(nèi)積核函數(shù)巧妙地解決了高維空間中計算復(fù)雜度劇增的問題;但對于大規(guī)模訓(xùn)練樣本,SVM需要耗費大量的機器內(nèi)存和運算時間。

本文對次聲臺站的單通道數(shù)據(jù)進行了信號檢測,采用ANN 和SVM 對信號和噪聲進行了分類實驗,對比分析了兩種方法對次聲事件的自動識別能力,研究探索了提高它們的識別能力的方法,以期能有效地應(yīng)用到實際工程中去。

1 次聲信號檢測

次聲波信號作為一種低頻聲信號,極易受到背景風(fēng)和其他大氣噪聲的影響。在進行事件識別前,首先要對次聲信號進行檢測,提取出疑似事件的數(shù)據(jù)。在實際應(yīng)用過程中,已經(jīng)研究出一些經(jīng)典的檢測方法,如基于F-統(tǒng)計的Fisher 檢測算法[2]、互相關(guān)算法[3]、短時窗平均/長時窗平均(Short term averaging/long term averaging,STA/LTA)算法、逐次多通道互相關(guān)(Progressive multi-channel correlation,PMCC)檢測算法[4]等。本文采用國際數(shù)據(jù)中心使用的STA/LTA 算法,從次聲傳感器記錄的數(shù)據(jù)中檢測出可能的事件信號。

STA/LTA 方法是由Stevenson 提出,最先應(yīng)用于地震監(jiān)測中,用來判定地震初至波的到達時間,其基本原理為:用STA(短時窗平均值)和LTA(長時窗平均值)之比來反映信號幅度、頻率等特征的變化。當(dāng)有事件信號到達時,STA/LTA值會發(fā)生突變,通過設(shè)定一個閾值R,根據(jù)當(dāng)其比值是大于R或者小于R來判定為事件信號或是噪聲[5-6]。R的計算公式為

式(1)中,X(i)(i=1,2,···,N)表示短時間窗內(nèi)數(shù)據(jù);Y(j)(j=1,2,···,M)表示長時間窗內(nèi)的數(shù)據(jù);M和N分別表示長、短時間窗內(nèi)的樣本數(shù)。如果R大于設(shè)定閾值,則認(rèn)為該數(shù)據(jù)包含事件信號。

在實際中,檢測閾值無法精確地給出,即使假設(shè)次聲傳感器記錄的數(shù)據(jù)只包含背景噪聲,此閾值也可能隨著時間發(fā)生變化。當(dāng)選擇不同的閾值時,檢測出的信號數(shù)量也大不相同,如圖1所示。圖1中對節(jié)選的2000 個數(shù)據(jù)點(采樣速率為100 sps)的次聲波形進行分析,當(dāng)R= 2 時,檢測出信號的數(shù)量為18次;當(dāng)R=3 時,檢測出信號的數(shù)量為6 次;當(dāng)R=4.5時,檢測出信號的數(shù)量為2次。

可以看出,閾值的選取對信號的檢測有較大影響,好的閾值可以過濾掉大部分的無用數(shù)據(jù),減輕后期數(shù)據(jù)分析的負擔(dān)。當(dāng)檢測閾值設(shè)置過高時,采用STA/LTA 算法的Libinfra 軟件檢測率只有41.18%(PMCC 算法的檢測率為94.12)[3]。但是,無論如何選取閾值,在長時間的監(jiān)測過程中,都會產(chǎn)生大量的“事件信號”,需要進一步對這些信號進行識別。

圖1 R對信號檢測的影響Fig.1 The effect ofRon effective signal detection

2 基于小波包分解的信號能量特征

信號的特征主要包括時域特征、頻域特征和時頻聯(lián)合域特征。時域特征包括信號的均值、方差、均方根、最大最小值、峭度、脈沖因子、波形因子等,是對信號變化描述最基本、最直觀的表達形式;頻域特征是對信號的頻率變化和分布情況進行分析得出的與頻率相關(guān)的特征,包括重心頻率、均方頻率等;時頻域特征則提供了時間域與頻率域的聯(lián)合分布信息,描述了信號頻率隨時間變化的關(guān)系,主要有短時傅里葉變換、小波變換、Wigner-Ville 變換、希爾伯特-黃變換等。

小波包分解采用小波變換,對信號進行逐層分解形成一個完整的樹狀結(jié)構(gòu),它可以根據(jù)需要調(diào)整時間與頻率分辨率,而對信號本身的信息造成的損失比較小,具有多分辨分析的特點。

本文采用中國科學(xué)院聲學(xué)研究所的InSAS 2008 型電容式次聲傳感器分別在海南、西昌、白城等地搭建了實驗臺站,設(shè)置STA/LTA 事件檢測算法的長時窗為50 s,短時窗為5 s,檢測閾值為3.2,收集了大量的事件信號(包括閃電、臺風(fēng)、化爆試驗等)。通過對這些信號進行分析,從中選取了108 個信號,組成實驗信號樣本。然后又從臺站采集的數(shù)據(jù)中提取出507 段信號(這些信號實為噪聲),與上述事件信號共同組成機器學(xué)習(xí)的樣本庫。

某次事件信號的時域波形和頻域波形如圖2所示,對信號進行3層小波包分解,每個節(jié)點的分解系數(shù)如圖3所示。

利用小波包分解系數(shù)對信號進行重構(gòu),得到各頻帶內(nèi)的重構(gòu)信號如圖4所示,計算各頻帶內(nèi)重構(gòu)信號的能量占總能量的百分比如圖5所示。

對所有采集的信號進行小波包分解,然后利用小波包分解系數(shù)對信號進行重構(gòu),計算各頻帶內(nèi)重構(gòu)信號的能量占總能量的百分比??梢园l(fā)現(xiàn)這些事件信號的頻率主要集中在15 Hz 以下,在25~50 Hz頻段范圍內(nèi)的信號能量基本為0,因此只能選取小波包分解前半部分節(jié)點的能量占比作為特征向量,則需要對這些信號數(shù)據(jù)進行k(k= 2,3,···,6)層小波包分解,構(gòu)造出的特征向量V的維數(shù)等于n(n=2k-1,k=2,3,···,6),計算方法如下:

式(2)中,E表示信號總能量;E1~En表示各頻帶內(nèi)的能量。

圖2 信號時域波形和頻域波形Fig.2 Time-domain waveform and frequency-domain waveform

圖3 小波包分解第3 層系數(shù)圖Fig.3 Layer 3 coefficient diagram

圖4 小波包分解第3 層系數(shù)重構(gòu)信號Fig.4 Reconstructing signal with Layer3 coefficient

圖5 小波包分解各頻段能量占比Fig.5 Energy proportion of each frequency band

3 基于SVM的次聲事件識別

3.1 SVM理論

SVM是AT&T Bell實驗室的Vapnik博士等基于統(tǒng)計學(xué)學(xué)習(xí)理論提出的一種機器學(xué)習(xí)方法,它根據(jù)結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則,在使訓(xùn)練樣本分類誤差最小化的前提下,盡量提高分類器的泛化推廣能力[7-10]。

3.1.1 基本思想

當(dāng)樣本線性可分時,需要找到一個超平面將不同類的樣本分開,而其中的最優(yōu)超平面則是能使得離超平面較近的異類點之間有更大的間隔,即不必考慮所有樣本點,只需讓求得的超平面使得離它近的點間隔最大。簡化到二維的情況,如圖6所示。

在樣本空間中,劃分超平面可通過式(3)所示的線性方程來描述:

其中,W為法向量,決定了超平面的方向;b為位移量,決定了超平面與原點的距離。對于訓(xùn)練樣本(xi,yi),滿足以下公式:

距離超平面最近的這幾個樣本點滿足yi(WTxi+b)=1,它們被稱為“支持向量”。虛線稱為邊界,兩條虛線間的距離稱為間隔,用γ表示:

通過求取||W||的最小值,可以得到最優(yōu)分類超平面。

圖6 SVM 的原理示意圖Fig.6 Diagrammatic sketch of SVM

3.1.2 核函數(shù)

對于非線性問題,上述方法并不能有效解決。這種情況下,SVM采用的方法是將訓(xùn)練樣本從原始空間映射到一個更高維的空間,使得樣本在這個空間中線性可分,如果原始空間維數(shù)是有限的,即屬性是有限的,那么一定存在一個高維特征空間使樣本可分。令φ(x)表示將x映射后的特征向量,于是在特征空間中,劃分超平面所對應(yīng)的模型可表示為

求||W||的最小值可以轉(zhuǎn)化為其對偶問題的求解,需要計算φ(xi)T·φ(xj)。由于特征空間的維數(shù)可能很高,甚至是無窮維,因此直接計算φ(xi)T·φ(xj)通常是困難的,于是引入一個函數(shù):

即在原始樣本空間中通過函數(shù)K(xi,xj)來計算φ(xi)T·φ(xj)的值,省去高維計算的復(fù)雜情況。

3.1.3 松弛變量

當(dāng)訓(xùn)練樣本中有少量樣本點落在超平面與邊界之間時,為了防止過擬合,可以對每個樣本點引入一個松弛變量ξi≥0,使得間隔加上松弛變量大于等于1,來近似為線性可分,約束條件變?yōu)?/p>

同時,對于每一個松弛變量,支付一個代價C,目標(biāo)函數(shù)變?yōu)?/p>

其中,C >0 為懲罰參數(shù),C值大時對誤分類的懲罰增大,C值小時對誤分類的懲罰減小。要使式(9)取最小值,則需要間隔盡量大,同時使誤分類點的個數(shù)盡量少,C是調(diào)和兩者的系數(shù)。然后,就可以采用與線性可分SVM一樣的方法進行學(xué)習(xí)。

3.2 次聲事件識別

通過對采集的次聲數(shù)據(jù)進行分析,從中提取出507 個噪聲數(shù)據(jù),加入采集的108 個事件數(shù)據(jù),進行基于SVM的次聲事件識別實驗。實驗中,分別從噪聲數(shù)據(jù)和事件數(shù)據(jù)中隨機抽取4/5的樣本作為訓(xùn)練集,對SVM進行訓(xùn)練,其余樣本作為測試集,以檢驗訓(xùn)練得到的SVM 的分類能力。為了消除訓(xùn)練集和測試集隨機選取帶來的影響,實驗進行多次運行,然后對結(jié)果進行統(tǒng)計。

當(dāng)進行兩層小波包分解時,得到4 個頻帶的能量(E1、E2、E3、E4),由于高頻段的E3和E4趨于0,所以選取特征向量V= (E1/E,E2/E),特征向量的維數(shù)等于2,此時分類效果比較差,在最好的情況下正確率只有0.782258,如圖7所示。

圖7 二維特征向量的分類結(jié)果Fig.7 Classification results of two-dimensional eigenvectors

選取不同的特征向量維數(shù),分別采用不同的核函數(shù)對模型進行訓(xùn)練,并進行測試,實驗結(jié)果見表1。

表1 不同核函數(shù)的識別率Table1 Recognition rate of different kernel functions

3.3 結(jié)果分析

假設(shè)n是特征向量維數(shù),m是訓(xùn)練數(shù)據(jù)集的樣例個數(shù),根據(jù)實驗結(jié)果可知,當(dāng)n比較小(如n= 2、4)、m比較大(如m= 492)時,m/n >100,那么一般需要增加特征,提高特征向量的維數(shù),并且使用多項式核函數(shù)的SVM 算法,來對識別性能進行改善;如果n相對于m大小適中(如n= 8、16),20<m/n <100,可以使用高斯核函數(shù)的SVM 算法;如果n相對m來說比較大,m/n <20,各種核函數(shù)的分類效果相差不大,但線性核函數(shù)參數(shù)少、速度快,可以得到較高的運算性能。

SVM 性能的優(yōu)劣與特征向量的維數(shù)和核函數(shù)的選取有很大關(guān)系,所以對于一個實際問題而言,需要對不同的特征進行組合,在不同的特征空間中進行分類識別,并選擇合適的核函數(shù)來構(gòu)造SVM 算法。目前比較成熟的核函數(shù)及其參數(shù)的選擇都是實驗人員根據(jù)自己的經(jīng)驗來選取的,帶有一定的隨意性。而針對不同的問題,核函數(shù)應(yīng)當(dāng)具有不同的形式,所以在選取時候應(yīng)該充分研究信號特征的物理意義,從而選取更加適合的核函數(shù)。

4 基于ANN的次聲事件識別

4.1 ANN模型

ANN 是模擬人腦對信息的處理方法而建立的一種運算模型。它由輸入節(jié)點、隱含節(jié)點、輸出節(jié)點(相當(dāng)于人腦神經(jīng)元)相互聯(lián)接構(gòu)成,對每個節(jié)點的輸入數(shù)據(jù)采用激勵函數(shù)進行運算,輸出運算結(jié)果。兩個不同層節(jié)點之間的連接對應(yīng)于一個通過該連接信號的權(quán)值,相當(dāng)于ANN 的記憶。網(wǎng)絡(luò)的輸出則根據(jù)網(wǎng)絡(luò)的連接方式、權(quán)值和激勵函數(shù)的不同而不同[11-13]。典型的單隱層ANN結(jié)構(gòu)如圖8所示。

圖8 ANN 結(jié)構(gòu)圖Fig.8 Structure diagram of ANN

4.2 次聲事件識別

實驗仍然采用上述數(shù)據(jù)集,神經(jīng)網(wǎng)絡(luò)選用3 層結(jié)構(gòu)的前饋網(wǎng)絡(luò)模型,其輸入層的節(jié)點個數(shù)和特征向量的維數(shù)一致(8 個節(jié)點),輸出層為一個節(jié)點,輸出結(jié)果為0 (表示輸入為噪聲數(shù)據(jù))或1(表示輸入為事件數(shù)據(jù))。采用tansig 函數(shù)作為激勵函數(shù),輸出節(jié)點為線性函數(shù)。在確定了輸入層和輸出層個數(shù)以及激勵函數(shù)后,還需要確定其隱含層的節(jié)點個數(shù),本文采用經(jīng)驗公式(10)來初步確定隱含層節(jié)點數(shù)的大概范圍。

其中,J為隱含層節(jié)點個數(shù),I和K分別為輸入和輸出層節(jié)點數(shù),T為1~10 之間的常數(shù)。據(jù)此,選取隱含層神經(jīng)元個數(shù)為4(T= 1)、5(T= 2)、7(T= 4)、9(T=6)、11(T=8)、13(T=10)個,建立神經(jīng)網(wǎng)絡(luò)分別進行實驗,實驗中訓(xùn)練集和測試集分組方法和SVM 實驗相同,并對多次運行的結(jié)果進行統(tǒng)計,來消除訓(xùn)練集和測試集隨機選取帶來的影響,實驗結(jié)果如表2所示。

表2 不同隱層節(jié)點數(shù)的識別率Table2 Recognition rate of different hidden nodes

隱層節(jié)點數(shù)為11時,誤差隨迭代次數(shù)的變化曲線如圖9所示,可以看出誤差收斂的速度比較快。

圖9 誤差隨迭代次數(shù)的變化曲線Fig.9 Error of iterations

4.3 結(jié)果分析

隱層節(jié)點數(shù)過少時,會導(dǎo)致生成的網(wǎng)絡(luò)欠擬合,訓(xùn)練識別率和測試識別率都比較低,網(wǎng)絡(luò)性能達不到預(yù)期效果;隱層節(jié)點數(shù)過多時,網(wǎng)絡(luò)計算量增大,并容易產(chǎn)生過擬合問題,從而導(dǎo)致網(wǎng)絡(luò)性能也下降。除此之外,隨著節(jié)點數(shù)的增多,網(wǎng)絡(luò)收斂的速度會相應(yīng)的有所增加,網(wǎng)絡(luò)總誤差會有所減小,但誤差的大小除了取決于節(jié)點數(shù)外,還和結(jié)束迭代的目標(biāo)誤差有關(guān),所以總誤差只能作為評價網(wǎng)絡(luò)性能的參考值。

5 結(jié)論

SVM 是一種針對有限樣本情況的機器學(xué)習(xí)方法,其目標(biāo)是根據(jù)現(xiàn)有樣本數(shù)據(jù)得出最優(yōu)解,而不是在樣本數(shù)趨于無窮大時的最優(yōu)解。從實驗中可以看出,當(dāng)樣本數(shù)量不夠多時,SVM 的識別能力要優(yōu)于ANN,符合理論分析。因此,可以結(jié)合SVM和ANN的特點,在樣本數(shù)量比較小的情況下,采用SVM 的識別模型來對事件進行識別,并研究尋找更為有效的核函數(shù),提高識別性能;當(dāng)樣本數(shù)量達到一定規(guī)模時,采用ANN 的方法進行學(xué)習(xí),發(fā)揮ANN 深度學(xué)習(xí)的優(yōu)勢。

在實際工程應(yīng)用中,可以適當(dāng)降低事件檢測算法的檢測閾值,提高檢測率(雖然同時誤報率也升高),然后提取次聲信號的特征向量,經(jīng)過機器學(xué)習(xí)對信號進一步識別判斷,從而提高總的事件識別率,最后采用互相關(guān)算法計算其時間延遲并進行定位。

猜你喜歡
超平面波包特征向量
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
全純曲線的例外超平面
涉及分擔(dān)超平面的正規(guī)定則
以較低截斷重數(shù)分擔(dān)超平面的亞純映射的唯一性問題
基于小波包Tsallis熵和RVM的模擬電路故障診斷
一類特殊矩陣特征向量的求法
EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
基于小波包變換的電力系統(tǒng)諧波分析
小波包理論與圖像小波包分解
济阳县| 东辽县| 绩溪县| 云霄县| 西藏| 遂溪县| 房产| 寻乌县| 英德市| 日喀则市| 大安市| 嘉鱼县| 迭部县| 兴海县| 肇东市| 长汀县| 平阳县| 南阳市| 常山县| 德惠市| 抚远县| 阿克陶县| 中超| 阳江市| 阳曲县| 昂仁县| 榆树市| 得荣县| 中阳县| 永兴县| 土默特左旗| 崇礼县| 美姑县| 宜兰市| 阳城县| 苏尼特左旗| 泾川县| 赞皇县| 石柱| 深州市| 通海县|