馮喬
摘要:構(gòu)建了一種通過DBN實現(xiàn)的1/4超球面支持向量機(QuarterSpheresupportvectormachines,QSSVM)測試模型,設(shè)計了一種可以實現(xiàn)在線測試功能的異常檢測算法。當窗口擴大后,QSSVM發(fā)生了準確度不斷提高的變化趨勢,能夠提高半徑的測試精度。當窗口增大后算法持續(xù)時間增加,QSSVM相對于OCSVM(OneClasssupportvectormachines,OCSVM)可以降低近一半的計算時間。隨著窗口擴大至臨界值后,將會引起準確度的減小,設(shè)置QSSVM算法滑動窗口為100。當樣本包含更高的維度異常比例時,所有算法都出現(xiàn)了檢測率增大的變化現(xiàn)象。當樣本維度升高后,QSSVM依然具備優(yōu)異檢測性能,而Kmeans發(fā)生了檢測性能的下降。通過測試發(fā)現(xiàn),采用新算法能夠滿足大規(guī)模高維傳感器的數(shù)據(jù)處理需求,從而減小時間復雜度并能夠更加準確測定異常數(shù)據(jù)。
關(guān)鍵詞:傳感器網(wǎng)絡(luò);異常檢測;深度信念網(wǎng)絡(luò);超球面支持向量機
中圖分類號:TP393
文獻標志碼:A
AnomalyDetectionandAnalysisofSensorNetworkData
BasedonHypersphereSupportVectorMachine
FENGQiao
(SchoolofMechanicalandElectricalandInformationEngineering,WuxiVocationalInstituteofArts&Technology,Wuxi214200,China)
Abstract:AQSSVMtestmodelof1/4hyperspheresupportvectormachineimplementedbyDBNisconstructed,andananomalydetectionalgorithmthatcanrealizeonlinetestisdesigned.Whenthewindowisenlarged,theaccuracyofQSSVMchangescontinuously,whichcanimprovethetestingaccuracyofradius.Thealgorithmcancontinuetoincreasethetimeafterthewindowisenlarged,QSSVMcanreducethecomputingtimebynearlyhalfcomparedwithOCSVM.Asthewindowexpandstothecriticalvalue,theaccuracywilldecrease.WesettheslidingwindowofQSSVMalgorithmto100.Whenthesamplecontainsahigherproportionofdimensionalanomalies,allalgorithmsshowthephenomenonofincreasingdetectionrate.Whenthesampledimensionisincreased,QSSVMstillhasexcellentdetectionperformance,whilekmeanshasdecreaseddetectionperformance.Throughtesting,itisfoundthatthenewalgorithmcanmeetthedataprocessingrequirementsoflargescalehighdimensionalsensors,itreducesthetimecomplexity,andmeasurestheabnormaldatamoreaccurately.
Keywords:sensornetwork;abnormaldetection;deepbeliefnetwork;hyperspheresupportvectormachine
0引言
隨著時代的發(fā)展,物聯(lián)網(wǎng)已成為當前人們開展生活與工作的重要工具,這也因此促進了無線傳感器網(wǎng)絡(luò)的大量應(yīng)用[13]。但考慮到這些傳感器通常都被安裝于多種復雜的環(huán)境中,并且不同類型的傳感器的數(shù)據(jù)結(jié)構(gòu)、傳輸模式也存在較大差異,一旦出現(xiàn)運行故障時便會引起數(shù)據(jù)異常的情況,這些異常數(shù)據(jù)將會對實際處理過程造成較大干擾,無法從中提取出準確的參考信息,從而對最后的決策過程造成不利影響[46]。為克服上述問題,需要對無線傳感器網(wǎng)絡(luò)內(nèi)的各類異常數(shù)據(jù)實施快速高效監(jiān)測。通過快速測定異常數(shù)據(jù)可以使傳感器能夠更加穩(wěn)定并準確地采集數(shù)據(jù)。
利用近鄰分析方法計算出本節(jié)點和相鄰節(jié)點的數(shù)據(jù)距離再判斷本節(jié)點的數(shù)據(jù)是否存在異常的情況,當實際測定的數(shù)據(jù)和鄰居節(jié)點數(shù)據(jù)具有明顯差異時說明該數(shù)據(jù)發(fā)生了異常,由于需要很長時間才能計算得到各數(shù)據(jù)距離,因此不能滿足大規(guī)模傳感器網(wǎng)絡(luò)的應(yīng)用條件;可以采用聚類分析的方式,根據(jù)數(shù)據(jù)分簇類型來達到對異常數(shù)據(jù)的孤立目的,但采用這一方法需獲得所有數(shù)據(jù)后再對其實施分簇,無法滿足在線測試異常數(shù)據(jù)的要求[78]。采用上述方法可以同時滿足測試精度與在線檢測的要求,同時還可以對高維數(shù)據(jù)集合出現(xiàn)異常情況時進行測試,已經(jīng)成為現(xiàn)階段獲得普遍應(yīng)用的異常測試方法[911]。利用單類支持向量機OCSVM來完成異常測試已經(jīng)成為現(xiàn)階段的一種重要檢測方法,該方法可以采用無監(jiān)督的狀態(tài)快速找出各項異常數(shù)據(jù)。為克服上述缺陷,本研究根據(jù)上述研究內(nèi)容,進一步優(yōu)化了OCSVM,構(gòu)建得到了一種通過DBN實現(xiàn)的1/4超球面支持向量機QSSVM測試模型,同時根據(jù)該模型設(shè)計了一種可以實現(xiàn)在線測試功能的異常檢測算法。
1算法
1.11/4超球面支持向量機(QSSVM)
QSSVM把樣本數(shù)據(jù)映射至高維空間內(nèi),再把該空間內(nèi)由樣本組成的圓心移動到坐標原點,按照正坐標軸的方向構(gòu)建1/4超球面,其中被球面包含的數(shù)據(jù)屬于正常數(shù)據(jù),處于球面以外的數(shù)據(jù)屬于異常數(shù)據(jù)。
對于樣本
X={xi,1≤i≤n}處于特征空間內(nèi)的1/4球面需要求解下述問題如式(1)。
minR∈R,ξ∈Rn
R2+1vn∑ni=1ξi
s.t.Φ(xi)2≤R2+ξi
ξi≥0,i=1,2…,n
(1)
把式(1)對偶問題通過式(2)進行表示,如式(2)。
minα∈Rn
-∑ni=1αik(xi,xi)
s.t.∑ni=1αi=10≤αi≤1vn;i=1,2,…,n
(2)
與球面QSSVM進行非線性規(guī)劃的過程相比可以發(fā)現(xiàn),采用式(2)實施線性規(guī)劃可以顯著降低計算過程的復雜度。但因為通過距離指標構(gòu)建的核函數(shù)k(xi,xi)對所有樣本節(jié)點都相同,所以不能根據(jù)式(2)獲得有意義的解。需要利用核函數(shù)中心化的處理方式求解上述問題,把完成中心化的核函數(shù)表示如式(3)。
kc=k-1nk-k1n+1nk1n
(3)
再把式(2)轉(zhuǎn)變成如式(4)。
minα∈Rn
-∑ni=1αikc(xi,xi)
s.t.∑ni=1αi=10≤αi≤1vn;i=1,2,…,n
(4)
利用式(4)求解拉格朗日系數(shù)αi,并判斷樣本xi的節(jié)點和超球體之間的相互關(guān)系:如果αi=0,可以認為此時的樣本節(jié)點屬于正常數(shù)據(jù);如果αi=1vn,表明樣本節(jié)點屬于異常數(shù)據(jù);如果0<αi<1vn,同時xi表示邊界支持向量,利用此向量和原點之間的距離計算出1/4球面半徑R。
1.2深度信念網(wǎng)絡(luò)(DeepBeliefNetwork,DBN)模型
深度信念網(wǎng)絡(luò)具備深度學習功能,包含了多個玻爾茲曼機(Restrictedboltzmannmachine,RBM),如圖1所示。
這一網(wǎng)絡(luò)可以對RBM實施分層訓練,其作用是接收進行RBM訓練時產(chǎn)生的特征數(shù)據(jù)。因為各層RBM在訓練過程中只能實現(xiàn)自身最優(yōu)的狀態(tài),這使得采用分層訓練方法也不能達到全局最優(yōu)的效果。
1.3基于深度信念網(wǎng)絡(luò)的傳感器數(shù)據(jù)異常檢測算法
DBN和QSSVM構(gòu)成的混合模型如圖2所示。
模型功能是對DBN降維模型實施訓練并去除訓練時產(chǎn)生的異常數(shù)據(jù),采用測試模型對各類數(shù)據(jù)進行實時測試發(fā)現(xiàn)異常情況。
把訓練數(shù)據(jù)輸入到訓練模型的DBN底層節(jié)點中,再對DBN內(nèi)各層權(quán)值W進行訓練,包括顯層與隱層節(jié)點偏執(zhí)兩種情況,再把經(jīng)過降維處理的訓練數(shù)據(jù)傳輸至QSSVM再將異常數(shù)據(jù)進行輸出,去除數(shù)據(jù)集內(nèi)的所有異常數(shù)據(jù)。
把采集獲得的待檢測數(shù)據(jù)傳輸至經(jīng)過訓練的DBN模型內(nèi),再輸出經(jīng)過降維處理的測試數(shù)據(jù),同時將其加入滑動窗口內(nèi),把上述窗口數(shù)據(jù)傳輸至QSSVM,判斷新數(shù)據(jù)有無異常的問題。
2實驗
2.1數(shù)據(jù)集與實驗設(shè)置
本次測試的數(shù)據(jù)來自UCI機器學習庫[12],總共包含了四組通過實際傳感器檢測得到的數(shù)據(jù),具體包括:48維Forest監(jiān)測參數(shù)、110維GAS氣體測試數(shù)據(jù)、320維DSA活動記錄數(shù)據(jù)以及540維HAR智能設(shè)備測試數(shù)據(jù)。之后從各數(shù)據(jù)集內(nèi)選出由連續(xù)時間組成的1000個樣本,再選擇其中的800個樣本數(shù)據(jù)用于訓練,通過隨機的方式加入比例為5%的異常數(shù)據(jù),再對剩余的20%數(shù)據(jù)進行測試,同時以隨機方式設(shè)置了10%異常數(shù)據(jù)。
為了盡量提升算法的性能,本實驗實施了多次測試,使用兩層DBN對輸入數(shù)據(jù)實施降溫至6維。各算法都通過MATLABR2017a進行模擬分析,總共進行10次測試并計算平均值。
2.2算法效率及窗口大小影響
表1顯示了對上述算法進行訓練的模型以及在異常數(shù)據(jù)檢測階段花費的時間,同時給出了各窗口下的QSSVM準確性。考慮到時間受到數(shù)據(jù)集合和異常維度比率的影響程度很小,所有記錄時間都是處于異常維度比率條件下算法所需的平均運行時間。測試結(jié)果如表1所示。
當窗口擴大后,QSSVM發(fā)生了準確度不斷提高的變化趨勢,產(chǎn)生這一情況的原因是當窗口增大后,將包含更多的樣本數(shù)據(jù),每次進行球面半徑計算時可以獲得更多的正常樣
本,同時也能夠提高半徑的測試精度。
2.3檢測率(DR)
各算法處于不同比率維度下的異常數(shù)據(jù)測試精度如圖3所示。
通過四組測試結(jié)果可知,當樣本包含更高的維度異常比例時,所有算法都出現(xiàn)了檢測率增大的變化現(xiàn)象。采用QSSVM算法處理Forest數(shù)據(jù)與GAS數(shù)據(jù)時相對于Kmeans的性能略差,而當樣本維度升高后,QSSVM依然具備優(yōu)異檢測性能,而Kmeans發(fā)生了檢測性能的下降,對于560維的HAR數(shù)據(jù)只能達到43.81%的檢測率,采用QSSVM算法則能夠獲得高達94.16%的檢測率,當樣本維度升高后,一些低維度異常數(shù)據(jù)不能被檢測到,說明此時沒有檢測出所有異常數(shù)據(jù)。
3總結(jié)
(1)當窗口擴大后,QSSVM發(fā)生了準確度不斷提高的變化趨勢,能夠提高半徑的測試精度。當窗口增大后算法持續(xù)時間增加,QSSVM相對于OCSVM可以降低近一半的計算時間。隨著窗口擴大至臨界值后,將會引起準確度的減小,設(shè)置QSSVM算法滑動窗口為100。
(2)當樣本包含更高的維度異常比例時,所有算法都出現(xiàn)了檢測率增大的變化現(xiàn)象。當樣本維度升高后,QSSVM依然具備優(yōu)異檢測性能,而Kmeans發(fā)生了檢測性能的下降。
參考文獻
[1]
許春杰,吳蒙,楊立君.一種基于分層聚合的分布式異常數(shù)據(jù)檢測方案[J/OL].計算機工程,[20190709].https://doi.org/10.19678/j.issn.10003428.0054066.
[2]劉禹彤,李銳,包俊杰,劉亞希.中國區(qū)域電離層異常數(shù)據(jù)野值檢測[J/OL].北京航空航天大學學報,[20190709].https://doi.org/10.13700/j.bh.10015965.2019.0152.
[3]武海龍,武海艷.云計算光纖網(wǎng)絡(luò)中大數(shù)據(jù)異常負載檢測模型[J].激光雜志,2019(6):207211.
[4]劉志方.大數(shù)據(jù)網(wǎng)絡(luò)下船舶軌跡異常故障檢測技術(shù)優(yōu)化[J].艦船科學技術(shù),2019,41(10):3436.
[5]陳永聰.云組合服務(wù)網(wǎng)絡(luò)的異常植入數(shù)據(jù)檢測算法[J].信息技術(shù),2019,43(6):111114.
[6]趙寶慶,王赫男.基于熵權(quán)聚類網(wǎng)絡(luò)異常行為的檢測方法研究[J].信息技術(shù),2019,43(6):121124.
[7]農(nóng)婷.大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量異常檢測研究[J].科技風,2019(17):84.
[8]ChristodoulouVyron,BiYaxin,WilkieGeorge.AtoolforSwarmsatellitedataanalysisandanomalydetection.[J].PloSone,2019,14(4):12841291.
[9]MunirMohsin,SiddiquiShoaibAhmed,ChatthaMuhammadAli,etal.FuseAD:UnsupervisedAnomalyDetectioninStreamingSensorsDatabyFusingStatisticalandDeepLearningModels[J].Sensors(Basel,Switzerland),2019,19(11):24512459.
[10]吳海波,施式亮,念其鋒.瓦斯?jié)舛攘鲾?shù)據(jù)實時異常檢測方法[J].計算機與數(shù)字工程,2019,47(5):10861090.
[11]王振昊,王布宏.基于SVDD的ADSB異常數(shù)據(jù)檢測[J].河北大學學報(自然科學版),2019,39(3):323329.
[12]李昊奇,應(yīng)娜,郭春生,等.基于深度信念網(wǎng)絡(luò)和線性單分類SVM的高維異常檢測[J].電信科學,2018(1):3442.
(收稿日期:2020.02.25)