周穎穎
摘要:目前,移動終端使用過程中存在諸多安全隱患,影響著整個系統(tǒng)的安全。因此,在面向Android移動終端基礎上,研究一種新的入侵檢測算法顯得尤為重要。首先,通過Android平臺,收集移動終端內核信息,并進行及時有效的預處理,借助快速核密度,正確估計Fast Kernel Density Estimation(FastKDE)算法壓縮收集到的大規(guī)模樣本,從而得到數量合理的訓練樣本,為后面工作打下基礎。然后,以在線增量學習算法為基礎,通過支持向量機算法判別經過處理的相關數據,從而識別出入侵數據。最后,通過試驗以及相關的數據分析,得出該方法有利于縮減訓練時間,使檢測性能達到最佳效果,可擴展性較好,且具有較好的自我提升能力。
關鍵詞:Android系統(tǒng) 在線學習算法;支持向量機;快速核密度;在線增量學習
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2015)26-0103-03
1 基本概述
截止2014年第一季度,以市場研究公司IDC發(fā)布的數據為依據,市場份額占有比例中,Android移動終端高達78.9%。隨著我國經濟發(fā)展,科學技術的突飛猛進,3G、4G等到廣泛運用,基于Android系統(tǒng)下的移動終端更是日益豐富于互聯網上,并且PC機上的互聯網應用均可移至移動終端。雖然Android移動終端與PC機間的差異逐日縮減,但PC機的安全問題通過Android移動終端日益凸顯。Android具有開源性的特征,能夠借助內核,查找系統(tǒng)存在的漏洞,并植入相關病毒,侵害Android移動終端,獲得不正當的經濟效益。由此可見,基于移動終端入侵檢測算法的研究成為該行業(yè)的一大重點與熱點。
2 相關算法的提出
1)2007年,Jerry Cheng等人提出利用移動終端間的合作進行病毒檢測與預警系統(tǒng)SmartSiren,該系統(tǒng)主要工作原理即為通過移動終端的協作互助,以聯合分析方法為基礎,檢測單個終端或者整個系統(tǒng)的異常狀況。如果發(fā)現有病毒存在,對受到威脅的移動終端直接發(fā)出警報,達到預防病毒擴散整個移動終端的目的。
2)傅德勝等學者提出輕量級的手機入侵檢測人系統(tǒng),其主要工作原理如下:在手機平臺中運用snort技術,實現監(jiān)聽相關網絡數據的目的,借助完全自動機匹配方式,提高入侵檢測的速度。
3) Asaf Shabtai等人于2010年利用Knowledge based temporal abstraction(即KBTA)算法構建了入侵檢測模型,其主要通過監(jiān)控手機中的CPU、網絡數據以及用戶的活動狀況等內容實現的。在此前提下,依據時間趨勢圖,判斷用戶的正常活動與異?;顒?,充分發(fā)揮智能手機的時間序列的功能。
4) Jeffrey Bickford等人從智能手機在檢測惡意軟件過程中引起的額外能耗的問題出發(fā),在考慮攻擊監(jiān)控范疇和惡意軟件掃描頻率的基礎上,提出折中安全與能耗的檢測方法,通過較少的額外能量消耗,達到檢測出大部分惡意軟件的攻擊的效果。
5) 吳志中等人提出在分布式移動設備異常檢測系統(tǒng)框架的基礎上,通過D-S理論,融合多個算法檢測結果,促進檢測準確率的提高。
Android移動終端所收集的諸多數據均具有相似性,因此,在進行數據檢測分析的過程中,以上所述的五種方法必須建立較大規(guī)模的樣本訓練集,導致樣本收集工作復雜,花費時間較長,而且容易出現問題。另外,在Android移動終端收集到新數據后,必須經過原始訓練樣本集與新數據之間的融合,重新建立訓練樣本集。由此可見,這些入侵檢測系統(tǒng)存在擴展性較低,且不適用等問題。
因此,在前面分析的基礎上,本文將以FastKDE算法為基礎,提出在線快速核密度估計的新方法,即Online Fast Kernel Density Estimation,OFastKDE,在此方法運用中,通過FastKDE算法有效壓縮規(guī)模較大的數據樣本集,提取能夠代表樣本集分布特征的樣本,從而提煉出規(guī)模合理的新樣本集。支持向量機SVM算法處理小規(guī)模數據樣本時,能夠較好的進行數據分析,因此,利用SVM對經過FastKDE算法提煉出的新的數據樣本進行分類,從而判斷出移動終端手攻擊程度。如果收集到新的數據,移動終端將在高維空間映射出表示這些數據的特征向量,從而計算出其到超平面的距離,用于作為分類的依據,實現樣本的有效替換,達到新數據在線學習的目的。本文借助實驗,通過實驗的具體數據分析,證明其具有較高的實用價值。
3 探究面向Android移動終端的異常入侵檢測系統(tǒng)
如今使用的大部分移動終端和PC機具有諸多相似的功能,而且PC機的功能移動終端大致已經具備,因此,兩者間的異常入侵檢測系統(tǒng)模型大致相似。
圖1 入侵檢測系統(tǒng)結構
3.1 移動終端主體活動
移動終端主體活動即為數據收集模塊,在收集數據信息,檢測移動終端是否遭受攻擊的過程中應注意以下幾方面:首先,構建Android系統(tǒng)的模擬環(huán)境;其次利用編程收集Android移動終端的相關內核信息,主要包括內存、CPU、網絡等,得出與實驗相關的數據。實驗在用戶正常使用移動終端的基礎上,提取相關數據,包括兩方面:一是終端未受到入侵時的主體活動信息;二是終端受到入侵時的主體活動信息。然而,智能手機受到攻擊主要包含三種情況:第一種,較短時間內受到大量垃圾信息,導致通信堵塞;第二種,短時間內下載大量圖片、文件,并且受到大量信息,導致用戶的資費和流量浪費;第三,短時間內內存卡被惡意文件損害。用戶正常使用智能手機的依據包括以下幾方面的操作:接打電話、玩游戲、收發(fā)短信、文檔編輯、音樂和視頻播放、文件上傳與下載、正常使用網絡、軟件及時更新等相關手機操作。
3.2 分析與建模方式以及決策規(guī)則
這兩部分即為數據分析模塊,屬于入侵檢測系統(tǒng)的核心,其主要內容是分析、研究收集到的數據,并且構建正常樣本的特征輪廓,為作比較提供依據。設定標準閾值,以供與正常特征輪廓和測試樣本的特征輪廓的偏離值比較,如果偏離值小于閾值,則為正常,如果偏離值大于閾值,則為被入侵。
下面將通過C-SVC和V-SVC兩種方法進行數據分析:
1)C-SVC方法運用研究
指定訓練本集如下:[zi=(xi,yi)ni=1],[xi∈Rd(1≤i≤n)],[yi∈±1],其中C-SVC的原始問題我們可以通過如下公式進行表示:
[minw,b,ξ12w2+ci=1nξi]
S.t.[yi(w′?(xi)+b)≥1-ξi,ξi≥0,1≤i≤n]
其中與之相對應的對偶問題可進行如下表示:
[mina12a′Qa-e′a]
S.t. [y′a=0,0≤ai≤c,1≤i≤n]
從這里的相關公式以及數據,我們可知Q為[n×n]的矩形方陣,最后利用公式展示其決策函數:
[sgn(w′?(x)+b)=sgn(i=0nyiaik(xi,x)+b)]
2)v-SVC方法運用研究
v-SVC是一種支持向量方法,包含參數v,其主要優(yōu)點及作用在于有效控制向量的數目。 指定訓練本集如下:[Zi=(xi,yni=1i)],[xi∈Rd(1≤i≤n)],[yi∈±1],其中v-SVC的原始問題我們可以通過如下公式進行表示:
[minw,b,ξ,p12w2-vp+1ni=1nξi]
S.t. [yi(w′?(xi)+b)≥p-ξi],其中[ξi≥0,1≤i≤n,p≥0],
在此過程中V屬于[0,1],與之對應的對偶問題可進行如下表示:
[mina12a′Qay′a=0,e′a≥v,0≤ai≤1n,1≤i≤n]
在此過程中,[Qij=yiyjk(xi,xj)],其中核函數為[k(xi,xj)=?(xi)′?(xj)],最后利用公式展示其決策函數:[sgn(w′?(x)+b)=sgni=0nyiaik(xi,x)+b]。
從以上相關公式、實驗可得知,訓練樣本數據數量十分龐大,數據間的冗余度較高,極大程度上增加了訓練的時間,導致算法增加難度,致使其精準度難以達到標準。針對此問題,以目前的較大數據處理方式為依據,在進行原始訓練樣本壓縮時,引進快速核密度估計,即FastKDE算法。在此算法的基礎上,研究樣本數據,提高樣本數量選擇的合理性,節(jié)約算法時間的前提下,降低算法的復雜程度,提高算法精準度,增加準確率。
4 通過快速核密度估計進行在線增量學習算法框架構建
4.1 快速核密度估計
在Freedman提出的相關理論基礎上,提出快速核密度估計定理,并通過相關實驗進行證明。
1)核密度估計:其是實用價值較高的非參數密度估計算法,使用領域較廣。KDE算法直接根據訓練樣本獲取樣本特征的分布情況,根本不需對數據進行先驗假設,其主要用于對任意形狀的密度函數進行估計。其算法如下:
數據集為S∈Rd,其容量為N,表達式為[P(x)=1Ni=1Nk(x,xi)],[k(x,xi)]是核函數,其正定帶寬矩陣表示為[H=h]2I,原始數據中的抽樣容量為m的一個子集,由抽樣子集m數據中得到的KDE為[p(x)],其具體表示為:
Min D[(p(x),p(x))]
S.t. [p(x)=1mi=1mk(x,xi)]
D[(p(x),p(x))]表示的是當m小于n時,[p(x)]與[p(x)]之間存在的誤差,相較于傳統(tǒng)的較復雜的算法,快速核密度估計更加簡單、方便,使其具有產生的必要性。
2)快速核密度估計:當S∈Rd,容量為n是借助相關數據得到的[p(x)],以及在[k(x,xi)]下的[H=h]2I的核函數,在此基礎上,假設m集得到的KDE表達式為[p(x)]。那么[p(x)]與[p(x)]之間的積分平方誤差可用以下公式進行表達:[J=E(p(x)-p(x)2dx],因此,J≤[4Ah+A2h2V+Bmhd+ABVmhd-1]。
在此,需要強調A、B、V與m和[h]沒有具體聯系,屬于常量,而J的大小與m和h存在一定的關系,與N也無關系。從公式我們可以發(fā)現,當m數值足夠大時,[h]數值適中,[p(x)]與[p(x)]之間的值將處于無限接近的狀態(tài)。
在前面假設情況的前提下,Wang[p(x)]與[p(x)]之間尚的積分平分誤差公式如下:
[J=E(p(x)-p(x))2dx+λE1-(P(x))2dx],在此公式下,我們知道J的上界與d、m、[h]、[λ]有關,而與N無關。
除此之外,深入研究探究數值之間的關系,從實驗結果可以分析發(fā)現,m數值的大小,影響著KDE的速度和準確性,并且該方法較簡單,利用較少的數據,得出解決問題的方法,保證實驗效果。
4.2 在線增量學習分析研究
Ivor Wai-Hung Tsang等相關研究者提出核向量機算法,即CVM(Core Vector Machine),其是一種借助[(1+ε)]的方法實現MEB的快速求解。Di Wang等人在此基礎上進行優(yōu)化、升級,提出了新的在線核心向量機學習方法,但因每次需要增加訓練,導致計算較復雜,實用性不高。在線球向量機,即Online Ball Vector Machine(OBVM),由楊海峰等學者提出,其主要原理為:首先將二分類問題進行轉化,形成兩個單分類。其次,通過BVM算法進行訓練向量迭代。最后,對球心進行求解,借助球心的垂直平分進行分類。
以上幾種方法均可運用于在線學習,但如果運用于增量學習,其存在幾方面的問題:第一,對所有的歷史數據進行考慮,缺少遺忘機制的設置;第二,如果大量增加樣本,在進行樣本保存時,計算具有較大的復雜性,易出現數據上的錯誤。針對以上問題,筆者將以遺忘機制為基礎,提出具有實際意義的增量學習FastKDE算法,即OFastKDE。
1)簡要分析OFastKDE算法
相較于之前的諸多算法,OFastKDE算法能較好的適應不斷增加的數據集,有利于克服龐大數據的計算問題。其主要原理如下:首先,利用FastKDE評估訓練樣本的規(guī)模,獲得有效樣本。其次,通過在線增量學習算法,借助SVM,剔除難以成為支持向量的樣本,縮減學習過程,提高效率,從而判斷入侵情況。其具體算法的步驟如下所示:
第一步:制定恰當的數據集[S=x1,...,xN∈Rd],標簽集[Yi=-1,+1,1≤i≤N],初始化下的[S+,S-]均為空。
第二步:利用FastKDE,對數據集S進行有效壓縮,得到[S0=x1,...,xm]。
第三步:代入[S0=x1,...,xm],通過SVM算法,達到解決QP的問題,獲得訓練集對應的超平面。
第四步:將新的訓練向量[Xq]映射至高維[?(Zq)]中,如果[?(Zq)]標簽為正,則可進行第六步或者第七步。
第五步:計算d,即[Xq]與超平面之間的距離,如果距離大于[1+ε],那么[S+=S+??(zq}]。
第六步:計算d,即[Xq]與超平面之間的距離,如果距離大于[1+ε],那么[S-=S-??(zq}]。
第七步:如果[S+,S-]的元素超過閾值,將淘汰[S0]中的非支持向量,再將[S+,S-]的元素移至[S0],保持[S+,S-]處于置空狀態(tài),然后轉向第三步。
2)時間復雜度的研究分析
在給定的數據集N中,利用抽樣獲得的m數據點,經過OFastKDE,借助時間復雜度解決QP及相關問題。值得注意的是,時間復雜度僅受m的影響,與N無關。如果m遠小于N,則OFastKDE會顯示出其強大的競爭力。
5 小結
本文以Android智能手機所收集的數據為依據,通過OFastKDE方法有效評估訓練樣本的規(guī)模,獲得較合理的樣本,縮減計算時間,降低復雜程度。在在線增量學習算法的基礎上,借助支持向量機在小數據處理方面的優(yōu)勢,剔除非支持向量的相關數據,實現學習過程過程的加速,對入侵情況進行有效檢測。從實驗得出的相關數據分析,OFastKDE具有較高的擴展性,具有良好的自我提升能力,有助于Android智能手機異常檢測功能的優(yōu)化,實現高效維護手機安全。同時在此實驗過程中,因數據采集受到模擬攻擊的種類影響,導致實驗結果存在偏差,因此,為更好的進行這方面的研究,需要相關企業(yè)公司加大對其的資金設備投入,為研究工作提供優(yōu)質環(huán)境,保障實驗結果的正確性,增加企業(yè)競爭力,從而促進企業(yè)發(fā)展,推動國家經濟發(fā)展。
參考文獻:
[1] 葛唯唯, 劉淵. 面向Android系統(tǒng)安全分析的在線學習算法研究[J]. 計算機應用研究, 2015(9).
[2] 張鋼, 謝曉珊, 黃英, 等. 面向大數據流的半監(jiān)督在線多核學習算法[J]. 智能系統(tǒng)學報, 2014(3).
[3] 李彬, 榮學文. 單隱層前向神經網絡在線學習算法綜述與性能分析[C]// 東北大學、IEEE新加坡工業(yè)電子分會、IEEE控制系統(tǒng)協會哈爾濱分會.第25屆中國控制與決策會議論文集. 東北大學、IEEE新加坡工業(yè)電子分會、IEEE控制系統(tǒng)協會哈爾濱分會, 2013.
[4] 王愛平, 萬國偉, 程志全, 等. 支持在線學習的增量式極端隨機森林分類器[J]. 軟件學報, 2011(9).
[5] 孫博良, 李國輝. 一種具有遺忘特性的在線學習算法框架[J]. 國防科技大學學報, 2014(4).
[6] 林金星, 沈炯, 李益國. 基于免疫原理的徑向基函數網絡在線學習算法及其在熱工過程大范圍工況建模中的應用[J]. 中國電機工程學報, 2006,26(9).
[7] 趙強利. 基于選擇性集成的在線機器學習關鍵技術研究[D]. 長沙: 國防科學技術大學, 2010.
[8] 李志杰, 李元香, 王峰, 等. 面向大數據分析的在線學習算法綜述[J]. 計算機研究與發(fā)展, 2015(8).