劉 棟,寧玉富
(1.山東青年政治學院,山東 濟南 250103;2.山東省高校信息安全與智能控制重點實驗室,山東 濟南 250103)
事件關聯(lián)在證據鏈構造中的研究
劉 棟1,2,寧玉富1,2
(1.山東青年政治學院,山東 濟南 250103;2.山東省高校信息安全與智能控制重點實驗室,山東 濟南 250103)
在電子取證工作中,往往忽略對電子證據信息的預處理,從而導致電子證據冗余較大,計算分析較復雜。為解決計算機取證中存在電子證據形式化表示的困難以及數(shù)據缺失的問題,在對事件關聯(lián)技術進行研究和深入分析的基礎上,利用貝葉斯網絡理論,提出一種基于事件關聯(lián)的證據鏈構造方法。該方法考慮事件之間的相互影響以及序列關系,分析缺失數(shù)據的因果關系,擬合完整證據鏈,實現(xiàn)了形式化表示電子證據,并降低了證據分析的數(shù)據冗余,從而有針對性地進行數(shù)據處理和證據分析,完善了取證體制。通過實驗結果分析得出,該方法實現(xiàn)了證據的形式化表示,減少了證據分析的數(shù)據量。
計算機取證;事件關聯(lián);貝葉斯網絡;證據鏈;電子證據
計算機取證是解決爭議和打擊計算機犯罪的重要手段,專門研究如何按照符合法律規(guī)范的方式收集、處理計算機犯罪證據,是實現(xiàn)信息安全保障的一個重要方面,在保持社會穩(wěn)定和維護法律秩序方面具有重要作用[1-2]。近年來,隨著計算機取證不斷在實用性和有效性方面的深入研究,在電子證據的獲取、分析、表示等方面取得了許多經驗和進展。文獻[3]用手工定義的入侵事件間概率相似度和極小匹配規(guī)則來構建入侵事件關聯(lián)專家系統(tǒng),但難以直接獲取所需知識;文獻[4]將前提和目的吻合的入侵事件關聯(lián)形成入侵者攻擊軌跡,但主觀性較強;文獻[5]提出了運用關聯(lián)算法分析事件間的關系;文獻[6]提出一種基于計劃的事件關聯(lián)模型,但分析數(shù)據量較大,未考慮數(shù)據缺失的情況。
文中在總結前人研究的基礎上,提出一種基于事件關聯(lián)的證據鏈構造方法,用于證據分析,便于形式化表示證據,完善了取證體制。
先前的證據分析大都是對事物間的統(tǒng)計關系的挖掘,未涉及底層因果結構以及電子證據間的相關性,而電子證據的表現(xiàn)方式多樣,獲取的證據不一定就是完整數(shù)據,對于證據的形式化出示一直存在困難[7-8]。為了支持司法分析,有必要進行證據鏈的挖掘與構造。證據鏈的構造具體為事件的關聯(lián)分析,其基本內容主要包括將每一子事件以時間序列重新定義,進而把不同的事件聯(lián)系起來,挖掘深層次、有價值的模式。事件關聯(lián)分析的目的是進行數(shù)據預處理,主要包括信息計數(shù)、數(shù)據濃縮、信息抑制和事件概括[9]。
在計算機取證領域,很多專家學者已經做了大量深入研究,文中從理論層面研究事件關聯(lián)分析在證據鏈構造中的應用。
定義1 事件[10](Event):是指在計算機系統(tǒng)中由某項活動產生的記錄。
定義2 原子事件(Atom Event,AE):描述用戶一次具體的請求(e),比如僅單擊某個按鈕。
2.1 事件的關聯(lián)分析
對于事件之間的關系,文中列出了事件之間常見的關聯(lián)關系類型,具體如下:
(1)壓縮(compression):去除冗余的過程,計算多個事件的關聯(lián)度,將多事件歸納為單事件,形式為:[e,e,e,…]e。
(2)過濾(filtering):假定源事件集e的屬性諸多M(e)不屬于目的事件集,則過濾掉源事件集e中的該類事件,形式為:[e,M(e)?H]φ。
(3)壓制(suppression):將事件進行優(yōu)先級排列,形式為:[e,E]E。
(4)計數(shù)(count):重復事件的計數(shù)歸納過程,盡可能減少重復計算,形式為:[n×e]E。
(5)時序關系(temporalrelation):根據依賴函數(shù),計算事件之間的時間序列模式,形式為:[|e1-e2| 2.2 證據鏈構造方法 根據協(xié)同取證的原理,構造證據事件的序列模式關鍵在于子事件內部序參量之間的協(xié)同作用[11]。證據事件關聯(lián)系統(tǒng)可以定義為一種自組織結構,在有賴于事件之間的關聯(lián)作用的有序組織中相繼發(fā)生的事件之間通過相互作用形成,事件關聯(lián)度用來描述事件之間相互關聯(lián)相互影響的程度。 (1)作用函數(shù)。 αij,βij是系統(tǒng)穩(wěn)定臨界點上序參量的上、下限值。對原子事件有序的作用系數(shù)uij可表示為: (1) 式(1)中反映了各指標達到目標的滿意程度,Xij對證據鏈構成的貢獻作用由uij表示,uij的取值范圍為[0,1],uij趨于1為最滿意,趨于0為最不滿意。 構成證據鏈上的原子事件間存在先發(fā)事件的輸出要素與后發(fā)事件的輸入要素之間的因果關系。后發(fā)事件的輸入要素與先發(fā)事件的輸出要素構成了證據鏈的序數(shù)參量,設為U1、U2,一般采用集成方法來計算各個序參量有序程度的總貢獻度。具體方法為: (2) 其中,UA(Ui)為某個原子事件對事件證據鏈系統(tǒng)的總序參量;λj為影響因素指標的權重。 (2)關聯(lián)度函數(shù)。 原子事件相互作用的關聯(lián)度模型可以表示為: (3) 其中,C表示事件之間的關聯(lián)度;i表示事件個數(shù);UA(Ui)表示對證據鏈系統(tǒng)有序的作用貢獻大小。 當C趨于1,事件關聯(lián)程度最大,即若干原子事件的演化將會對證據鏈產生完全的影響;當C=0時,表示事件之間無任何關聯(lián)性。在計算過程中,設定一個關聯(lián)度的臨界值α,若C>α,表示后發(fā)事件的輸入可以由先發(fā)事件的輸出表示,即后發(fā)事件的發(fā)生由先發(fā)事件引起,否則事件間不存在鏈式作用關系。 設集合E={e1,e2…ei…en},通過計算事件關聯(lián)度,可以構建一條以初始原子事件為鏈源的證據鏈,具體過程為: 設初始原子事件為ei(ei∈E),以ei為先發(fā)事件,E中的其他事件為后發(fā)事件,計算ei與其他事件的關聯(lián)度Cij(1≤j≤n)。當Cij>α時,則說明ei與ej之間的關聯(lián)度較高,它們之間存在著潛在的鏈式關系。令ei存在潛在的鏈式關系的后繼事件集合由Eil={ei1,ei2…eii…ein}表示。接著按照同樣的方法,對集合Eil1,Eil2,…,Eili,…,Eiln進行操作。其中Eili表示與集合Eil中的事件eii具有鏈式關系的事件集合。以上過程持續(xù)直到在集合E中不再找到與后繼事件集合中的事件具有鏈式關系的原子事件為止。最后,從初始事件ei開始,合并所有的后繼原子事件集合Eil,Eili,Eilii,…,可以得到最后的目標證據鏈EL={E,P}。其中E={e1,e2,…,ei,…,em|1≤m≤n}為原子事件集合;P={(ei,ej)|ei,ej∈E}為E中各種原子事件的鏈式關系集合。 2.3 證據鏈的形式化表示 用函數(shù)begin(p)表示初始路徑,用end(p)表示路徑尾,基本的狀態(tài)轉換路徑表示為Pφ。設有兩條路徑: px=(sx1,ex1,sx2,ex2,…,sxm,exm) py=(sy1,ey1,sy2,ey2,…,syn,eyn) 如果end(px)=begin(py),如sym=sy1,則兩條路徑可以連接為一條路徑p。即: p=px?py=(sx1,ex1,sx2,ex2,…,sxm,exm,sy1,ey1,sy2,ey2,…,syn,eyn) (3) 其中,符號“?”表示連接操作。 p=σ(px,py)= (5) 對應路徑集合連接運算為: P=φ(P1,P2)={σ(p1,p2)|p1∈P1,p2∈P2,end(p1)=begin(p2)} (6) 在取證研究中,獲取的證據源數(shù)據并不都是完整的,存在犯罪人員將數(shù)據擦除或者篡改的危險,造成數(shù)據缺失,為此需要將缺失數(shù)據進行完整擬合。貝葉斯網絡[12]可以自然地表示因果信息,是一種表示變量集合的連接概率分布的圖形模型,在處理帶有噪聲和不完整數(shù)據集方面具有優(yōu)勢。該模型采用概率測度的權重來描述數(shù)據間的相關性。文中將缺失數(shù)據作為網絡節(jié)點,數(shù)據間的因果關系采用有向圖表示,進而構建貝葉斯網絡結構。 3.1 貝葉斯網絡 貝葉斯網絡描述由兩部分組成: (1)有向無環(huán)圖(DAG),其中每一個節(jié)點代表一個數(shù)據變量Xi,Pai為Xi的父節(jié)點的集合。 (2)條件概率表(CPT),表中的每一元素為數(shù)據變量Xi,條件概率密度為p(XiPai,θ)。 這兩部分確定了貝葉斯網絡,節(jié)點變量可以是對任何問題的抽象,文中節(jié)點變量主要指與原子事件發(fā)生、發(fā)展相關的各種因素。 3.2 證據鏈缺失數(shù)據的分析處理 基于貝葉斯統(tǒng)計的缺失證據參數(shù)學習[13]的基本思想是:對于一個隨機變量λ,服從先驗分布P(λ),該分布表示學習前關于參數(shù)λ的先驗信息。假設P(λ)是一個均勻分布。參數(shù)λ的信息隨著在實例數(shù)據集合M上的學習而發(fā)生變化。一般參數(shù)的估計值采用最大后驗分布。采用式(7)計算參數(shù)的估計值為: (7) 其中,αk代表先驗知識(專家證據集[9]),特殊情況下,假設變量取各個值的概率都相等,即αi=1,一般采用等價抽樣規(guī)模法進行估計。 原子事件的貝葉斯網絡擬合:令G={N,E,P}為原子事件貝葉斯網絡,如圖1所示。 圖1 原子事件貝葉斯網絡結構 其中,N=Z∪S∪O,(N,E)表示網絡結構,其作用是描述變量之間的因果關系,用條件概率表示變量之間的影響程度,根據歷史數(shù)據或通過專家知識直接指定得到變量的條件概率。得到其他節(jié)點的條件概率和根節(jié)點的先驗概率,就可以得到所有變量的聯(lián)合概率分布,如式(8): p(ei,si,sj,zj,se,ak,oj)=p(ei)p(sj|ei)p(sj,zj| ak)p(sj|si)p(zj|si)p(se|si,zj)p(oj| si)p(oj|zj) (8) 通過式(8)可以得到網絡中各節(jié)點的邊緣概率,確定先驗網絡。假設獲取的部分信息為E,利用此數(shù)據更新網絡中其他節(jié)點的概率,實現(xiàn)對證據事件后果的預測和關鍵狀態(tài),由貝葉斯公式計算如下: 令e∈E為證據信息,則: (9) 當網絡節(jié)點過多時,為了降低計算復雜度,可以采用聯(lián)合樹推理算法[14]進行求解。 對缺失證據事件的修補,為取證提供完整證據鏈,以滿足電子證據的分析需求。而缺失的原子事件又是離散的,因此,可以構造一種用于多個離散變量的貝葉斯網絡。 以一次關聯(lián)實驗為例,測試該方法構造證據鏈關聯(lián)事件的性能。測試環(huán)境為實驗室內局域網(25臺主機,1臺服務器),操作系統(tǒng)為WindowsXP。數(shù)據采集了2 500個事件,測試中時間閾值(即在某一時間段內進行關聯(lián)分析)分別為20min,40min,60min。實驗中關聯(lián)度臨界值α設為0.7。測試結果如圖2所示。 圖2 證據鏈關聯(lián)結果 從測試結果中得出,時間閾值較小時,由于獲取的前后知識不充分,錯誤率較大,隨著閾值的增大,錯誤率明顯下降。當數(shù)據缺失較嚴重時,錯誤率增加不明顯,說明該方法對于缺失數(shù)據的擬合補充效果較為明顯。但是當時間閾值較小,如20min時,錯誤率卻較高,說明此時對于因果關系的分析還不充分,仍需要進一步的自學習。 經過證據鏈中的事件關聯(lián)分析后,減少了無用知識與冗余事件,證據分析的數(shù)據量減少了許多,見表1,使得取證分析更有針對性。 表1 事件數(shù)量比較 文中引入關聯(lián)度的概念描述證據事件間的相互影響程度,提出一種基于事件關聯(lián)的證據鏈構造方法,綜合不同的證據事件源進行相關性分析,去除冗余事件,最終構成證據鏈,有效地實現(xiàn)了電子證據的形式化表示,減少了證據分析的數(shù)據量。運用貝葉斯網絡推理算法分析缺失數(shù)據與現(xiàn)有數(shù)據之間的因果關系,即使在部分事件失序和數(shù)據缺失情況下,算法也可推理犯罪入侵的發(fā)生過程,擬合證據鏈,保證了數(shù)據的完整性。形成證據鏈后,不僅能有效驗證證據的原始性,而且能防止對證據記錄的破壞,最大程度地保護證據,滿足了電子取證的事件連續(xù)性的原則。但是隨著網絡取證的數(shù)據量的增大,特別是云計算技術的發(fā)展,給電子取證技術帶來了挑戰(zhàn),比如構造海量數(shù)據的證據鏈,海量信息的證據事件處理,以及多維證據的分析等,這將是下一步研究的方向。 [1]HanJ,KamberM,PeiJ.Dataminingconceptsandtechniques[M].3nded.Beijing:ChinaMachinePress,2012:288-293. [2]DingLP,WangYJ.Studyonrelevantlawandtechnologyissuesaboutcomputerforensics[J].JournalofSoftware,2005,16(2):260-275. [3]EtzionO,NiblettP.Eventprocessinginaction[M].[s.l.]:ManningPublicationsCo.,2010. [4]NingPeng,CuiYun,ReevesDS.Analyzingintensiveintrusionalertsviacorrelation[C]//RAID2002.Zurich,Switzerland:[s.n.],2002. [5]KochGG,KoldehofeB,RothermelK.Cordies:expressiveeventcorrelationindistributedsystems[C]//ProceedingsofthefourthACMinternationalconferenceondistributedevent-basedsystems.[s.l.]:ACM,2010:26-37. [6]AcamporaG.Exploitingtimedautomatabasedfuzzycontrollersfordesigningadaptiveintrusiondetectionsystems[J].SoftComputing,2012,16(7):1183-1196. [7]TiffanyM.Asurveyofeventcorrelationtechniquesandrelated topics[EB/OL].2003.http://www.tiffman.net/netman/netman.pdf. [8]JakobsonG,WeissmanM.Real-timetelecommunicationnetworkmanagement:extendingeventcorrelationwithtemporalconstraints[C]//Proceedingsofthefourthsymposiumonintegratednetworkmanagement.SantaBarbara,California,USA:Chapman&Hall,1995:290-301. [9]NarayananK,BoseSK,RaoS.Towards’integratedmonitoringandmanagementofDataCentersusingcomplexeventprocessingtechniques[C]//ProceedingsofthefourthannualACMconference.Bangalore:ACM,2011. [10]LuckhamD.Thepowerofevents:anintroductiontocomplexeventprocessingindistributedenterprisesystems[M].[s.l.]:Addison-Wesley,2002. [11] 張有東,曾慶凱,王建東.網絡協(xié)同取證計算研究[J].計算機學報,2010,33(3):504-513. [12]PearlJ.Probabilisticreasoninginintelligentsystems:networksofplausibleinference[M].SanMateo,CA:MorganKaufmanPublishers,1988. [13]ChengJ,RussellG,KellyJ.LearningBayesiannetworksfromdata:aninformation-theorybasedapproach[J].ArtificialIntelligence,2002,137(1-2):43-90. [14]GuiHX.Researchoftheintrusiondetectionsystembasedondatamining[C]//Proceedingsoftheinternationalconferenceone-educationentertainmentande-management.[s.l.]:[s.n.],2011:190-192. Research on Event Correlation in Construction of Evidence Chain LIU Dong1,2,NING Yu-fu1,2 (1.Shandong Youth University of Political Science,Jinan 250103,China;2.Key Laboratory of Information Security and Intelligent Control of Shandong Universities,Jinan 250103,China) The electronic evidence data preprocessing is easily neglected in electronic forensics work,leading to heavy redundancy for electronic evidence and complex calculation.Since the electronic evidence is difficult to represent formalized,and there exist missing data.A method for constructing electronic evidence chain is proposed on the basis of the study and analysis of event correlation and Bayesian network.Considering the interaction between evidence events and sequence relationship,it can be analysis of causal relationship of the events to deal with the missing data.It realizes the electronic evidence represented and reduces the data redundancy of evidence analysis,thus consummating the evidence collection system and making the data process and evidence analysis be more target-oriented.The experimental results show that the method realizes the representation of evidence and reduces the computation. computer forensics;event correlation;Bayesian network;evidence chain;electronic evidence 2016-02-14 2016-05-19 時間:2016-11-21 國家自然科學基金資助項目(60873247) 劉 棟(1987-),男,碩士研究生,助理實驗師,研究方向為數(shù)據挖掘;寧玉富,教授,博士,碩士生導師,研究方向為不確定理論。 http://www.cnki.net/kcms/detail/61.1450.TP.20161121.1641.034.html TP391 A 1673-629X(2016)12-0107-04 10.3969/j.issn.1673-629X.2016.12.0243 擬合缺失數(shù)據
4 測試結果與分析
5 結束語