劉志軍 王寧
【摘 要】大數(shù)據(jù)時代的到來,電子數(shù)據(jù)取證對象由獨立物理實體轉(zhuǎn)換為云端應(yīng)用、虛擬主機、IOT等,其給電子數(shù)據(jù)取證帶來了極大的挑戰(zhàn)。文章首先闡述了電子數(shù)據(jù)取證的概念和歷史發(fā)展;然后分析了大數(shù)據(jù)環(huán)境下電子數(shù)據(jù)取證面臨的挑戰(zhàn),并結(jié)合大數(shù)據(jù)的特點以及電子數(shù)據(jù)取證特點,探討了大數(shù)據(jù)環(huán)境下開展電子數(shù)據(jù)取證技術(shù)研究的若干建議。
【關(guān)鍵字】大數(shù)據(jù);電子數(shù)據(jù);云計算;計算機取證
中圖分類號: D63 文獻標識碼: A 文章編號: 2095-2457(2019)36-0024-003
DOI:10.19694/j.cnki.issn2095-2457.2019.36.011
1 電子數(shù)據(jù)取證概述
從取證技術(shù)的發(fā)展來看,有計算機取證技術(shù)(ComputerForensic)、數(shù)字取證技術(shù)(Digital Forensics)、電子取證技術(shù)(Electric Forensics)、網(wǎng)絡(luò)取證技術(shù)(Network Forensics)、計算機網(wǎng)絡(luò)取證技術(shù)(Computer Network Forensics)、Internet取證技術(shù)(Internet Forensics)、云取證技術(shù)(Cloud Forensics)等術(shù)語,其定義的角度各不相同。
2013年修訂后的《刑事訴訟法》第48條首次將電子數(shù)據(jù)納入法定證據(jù),其后修訂的《民事訴訟法》、《行政訴訟法》也依次將電子數(shù)據(jù)作為獨立的證據(jù)形態(tài),于是電子數(shù)據(jù)取證就成了當前學術(shù)界和司法實務(wù)部門普遍接受和高頻使用的技術(shù)性名詞。何謂電子數(shù)據(jù)取證呢,通俗點講,電子數(shù)據(jù)取證可以看作是使用合法、合理、規(guī)范的技術(shù)或手段,從計算機或其他數(shù)字設(shè)備進行電子數(shù)據(jù)的獲取、保存、分析和出示。
電子數(shù)據(jù)取證成立于20世紀70年代,其發(fā)展階段可以分為:嬰兒期(1985-1995年),兒童期(1995-2005年),青春期(2005-2010年),新時期(2010—現(xiàn)在)。在嬰兒期階段,隨著個人電腦的普及和Internet網(wǎng)的出現(xiàn)帶來了大量的計算機犯罪,在此階段參與取證的人員缺乏比較系統(tǒng)的專業(yè)取證工具,多是自行開發(fā)取證工具并經(jīng)驗性地開展取證工作,取證目標主要是大型機、個人計算機、公司的數(shù)據(jù)記錄和計算機輔助欺詐。與此同時,針對參與取證的人所涉及的專業(yè)訓練較少等問題,諸如計算機調(diào)查專家國際協(xié)會(ICAIS)、國際計算機證據(jù)組織(IOCE)、美國國防計算機取證實驗室(DCFL)、計算機技術(shù)專家取證協(xié)會(FACT)、在英國警察協(xié)會(ACPO)主持下的取證計算組織(FCG)、高科技犯罪調(diào)查協(xié)會等機構(gòu)和組織相繼成立,為取證從業(yè)人員提供經(jīng)驗分享、職業(yè)技能培訓等[1]。
在兒童期階段,技術(shù)爆炸和internet網(wǎng)的普及應(yīng)用以及隨之而來的犯罪高速發(fā)展,取證目標從獨立的個人計算機擴大到網(wǎng)絡(luò)入侵、數(shù)據(jù)解密等專業(yè)化領(lǐng)域,電子數(shù)據(jù)取證也開始成為專業(yè)技術(shù)領(lǐng)域,取證工具出現(xiàn)了基于Windows界面取證工具,如Expert Witness、Encase、FTK、iLook、ACES等,基于Linux取證工具,如TSK、SMART、HELEX等,與此同時網(wǎng)絡(luò)取證技術(shù)研究和內(nèi)存取證的技術(shù)研究得到了發(fā)展。
在青春期,取證目標更加多樣化,取證的對象不僅包括文件系統(tǒng)、網(wǎng)絡(luò)、也包括手機、MP3、PDA、以及網(wǎng)絡(luò)社交系統(tǒng)、手機游戲平臺、電子郵件、商業(yè)業(yè)務(wù)記錄系統(tǒng)等。新時期階段,云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)等為代表的新一代技術(shù)擴大了取證對象。許多國家在立法上強調(diào)網(wǎng)絡(luò)隱私的保護,學術(shù)界也進行了積極的響應(yīng),如相關(guān)學術(shù)課程的不斷涌現(xiàn),關(guān)于電子數(shù)據(jù)取證技術(shù)研究的行業(yè)會議不斷舉辦等。
2 大數(shù)據(jù)環(huán)境對電子數(shù)據(jù)取證的挑戰(zhàn)
2.1 大數(shù)據(jù)環(huán)境下電子數(shù)據(jù)取證框架
圖1 大數(shù)據(jù)環(huán)境下的電子數(shù)據(jù)取證框架
根據(jù)數(shù)據(jù)處理領(lǐng)域和應(yīng)用場景的不同,大數(shù)據(jù)處理框架有傳統(tǒng)大數(shù)據(jù)架構(gòu)、流式架構(gòu)、Lambda架構(gòu)、Kappa架構(gòu)、Unifield架構(gòu)之分。從管理層次來看,大數(shù)據(jù)分為存儲層、處理層和應(yīng)用層,其中處理層是對存儲層的數(shù)據(jù)進行數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析和數(shù)據(jù)訪問,大數(shù)據(jù)系統(tǒng)可以看作是在現(xiàn)有主流操作系統(tǒng)環(huán)境內(nèi),與虛擬化技術(shù)相結(jié)合的一個數(shù)據(jù)處理集群,給不同用戶提供決策等支持服務(wù)的數(shù)據(jù)系統(tǒng)[2]。基于此,大數(shù)據(jù)環(huán)境下的電子數(shù)據(jù)取證可以分為應(yīng)用層取證、系統(tǒng)層取證和物理資源層取證,如圖1所示。
2.2 大數(shù)據(jù)環(huán)境下電子數(shù)據(jù)取證的挑戰(zhàn)
計算機、手機、如移動硬盤、U盤、存儲卡等移動存儲介質(zhì)一般都是傳統(tǒng)電子數(shù)據(jù)取證對象。在大數(shù)據(jù)環(huán)境下,電子數(shù)據(jù)取證對象包括云客戶端操作、云備份、大數(shù)據(jù)系統(tǒng)本身、客戶端虛擬主機、大數(shù)據(jù)宿主計算機等,取證對象和取證目標的變化也為電子數(shù)據(jù)取證帶來極大的挑戰(zhàn)。從圖1的大數(shù)據(jù)環(huán)境下電子數(shù)據(jù)取證層次框架看,大數(shù)據(jù)環(huán)境下電子數(shù)據(jù)取證面臨著許多挑戰(zhàn),包括但不限于:
2.2.1 應(yīng)用層取證中面臨取證對象的定位和提取難
大數(shù)據(jù)環(huán)境下,很多記錄著涉網(wǎng)的操作行為數(shù)據(jù)從終端設(shè)備向云端遷移,例如,涉案人員登陸云端并進行數(shù)據(jù)操作,或者將數(shù)據(jù)存儲在云端或者網(wǎng)盤中。大數(shù)據(jù)環(huán)境下,用戶使用互聯(lián)網(wǎng)載體習慣也在改變,例如,涉案人員將手機中的聊天信息、圖片等數(shù)據(jù)通過云存儲方式備份到網(wǎng)絡(luò)上等。在應(yīng)用層取證中,電子數(shù)據(jù)取證對象也轉(zhuǎn)換為基于大數(shù)據(jù)架構(gòu)的各種網(wǎng)盤、云存儲和云端操作系統(tǒng)等。
網(wǎng)盤技術(shù)、云存儲技術(shù)是基于虛擬化的,數(shù)據(jù)存儲于不同的數(shù)據(jù)中心,甚至跨司法管轄范圍,在應(yīng)用層取證中要定位數(shù)據(jù)和提取電子數(shù)據(jù)較為困難,電子數(shù)據(jù)取證調(diào)查人員一般需要云服務(wù)提供商協(xié)助,否則其難以定位到具體物理機器進行取證。在云環(huán)境下,由于用戶著共享云基礎(chǔ)設(shè)施或應(yīng)用,數(shù)據(jù)存在著混雜存儲狀況,分離用戶數(shù)據(jù)困難,在收集證據(jù)時可能會摻雜無關(guān)用戶的數(shù)據(jù),如何保障無關(guān)用戶數(shù)據(jù)的機密性,如何在電子數(shù)據(jù)提取中僅提取用于事件重構(gòu)的數(shù)據(jù)對于電子數(shù)據(jù)取證人員是一個挑戰(zhàn)。
2.2.2 系統(tǒng)層取證中面臨數(shù)據(jù)分析的困難
系統(tǒng)層取證的取證對象主要有系統(tǒng)訪問日志、大數(shù)據(jù)分布式文件系統(tǒng)等。日志是系統(tǒng)層取證中最重要的證據(jù)來源之一,但是云服務(wù)提供商提供的日志文件數(shù)據(jù)格式不同,也缺乏統(tǒng)一的日志文件數(shù)據(jù)格式規(guī)范。現(xiàn)有的日志通常也是多用戶數(shù)據(jù)混雜,包含大量與取證無關(guān)的冗余或敏感信息[3]。
大數(shù)據(jù)分布式文件系統(tǒng)中如一些DFS、 HDFS將分割后的塊文件以數(shù)據(jù)塊編號命名,僅從文件名是無法判斷文件的類型和歸屬關(guān)系,這就為電子數(shù)據(jù)取證人員追溯涉案人員與案件的分析判定帶來困擾。其次,結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)并存,有些云計算有著自身特有的數(shù)據(jù)格式;再次是數(shù)據(jù)體量大,電子數(shù)據(jù)取證的數(shù)據(jù)體量常達到10TB 甚至PB級別,對于傳統(tǒng)的電子數(shù)據(jù)取證分析而言,勢必成為不可能完成的任務(wù)。
2.2.3 物理資源層取證面臨取證對象多樣化
大數(shù)據(jù)時代,一方面隨著用戶使用互聯(lián)網(wǎng)載體習慣的改變,取證對象由計算機系統(tǒng)延伸到云端、智能手機、可穿戴設(shè)備等多終端設(shè)備。另一方面大數(shù)據(jù)、云計算、嵌入式技術(shù)以及傳感器技術(shù)的發(fā)展,IoT中如紅外感應(yīng)器、全球定位系統(tǒng)、射頻識別裝置等各種信息傳感設(shè)備,暗網(wǎng),智能汽車以及其他智能設(shè)備的種類和數(shù)量不斷增多,由于其含有豐富的電子數(shù)據(jù),也不斷出現(xiàn)新的取證需求。
現(xiàn)有的取證工具產(chǎn)品能較好地提取和分析宿主計算機上殘留的用戶session、cookie、下載歷史、瀏覽歷史、緩存數(shù)據(jù)等;也能較好地提取移動設(shè)備如手機中刪除的通信錄、短信、SIM卡信息、圖片、Webchat和QQ等聊天信息等;甚至提取和分析一些可穿戴電子設(shè)備中的電子數(shù)據(jù)。但是面對無所不在的各類物聯(lián)網(wǎng)傳感器,汽車、攝像頭、洗衣機、烤箱等在內(nèi)的智能設(shè)備時,現(xiàn)有的取證工具產(chǎn)品在提取和分析其電子數(shù)據(jù)顯得力不從心。其次,大數(shù)據(jù)環(huán)境中普遍使用虛擬化技術(shù)(VM),當用戶釋放VM后,VM 占用的空間將被收回,資源回收和再分配較為頻繁,這種虛擬化技術(shù)特性使得平臺或節(jié)點中的數(shù)據(jù)成為易失性數(shù)據(jù),現(xiàn)有的取證工具產(chǎn)品較難以提取與恢復(fù)這塊數(shù)據(jù)。
3 大數(shù)據(jù)環(huán)境下電子數(shù)據(jù)取證技術(shù)研究
DFRWS 組織根據(jù)取證過程將電子數(shù)據(jù)取證技術(shù)分成如下六大類:識別類(identification)、保存類(preservation)、收集類(collection)、檢查類(examination)、分析類(analysis)、呈堂類(presentation)。根據(jù)DFRWS提出的技術(shù)框架分類,電子數(shù)據(jù)取證涉及的具體取證技術(shù)有電子數(shù)據(jù)識別發(fā)現(xiàn)技術(shù)、電子數(shù)據(jù)提取收集技術(shù)、電子數(shù)據(jù)分析檢驗技術(shù)、電子數(shù)據(jù)呈堂技術(shù)[4]。結(jié)合大數(shù)據(jù)的特點以及電子數(shù)據(jù)取證過程中的技術(shù)分類,大數(shù)據(jù)環(huán)境下電子數(shù)據(jù)取證技術(shù)需要展開如下研究。
3.1 云取證模型的研究
云計算充分利用物理設(shè)施的彈性來處理快速增長的大數(shù)據(jù),云計算能為大數(shù)據(jù)提供存儲空間和訪問渠道[5-6],因此大數(shù)據(jù)必須以云作為基礎(chǔ)架構(gòu),云計算是大數(shù)據(jù)的基礎(chǔ)架構(gòu)平臺。由于各種云存儲、云端操作和云備份等中包含重要的潛在證據(jù)源,近年來關(guān)于云取證模型的研究也成為學術(shù)界探索的熱點?,F(xiàn)有的云取證模型研究集中在兩類:普適性解決方案和特定類型性解決方案[7]。普適性解決方案是分析電子數(shù)據(jù)取證各個階段在云環(huán)境中可能會遇到的問題,提出一個通用性、普適性的解決思路,而特定類型性解決方案是針對某個特定類型的云模型或云產(chǎn)品如OpenStack云計算平臺、Amazon s3,Drop box,Google Does,EverNote等提出一套具針對性的取證解決思路。
當前理論研究中存在著很多云取證模型,但是具有綜合性和整體性取證策略與實施方法的云取證模型仍然缺乏[8],不足以指導(dǎo)大數(shù)據(jù)應(yīng)用層取證中云環(huán)境下的取證工作。從電子數(shù)據(jù)識別發(fā)現(xiàn)技術(shù)的研究看,云取證模型的研究一是要解決電子數(shù)據(jù)的識別和定位問題,針對云環(huán)境的特點指導(dǎo)取證人員識別和定位電子數(shù)據(jù)所在虛擬機的物理位置,并研究可行的數(shù)據(jù)收集方法和數(shù)據(jù)分析方法,二是在云環(huán)境中針對存在著混雜存儲的用戶數(shù)據(jù),一方面從保護用戶的隱私角度,要研究如何判斷哪些電子數(shù)據(jù)是合法的,哪些用戶數(shù)據(jù)是不應(yīng)觸及的,另一方面也要保障電子數(shù)據(jù)的真實性和關(guān)聯(lián)性。
3.2 綜合性多樣性取證工具產(chǎn)品的研究
在大數(shù)據(jù)時代,人們交流方式多樣化,信息分享便捷化,數(shù)據(jù)已成為人類生產(chǎn)生活的重要基礎(chǔ)資源,計算機不再是生產(chǎn)數(shù)據(jù)的主力軍,大量的取證數(shù)據(jù)源將來自各類物聯(lián)網(wǎng)傳感器、汽車、攝像頭、洗衣機、烤箱等在內(nèi)的智能設(shè)備等。比如在皮膚上可以監(jiān)測運動時健康狀況的電子紋身,汽車的行駛數(shù)據(jù)、智慧城市傳感數(shù)據(jù)、家用電器操作指令、各類共享出行設(shè)備的信息記錄等,這些信息來源包括智能設(shè)備、控制智能設(shè)備的移動APP、智能設(shè)備與云端的通信信息。
大數(shù)據(jù)環(huán)境下電子數(shù)據(jù)的形式將更多樣化,非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)會越來越多,來源不同的非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)可能記錄著嫌疑人涉嫌犯罪的痕跡,這些異構(gòu)多源數(shù)據(jù)是相互關(guān)聯(lián)的,單獨分析每個來源數(shù)據(jù),是難以給案件偵查提供有效地辦案線索和證據(jù)來源,當前傳統(tǒng)單一型的電子數(shù)據(jù)單兵工具無法統(tǒng)一處理案件過程中各個階段異構(gòu)多源的電子數(shù)據(jù)取證要求。雖然目前可以采用分層思想開展電子數(shù)據(jù)取證,例如,整合傳統(tǒng)取證工具提取實時證據(jù),虛擬機電子數(shù)據(jù)采用自動化提取技術(shù),客戶端本地緩存數(shù)據(jù)提取等,但是由于云計算具有分布性和虛擬性等特性,傳統(tǒng)的基于單機的電子數(shù)據(jù)提取存在諸多局限,在落地實施方面普遍存在存儲開銷和性能負載過高、運維困難等問題[7]。因此,從電子數(shù)據(jù)提取收集技術(shù)角度看,針對無所不在的各類物聯(lián)網(wǎng)傳感器、智能設(shè)備,綜合性多樣性取證工具產(chǎn)品、基于大數(shù)據(jù)架構(gòu)取證平臺的研究是未來大數(shù)據(jù)環(huán)境下電子數(shù)據(jù)取證領(lǐng)域的一個研究重點。
3.3 電子數(shù)據(jù)分析檢驗技術(shù)研究
電子數(shù)據(jù)分析檢驗技術(shù)指的是在電子數(shù)據(jù)收集的基礎(chǔ)上,對所提取的電子數(shù)據(jù)結(jié)合案件進行合理解釋后所涉及的技術(shù),具體包括數(shù)據(jù)復(fù)制技術(shù)、數(shù)據(jù)恢復(fù)技術(shù)、關(guān)鍵字搜索技術(shù)等。
大數(shù)據(jù)環(huán)境下,面對巨大的數(shù)據(jù)量,在電子數(shù)據(jù)分析檢驗技術(shù)的研究中,一是在取證思路上要建立從“分析所有數(shù)據(jù)以確保不遺漏任何內(nèi)容”到更多地依賴于智能方法研究的轉(zhuǎn)變,二是要在數(shù)據(jù)源的分析、文件搜索等方面開展大數(shù)據(jù)智能取證檢索技術(shù)研究,研究和開發(fā)智能檢索引擎,滿足全面、準確、快速的取證檢索,三是要在事件重構(gòu)等方面,展開將雜亂無章的、分散的數(shù)據(jù)變成有條理的、集中的檔案化數(shù)據(jù)基礎(chǔ)上,強化大數(shù)據(jù)挖掘算法的研究,結(jié)合公安辦案工作實際需求,強化由案到人、由案到物、由案到案的案件串并等關(guān)聯(lián)模型的算法研究。
3.4 電子數(shù)據(jù)取證的可視化技術(shù)研究
由于銀行柜臺、網(wǎng)上銀行、手機銀行等各種交易系統(tǒng)中會留下犯罪的蛛絲馬跡,在偵查實踐中,通過核查這些數(shù)據(jù),可以展開以“資金流”引導(dǎo)“犯罪流”的偵查。例如,經(jīng)濟犯罪中的查賬分析在現(xiàn)階段可以通過順查和逆查分析賬表,采用抽查法開展數(shù)據(jù)抽樣分析,或者采用數(shù)據(jù)查詢方法、盤查法、統(tǒng)計分析等數(shù)據(jù)分析技術(shù),能夠得到大量可靠的線索和證據(jù)來源。在大數(shù)據(jù)環(huán)境下,這些賬戶的交易進出賬頻率、金額特征、資金流向等數(shù)據(jù)不僅數(shù)據(jù)量巨大,而且資金關(guān)系互相交織顯得異常復(fù)雜,依靠人工梳理根本不可能完成復(fù)雜的資金數(shù)據(jù)分析。
可視化是指把數(shù)據(jù)轉(zhuǎn)換成圖形,通過可視化圖形界面,幫助分析人員洞察出數(shù)據(jù)背后隱藏的潛在信息,數(shù)據(jù)可視化有助于海量復(fù)雜數(shù)據(jù)的分析[6]??梢暬梢蕴峁┤∽C人員對電子數(shù)據(jù)的直觀感受,取證人員通過交互式圖形界面,結(jié)合自身的取證背景知識,可以對收集和提取的電子數(shù)據(jù)進行不同方面的分析和理解,“洞察” 收集提取的電子數(shù)據(jù)其內(nèi)在因素的模式和關(guān)聯(lián),快速從中發(fā)現(xiàn)問題。另一方面,隨著《電子數(shù)據(jù)司法鑒定通用實施規(guī)范(SF/ZJD0400001)》、《公安機關(guān)鑒定規(guī)則》、《關(guān)于建立司法鑒定管理與使用銜接機制的意見》等相關(guān)規(guī)定和指導(dǎo)意見的出臺,電子數(shù)據(jù)鑒定人依法出庭將成為常態(tài),如何在法庭上將抽象的、異構(gòu)多源的電子數(shù)據(jù)以直觀可視的方式展示,如何讓電子數(shù)據(jù)分析結(jié)果成為有利的呈堂證供,電子數(shù)據(jù)取證的可視化技術(shù)研究可以解決此類問題。
4 結(jié)束語
電子數(shù)據(jù)取證技術(shù)支撐電子數(shù)據(jù)的識別,貫穿于整個電子數(shù)據(jù)取證過程中,電子數(shù)據(jù)取證技術(shù)之于整個電子數(shù)據(jù)取證工作的重要性不言而喻。大數(shù)據(jù)時代背景下,傳統(tǒng)的電子數(shù)據(jù)取證技術(shù)及其技術(shù)方法應(yīng)用在大數(shù)據(jù)環(huán)境下存在很大的局限性。在電子數(shù)據(jù)取證技術(shù)發(fā)展中,要充分利用大數(shù)據(jù)技術(shù)其帶來的發(fā)展優(yōu)勢,回避大數(shù)據(jù)技術(shù)帶來的風險,讓大數(shù)據(jù)變成活數(shù)據(jù)、有價值的數(shù)據(jù),成為案件偵查的線索來源和法庭采納的證據(jù),才能發(fā)揮出電子數(shù)據(jù)取證的最大實效。
【參考文獻】
[1]李毅.電子數(shù)據(jù)取證發(fā)展概況[J].中國信息安全,2019,(05):44-47.
[2]張其前,尤俊生,高云飛.大數(shù)據(jù)取證技術(shù)綜述[J].信息安全研究,2017,(9):795-802.
[3]高元照,李學娟,李炳龍,吳熙曦.云計算取證模型[J].網(wǎng)絡(luò)與信息安全學報,2017,(9):13-23.
[4]杜春鵬.電子證據(jù)取證和鑒定[M].中國政法大學出版社,2014年版,82-84.
[5]肖伊涵,石天唯.基于大數(shù)據(jù)環(huán)境下的電子數(shù)據(jù)審計機遇、挑戰(zhàn)與方法[J].納稅,2018,(02):194-195.
[6]陳偉.SMIELIAUSKAS Wally.大數(shù)據(jù)環(huán)境下的電子數(shù)據(jù)審計:機遇、挑戰(zhàn)與方法[J].計算機科學,2016(01):8-13.
[7]高運,伏曉,駱斌.云取證綜述[J].計算機應(yīng)用研究,2016,(1):1-6.
[8]丁麗萍,劉雪花.云環(huán)境下的電子數(shù)據(jù)取證技術(shù)研究[J].中國信息安全,2019,(05):59-60.