国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向Hadoop的大數據取證研究

2020-05-15 09:22周國民劉昱成陳光宣陳光笑
關鍵詞:證據解決方案模型

周國民, 劉昱成, 陳光宣, 吳 荻, 陳光笑, 張 雷

(1.浙江警察學院, 浙江杭州 310053; 2.中國人民公安大學公安政治工作與管理學院, 北京 100038;3.杭州市人民檢察院, 浙江杭州 310008; 4.溫州市公安局, 浙江溫州 325000;5.國防大學聯合勤務學院, 北京 100858)

0 引言

電子數據取證從誕生到廣泛運用,一直是執(zhí)法部門、律師、企業(yè)調查人員、學者以及專業(yè)取證人員的一個重要課題。在過去的二十多年里,電子數據取證在各類案件的調查中發(fā)揮了重要的作用,尤其在一些大案要案中,電子數據證據經常是案件調查的關鍵因素。從刑事案件、民事案件以及各類組織發(fā)起的內部調查,電子數據取證使得數據變成證據,且往往是最重要的證據,從而解決了許多不同類型的案件。在法庭科學領域,專注于大數據解決方案的取證,稱為大數據取證[1]。大數據解決方案中的數據系統(tǒng)在規(guī)模上、存儲方式上與傳統(tǒng)的架構截然不同,從而也使得傳統(tǒng)的電子數據取證手段在實踐過程中受到了很大的限制。電子數據取證領域已經從處理臺式計算機和服務器擴展到包括平板電腦、移動設備、汽車、大規(guī)模數據系統(tǒng)等各式各樣的電子設備和系統(tǒng)。

近年來,隨著大數據解決方案(如Hadoop)的廣泛運用,部署大數據解決方案的政府部門、組織、企業(yè)等的數量與日俱增,這些系統(tǒng)存儲了海量的數據,其中包含了很多不同類型案件的關鍵證據信息,調查取證人員需要懂得如何處理這些復雜的解決方案帶來的新的電子數據取證問題,以及需要采用一些新的取證手段去獲取有效的證據信息。Hadoop是目前最流行的大數據解決方案之一,其高擴容能力、高可靠性、高效率、低成本、成熟的生態(tài)圈等優(yōu)點使其廣受用戶歡迎。然而,其分布式架構、海量數據存儲能力、內存數據存儲等特點也給針對Hadoop的電子數據取證帶來了巨大的挑戰(zhàn)。因此,取證調查人員亟需學會運用新技術、新工具、新軟件等去采集、保存和分析電子數據證據,從而跟上信息大爆炸的時代步伐。

1 電子數據取證概述

1.1 電子數據證據

當前,在證據信息化的趨勢下,電子數據證據作為一種新形態(tài)證據越來越多地出現在各國的司法實踐中,在各類刑事案件、民事案件、行政案件、內部審計、網絡對抗、商業(yè)間諜調查、反欺詐調查等中發(fā)揮了舉足輕重的作用。2012~2014年,我國的民事訴訟法、刑事訴訟法、行政訴訟法將電子數據證據正式作為獨立的訴訟證據之一。最高法、最高檢、公安部、司法部等正式認可電子數據證據[2]。

電子數據證據來源于多種形式的數據,如各類文檔、圖片、電子郵件、數據庫、文件系統(tǒng)、智能手機數據等,可以是文件、記錄和其他邏輯數據容器中包含的信息。當然,電子數據證據也包括相關的元數據(metadata)。元數據,又稱中介數據、中繼數據,為描述數據的數據,主要是描述數據屬性的信息,用來支持如指示存儲位置、歷史數據、資源查找、文件記錄等功能[3-5]。元數據包含關于文件系統(tǒng)、內容管理系統(tǒng)或其他容器存儲的數據的任何信息,它對建立數據生命周期信息(如作者和最后修改日期)非常有用。元數據可以與具體數據結合起來,形成關于該數據的“誰,什么,為什么,何時,何地以及如何”的完整信息表。證據信息還可以從已刪除文件、文件片段以及內存中數據中提取。

1.2 電子數據取證

電子數據取證以證據為中心,證據是事實的證明。在法庭上,可以通過證據來證明或者反駁某項訴求。證據有很多類型,如我國《刑事訴訟法》第四十八條規(guī)定:可以用于證明案件事實的材料,都是證據,如物證,書證,證人證言,被害人陳述,犯罪嫌疑人、被告人供述和辯解,鑒定意見,勘驗、檢查、辨認、偵查實驗等筆錄,視聽資料、電子數據等。從廣義上講,電子數據證據是數據的信息內容,完全可以在法庭上展示。

在法庭科學領域,電子數據取證是涉及電子數據證據的識別、收集、分析和呈現的全過程[1],其目標包括:

(1)正確地找到所有相關數據;

(2)以合理的方式收集數據;

(3)生成能準確描述事件的分析報告;

(4)清楚地展示調查取證結果。

電子數據取證屬于技術性領域,實踐過程中需要深入理解和掌握各類工具和技術的使用?;诜ㄍタ茖W的范疇,電子數據取證也可能涉及法律方面的考慮,如證據破壞、如何在法庭上提供證據等問題。

為了使證據能夠被法院或他人接受,必須首先對數據進行正確識別、收集、保存、記錄、處理和分析。盡管證據本身是最重要的,但正確識別、收集和分析數據的過程對于證明數據沒有以任何方式被改變也至關重要,該過程應遵循法定標準并以技術標準為后盾。分析和展示過程還必須遵守證據可采納性和可理解性的最佳實踐。最后,必須維護整個過程的文檔,并可以將其按需呈現出來,以清楚地演示所執(zhí)行的所有步驟:從識別到收集,再到分析。

1.3 取證流程

電子數據取證過程涉及4個階段:識別、收集、分析和展示。 每個階段都按順序執(zhí)行。 出于以下原因,取證過程可能是迭代的[1]:

需要其他數據源;

需要執(zhí)行其他分析;

需要識別階段的更深入的文檔;

根據需要的其他情況。

圖1顯示了一個基本的電子數據取證過程。

圖1 一個基本的電子數據取證流程

1.4 取證模型概述

電子數據取證領域發(fā)展至今,國內外涌現出了幾十種取證模型,其中法庭科學領域較為常用的就有20余種[7-10],如表1所示。

這些取證模型大致可以分為線性取證模型、考慮空間轉換的取證模型和考慮犯罪模式的取證模型3類。線性取證模型最初只有4個階段,且各個階段都比較簡單。隨著現場調查過程和抽象過程的發(fā)展,線性取證模型也擴充細化為線性相連、彼此承接的9個階段。但是在實踐過程中,線性工作模式看似嚴謹,但是過于理想化。考慮空間轉換的取證模型在改進線性模型太理想化的基礎上,更加突出符合偵查實踐的需求,如集成的數字取證模型中引入了Locard交換定理來指導偵查取證實踐活動??紤]犯罪行為模式的取證模型則更加充分考慮數字犯罪的行為模式,主要包括基于目標的分層取證模型、基于需求的數字取證模型和多維取證模型等,各自具備不同的特點,但又有共性的特征,即取證過程更加規(guī)劃化,更貼近司法取證過程實踐[7]。這些取證模型在實踐中能規(guī)范取證行為,同時為取證過程的實施提供了程序性指引。隨著信息技術的飛速發(fā)展,這些取證模型也面臨著巨大的挑戰(zhàn),在實踐過程中會逐步演化或者淘汰,尤其是在大數據時代,需要適應大數據取證的方法、技術和模型。

表1 常見取證模型

2 大數據取證

2.1 大數據架構概述

不同大數據解決方案的架構差別很大,但是絕大部分都共享幾個核心理念。從大量數據源收集的數據接入到大數據解決方案中,這些方案能夠處理各種類型和格式的數據,并將它們存儲在一起。數據在被接入存儲系統(tǒng)之前,首先會進行轉換和清洗。對于海量數據來說,分布式存儲極其關鍵。因為沒有一個設備能夠存儲所有的數據,或者能夠保證設備或其上的一塊硬盤不出現故障。同樣,對有實時性需求的大規(guī)模數據集分析計算來說,分布式計算也至關重要。通常,大數據解決方案會執(zhí)行一個master/worker機制,如MapReduce。這里,一個master計算系統(tǒng)分配各個計算任務給worker計算系統(tǒng)。而master系統(tǒng)協調和管理各個計算任務并確保worker計算系統(tǒng)能夠正常完成任務[11]。圖2展示了一個典型的大數據架構。

圖2 典型的大數據架構

大數據通常包含結構化、半結構化以及非結構化的數據,其解決方案需要能夠跨多種類型的文件執(zhí)行分析計算。大數據解決方案可以運用關系式數據庫和非關系式數據庫系統(tǒng)。大數據解決方案的另外兩個重要概念是文本分析和機器學習。文本分析主要是對非結構化的文本數據集進行分析。隨著社交媒體內容和電子郵件等的激增,這一領域的愈發(fā)顯得重要。通過設計各種算法,針對文本數據可以進行客戶情緒分析、買方行為預測分析、安全監(jiān)控和經濟指標分析等。文本分析很大程度上是通過機器學習來實現的。機器學習是一門多領域交叉學科,涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度理論等多門學科[12-13]。

2.2 面向大數據的取證

大數據解決方案的出現徹底改變了電子數據取證的要求。傳統(tǒng)的電子數據取證的核心步驟包括從包含潛在證據源的計算機中移除硬盤驅動器等存儲設備,計算MD5/SHA- 1校驗、為獲取所有元數據而進行物理收集等[1]。然而,現實中的大數據系統(tǒng)大大限制了取證人員運用傳統(tǒng)的技術在其上面開展取證實踐。

任何類型的法庭科學調查活動的一個重要目標就是盡可能地可靠地收集相關的證據。電子數據取證調查中的證據指的就是存儲在系統(tǒng)中的與案件相關的各種數據。這些數據可能是文件、元數據、已刪除文件、內存數據、硬盤閑置空間等的內容。電子數據取證技術旨在獲取這些數據里的所有相關信息。在某些情況下,尤其是當認為潛在的證據被刪除時,則應該運用物理收集的方式把整個文件系統(tǒng)里的每一個位都提取出來。在其他一些情況下,只有源文件系統(tǒng)的信息內容或者應用系統(tǒng)的內容才有價值。比如,當只有結構化數據系統(tǒng)(如傳統(tǒng)的數據庫)包含潛在證據,且元數據、硬盤閑置空間與收集目標不相關時。兩種收集方法都很重要,都要考慮所需的證據內容和類型以及實際的取證環(huán)境等因素。

大數據取證是對大數據系統(tǒng)中的電子數據證據的識別、收集、分析和展示,其目標是盡可能地從大數據部署分案中的分布式系統(tǒng)、大規(guī)模數據數據庫以及相關的應用程序里收集數據。大數據取證與傳統(tǒng)取證有很多相似之處,但是對其差異性的理解更加重要。

2.2.1 元數據保存

元數據,也稱描述數據的數據,主要是描述文件、數據容器、應用程序數據等數據的屬性信息,用來支持如指示存儲位置、歷史數據、資源查找、文件記錄等功能。當涉及文件是如何創(chuàng)建、修改和刪除等問題時,元數據能提供一些非常有價值的信息,如誰修改了文件、何時修改了文件、哪個系統(tǒng)或者應用程序產生了這些文件等。在分析某個文件的生命周期時,尤其是在電子數據調查分析過程中,這些信息至關重要。

當然,在大數據調查分析中,元數據并不總是至關重要。當數據涌入以及通過大數據系統(tǒng)時,元數據經常會被改變或者丟失。數據接入與饋送引擎在接入數據時而不保留元數據。因此,將無法通過元數據去上游數據源分析誰創(chuàng)建了數據、最后修改的時間等信息。在這種情況下,調查取證的數據采集操作就無法達到目的。此時,可以嘗試收集一些上游信息(如數據是如何接收的細節(jié)信息)作為參考。

對大數據系統(tǒng)的調查分析可以取決于數據中的信息,而非元數據。與結構化數據系統(tǒng)一樣,當電子數據調查完全基于數據內容時,數據內容本身就能回答定量和定性的問題。只要數據收集過程合理且不存在誰在大數據系統(tǒng)中導入或者更改了數據等問題,元數據對調查分析就不起作用,系統(tǒng)內的數據是唯一的信息來源。

2.2.2 收集方法與完整性驗證

大數據系統(tǒng)是具有業(yè)務需求的大型復雜系統(tǒng),通常都是實時運作以保障各項業(yè)務的正常開展,因此不大可能進行脫機取證。在傳統(tǒng)的電子數據取證中,一般都可以對計算機系統(tǒng)進行脫機數據采集,硬盤驅動器被卸下來進行源數據備份。在大數據調查中,可能會涉及到系統(tǒng)中成千上萬塊硬盤驅動器,而且當系統(tǒng)關機時,數據也可能會丟失。此外,由于業(yè)務需求,系統(tǒng)可能需要一直保持開機在線狀態(tài)。大數據電子數據采集需要有針對性的合乎邏輯的方法,如邏輯文件取證備份、基于查詢的收集等。

傳統(tǒng)的電子數據取證通常依賴MD5和SHA- 1來驗證所收集數據的完整性。但是,運用散列算法來驗證所收集的大數據電子數據集不總是奏效[1]。在收集和驗證源證據的完整性過程中,運用MD5或者SHA- 1來計算數據集的散列值花費了絕大部分時間。當數據集大到TB級以上時,MD5和SHA- 1并不一定奏效??梢酝ㄟ^收集日志以及其他描述性信息來輔助驗證和固定。

3 Hadoop取證

3.1 Hadoop簡介

作為Apache基金會框架解決方案,Hadoop是目前使用最廣泛的大數據平臺之一, 無數次作為大數據解決方案在企業(yè)系統(tǒng)中開發(fā)和測試過。Hadoop實際上是大數據的代名詞,已經成為行業(yè)中事實上的標準,它能為取證提供多樣化的應用和數據源生態(tài)系統(tǒng)[14]。了解Hadoop的工作方式以及如何在Hadoop上進行電子數據取證,能使取證人員和研究人員可以將相同的理解應用于其他大數據解決方案,如PyTables等[15]。

進行Hadoop大數據取證調查首先需要了解Hadoop的內部體系結構。正如了解NTFS、FAT32文件系統(tǒng)的工作方式對于在Windows中執(zhí)行取證至關重要一樣,了解Hadoop解決方案中的各層架構對于正確地識別,收集和分析Hadoop中的證據至關重要。 此外,Hadoop自身也一直在迅速演化(如定期添加和更新軟件包),對Hadoop的體系結構及其功能有基礎的認識,將使取證人員和研究人員有能力對不斷發(fā)展的Hadoop進行取證。

3.2 Hadoop架構

Hadoop是一個可靠的系統(tǒng),具有豐富的大數據分層解決方案和工具生態(tài)系統(tǒng)。它基于分布式存儲和計算的概念而建立,是一個基于Java的跨平臺解決方案。由于Java語言的與平臺無關性特點,Hadoop可以運行在各種不同的操作系統(tǒng)上(如Linux和Windows等)。Hadoop本身是位于主機操作系統(tǒng)之上的一層,其核心功能內置于Java中,可以作為單獨的進程運行[1]。Hadoop作為自身的抽象平臺層,擁有自己的文件系統(tǒng)和一組核心功能,幾乎可以獨立于主機操作系統(tǒng)進行訪問和運行。圖3展示了一個典型的Hadoop分層架構。

圖3 典型的Hadoop分層架構

Hadoop分層是各種組件的組織方式以及與組件之間關系的抽象。以下是各個Hadoop層。

操作系統(tǒng)層:第一層是主機上的操作系統(tǒng),Hadoop安裝并運行在操作系統(tǒng)之上(如Windows或Linux)。

Hadoop層:這是Hadoop的基礎安裝層,包括HDFS文件系統(tǒng)和MapReduce組件。

DBMS層:在Hadoop之上,安裝了各種Hadoop DBMS和相關應用程序。通常,Hadoop安裝包括數據倉庫或數據庫包,如Hive或HBase。

應用程序層:最頂層是應用程序層,其中包括一些數據管理、數據分析和其他功能的工具。某些工具(如Pig)可以直接與操作系統(tǒng)和Hadoop層進行交互,其他工具僅能與數據庫層或其他應用程序層工具交互。

3.3 Hadoop取證生態(tài)系統(tǒng)

法庭上是講證據的,對于電子調查而言,證據就是數據。對于Hadoop,證據就是存儲在磁盤和內存中的信息,并非所有存儲在Hadoop中的信息都是相關的,這取決于調查的性質。與某項調查相關的證據可能與另一項調查不相關。 這里,總結了各種證據來源和Hadoop電子數據取證生態(tài)系統(tǒng)。

標準Hadoop進程或系統(tǒng)生成的診斷信息不一定與電子數據調查有關。如安裝的非自定義的Hadoop群集,該群集僅存儲和分析Web日志數據,可能不需要所有文件和過程數據的集合。實際上,可以在某些情況下有針對性地收集Web日志數據和配置文件。

Hadoop中的電子數據證據主要分為3類。

支持信息:這是有助于識別電子數據證據或者提供有關Hadoop集群的操作或配置信息的上下文數據。

記錄證據:這是在Hadoop中分析的任何數據,如HBase數據,MapReduce作業(yè)的文本文件,Pig輸出等。

用戶和應用程序證據:包括日志和配置文件,分析腳本,MapReduce邏輯數據,元數據以及對數據起作用的其他形式的自定義和邏輯數據。 當需要了解這些數據是如何產生、如何分析時,這種形式的數據對調查就很有用。

表2列出了每種電子數據證據最常見的數據形式。

表2 Hadoop電子數據證據的常見數據形式

面對Hadoop之類的大數據系統(tǒng),調查取證人員面臨的最大困難是如何應對海量的數據及其跨結點存儲方式,不能簡單地期望從某個硬盤獲取系統(tǒng)的所有數據。實際上,取證人員首先要從Hadoop中識別相關數據,然后進行收集工作。某些形式的數據,如日志和配置文件,能有助于識別證據的存儲位置以及判定是否存在數據檔案等,還能描繪出Hadoop集群是如何工作的,這種類型的證據歸類為支持信息,在整個調查過程中非常有價值。

記錄證據是Hadoop調查取證中最常見的證據形式。在非大數據調查中,用戶的文件、E-mail等可能是最有價值的證據形式。但是,大多數用戶與Hadoop交互并不多,Hadoop更多由專門的IT員工和數據分析人員管理和運營。Hadoop的價值在于Hadoop中存儲和分析的數據,即存儲在Hadoop中用于分析的事務性數據和非結構化數據,以及分析的輸出結果數據。這些結構化和非結構化數據是記錄證據的主要形式。Hadoop取證調查中最具挑戰(zhàn)性的工作是確定記錄證據的所有相關的潛在來源,因為記錄證據可以以多種形式存在于Hadoop中的多個應用程序中。

用戶和應用程序證據指與記錄證據相關,能顯示系統(tǒng)運行方式或者分析邏輯方式的任何類型的證據。在一些調查中,經常會出現這樣的問題:對某數據都做了什么操作?這些操作是如何執(zhí)行的?有時可以通過分析記錄證據解答這些問題。用戶和應用程序證據則提供了一種更簡單、更強大的方式來解答此類問題。用戶和應用程序證據包括用于導入和分析數據的腳本,Hadoop中的配置文件和日志文件等。

4 結語

電子數據取證領域很大,且還在不斷飛速發(fā)展,其名稱從最初作為計算機取證的同義詞,已擴展到涵蓋對所有能夠存儲電子數據的設備的調查取證,衍生出了許多分支和方向,如計算機取證、移動設備取證、網絡取證、數據庫取證、電子數據分析、云取證等[16-17]。大數據是數據存儲和管理方式的范式轉換,對于大數據的調查取證也是如此。大數據技術的不斷發(fā)展推動了電子數據調查工具和技術的變化和發(fā)展。Hadoop是目前最為流行的大數據平臺之一,弄清Hadoop的基礎架構以及Hadoop取證的基本流程、方法和工具對理解和大數據取證有重要的理論和實踐意義。

猜你喜歡
證據解決方案模型
適用于BDS-3 PPP的隨機模型
艾默生自動化解決方案
解決方案和折中方案
重要模型『一線三等角』
簡潔又輕松的Soundbar環(huán)繞聲解決方案
模型小覽(二)
手上的證據
離散型隨機變量分布列的兩法則和三模型
家庭暴力證據搜集指南
手上的證據