国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于OOXML的演示文稿溯源及編輯過(guò)程恢復(fù)方法研究

2017-10-11 02:36羅文華王燕燕劉曉麗
中國(guó)司法鑒定 2017年5期
關(guān)鍵詞:幻燈片文件夾文稿

羅文華,王燕燕,劉曉麗

(中國(guó)刑事警察學(xué)院網(wǎng)絡(luò)犯罪偵查系,遼寧沈陽(yáng)110035)

基于OOXML的演示文稿溯源及編輯過(guò)程恢復(fù)方法研究

羅文華,王燕燕,劉曉麗

(中國(guó)刑事警察學(xué)院網(wǎng)絡(luò)犯罪偵查系,遼寧沈陽(yáng)110035)

目的電子文檔易復(fù)制、易修改的特性使得文檔編輯行為的分析成為電子數(shù)據(jù)取證的難點(diǎn)與焦點(diǎn)。傳統(tǒng)的數(shù)據(jù)恢復(fù)和數(shù)據(jù)搜索無(wú)法實(shí)現(xiàn)重要信息的提取,由此嘗試通過(guò)文件結(jié)構(gòu)的分析挖掘曾經(jīng)有過(guò)的編輯行為。方法結(jié)合Microsoft Office的OOXML文件格式,對(duì)PowerPoint2010文檔中與文檔來(lái)源及編輯過(guò)程相關(guān)的特征屬性進(jìn)行挖掘,著重分析creationID、revision、幻燈片ID及多媒體ID隨編輯操作的變化規(guī)律。結(jié)果實(shí)現(xiàn)了Office PowerPoint 2010文檔的溯源分析與多媒體編輯過(guò)程重現(xiàn),并通過(guò)自主研發(fā)的軟件使分析工作智能化、工具化。結(jié)論基于復(fù)合文件格式可以實(shí)現(xiàn)Office 2003文檔編輯過(guò)程恢復(fù),基于OOXML格式不僅可以實(shí)現(xiàn)Office 2010文檔編輯過(guò)程恢復(fù),還可以實(shí)現(xiàn)文檔溯源分析。

OOXML;演示文稿;編輯過(guò)程;還原來(lái)源

Abstract:ObjectiveElectronic documents are easy to copy and modify,so the analysis of document editing behavior becomes the difficulty and focus of electronic data forensics.Traditional data recovery and data search methods can’t achieve the extraction of important information,so this study attempts to analyze the editing behavior through the analysis of document structure.MethodCombined with the OOXML file format of Microsoft Office,attributes related to document sources and editing processes in PowerPoint 2010 documents were studied.The change rules of creation ID,revision,slide ID and multimedia ID with edit operation were analyzed emphatically.ResultThe traceability analysis of Office PowerPoint 2010 document and the process of multimedia editing were realized.The analysis was made intelligent and tool oriented with the independent research and developed software.ConclusionBased on the compound file format,the Office 2003 document editing process can be restored.Based on the OOXML format,not only can the Office 2010 document editing process be restored,but also the document traceability analysis can be realized.

Keywords:OOXML;slide presentation;editing process;source detection

微軟公司的Office系列軟件自發(fā)布以來(lái)被廣泛應(yīng)用于文檔的編寫、演示、統(tǒng)計(jì)等領(lǐng)域,PowerPoint是其中一款演示文稿軟件。PowerPoint的普遍使用使得大量商業(yè)機(jī)密及創(chuàng)意產(chǎn)品資料以電子文檔的形式保存,然而由于電子文檔易復(fù)制、易修改的特性,與電子文檔相關(guān)的知識(shí)產(chǎn)權(quán)糾紛頻繁發(fā)生[1]。

在與電子文檔相關(guān)的知識(shí)產(chǎn)權(quán)糾紛中,文檔的來(lái)源性和編輯過(guò)程檢測(cè)是檢驗(yàn)的重點(diǎn)?,F(xiàn)有的方法多為通過(guò)WinHex等二進(jìn)制讀取軟件從文件底層讀取文件信息,達(dá)到檢測(cè)來(lái)源及恢復(fù)編輯過(guò)程的目的。而Office系列軟件自2007版本之后采用了OOXML[2](Open Office XML)格式存儲(chǔ)文件,OOXML是一種以XML為基礎(chǔ)并以ZIP格式壓縮的電子文件規(guī)范,其將文檔屬性、文檔內(nèi)容、圖表、圖片、音視頻文件以及文檔之間的關(guān)系等打包在一起,大大提高了文檔的可恢復(fù)性。本文結(jié)合其獨(dú)特的XML格式,提出了PowerPoint2010基于OOXML的來(lái)源檢測(cè)及編輯過(guò)程恢復(fù)的方法。

1 技術(shù)原理

1.1 演示文稿文件結(jié)構(gòu)分析

演示文稿文件采用ZIP格式壓縮,修改其后綴名為“ZIP”即可對(duì)其進(jìn)行解壓縮。解壓縮后的PPTX文件夾由四部分組成,其中包括三個(gè)文件夾:_rels、docProps、ppt,以及一個(gè)xml文件:[Content_Types].xml。

_rels文件夾中只有一個(gè).rels文件,它定義了部件之間的關(guān)聯(lián)關(guān)系,是解析整個(gè)包時(shí)要瀏覽的第一個(gè)文件。

docProps文件夾包含三個(gè)文件:docPropsapp. xml描述了軟件版本、文檔頁(yè)數(shù)、字符總數(shù)等;docPropscore.xml描述了作者、文檔創(chuàng)建時(shí)間、最后修改時(shí)間等;docProps humbnail.jpeg是演示文稿第一頁(yè)的縮略圖。

ppt文件夾是PowerPoint獨(dú)有的目錄,包含著其特有的文檔信息。其中,ppt\_rels指定文檔部件的集合如何組合為一個(gè)文檔;pptmedia包含文檔中嵌入的圖片、音頻、視頻等多媒體文件;ppt heme描述了文檔使用的主題風(fēng)格;pptslides是最重要的文件夾,它包含了每頁(yè)幻燈片的具體內(nèi)容及其關(guān)系文件。其中,每一頁(yè)幻燈片都以一個(gè)獨(dú)立的xml文件格式存儲(chǔ),這些xml文件的命名規(guī)律為“slide+幻燈片序號(hào).xml”,與之對(duì)應(yīng)的,pptslides\_rels文件夾中存放著各頁(yè)幻燈片的關(guān)系文件,這些關(guān)系文件的命名規(guī)律為“slide幻燈片序號(hào).xml.rels”;最后,ppt文件夾的presentation.xml文件負(fù)責(zé)將整個(gè)文件夾中的內(nèi)容串聯(lián)在一起形成一個(gè)完整的文檔[3]。

Content_types.xml定義包中各部分的內(nèi)容類型。

1.2 PPTX文件來(lái)源性分析

所謂文件的來(lái)源性分析,即通過(guò)對(duì)源文件與目標(biāo)文件進(jìn)行比較,判斷兩文件是否由同一文件復(fù)制而來(lái)。

之前提到,幻燈片的具體內(nèi)容存儲(chǔ)在“slide+幻燈片序號(hào).xml”文件中。分析PPTX文件是否同源,可從這些slide文件的內(nèi)容入手。

由于xml文件以樹(shù)狀結(jié)構(gòu)存儲(chǔ)數(shù)據(jù)[4],以樹(shù)狀結(jié)構(gòu)解讀slide文件可以得到其根節(jié)點(diǎn)為,根節(jié)點(diǎn)包含兩個(gè)一級(jí)子節(jié)點(diǎn)——。其中,用戶可在節(jié)點(diǎn)中創(chuàng)建形狀樹(shù),也就是編輯幻燈片的具體內(nèi)容。的子節(jié)點(diǎn),如果幻燈片中插入了圖片、音頻、視頻等多媒體文件,里將存放這些多媒體文件的文件名及xml文檔賦予它們的ID號(hào)碼。中還包含著與同一級(jí)別的另一個(gè)子節(jié)點(diǎn)——,xml文檔的用戶可以在該節(jié)點(diǎn)中存放自定義的數(shù)據(jù)[3]。slide文件的樹(shù)形結(jié)構(gòu)如圖1所示。

圖1 slide文件的樹(shù)形結(jié)構(gòu)圖

由樹(shù)形結(jié)構(gòu)圖可以看到,用戶自定義節(jié)點(diǎn)中存放了四級(jí)子節(jié)點(diǎn),該節(jié)點(diǎn)擁有屬性val,該屬性的值可稱為幻燈片的creationID值。研究發(fā)現(xiàn),同一演示文稿中的各幻燈片的creationID值均不相同,且分別建立的兩個(gè)演示文稿文件,其對(duì)應(yīng)頁(yè)幻燈片的creationID值也不相同。為探究由同一文件復(fù)制而來(lái)的演示文稿creationID值的變化規(guī)律,課題組進(jìn)行了大量實(shí)驗(yàn)。由實(shí)驗(yàn)結(jié)果總結(jié)的規(guī)律如表1所示:

表1 creationID值的變化規(guī)律

由表1可以看出,如果演示文稿A由演示文稿B通過(guò)復(fù)制操作生成,不論對(duì)演示文稿B做內(nèi)容修改還是對(duì)幻燈片頁(yè)數(shù)進(jìn)行增刪,只要演示文稿A中還存留有演示文稿B的任意張幻燈片,其留存的幻燈片就會(huì)保留演示文稿B中幻燈片的creationID值。圖2所示為“sample.pptx”、“sample-副本.pptx”和“sample2.pptx”中slide1.xml的內(nèi)容。其中,“sample-副本.pptx”由“sample.pptx”復(fù)制而來(lái),并對(duì)內(nèi)容做了適當(dāng)修改,“sample2.pptx”為另外創(chuàng)建的文件。可以看到前兩個(gè)文件擁有相同的creationID值(2338748835),而另外創(chuàng)建的文件slide1.xml中的creationID值則完全不同(2411686777)。creationID值通常由8位以上數(shù)字組成,兩個(gè)creationID值完全相同的概率極低。因此,可以判定,演示文稿A如果含有與演示文稿B相同的creationID值,即可說(shuō)明A與B同源。

1.3 PPTX文件編輯順序分析

所謂文件編輯順序分析,即以單個(gè)演示文稿為分析對(duì)象,對(duì)演示文稿內(nèi)幻燈片及其多媒體內(nèi)容的增加、刪除等編輯過(guò)程進(jìn)行還原。

圖2 三個(gè)演示文稿中幻燈片的creationID值

表2 revision節(jié)點(diǎn)、創(chuàng)建時(shí)間及修改時(shí)間的變化規(guī)律

1.3.1 演示文稿的編輯時(shí)間鏈

之前提到,位于docProps文件夾下的core.xml描述了文檔作者、創(chuàng)建時(shí)間以及最后修改時(shí)間等。研究發(fā)現(xiàn),core.xml中記錄的除了創(chuàng)建時(shí)間和修改時(shí)間之外,還有一個(gè)節(jié)點(diǎn)。經(jīng)過(guò)實(shí)驗(yàn),得到revision節(jié)點(diǎn)、創(chuàng)建時(shí)間及修改時(shí)間的變化規(guī)律如表2所示。

由表2可以看出,revision節(jié)點(diǎn)記錄了演示文稿的版本號(hào),即自創(chuàng)建以來(lái)修改過(guò)的次數(shù)。一個(gè)新建的pptx文檔,其版本號(hào)為1。對(duì)其進(jìn)行修改得到的pptx文檔,其版本號(hào)將隨著修改次數(shù)遞增。圖3所示的是演示文稿sample.pptx的原文件及其修改一次后的core.xml內(nèi)容。因此,從revision的數(shù)值可以判斷出文檔的編輯次數(shù)。顯然,revision較小的演示文稿的編輯順序先于revision較大的演示文稿,結(jié)合修改時(shí)間即可得到文件編輯的時(shí)間鏈。

1.3.2 幻燈片及其多媒體內(nèi)容的添加次序

之前提到,pptpresentation.xml文件負(fù)責(zé)將整個(gè)演示文稿串聯(lián)在一起。該xml文件的根節(jié)點(diǎn)是,其下的一級(jí)子節(jié)點(diǎn)中存儲(chǔ)著若干二級(jí)子節(jié)點(diǎn),即演示文稿中的幻燈片列表,節(jié)點(diǎn)中存儲(chǔ)幻燈片的標(biāo)識(shí)號(hào)(id)和索引號(hào)(r:id)。通過(guò)該索引號(hào)可在ppt\_relspresentation.xml.rels文件中查詢到pptslides文件夾下對(duì)應(yīng)的幻燈片的名稱[5]。

如果幻燈片中插入了多媒體文件,這些多媒體文件的信息將儲(chǔ)存在“pptslidesslide幻燈片序號(hào). xml”的節(jié)點(diǎn)。如圖1所示,節(jié)點(diǎn)包含三個(gè)子節(jié)點(diǎn)——、,其中,中存儲(chǔ)了xml文件賦予該多媒體文件的名字(name)和標(biāo)識(shí)號(hào)(id),則存儲(chǔ)了索引號(hào)(r:embed),通過(guò)索引號(hào)可以在pptslides\_rels關(guān)系文件中查詢多媒體文件的存儲(chǔ)路徑。

可以看出,無(wú)論是幻燈片本身還是幻燈片中添加的多媒體文件,都擁有各自的標(biāo)識(shí)號(hào)(id),經(jīng)過(guò)實(shí)驗(yàn),本文總結(jié)出幻燈片ID與多媒體ID的變化規(guī)律,如表3所示。

圖3 sample.pptx及其修改一次后的core.xml

表3 幻燈片ID與多媒體ID的變化規(guī)律

由表3可以看出,隨著幻燈片的增加,幻燈片的ID隨之遞增。首張幻燈片的ID值默認(rèn)為“256”,第二張幻燈片則為“257”,以此類推。而當(dāng)刪除其中某個(gè)幻燈片時(shí),其他幻燈片的ID值并不會(huì)發(fā)生改變。同樣的,隨著幻燈片中插入多媒體文件數(shù)量的增加,多媒體文件的ID值也呈遞增,幻燈片中加入的首個(gè)多媒體文件的ID值默認(rèn)為“4”,第二個(gè)多媒體文件為“5”,以此類推,當(dāng)刪除其中某個(gè)多媒體文件時(shí),其他多媒體文件的ID值也不會(huì)發(fā)生改變。因此,完全可以由幻燈片ID和多媒體文件ID分析出幻燈片及其多媒體文件的插入順序及刪除情況。如圖4所示,在sample.pptx中先后添加三張幻燈片,其幻燈片ID分別為“256”、“257”、“258”,刪除第二張幻燈片,可以發(fā)現(xiàn)幻燈片ID出現(xiàn)斷層。如圖5所示,在sample. pptx的第一張幻燈片中先后插入三張圖片,其多媒體文件ID分別為“4”、“5”、“6”,刪除第二張圖片,可以發(fā)現(xiàn)多媒體文件ID出現(xiàn)斷層。

圖4 sample.pptx的幻燈片ID列表

圖5 sample.pptx及其修改后的多媒體文件ID列表

圖6 來(lái)源分析模塊設(shè)計(jì)流程圖

圖8 來(lái)源性分析結(jié)果

圖7 多媒體文件分析模塊設(shè)計(jì)流程圖

圖9 多媒體文件列表及添加次序

2 系統(tǒng)功能

基于第二節(jié)所述原理,課題組使用VB.NET語(yǔ)言實(shí)現(xiàn)了Office PowerPoint 2010溯源及多媒體編輯順序分析工具。系統(tǒng)分為來(lái)源分析模塊和多媒體文件分析模塊。兩個(gè)模塊的設(shè)計(jì)流程如圖6~7所示。

為了測(cè)試系統(tǒng)的功能,課題組首先創(chuàng)建了一個(gè)單頁(yè)的演示文稿文件“圖片實(shí)驗(yàn).pptx”,并在第一頁(yè)插入了三張圖片。復(fù)制“圖片實(shí)驗(yàn).pptx”得到“圖片實(shí)驗(yàn)-副本.pptx”,打開(kāi)副本并刪除三張圖片中的第二張。圖8顯示的是系統(tǒng)對(duì)兩個(gè)演示文稿的來(lái)源性分析結(jié)果。從結(jié)果可以清晰地看出兩個(gè)演示文稿來(lái)源相同,且文件2(圖片實(shí)驗(yàn).pptx)的創(chuàng)建早于文件1(圖片實(shí)驗(yàn)-副本.pptx)。打開(kāi)圖片實(shí)驗(yàn).pptx,對(duì)幻燈片1進(jìn)行分析,幻燈片1中的多媒體文件添加次序如圖7所示。可以看出幻燈片1中的多媒體文件序號(hào)從“4”開(kāi)始,順序遞增至“6”。打開(kāi)圖片實(shí)驗(yàn)-副本. pptx,對(duì)幻燈片1進(jìn)行分析?;脽羝?中的多媒體文件添加次序如圖9所示??梢钥闯龌脽羝?中的多媒體文件序號(hào)從“4”開(kāi)始,但缺少了序號(hào)為“5”的節(jié)點(diǎn)。結(jié)合來(lái)源性分析可以判斷,文件1為文件2復(fù)制所得,并在文件2的基礎(chǔ)上刪除了“圖片4”。

[1] 羅文華,孫道寧.Office Word文檔溯源方法研究[J].警察技術(shù),2015,(4):45-47.

[2] ISO/IEC 29500:2006 Information Technology-Document Description and Processing Languages-Office Open XML File Formats-Part1-4[S].2008.

[3] 滑淑然.演示文稿文檔格式標(biāo)準(zhǔn)結(jié)構(gòu)分析[J].北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,(S2):37-42.

[4] 郭林.面向XML文檔的數(shù)據(jù)挖掘技術(shù)研究[D].遼寧:大連理工大學(xué),2005.

[5] Rice Frank.Introducing the office(2007)open xml file formats[EB/OL].(2012-11-07)[2016-07-02].http://msdn2. microsoft.com/en-us/library/aa338205.aspx.

(本文編輯:盧啟萌)

Research on the Methods for Tracing the OOXML Files and Recovering the Editing Process

LUO Wen-hua,WANG Yan-yan,LIU Xiao-li
(Department of Cyber Crime Investigation,Criminal Investigation Police University of China,Shenyang 110035,China)

D918.9

A

10.3969/j.issn.1671-2072.2017.05.009

1671-2072-(2017)05-0052-06

2016-09-02

公安部技術(shù)研究計(jì)劃項(xiàng)目(2015JSYJC04);遼寧省教育廳科研項(xiàng)目

羅文華(1977—),男,教授,主要從事網(wǎng)絡(luò)犯罪偵查與電子數(shù)據(jù)取證工作。E-mail:luowenhua770404@126.com。

猜你喜歡
幻燈片文件夾文稿
文稿規(guī)范
文稿規(guī)范
水幕幻燈片
本刊文稿中參考文獻(xiàn)的要求
Fast Folders,讓你的文件夾四通八達(dá)
摸清超標(biāo)源頭 大文件夾這樣處理
調(diào)動(dòng)右鍵 解決文件夾管理三大難題
實(shí)現(xiàn)幻燈片的縮放功能
不容忽視的空文件夾
文稿打字的小方法