国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于XML的文件結(jié)構(gòu)化方法研究

2017-05-05 02:29高瑾宇王博甲
關(guān)鍵詞:書(shū)簽結(jié)構(gòu)化表格

高瑾宇 曹 平 陳 潤(rùn) 王博甲

(中航工業(yè)綜合技術(shù)研究所,北京 100028)

基于XML的文件結(jié)構(gòu)化方法研究

高瑾宇 曹 平 陳 潤(rùn) 王博甲

(中航工業(yè)綜合技術(shù)研究所,北京 100028)

針對(duì)航空產(chǎn)品單一型號(hào)研制過(guò)程中遇到的技術(shù)文件格式要求嚴(yán)格、編制工作量巨大、引用關(guān)系及技術(shù)指標(biāo)錯(cuò)綜復(fù)雜等問(wèn)題,提出了基于XML的文件結(jié)構(gòu)化存儲(chǔ)方法,建立了文件結(jié)構(gòu)特征描述,研究了文件結(jié)構(gòu)特征處理,討論了基于XML的文件存儲(chǔ)和讀取技術(shù)。最后,通過(guò)一個(gè)實(shí)例驗(yàn)證了所提方法的正確性。

Word;結(jié)構(gòu)化文件;智能編輯

隨著信息技術(shù)進(jìn)步與電子技術(shù)文檔編制復(fù)雜性增加,航空產(chǎn)品型號(hào)研制過(guò)程中,各類(lèi)型技術(shù)文件編制過(guò)程的標(biāo)準(zhǔn)化工作已經(jīng)成為一項(xiàng)艱巨任務(wù)。由于技術(shù)文件數(shù)量繁多,設(shè)計(jì)人員經(jīng)常要受困于這些技術(shù)文檔重復(fù)而繁瑣的編寫(xiě)工作。在現(xiàn)有技術(shù)條件下,通常針對(duì)此類(lèi)問(wèn)題的解決方案是對(duì)于每一個(gè)文件,做一個(gè)文件模板。這種方法在一定程度上緩解了該類(lèi)問(wèn)題,提高了文件編寫(xiě)效率。但是在文件模板編制工作上又花費(fèi)了大量精力,并且一旦標(biāo)準(zhǔn)發(fā)生更改對(duì)應(yīng)技術(shù)文件模板更改工作量很大。

本文提出了基于XML存儲(chǔ)技術(shù)的文件結(jié)構(gòu)化設(shè)計(jì)方法,將文件模板分別用文本文件和樣式文件存儲(chǔ)起來(lái)。這樣不但實(shí)現(xiàn)了模板中文本和樣式相分離,同時(shí)XML存儲(chǔ)技術(shù)使文本結(jié)構(gòu)可以結(jié)構(gòu)化存儲(chǔ),為文件內(nèi)容查找、重用、審查奠定了理論基礎(chǔ)。

1 基于XML的文件結(jié)構(gòu)特征描述

可擴(kuò)展標(biāo)記語(yǔ)言(Extensible Markup Language,XML)是一種用于標(biāo)記電子文件,使其具有結(jié)構(gòu)性的標(biāo)記語(yǔ)言。通過(guò)此種標(biāo)記,文件模板中文字化內(nèi)容可以被結(jié)構(gòu)化表達(dá)。因此,基于XML的文件結(jié)構(gòu)特征描述有利于實(shí)現(xiàn)文件交換、傳遞和共享。

文件結(jié)構(gòu)特征是組成文件的基本單元,通過(guò)對(duì)文件內(nèi)容分析,將文件主要分為結(jié)構(gòu)要素、特征要素、編輯要素3大類(lèi),如圖1所示。其中:

結(jié)構(gòu)要素:任何一個(gè)整體可以看作是由若干結(jié)構(gòu)模塊組成,文件中結(jié)構(gòu)模塊稱(chēng)之為結(jié)構(gòu)要素。在一份具體的文件中,封面、目次、正文、附錄等要素就是一份文件具體的結(jié)構(gòu)要素。

特征要素:每一個(gè)結(jié)構(gòu)要素中,包含若干特征單元,稱(chēng)之為特征要素。在具體的文件中表格、圖片、文本等都稱(chēng)之為特征要素。

編輯要素:文件編輯過(guò)程中對(duì)文本的編輯操作統(tǒng)稱(chēng)為編輯要素。在具體操作中,列項(xiàng)、示例、注釋等都稱(chēng)為編輯要素。

一般來(lái)說(shuō),在一份完整文件中一定包含若干結(jié)構(gòu)要素、若干特征要素與若干編輯要素,并且結(jié)構(gòu)要素、特征要素與編輯要素是多對(duì)多關(guān)系,如圖2所示。

2 文件結(jié)構(gòu)特征的處理

在文件文本中,有一類(lèi)特殊文本內(nèi)容——圖、表特征要素,對(duì)于此類(lèi)特征要素,不能直接以文本格式存儲(chǔ)起來(lái),需要對(duì)其進(jìn)行格式轉(zhuǎn)換。

對(duì)于表格來(lái)講,要提取表格行列尺寸,單元格合并情況,以及表格填寫(xiě)情況等屬性,首先將表格屬性記錄下來(lái),再通過(guò)對(duì)表格單元格記錄完成表格存儲(chǔ)。讀取時(shí)首先通過(guò)解析表格屬性添加表,然后通過(guò)操作表格單元格完善表,最后通過(guò)填寫(xiě)表格單元格完成表。

對(duì)于圖片來(lái)講,Word圖片采用Base64編碼格式,要想對(duì)Word圖片進(jìn)行存儲(chǔ),首先要將Word圖片解碼處理并存放到一個(gè)指定文件夾,然后在文本中記錄圖片全路徑。讀取圖片時(shí),首先通過(guò)圖片全路徑找到對(duì)應(yīng)Word圖片,然后將Word圖片導(dǎo)入并設(shè)置相應(yīng)格式。

在文件文本中,為了方便處理文中多次出現(xiàn)并且頻繁需要修改的文本,引入一種特殊結(jié)構(gòu)特征——書(shū)簽。其最大特點(diǎn)是可以實(shí)現(xiàn)相同內(nèi)容書(shū)簽中文本統(tǒng)一,具體表現(xiàn)為某一位置書(shū)簽內(nèi)容發(fā)生修改,其他位置書(shū)簽同步修改。在具體處理中,將文中滿(mǎn)足此特點(diǎn)的文本用一組前綴相同的書(shū)簽封裝起來(lái)。并且在文件處理中,為了把一套文件中不同文件的基本信息統(tǒng)一,將記錄文件基本信息的書(shū)簽用一個(gè)XML文件保存起來(lái),以備其他文件使用,這樣大大提高了文件修改效率和統(tǒng)一性。

在具體結(jié)構(gòu)要素中,以封面要素為例,由于封面結(jié)構(gòu)布局固定且“編號(hào)”、“密級(jí)”、“標(biāo)題”等內(nèi)容術(shù)語(yǔ)在文中多處出現(xiàn)字段,所以可以利用表格技術(shù)來(lái)設(shè)計(jì)封面格式布局,利用書(shū)簽技術(shù)來(lái)填寫(xiě)相應(yīng)文本內(nèi)容。這種類(lèi)型的結(jié)構(gòu)要素稱(chēng)作為表格型結(jié)構(gòu)要素。

以普通文本內(nèi)容為例,將每一個(gè)段落看作是一個(gè)最小文件元。在進(jìn)行文件存儲(chǔ)時(shí),首先判斷文件元中是否有特殊格式文本,如果沒(méi)有,提取文本格式信息,并將格式記錄;如果有,則需要進(jìn)行特殊格式轉(zhuǎn)化,將特殊格式轉(zhuǎn)化為可存儲(chǔ)文本,然后再進(jìn)行格式記錄。這種類(lèi)型的結(jié)構(gòu)要素稱(chēng)作結(jié)構(gòu)型結(jié)構(gòu)要素。

以目次為例,由于目次內(nèi)容是提取文件中大綱級(jí)別層級(jí)來(lái)自動(dòng)生成,這種類(lèi)型的結(jié)構(gòu)要素稱(chēng)作創(chuàng)生型結(jié)構(gòu)要素。

3 基于XML的結(jié)構(gòu)化設(shè)計(jì)

根據(jù)上述對(duì)文件結(jié)構(gòu)特征的描述和處理,對(duì)于一份文件,基于XML的存儲(chǔ)原理可按照3級(jí)結(jié)構(gòu)來(lái)存儲(chǔ)。一級(jí)結(jié)構(gòu)存儲(chǔ)文件結(jié)構(gòu)要素構(gòu)建文件整體框架,二級(jí)結(jié)構(gòu)存儲(chǔ)文件文本屬性,三級(jí)結(jié)構(gòu)存儲(chǔ)文本內(nèi)容。

在一級(jí)結(jié)構(gòu)中,將文件中各個(gè)結(jié)構(gòu)要素依次存儲(chǔ),在各個(gè)節(jié)點(diǎn)屬性中設(shè)置結(jié)構(gòu)要素的名稱(chēng)、書(shū)簽等屬性。在二級(jí)結(jié)構(gòu)下,存放每個(gè)結(jié)構(gòu)要素整體架構(gòu),并規(guī)定架構(gòu)特征屬性。在三級(jí)結(jié)構(gòu)下,將文件結(jié)構(gòu)要素中具體內(nèi)容依次存放。

因此,將Word文件轉(zhuǎn)換為XML結(jié)構(gòu)化文件時(shí),首先需要縱觀全文提煉文件結(jié)構(gòu)要素,其次判斷結(jié)構(gòu)要素類(lèi)型。如果是表格型結(jié)構(gòu)要素,需要確定表格的行、列、行寬、列寬、合并單元格、是否填寫(xiě)內(nèi)容等基本屬性,并且在需要修改的地方添加書(shū)簽;如果是結(jié)構(gòu)型結(jié)構(gòu)要素,需要先確定文本結(jié)構(gòu)層級(jí),并確定每一層級(jí)樣式及書(shū)簽位置;如果是創(chuàng)生型結(jié)構(gòu)要素,需要記錄其在文本中存放位置,并且記錄文本與內(nèi)容的關(guān)聯(lián)關(guān)系。

在文本存放中,主要采用節(jié)點(diǎn)式存放方式,將文件中每一個(gè)段落看作是一個(gè)最小單元,節(jié)點(diǎn)內(nèi)容存放文本內(nèi)容,節(jié)點(diǎn)屬性存放文本樣式,如果遇到特殊格式的表格、圖片就在節(jié)點(diǎn)下按照表格、圖片的存放方式來(lái)進(jìn)行存放。

在XML文件解析時(shí),首先要事先打開(kāi)該文件所對(duì)應(yīng)的dot文件,然后基于根節(jié)點(diǎn)循環(huán)。在每個(gè)結(jié)構(gòu)要素節(jié)點(diǎn)下,通過(guò)循環(huán)其中子節(jié)點(diǎn)將結(jié)構(gòu)要素內(nèi)的內(nèi)容依次輸出,然后根據(jù)具體屬性將文本刷新編輯,這樣按節(jié)點(diǎn)將文件全部輸出,就形成了一份符合標(biāo)準(zhǔn)的結(jié)構(gòu)化模板。

4 實(shí)例驗(yàn)證及結(jié)果分析

根據(jù)以上描述,本文以GJB/Z 170.2-2013 《軍工產(chǎn)品設(shè)計(jì)定型文件編制指南 第2部分:設(shè)計(jì)定型審查意見(jiàn)書(shū)》為例。

通過(guò)對(duì)文件結(jié)構(gòu)的分析和處理,確定文件結(jié)構(gòu)要素分別為封面、簽署頁(yè)、目錄、目次、附錄,并且文件第1章有特殊格式圖片、文件第6章有特殊格式表格,因此導(dǎo)出的結(jié)構(gòu)化模板如圖3所示。

從圖3中可以清楚地看出,文件結(jié)構(gòu)化模板結(jié)構(gòu)要素清晰,可閱讀性強(qiáng),這樣既有利于文件內(nèi)容重復(fù)利用,又方便文件模板修改。并且通過(guò)對(duì)結(jié)構(gòu)化模板解析,同樣可以得到與之前模板一樣的Word模板。

5 總結(jié)展望

本文以文件結(jié)構(gòu)化的存儲(chǔ)和讀取為研究目標(biāo),著眼于實(shí)際應(yīng)用需求,分析了現(xiàn)有解決方案的不足,提出了基于XML的文件結(jié)構(gòu)化存儲(chǔ)方案,討論了其主要技術(shù)路線(xiàn),并給出了關(guān)鍵問(wèn)題的解決方案,最后用一個(gè)實(shí)際案例證明了方案的可行性。利用該技術(shù)開(kāi)發(fā)出來(lái)的文件模板,體積小、格式準(zhǔn)確、編寫(xiě)效率高、調(diào)用速度快,明顯提高了文件編制和管理效率。

雖然基于XML的文件結(jié)構(gòu)化存儲(chǔ)方案,在文件編制過(guò)程中大大提高了編制效率,但是要想完全實(shí)現(xiàn)文件智能編輯,需要引入知識(shí)重用和挖掘,而結(jié)構(gòu)化的文件設(shè)計(jì)可以完全解決文件中關(guān)鍵字搜索這一技術(shù)難點(diǎn)。因此,在后續(xù)研究中可以將知識(shí)挖掘考慮進(jìn)來(lái),使得文件編輯更加智能化。

[1] 曹平,楊文宏,朱亮. 基于XML的開(kāi)放電子文檔標(biāo)準(zhǔn)分析[J]. 航空標(biāo)準(zhǔn)化與質(zhì)量,2011(6).

[2] 關(guān)巍. 利用VSTO實(shí)現(xiàn)文檔的智能化[J]. 開(kāi)發(fā)應(yīng)用,2006(6).

[3] 惠怡靜,邵學(xué)彬,程旭. 基于VSTO的Word數(shù)據(jù)自動(dòng)化提取及報(bào)告生成系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)[J]. 計(jì)算機(jī)光盤(pán)軟件和應(yīng)用,2013(19).

[4] 宋向瑛,朱嘉賢. 基于VSTO的文檔格式處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 電腦編程技巧與維護(hù),2013(10).

[5] 王瑾. 基于VSTO的文檔智能化實(shí)現(xiàn)[J]. 科技咨詢(xún)導(dǎo)報(bào),2007(18).

[6] 關(guān)巍. 基于VSTO自動(dòng)批量生成WORD文檔的設(shè)計(jì)與實(shí)現(xiàn)[J]. 信息與電腦,2010(11).

[7] 程旭輝. GJB 0《軍用標(biāo)準(zhǔn)文件編制工作導(dǎo)則》實(shí)施指南[M]. 北京:國(guó)防工業(yè)出版社,2002.

[8] 張方紀(jì),劉洪星. 結(jié)構(gòu)化自動(dòng)化Word文檔的集成化應(yīng)用技術(shù)[J]. 電腦知識(shí)與技術(shù),2011(28).

(編輯:勞邊)

T-65

C

1003-6660(2017)01-0045-03

10.13237/j.cnki.asq.2017.01.011

[收修訂稿日期] 2016-11-23

猜你喜歡
書(shū)簽結(jié)構(gòu)化表格
透明書(shū)簽
《現(xiàn)代臨床醫(yī)學(xué)》來(lái)稿表格要求
改進(jìn)的非結(jié)構(gòu)化對(duì)等網(wǎng)絡(luò)動(dòng)態(tài)搜索算法
深度學(xué)習(xí)的單元結(jié)構(gòu)化教學(xué)實(shí)踐與思考
組成語(yǔ)
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
左顧右盼 瞻前顧后 融會(huì)貫通——基于數(shù)學(xué)結(jié)構(gòu)化的深度學(xué)習(xí)
十一月書(shū)簽
十一月書(shū)簽
貳月書(shū)簽
航空| 永寿县| 广灵县| 合作市| 蒙自县| 彭泽县| 金沙县| 鸡泽县| 兴宁市| 江川县| 疏附县| 新疆| 金湖县| 安阳县| 兴宁市| 百色市| 罗田县| 东山县| 根河市| 崇信县| 太保市| 渝北区| 安化县| 五原县| 阳朔县| 睢宁县| 蒲江县| 秦皇岛市| 舞钢市| 玉门市| 灵石县| 虹口区| 通江县| 沙田区| 新和县| 桐城市| 兖州市| 禹州市| 三明市| 运城市| 美姑县|