劉旭
91033部隊(duì) 山東 青島 266000
隨著通信技術(shù)的發(fā)展以及裝設(shè)備的不斷升級(jí)提升,通信技術(shù)及裝設(shè)備參數(shù)數(shù)據(jù)量不斷增大。大量的數(shù)據(jù)分布式存儲(chǔ)加大了交換與共享的難度。通過(guò)對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行研究發(fā)現(xiàn),95%以上的數(shù)據(jù)都是以Word文檔或Excel文檔的格式進(jìn)行保存,再將其手動(dòng)錄入到知識(shí)共享系統(tǒng)中,重復(fù)性的錄入工作極大地增大了實(shí)驗(yàn)人員的工作量,因此自動(dòng)化的數(shù)據(jù)轉(zhuǎn)儲(chǔ)工作迫在眉睫。
通信知識(shí)共享系統(tǒng)提供了一個(gè)允許多人并行式協(xié)作的平臺(tái)。用戶可以自行決定內(nèi)容的相關(guān)性,自由進(jìn)行創(chuàng)建、修改、刪除等操作。它可以用來(lái)當(dāng)作百科全書、字典、術(shù)語(yǔ)表或者內(nèi)部的CMS(Content Management System)平臺(tái)等。
目前,系統(tǒng)中以文本為載體的信息尤其豐富,通過(guò)關(guān)鍵字Category對(duì)頁(yè)面進(jìn)行分類,將在頁(yè)面底部自動(dòng)創(chuàng)建指向分類頁(yè)面的鏈接,從而可以方便有效地查看其父類的相關(guān)文檔。將一個(gè)頁(yè)面歸入分類,只需在編輯時(shí)在底部增加“[[Category:分類名稱]]”。知識(shí)共享系統(tǒng)的每一個(gè)條目都屬于至少一個(gè)類別,而一個(gè)類別又可以同時(shí)對(duì)應(yīng)多個(gè)條目,具有清晰的類層次結(jié)構(gòu)。
知識(shí)共享系統(tǒng)定義了固定的XML格式,任何輸入到系統(tǒng)的條目除了手動(dòng)輸入外,都可以轉(zhuǎn)儲(chǔ)成該格式從而實(shí)現(xiàn)自動(dòng)導(dǎo)入。條目(page)組成知識(shí)共享系統(tǒng)XML文件中最基本核心的組成單位,一個(gè)條目代表一個(gè)基本頁(yè)面。知識(shí)共享系統(tǒng)XML文件中條目的組織結(jié)構(gòu)設(shè)計(jì)如下:
Word和Excel文檔的標(biāo)準(zhǔn)化技術(shù)目前已非常成熟,利用Microsoft Office提供的XML Schema功能,可導(dǎo)出結(jié)構(gòu)清晰的XML文件[1]。XML Schema文檔完全符合XML語(yǔ)法規(guī)范,它的后綴名是xsd。
Excel文檔標(biāo)準(zhǔn)化之后的XML文檔如下:
兩級(jí)映射就是把Word和Excel文檔標(biāo)準(zhǔn)化之后的XML文檔通過(guò)Java算法實(shí)現(xiàn)向知識(shí)共享系統(tǒng)XML文檔的初步轉(zhuǎn)化[2]。因?yàn)閿?shù)據(jù)源的不同,把兩級(jí)映射分為兩個(gè)部分,第一部分是Word文檔的標(biāo)準(zhǔn)XML結(jié)構(gòu)到知識(shí)共享系統(tǒng)XML文檔的映射,第二部分是Excel文檔的標(biāo)準(zhǔn)XML結(jié)構(gòu)到知識(shí)共享系統(tǒng)XML文檔的映射。在轉(zhuǎn)換過(guò)程中,暫且不考慮
3.1.1 Word標(biāo)準(zhǔn)XML文件的映射。通過(guò)研究Word轉(zhuǎn)換的標(biāo)準(zhǔn)XML文檔結(jié)構(gòu),我們可以知道,其XML文件標(biāo)簽中根標(biāo)簽下的
3.1.2 Excel標(biāo)準(zhǔn)XML文件的映射。分析Excel標(biāo)準(zhǔn)XML文件,根節(jié)點(diǎn)下的
頁(yè)面融合僅涉及Excel文檔的標(biāo)準(zhǔn)XML文檔到知識(shí)共享系統(tǒng)XML文檔的映射。因?yàn)镋xcel文檔中,會(huì)存在一種問(wèn)題,即總類、分類和術(shù)語(yǔ)關(guān)鍵字完全相同,只有下屬不同,如“信道—無(wú)線信道—電磁波—地波傳播”和“信道—無(wú)線信道—電磁波—天波傳播”,這兩條信息在標(biāo)準(zhǔn)XML文件中是作為兩個(gè)page存在的,但在實(shí)際的知識(shí)共享系統(tǒng)中,應(yīng)該是一個(gè)title為“電磁波”,text為“地波傳播、天波傳播”的頁(yè)面。所以在轉(zhuǎn)化的過(guò)程中,就需要把category、title均相同頁(yè)面進(jìn)行融合[3]。
這兩個(gè)page標(biāo)簽下的category和title如果都相同,則把這兩個(gè)頁(yè)面合并為一個(gè)頁(yè)面,合并后的系統(tǒng)XML文檔中的對(duì)應(yīng)關(guān)系仍舊滿足上一節(jié)兩級(jí)映射的算法,即源頁(yè)面的title標(biāo)簽仍舊對(duì)應(yīng)目標(biāo)頁(yè)面的title標(biāo)簽,category標(biāo)簽仍以[[category:××]]的形式放入
將完成兩級(jí)映射和頁(yè)面融合之后形成的知識(shí)分享系統(tǒng)XML文檔導(dǎo)入系統(tǒng)內(nèi),可自動(dòng)生成知識(shí)相關(guān)頁(yè)面以及分類關(guān)系,導(dǎo)入效果和手工錄取無(wú)差別,且錯(cuò)誤率明顯下降。
通過(guò)本文設(shè)計(jì)的兩級(jí)映射、頁(yè)面融合實(shí)現(xiàn)Word和Excel文檔形成的標(biāo)準(zhǔn)XML文件到通信知識(shí)共享系統(tǒng)XML文件的轉(zhuǎn)換,從而完成通信數(shù)據(jù)的轉(zhuǎn)儲(chǔ),可取代手動(dòng)錄入系統(tǒng)的操作,但由于Word和Excel文檔標(biāo)準(zhǔn)化的過(guò)程中,仍需要一定量的手動(dòng)映射,因此還未實(shí)現(xiàn)完全的自動(dòng)化,今后可以規(guī)范Word和Excel文檔中所有的文本信息和數(shù)據(jù)資源,使其在文檔中的位置相對(duì)固定,這樣人工判斷操作就變得不再是必需的,可以進(jìn)一步減少時(shí)間的耗費(fèi)。