陶淑艷
摘要:目前,對(duì)于一些屬性特別多的數(shù)據(jù)的集成還尚未有一套良好的實(shí)現(xiàn)方案,此類數(shù)據(jù)的集成具有十分復(fù)雜,且難度大的特點(diǎn)。該文針對(duì)這一問題,提出了基于安全數(shù)據(jù)字典的數(shù)據(jù)集成技術(shù)。該技術(shù)在實(shí)踐中,解決了以往數(shù)據(jù)集成的問題,具有較大的靈活性和安全性;對(duì)數(shù)據(jù)字典進(jìn)行了安全分級(jí),介紹安全數(shù)據(jù)字典的相關(guān)內(nèi)容和實(shí)現(xiàn)安全數(shù)據(jù)字典的方式,實(shí)現(xiàn)極其復(fù)雜的數(shù)據(jù)集成,增強(qiáng)了系統(tǒng)的安全性。
關(guān)鍵詞:安全數(shù)據(jù)字典;復(fù)雜;數(shù)據(jù)集成;安全性
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)19-4371-02
作為數(shù)據(jù)挖掘的重要環(huán)節(jié),數(shù)據(jù)集成的強(qiáng)大功能不容忽視,其費(fèi)用更是占據(jù)了整個(gè)數(shù)據(jù)挖掘系統(tǒng)建設(shè)成本的一半以上[1]。但目前尚未有一項(xiàng)針對(duì)龐大的數(shù)據(jù)量的集成技術(shù),因此對(duì)原有數(shù)據(jù)集成技術(shù)的算法進(jìn)行一定的改善就十分有必要。對(duì)此,有相關(guān)的研究者對(duì)不同方面的數(shù)據(jù)集成技術(shù)進(jìn)行了不同的研究。有研究者研究了異構(gòu)數(shù)據(jù)集成的原理及框架,該框架的服務(wù)功能和實(shí)現(xiàn)的技術(shù);有研究者對(duì)電力系統(tǒng)數(shù)據(jù)集成中存在的語義進(jìn)行詳細(xì)的闡述,通過語義計(jì)算映射實(shí)例的語義功能及其他研究項(xiàng)目 。此類研究的共同點(diǎn)在于對(duì)原有數(shù)據(jù)集成技術(shù)進(jìn)行了延伸和拓展,但不足的是沒有考慮到屬性個(gè)數(shù)龐大的數(shù)據(jù)集成的復(fù)雜性和獨(dú)特性,并沒有解決原有數(shù)據(jù)集成系統(tǒng)的程序代碼量大、限制性高和不夠靈活等問題。
1 安全數(shù)據(jù)字典及其實(shí)現(xiàn)方式
1.1 數(shù)據(jù)字典
典型的數(shù)據(jù)字典應(yīng)為數(shù)據(jù)庫的數(shù)據(jù)字典。數(shù)據(jù)字典系統(tǒng)靈活性的關(guān)鍵所在,對(duì)于各種應(yīng)用系統(tǒng)也具有重要意義。數(shù)據(jù)字典具有較多的數(shù)據(jù)庫內(nèi)容,形式多樣,如庫、表、索引等屬于邏輯編輯數(shù)據(jù)庫定義的信息,也包含了相關(guān)的物理配置信息。數(shù)據(jù)字典具有各種各樣的形式,如數(shù)據(jù)表形式、二進(jìn)制文件和文本文件及其他等,但都具有同一危險(xiǎn)性,即都有可能會(huì)被違規(guī)篡改,導(dǎo)致程序無法正常運(yùn)行。在進(jìn)行數(shù)據(jù)字典的安全級(jí)別的劃分時(shí),按照數(shù)據(jù)字典被違規(guī)篡改的難易程度對(duì)應(yīng)劃分。安全等級(jí)總共可劃分為4個(gè)級(jí)別[2]。
1.2 安全數(shù)據(jù)字典的實(shí)現(xiàn)
安數(shù)據(jù)字典中的安全數(shù)據(jù)字典包括2個(gè)安全等級(jí),即控制級(jí)和整性約束級(jí)。可通過較多的方式來實(shí)現(xiàn)這2個(gè)等級(jí),該文介紹了兩種實(shí)現(xiàn)方案。
1.2.1 Excel表格形式的數(shù)據(jù)字典
現(xiàn)對(duì)完整性約束級(jí)安全數(shù)據(jù)字典的實(shí)現(xiàn)形式展開分析,該文以Excel表格的形式為例。具體情況見表1:
表1 基于Excel表格的數(shù)據(jù)字典
[COLUMN-NAME\&DATA-TYPE\&DATE-DEFAULT\&COMMENTS\&MAJOR-KEY\&ZHAB04A001\&VARCHAR2(20)\&(NULL)\&項(xiàng)目編號(hào)\&YES\&ZHAB04A002\&VARCHAR2(100)\&(NULL)\&項(xiàng)目名稱\&NO\&ZHAB04A003\&VARCHAR2(50)\&(NULL)\&圖幅名\&NO\&ZHAB04A004\&VARCHAR2(50)\&(NULL)\&圖幅編號(hào)\&NO\&]
1.2.2 控制級(jí)安全數(shù)據(jù)字典的實(shí)現(xiàn)方式
完整性約束級(jí)安全數(shù)據(jù)字典的優(yōu)點(diǎn)在于適應(yīng)性強(qiáng),可以為大多數(shù)應(yīng)用接受,但仍存在加密算法出現(xiàn)密鑰泄露或者被攻破的危險(xiǎn)性,導(dǎo)致非法篡改的問題出現(xiàn)。使用者具有數(shù)據(jù)字典的使用權(quán),但使用者對(duì)數(shù)據(jù)字典有版本的要求,則有可能出現(xiàn)數(shù)據(jù)字典的不符合的情況。這兩種問題已經(jīng)被控制級(jí)的安全數(shù)據(jù)字典攻破,解決了這2種安全問題??刂萍?jí)安全數(shù)據(jù)字典在運(yùn)行時(shí),首先生成完整性的約束級(jí)安全數(shù)據(jù)字典,之后自行保存于Excel,后生成數(shù)據(jù)字典的硬編碼程序,使用程序與生成的編碼程序進(jìn)行編譯后就可以形成應(yīng)用系統(tǒng)的一部分。當(dāng)啟動(dòng)應(yīng)用程序時(shí),程序就會(huì)首先執(zhí)行數(shù)據(jù)字典里的硬編碼程序,還原數(shù)據(jù)字典是在內(nèi)存中進(jìn)行,且為動(dòng)態(tài)的形式,因此與應(yīng)用系統(tǒng)的版本具有一致性,不產(chǎn)生沖突。控制級(jí)安全數(shù)據(jù)字典的運(yùn)行重點(diǎn)在于正確地將Excel表格中的數(shù)據(jù)字典轉(zhuǎn)換成同樣性質(zhì)的程序代碼。該文選擇了.NetC#的方法成功地將Excel表中的程序代碼轉(zhuǎn)換[3],其轉(zhuǎn)換過程就大大提高了數(shù)據(jù)字典的安全性和實(shí)效性。
2 數(shù)據(jù)的集成
以上內(nèi)容分析了安全數(shù)據(jù)字典以及實(shí)現(xiàn)方式的基礎(chǔ),現(xiàn)對(duì)安全數(shù)據(jù)字典集成技術(shù)的方案和轉(zhuǎn)換流程以及算法做進(jìn)一步說明。
2.1 數(shù)據(jù)出處及其實(shí)現(xiàn)目標(biāo)
以某地區(qū)國土資源部提供該地區(qū)近年來發(fā)生的地質(zhì)災(zāi)害的數(shù)據(jù)信息為案例來說明,其特點(diǎn)有:(1) 數(shù)據(jù)源數(shù)據(jù)具有動(dòng)態(tài)性的變化;(2) 數(shù)據(jù)源字段為中文,目標(biāo)數(shù)據(jù)字段為應(yīng)為;(3) 數(shù)據(jù)源有各類各樣的版本,按照不同版本的數(shù)據(jù)屬性將其存入對(duì)應(yīng)地區(qū)的中心Access數(shù)據(jù)庫中,并定期將保存下來的數(shù)據(jù)上傳到制定的目錄的當(dāng)中,自動(dòng)生成數(shù)據(jù)(4) 數(shù)據(jù)屬性較多,總共屬性數(shù)量為250左右。
2.2 數(shù)據(jù)集成設(shè)計(jì)
集成數(shù)據(jù)的屬性數(shù)據(jù)量大,且數(shù)據(jù)源和目標(biāo)數(shù)據(jù)的屬性名稱有差異,具有一定的復(fù)雜性。該種情況下就可使用數(shù)據(jù)字典建立數(shù)據(jù)源屬性和目標(biāo)數(shù)據(jù)屬性兩者間的對(duì)應(yīng)方式,有助于減少程序量的運(yùn)算,提高了系統(tǒng)的靈活性,具有較高的各種效率。但缺點(diǎn)在于有一定的安全隱患。表現(xiàn)為如果數(shù)據(jù)字典遭到其他人員的非法篡改,就會(huì)影響數(shù)據(jù)集成的順利性和可靠性,最終導(dǎo)致數(shù)據(jù)集成失敗。而選擇安全性和穩(wěn)定性較高的控制級(jí)安全數(shù)據(jù)字典就顯得十分重要。還需要針對(duì)不同的版本建立不同的安全數(shù)據(jù)字典,從而形成一致性的數(shù)據(jù)源版本和安全數(shù)據(jù)字典。
2.3 數(shù)據(jù)集成的具體流程
啟動(dòng)系統(tǒng)后,數(shù)據(jù)集成首先從代碼中還原各版本的數(shù)據(jù)字典,驗(yàn)證數(shù)據(jù)字典是否已經(jīng)完整,通過制定目錄檢測系統(tǒng)是否有新的數(shù)據(jù)源,有的話則識(shí)別版本,并將對(duì)應(yīng)的數(shù)據(jù)源版本調(diào)入,導(dǎo)入數(shù)據(jù)。
2.4 數(shù)據(jù)導(dǎo)入運(yùn)算
將數(shù)據(jù)源作為集成目標(biāo)進(jìn)行數(shù)據(jù)導(dǎo)入,共由6大類數(shù)據(jù)集成,且數(shù)據(jù)的屬性含量十分大,都高出230,具有較大的集成難度。數(shù)據(jù)源和目標(biāo)系統(tǒng)的屬性名稱不同,直接對(duì)各自屬性的編程導(dǎo)入數(shù)據(jù)會(huì)出現(xiàn)大量的程序步驟,也無法實(shí)現(xiàn)通用性。因此,建立起數(shù)據(jù)字典的數(shù)據(jù)源與與數(shù)據(jù)目標(biāo)的映射關(guān)系,可減少程序量,具有通用性。endprint
3 實(shí)驗(yàn)分析
本次研究對(duì)某地區(qū)的地質(zhì)災(zāi)害的相關(guān)數(shù)據(jù)進(jìn)行安全數(shù)據(jù)字典的數(shù)據(jù)集成技術(shù)的開發(fā),具有以下幾個(gè)特點(diǎn):
1) 數(shù)據(jù)源的版本隨著軟件的升級(jí)而改變;
2) 不同的集成對(duì)象的屬性其數(shù)據(jù)源對(duì)象的屬相和相同目標(biāo)數(shù)據(jù)源的對(duì)象屬性名稱也不一樣;不一致;對(duì)此,基于安全數(shù)據(jù)字典的數(shù)據(jù)集成技術(shù)有效解決了這一問題。數(shù)據(jù)集成的主要執(zhí)行任務(wù)包括以下幾點(diǎn):
3) 結(jié)合數(shù)據(jù)對(duì)象用Excel定義數(shù)據(jù)字典;
4) 設(shè)計(jì)控制級(jí)安全數(shù)據(jù)數(shù)據(jù)字典的生成工具;
5) 用安全數(shù)據(jù)字典生成工具,把Excel安全數(shù)據(jù)字典轉(zhuǎn)換為對(duì)應(yīng)的程序代碼;
6) 設(shè)計(jì)通用的數(shù)據(jù)導(dǎo)入系統(tǒng),具有代碼簡單、代碼量小的特點(diǎn)。
7) 把代碼化的安全數(shù)據(jù)字典嵌入數(shù)據(jù)導(dǎo)入系統(tǒng),生成特定的數(shù)據(jù)集成系統(tǒng)。
以上工作內(nèi)容體現(xiàn)出該種數(shù)據(jù)集成方式的流程十分簡單、清晰明了。經(jīng)實(shí)踐證明,數(shù)據(jù)集成系統(tǒng)可對(duì)不同版本的數(shù)據(jù)源正確辨別出來,適用性強(qiáng),將符合的數(shù)據(jù)字典導(dǎo)入有很大的實(shí)用性,保證了系統(tǒng)的安全性。
4 結(jié)束語
針對(duì)原有數(shù)據(jù)集成存在的主要問題,該文提出了安全數(shù)據(jù)字典的新概念,并具體劃分了數(shù)據(jù)字典的安全等級(jí),進(jìn)一步分析安全數(shù)據(jù)字典的實(shí)現(xiàn)步驟和算法。通過實(shí)例分析了安全數(shù)據(jù)字典在復(fù)雜數(shù)據(jù)集成方面的有效運(yùn)用。基于安全數(shù)據(jù)字典的數(shù)據(jù)集成方式主要有3個(gè)部分構(gòu)成:即安全數(shù)據(jù)字典生產(chǎn)工具、數(shù)據(jù)字典、以及數(shù)據(jù)導(dǎo)入部分,具有良好的優(yōu)勢性能,其耦合度低、單獨(dú)行強(qiáng),進(jìn)一步降低了系統(tǒng)的困難程性。在相關(guān)業(yè)務(wù)中,集成的數(shù)據(jù)對(duì)象僅在數(shù)據(jù)字典里定義,與業(yè)務(wù)無關(guān)的通用模塊即安全數(shù)據(jù)字典生成工具、數(shù)據(jù)導(dǎo)模塊,因此可適應(yīng)于奇特的集成系統(tǒng)。另一方面,由于數(shù)據(jù)字典的生成由系統(tǒng)啟動(dòng)時(shí)直接形成,避免了數(shù)據(jù)字典被篡改的機(jī)會(huì),使基礎(chǔ)數(shù)據(jù)更具有安全性和準(zhǔn)確性;另一方面,該文分析的數(shù)據(jù)集成及其實(shí)現(xiàn)方式,具有極強(qiáng)的通用性,只需要工作人員在Excel表中正確地定義集成對(duì)象,就可以實(shí)現(xiàn)目標(biāo)數(shù)據(jù)集成,降低了集成的難度。數(shù)據(jù)導(dǎo)入算法僅采用一個(gè)通用函數(shù)就可以實(shí)現(xiàn)案例中地質(zhì)災(zāi)害的數(shù)據(jù)集成的導(dǎo)入,將龐大愛的系統(tǒng)的代碼量減少,同時(shí)提升了系統(tǒng)的開發(fā)率,具有明顯的優(yōu)勢。
參考文獻(xiàn):
[1] 馮勇,王明玉.基于語義的輕量級(jí)數(shù)據(jù)集成方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,9(1):122-123.
[2] 鐘將,宋娟.基于本體的異構(gòu)數(shù)據(jù)集成框架[J].計(jì)算機(jī)工程,2011,12(14):105-106.
[3] 時(shí)貴英,文必龍,王志寶.基于數(shù)據(jù)元的數(shù)據(jù)集成技術(shù)研究[J].科學(xué)技術(shù)與工程.2011,8(18):133-134.endprint