詹青
摘? 要: 為協(xié)助用戶在龐大網(wǎng)絡(luò)數(shù)據(jù)中安全、快速尋找所需電子檔案序列大數(shù)據(jù),設(shè)計(jì)基于數(shù)字標(biāo)簽的電子檔案序列大數(shù)據(jù)并行分類系統(tǒng)。利用云計(jì)算理念設(shè)計(jì)由大數(shù)據(jù)采集器、處理器和分類模塊構(gòu)成的并行分類系統(tǒng)總體架構(gòu),通過動(dòng)態(tài)易擴(kuò)展方式分布式配置電子檔案序列大數(shù)據(jù),增強(qiáng)系統(tǒng)分類穩(wěn)定性。設(shè)計(jì)由芯片和單片機(jī)組成的大數(shù)據(jù)采集器,以及處理器型號(hào)為IXP2400的大數(shù)據(jù)處理器,完成電子檔案序列大數(shù)據(jù)采集及處理。大數(shù)據(jù)分類模塊采用基于數(shù)字標(biāo)簽加密分類方法,設(shè)計(jì)多屬性數(shù)字標(biāo)簽防止電子檔案序列大數(shù)據(jù)被竊取。基于此,采用加密分類方法將電子檔案序列大數(shù)據(jù)分成若干大數(shù)據(jù)塊,實(shí)現(xiàn)電子檔案序列大數(shù)據(jù)加密分類。測(cè)試結(jié)果表明,所提系統(tǒng)正確分類電子檔案序列大數(shù)據(jù)的同時(shí)分類穩(wěn)定性好,準(zhǔn)確率及召回率分別高達(dá)98.63%,99.85%。
關(guān)鍵詞: 并行分類; 系統(tǒng)設(shè)計(jì); 電子檔案序列; 大數(shù)據(jù); 數(shù)字標(biāo)簽; 加密分類
中圖分類號(hào): TN919?34; TP311? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2020)14?0152?04
Design of digital?label based parallel classification system for electronic
archive sequence big data
ZHAN Qing
(College of Big Data, Qingdao Huanghai University, Qingdao 266427, China)
Abstract: A digital?label based parallel classification system for the big data of the electronic archive sequence is designed to help users find the big data of the needed electronic archives sequence safely and quickly in the huge network data. The overall architecture of parallel classification system composed of big data collectors, processors and classification modules is designed by means of the idea of cloud computing. The big data of electronic archive sequence is performed for the distributed configuration in a dynamic and scalable way to enhance the classification stability of the system. The big data collector consisted of the chip and the single chip computer, and the big data processor IXP2400 are designed to complete the acquisition and processing of big data of the electronic file sequence. In the big data classification module, the multi?attribute digital label is designed based on the encryption and classification method based on digital labels to prevent big data of the electronic archive sequence from being stolen. Based on this, the big data of electronic archives sequence is divided into several big data blocks by means of the encryption and classification method, so as to realize the encryption and classification of big data of electronic archives sequence. The testing results show that the proposed system can classify the big data of electronic archive sequence correctly and has good classification stability at the same time. The accuracy and recall rate are 98.63% and 99.85%, respectively.
Keywords: parallel classification; system design; electronic archive sequence; big data; digital label; encryption and classification
0? 引? 言
大數(shù)據(jù)飛速發(fā)展和廣泛應(yīng)用,使電子數(shù)據(jù)無處不在。電子數(shù)據(jù)已經(jīng)逐步代替紙質(zhì)數(shù)據(jù)充斥著人們的生活和工作,導(dǎo)致電子數(shù)據(jù)爆炸式增長(zhǎng)。大數(shù)據(jù)時(shí)代下電子檔案數(shù)據(jù)也步入數(shù)字化建設(shè)階段,檔案管理方式由傳統(tǒng)紙質(zhì)檔案管理轉(zhuǎn)向電子化管理[1]。但電子檔案序列大數(shù)據(jù)網(wǎng)絡(luò)化給人們帶來方便的同時(shí),也會(huì)產(chǎn)生電子檔案序列大數(shù)據(jù)安全問題,以及大數(shù)據(jù)大幅度增加帶來用戶使用信息難度大的問題[2]。
丁家滿等人提出Spark環(huán)境下采用大數(shù)據(jù)處理方式將完成的電子檔案序列信息可視化[3];陳海蕊研究電子檔案序列大數(shù)據(jù)可視化組織分析,提升電子檔案序列大數(shù)據(jù)利用率和服務(wù)質(zhì)量等功能[4]。
為實(shí)現(xiàn)電子檔案序列大數(shù)據(jù)安全、快速分類,在前人研究理論基礎(chǔ)上,設(shè)計(jì)基于數(shù)字標(biāo)簽的電子檔案序列大數(shù)據(jù)并行分類系統(tǒng),采用多屬性數(shù)字標(biāo)簽確保涉密電子檔案序列大數(shù)據(jù)的安全性,避免電子檔案序列大數(shù)據(jù)被復(fù)制、修改以及惡意傳播,并在其安全性得以保障的基礎(chǔ)上實(shí)現(xiàn)快速、精準(zhǔn)分類。
1? 并行系統(tǒng)總體設(shè)計(jì)方案
基于云計(jì)算理念設(shè)計(jì)電子檔案序列大數(shù)據(jù)并行分類系統(tǒng)總體架構(gòu)[5]。云計(jì)算是基于SOA組件模型架構(gòu),依照用戶要求,通過動(dòng)態(tài)易擴(kuò)展方式分布式配置電子檔案序列大數(shù)據(jù),提升云計(jì)算兼容性,促進(jìn)電子檔案序列大數(shù)據(jù)并行分類系統(tǒng)分類穩(wěn)定性。系統(tǒng)總體架構(gòu)如圖1所示。
1.1? 大數(shù)據(jù)采集器設(shè)計(jì)
通過設(shè)計(jì)大數(shù)據(jù)采集器實(shí)現(xiàn)電子檔案序列大數(shù)據(jù)分類系統(tǒng)大數(shù)據(jù)采集。大數(shù)據(jù)采集器硬件裝置安裝于計(jì)算機(jī)網(wǎng)絡(luò)接口處,將采集到的電子檔案序列大數(shù)據(jù)通過網(wǎng)絡(luò)接口傳輸?shù)接?jì)算機(jī)[6]。數(shù)據(jù)采集器硬件設(shè)施如圖2所示。
大數(shù)據(jù)采集器主要由芯片及單片機(jī)構(gòu)成,大數(shù)據(jù)采集器采集到的電子檔案序列大數(shù)據(jù)經(jīng)由云計(jì)算接口傳輸?shù)酱髷?shù)據(jù)處理器[7]。大數(shù)據(jù)采集器電源模塊將單片機(jī)產(chǎn)生的5 V電壓通過REGIN傳輸?shù)诫妷赫{(diào)節(jié)器,為單片機(jī)上方工作供應(yīng)大小為3 V的電壓;同時(shí)通過引腳輸送3 V電壓至其余同樣需要3 V電壓器件中使用,單片機(jī)傳輸電壓完成后與其余單片機(jī)交換信息[8]。電路整改網(wǎng)絡(luò)信號(hào),通過P25引腳將網(wǎng)絡(luò)信號(hào)輸送至A/D轉(zhuǎn)化器,并轉(zhuǎn)化網(wǎng)絡(luò)信號(hào)為數(shù)據(jù)[9],完成電子檔案序列大數(shù)據(jù)采集工作。
1.2? 大數(shù)據(jù)處理器設(shè)計(jì)
大數(shù)據(jù)處理器處理對(duì)象為大數(shù)據(jù)采集器所采集電子檔案序列大數(shù)據(jù)。大數(shù)據(jù)處理器選取型號(hào)為IXP2400處理器,通過數(shù)字線程和微引擎數(shù)字信號(hào)處理所采集大數(shù)據(jù),該方法具備共享效率快的特點(diǎn)[10]。大數(shù)據(jù)處理器處理大數(shù)據(jù)過程及模式均可以通過編程實(shí)現(xiàn)。
1.3? 分類方法
系統(tǒng)中的大數(shù)據(jù)分類模塊采用基于多屬性數(shù)字標(biāo)簽的電子檔案序列大數(shù)據(jù)加密分類方法,完成電子檔案序列大數(shù)據(jù)分類。
1.3.1? 多屬性數(shù)字標(biāo)簽設(shè)計(jì)
多屬性數(shù)字標(biāo)簽是一種數(shù)據(jù)段,可以與電子檔案序列大數(shù)據(jù)邏輯相關(guān),結(jié)構(gòu)相融。通過瀏覽多屬性數(shù)字標(biāo)簽屬性資料,根據(jù)行為屬性中用戶權(quán)限資料,判斷用戶權(quán)限操作,完成電子檔案數(shù)據(jù)讀取。多屬性數(shù)字標(biāo)簽應(yīng)用流程如下:
1) 用戶想訪問涉密電子檔案時(shí),需先向服務(wù)器端發(fā)送訪問請(qǐng)求,訪問請(qǐng)求接收后,審核用戶身份資料,判別多屬性數(shù)字標(biāo)簽攜帶情況以及多屬性數(shù)字標(biāo)簽是否完整。審核通過,向用戶發(fā)送電子檔案位置資料;審核未通過,請(qǐng)求失敗。
2) 用戶身份資料審核通過并成功接收電子檔案位置資料后,需要發(fā)送該目標(biāo)電子檔案查詢請(qǐng)求,等待管理者查詢?cè)撚脩裟繕?biāo)電子檔案操作權(quán)限,并將查詢請(qǐng)求結(jié)果返回。
3) 用戶本次操作完成后,多屬性數(shù)字標(biāo)簽中該電子檔案可查詢次數(shù)減少一次。
1.3.2? 電子檔案序列大數(shù)據(jù)加密分類方法
采用基于多屬性數(shù)字標(biāo)簽的電子檔案序列大數(shù)據(jù)加密分類方法,在保證電子檔案序列大數(shù)據(jù)安全、可靠、降低涉密電子檔案非法竊取概率基礎(chǔ)上,完成電子檔案序列大數(shù)據(jù)并行分類。電子檔案序列大數(shù)據(jù)加密分類原理如圖3所示。
1) 明確待分類電子檔案序列大數(shù)據(jù),設(shè)定[q]為電子檔案序列大數(shù)據(jù)分類完成的大數(shù)據(jù)塊數(shù)量,[p]為電子檔案序列大數(shù)據(jù)操作者數(shù)量,則密鑰數(shù)量為[Cp-1q],每個(gè)數(shù)據(jù)塊至少具備[Cp-1q]個(gè)密鑰。將[Cp-1q]作為變量,采用密鑰生成算法及密鑰分解算法分別逐步算出密鑰數(shù)組K和各個(gè)分類大數(shù)據(jù)塊所攜帶密鑰數(shù)組,計(jì)算各組組合值。
2) 依據(jù)等長(zhǎng)分類原則分類加密電子檔案序列數(shù)據(jù),保證分類后有[q]個(gè)大數(shù)據(jù)塊。設(shè)定block?length、[bi(1,2,…,q)]分別為各個(gè)大數(shù)據(jù)塊字節(jié)長(zhǎng)度、大數(shù)據(jù)塊列表。保存未達(dá)到整個(gè)大數(shù)據(jù)塊的數(shù)據(jù)位到surplus中,位長(zhǎng)用surplus?length描述該大數(shù)據(jù)塊位長(zhǎng)。
3) 電子檔案序列大數(shù)據(jù)分類時(shí),將大數(shù)據(jù)塊個(gè)數(shù)[q]、電子檔案序列大數(shù)據(jù)操作者數(shù)量[p]、密鑰數(shù)量[Cp-1q]以及大數(shù)據(jù)塊位置編號(hào)block?num等資料增添在大數(shù)據(jù)塊塊頭位置。目前大數(shù)據(jù)塊擁有末尾大數(shù)據(jù)塊位長(zhǎng)surplus?length及密鑰數(shù)組資料。
4) 連接末端大數(shù)據(jù)塊到各個(gè)完整的分類大數(shù)據(jù)塊末端。
采用上述方法將電子檔案序列大數(shù)據(jù)劃分為若干大數(shù)據(jù)塊,實(shí)現(xiàn)電子檔案序列大數(shù)據(jù)加密分類。
2? 系統(tǒng)測(cè)試
為驗(yàn)證本文系統(tǒng)的有效性,選擇某網(wǎng)絡(luò)知識(shí)庫(kù)電子檔案序列大數(shù)據(jù)作為系統(tǒng)測(cè)試對(duì)象,系統(tǒng)硬件配置如下:處理器為Intel 酷睿i3 350M,內(nèi)存大小為32 GB。參數(shù)設(shè)置如下:編號(hào)測(cè)試用電子檔案序列大數(shù)據(jù)為K1,K2,K3,K4,K5,K6,K7。電子檔案序列大數(shù)據(jù)種類為:貿(mào)易類大數(shù)據(jù)、經(jīng)濟(jì)類大數(shù)據(jù)、交通類大數(shù)據(jù)、文化類大數(shù)據(jù)、工業(yè)類大數(shù)據(jù)、體育類大數(shù)據(jù)、軍事類大數(shù)據(jù);數(shù)據(jù)大小分別為1 652 KB,1 685 KB,1 784 KB,1 756 KB,
1 562 KB,1 579 KB,1 655 KB。
采用本文系統(tǒng)對(duì)網(wǎng)絡(luò)知識(shí)庫(kù)中的電子檔案序列大數(shù)據(jù)展開分類測(cè)試,系統(tǒng)大數(shù)據(jù)采集界面如圖4所示。分類結(jié)果表明,本文系統(tǒng)可以正確分類電子檔案序列大數(shù)據(jù)。
本文系統(tǒng)穩(wěn)定性實(shí)驗(yàn)結(jié)果如表1所示。分析表1數(shù)據(jù)可知,隨著測(cè)試次數(shù)增加,本文系統(tǒng)分類準(zhǔn)確率和數(shù)據(jù)分類預(yù)估值逐步增加,最高分別可達(dá)98.63%,98.91,系統(tǒng)召回率最高達(dá)99.85%。測(cè)試結(jié)果表明,本文分類系統(tǒng)準(zhǔn)確率及召回率較高,且系統(tǒng)穩(wěn)定性好。
系統(tǒng)CPU占用率及內(nèi)存占用率結(jié)果如表2所示。
表2結(jié)果顯示,本文系統(tǒng)CPU占用率處于48%~58%之間,內(nèi)存占用率為18%~31%。測(cè)試結(jié)果表明本文系統(tǒng)資源占用率較小。
由于本文采用電子檔案序列大數(shù)據(jù)加密分類方法,系統(tǒng)分類效率由大數(shù)據(jù)分塊大小決定。大數(shù)據(jù)塊越多,系統(tǒng)負(fù)載越大,分類時(shí)間也隨之變長(zhǎng)。為驗(yàn)證大數(shù)據(jù)塊對(duì)本文系統(tǒng)效率的影響,選擇大小為160 MB的電子檔案序列大數(shù)據(jù)作為測(cè)試對(duì)象。測(cè)試結(jié)果如圖5所示。
從圖5測(cè)試結(jié)果可以看出,當(dāng)大數(shù)據(jù)分塊大小為4~5 MB時(shí),本文系統(tǒng)分類耗時(shí)最短;當(dāng)大數(shù)據(jù)分塊大小超過6 MB時(shí),系統(tǒng)耗時(shí)隨大數(shù)據(jù)塊大小增大急劇上升,嚴(yán)重降低系統(tǒng)分類效率。實(shí)驗(yàn)結(jié)果表明,大數(shù)據(jù)塊大小為4~5 MB時(shí),本文系統(tǒng)分類效率最高。
3? 結(jié)? 論
本文設(shè)計(jì)基于數(shù)字標(biāo)簽的電子檔案序列大數(shù)據(jù)并行分類系統(tǒng),通過增加多屬性數(shù)字標(biāo)簽,增強(qiáng)電子檔案序列大數(shù)據(jù)安全性,使電子檔案序列大數(shù)據(jù)具備防復(fù)制、防修改、防擴(kuò)散等能力。采用加密分類方法將電子檔案序列大數(shù)據(jù)分成大數(shù)據(jù)塊,在降低系統(tǒng)存儲(chǔ)空間的基礎(chǔ)上,保障電子檔案序列大數(shù)據(jù)不被泄露。實(shí)驗(yàn)結(jié)果表明,本文系統(tǒng)采用數(shù)字標(biāo)簽進(jìn)行大數(shù)據(jù)分類過程中,當(dāng)數(shù)據(jù)塊大小為4~5 MB時(shí),系統(tǒng)分類耗時(shí)最短,分類效率最高。
參考文獻(xiàn)
[1] 高坤,戴江山,張慕華.基于大數(shù)據(jù)技術(shù)的電子戰(zhàn)情報(bào)系統(tǒng)[J].中國(guó)電子科學(xué)研究院學(xué)報(bào),2017,12(2):111?114.
[2] 張譯天,于炯,魯亮,等.大數(shù)據(jù)流式計(jì)算框架Heron環(huán)境下的流分類任務(wù)調(diào)度策略[J].計(jì)算機(jī)應(yīng)用,2019,39(4):1106?1116.
[3] 丁家滿,王思晨,賈連印,等.Spark環(huán)境下基于綜合權(quán)重的不平衡數(shù)據(jù)集成分類方法[J].小型微型計(jì)算機(jī)系統(tǒng),2019,40(2):17?21.
[4] 陳海蕊.面向電子檔案大數(shù)據(jù)的可視化組織與分析[J].科學(xué)技術(shù)與工程,2018,18(2):279?284.
[5]申琢.基于云計(jì)算和大數(shù)據(jù)挖掘的礦山事故預(yù)警系統(tǒng)研究與設(shè)計(jì)[J].中國(guó)煤炭,2017,43(12):109?114.
[6] 肖建波,鄭偉,代作偉,等.基于大數(shù)據(jù)采集的播出監(jiān)管系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].電視技術(shù),2017,41(6):40?44.
[7] 王磊,鄒恩岑,曾誠(chéng),等.基于Spark的大數(shù)據(jù)聚類研究及系統(tǒng)實(shí)現(xiàn)[J].數(shù)據(jù)采集與處理,2018,33(6):137?145.
[8] 呂慶,劉頌,劉小杰,等.基于大數(shù)據(jù)技術(shù)的燒結(jié)全產(chǎn)線質(zhì)量智能控制系統(tǒng)[J].鋼鐵,2018(7):1?9.
[9] 王欣,張冬梅.大數(shù)據(jù)環(huán)境下基于高校讀者小數(shù)據(jù)的圖書館個(gè)性化智能服務(wù)研究[J].情報(bào)理論與實(shí)踐,2018,41(2):132?137.
[10] 向小佳,趙曉芳,劉洋,等.一種正交分解大數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)方法及實(shí)現(xiàn)[J].計(jì)算機(jī)研究與發(fā)展,2017,54(5):1097?1108.