劉 瀚
(西京學(xué)院商貿(mào)技術(shù)系,陜西 西安 710123)
大數(shù)據(jù)時(shí)代數(shù)據(jù)封存系統(tǒng)設(shè)計(jì)與研究
劉 瀚
(西京學(xué)院商貿(mào)技術(shù)系,陜西 西安 710123)
為了克服光盤(pán)數(shù)據(jù)封存系統(tǒng)在大數(shù)據(jù)時(shí)代的種種局限,通過(guò)網(wǎng)絡(luò)傳輸實(shí)現(xiàn)數(shù)據(jù)自動(dòng)封存、實(shí)時(shí)封存、批量封存的功能,研發(fā)基于硬盤(pán)存儲(chǔ)的軟硬件一體化數(shù)據(jù)封存系統(tǒng)勢(shì)在必行。文章從彩票行業(yè)的具體應(yīng)用需求出發(fā),重點(diǎn)圍繞數(shù)據(jù)封存系統(tǒng)的通用性、安全性、可擴(kuò)展性進(jìn)行設(shè)計(jì),并運(yùn)用大規(guī)模并行處理和無(wú)共享架構(gòu)等技術(shù)加以實(shí)現(xiàn)。給出了完整的產(chǎn)品解決方案,其測(cè)試產(chǎn)品滿足了彩票行業(yè)對(duì)數(shù)據(jù)封存的苛刻要求,因此具有可行性。
數(shù)據(jù)封存;信息安全;彩票;大規(guī)模并行處理;無(wú)共享架構(gòu)
數(shù)據(jù)封存系統(tǒng)是基于專用硬件的為用戶提供聯(lián)網(wǎng)使用的、長(zhǎng)期安全存儲(chǔ)的數(shù)據(jù)存儲(chǔ)設(shè)備。封存中的數(shù)據(jù)具有不可更改的特點(diǎn),適合于需要長(zhǎng)期保存且不允許修改和刪除的數(shù)據(jù)存儲(chǔ)應(yīng)用。近年來(lái),數(shù)據(jù)封存系統(tǒng)的應(yīng)用領(lǐng)域越來(lái)越多,如彩票業(yè)、衛(wèi)生醫(yī)療、公檢法司、教育系統(tǒng)、檔案信息化建設(shè)、證書(shū)存儲(chǔ)查詢等,每時(shí)每刻產(chǎn)生大量的重要數(shù)據(jù),迫切需要一個(gè)有足夠安全保障、高效率低成本的數(shù)據(jù)封存解決方案。以往采用的光盤(pán)刻錄方式,已經(jīng)無(wú)法適應(yīng)需求。基于硬盤(pán)存儲(chǔ)的數(shù)據(jù)封存系統(tǒng),具有速度快、容量大、成本低,易于保存、存儲(chǔ)介質(zhì)壽命長(zhǎng)、對(duì)保管環(huán)境無(wú)特殊要求等優(yōu)勢(shì),必然成為數(shù)據(jù)封存的主流方案。
財(cái)政部條法司在2012年公布了《彩票管理?xiàng)l例實(shí)施細(xì)則》[1],首次明確彩票銷售原始數(shù)據(jù)也要封存,且保存期限自封存之日起不得少于60個(gè)月。為了保證彩民參與開(kāi)獎(jiǎng)的安全和公平,在《彩票管理?xiàng)l例》[2]第22條中明確規(guī)定,彩票發(fā)行機(jī)構(gòu)、彩票銷售機(jī)構(gòu)應(yīng)當(dāng)確保彩票銷售數(shù)據(jù)的完整、準(zhǔn)確和安全。當(dāng)期彩票銷售數(shù)據(jù)封存后至開(kāi)獎(jiǎng)活動(dòng)結(jié)束前,不得查閱、變更或刪除??傊?,國(guó)家對(duì)數(shù)據(jù)封存提出了四點(diǎn)具體要求,一是封存的強(qiáng)制性,二是即時(shí)封存,三是不得變更,四是保存期限至少5年。傳統(tǒng)的光盤(pán)刻錄已經(jīng)無(wú)法滿足這種需要。比如無(wú)法對(duì)即開(kāi)型彩票進(jìn)行即時(shí)封存,或?qū)崿F(xiàn)成本極其高昂[3]。
為了適應(yīng)大數(shù)據(jù)時(shí)代的需要,克服傳統(tǒng)方式的種種弊端,基于硬盤(pán)存儲(chǔ)的安全、可靠的封裝系統(tǒng)應(yīng)運(yùn)而生。數(shù)據(jù)封存系統(tǒng)作為軟硬件一體化設(shè)備應(yīng)至少滿足以下需求:
⑴ 無(wú)論是外部接入還是人員登錄,接入系統(tǒng)都需要進(jìn)行身份認(rèn)證;
⑵ 只提供數(shù)據(jù)寫(xiě)入、查詢,不能對(duì)數(shù)據(jù)進(jìn)行修改和刪除;
⑶ 系統(tǒng)無(wú)法感染病毒或者被入侵;
⑷ 數(shù)據(jù)網(wǎng)絡(luò)傳輸過(guò)程安全與可靠;
⑸ 在性能允許的情況下,并發(fā)支持多個(gè)封存任務(wù);
⑹ 數(shù)據(jù)存儲(chǔ)可靠性高、容量大,介質(zhì)易于更換和保存;
⑺ 提供安全可靠的系統(tǒng)維護(hù)方式;
⑻ 適用范圍廣,支持多行業(yè)多領(lǐng)域的廣泛應(yīng)用;
⑼ 性能高,配置靈活,易于擴(kuò)展。
安全性保障是數(shù)據(jù)封存系統(tǒng)的核心要求,因此系統(tǒng)設(shè)計(jì)首重安全性,其次兼顧通用性、可擴(kuò)展性和易用性。
⑴ 限制設(shè)備接入方式;
⑵ 外部接入須身份驗(yàn)證;
⑶ 只提供數(shù)據(jù)寫(xiě)入、追加和查詢;
⑷ 支持日志查詢;
⑸ 網(wǎng)絡(luò)傳輸過(guò)程加密;
⑹ 提供數(shù)據(jù)完整性校驗(yàn);
⑺ 數(shù)據(jù)存儲(chǔ)加密;
⑻ 支持多任務(wù)調(diào)度和自動(dòng)管理;
⑼ 支持多機(jī)數(shù)據(jù)同步;
⑽ 支持并機(jī)擴(kuò)展性能;
⑾ 支持?jǐn)?shù)據(jù)硬盤(pán)熱插拔;
⑿ 提供數(shù)字證書(shū)管理;
⒀ 提供用于二次開(kāi)發(fā)的動(dòng)態(tài)鏈接庫(kù)。
⑴ 對(duì)文件系統(tǒng)進(jìn)行修改,去除文件刪除和修改的底層支持;
⑵ 禁用USB設(shè)備,去除對(duì)USB設(shè)備的支持,包括驅(qū)動(dòng)程序;
⑶禁用PS2接口,去除對(duì)PS2的支持,包括驅(qū)動(dòng)程序;⑷ 僅保留對(duì)網(wǎng)卡和串口設(shè)備的支持;
⑸ 禁用圖形界面,僅支持字符命令行模式;
⑹ 精簡(jiǎn)操作系統(tǒng)的軟件包,僅支持必要的外部命令;
⑺ 定制兩個(gè)shell,分別是用戶模式和工程模式;用戶模式僅能運(yùn)行幾個(gè)必需的腳本,工程模式保留對(duì)系統(tǒng)的必要底層操作;
⑻ 對(duì)外部終端的訪問(wèn)記錄詳細(xì)的日志;
⑼ 優(yōu)化操作系統(tǒng)做最大化精簡(jiǎn),一次性燒入EPROM中,避免人為或病毒修改操作系統(tǒng)。
⑴ 默認(rèn)提供基于Webservice協(xié)議傳輸數(shù)據(jù)流的API接口;
⑵ 默認(rèn)提供基于FTP協(xié)議的文件傳輸服務(wù);
⑶ 對(duì)網(wǎng)絡(luò)傳輸協(xié)議提供SSL雙向加密認(rèn)證,在日志中記錄外部終端的身份;
⑷ 通過(guò)對(duì)用戶名和密碼、license的授權(quán),實(shí)現(xiàn)外部接入的身份認(rèn)證;
⑸ 自帶證書(shū)中心,能夠?yàn)橥饨咏K端生成密鑰對(duì),終端只有安裝了生成的密鑰對(duì),才能訪問(wèn)系統(tǒng),以便識(shí)別和記錄終端身份。
⑴ 外部接口只有兩個(gè)千兆網(wǎng)卡和一個(gè)串口,沒(méi)有鍵盤(pán)和鼠標(biāo)以及USB接口;
⑵ 終端可通過(guò)兩個(gè)網(wǎng)卡訪問(wèn)系統(tǒng),實(shí)際使用一個(gè),另一個(gè)作為備份。串口支持RS232,可以通過(guò)串口登錄系統(tǒng)的用戶模式或工程模式;這兩個(gè)模式均為命令模式,其中用戶模式只有少數(shù)命令,包括網(wǎng)卡設(shè)置、日志查看等;工程模式不公開(kāi),用于廠家維護(hù)。
⑴ 硬盤(pán)采用RAID10,提供鏡像磁盤(pán)功能,在硬件層面確保數(shù)據(jù)讀寫(xiě)的可靠性;
⑵ 對(duì)完成寫(xiě)入的數(shù)據(jù)文件進(jìn)行MD5校驗(yàn),并保存到特定文件中,用于文件完整性校驗(yàn);
⑶ 在文件系統(tǒng)級(jí)別提供128位對(duì)稱加解密,寫(xiě)入前加密,讀取后解密。
⑴ 支持多種網(wǎng)絡(luò)傳輸協(xié)議,除了Webservice和FTP外,可擴(kuò)展支持其他協(xié)議;
⑵ 支持主備模式,一臺(tái)主機(jī)可以另行配置一臺(tái)或以上備機(jī),提供更高的可靠性;
⑶ 支持多設(shè)備并機(jī)部署,能夠滿足高吞吐量的數(shù)據(jù)插入和查詢操作。
⑴ 通過(guò)串口的運(yùn)行維護(hù)命令,實(shí)現(xiàn)對(duì)于系統(tǒng)的基本參數(shù)設(shè)置;
⑵ 對(duì)于每次的文件操作進(jìn)行日志記錄,使得文件和數(shù)據(jù)操作有跡可查;并且對(duì)日志記錄進(jìn)行加密,保證日志數(shù)據(jù)的安全性;
⑶ 對(duì)系統(tǒng)運(yùn)行過(guò)程中的各種異常提供告警接口,提供資源告警、系統(tǒng)運(yùn)行告警和數(shù)據(jù)異常告警。
定制服務(wù)器設(shè)備,電源、網(wǎng)卡等硬件采用雙備份,機(jī)箱前后面板加鎖。提供兩種型號(hào)的服務(wù)器,分別提供2T和6T的存儲(chǔ)容量。2T版本支持20000條/秒的處理能力,6T版本支持40000條/秒的處理能力。部分存儲(chǔ)采用IO性能極高的固態(tài)硬盤(pán),保證數(shù)據(jù)的突發(fā)讀寫(xiě)能力。
如圖1所示,數(shù)據(jù)保護(hù)系統(tǒng)由數(shù)據(jù)接入、調(diào)度中心、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)加解密、數(shù)據(jù)應(yīng)用和系統(tǒng)維護(hù)等部分組成。
圖1 系統(tǒng)整體結(jié)構(gòu)圖
系統(tǒng)采用大規(guī)模并行處理[4]和無(wú)共享架構(gòu)[5]來(lái)實(shí)現(xiàn)數(shù)據(jù)封存系統(tǒng)的可擴(kuò)展性。如圖2所示。
圖2 系統(tǒng)技術(shù)架構(gòu)圖
如圖3所示,調(diào)度中心節(jié)點(diǎn)負(fù)責(zé)實(shí)現(xiàn):①建立與客戶端的連接和管理;②數(shù)據(jù)和任務(wù)的分發(fā);③寫(xiě)入、查詢的解析并形成執(zhí)行計(jì)劃;④執(zhí)行計(jì)劃向存儲(chǔ)節(jié)點(diǎn)的分發(fā);⑤收集存儲(chǔ)節(jié)點(diǎn)的執(zhí)行結(jié)果;⑥只存儲(chǔ)數(shù)據(jù)字典和元數(shù)據(jù)。數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)負(fù)責(zé)實(shí)現(xiàn):①業(yè)務(wù)數(shù)據(jù)的存儲(chǔ)和存??;②用戶查詢的執(zhí)行。
圖3 調(diào)度中心節(jié)點(diǎn)和數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)
封存系統(tǒng)采用MPP/無(wú)共享架構(gòu),有如下優(yōu)勢(shì):①最易于擴(kuò)展;②具有自動(dòng)化的并行處理機(jī)制;③數(shù)據(jù)分布在所有并行節(jié)點(diǎn)上,I/O處理最優(yōu)化;④所有節(jié)點(diǎn)并行工作,完全無(wú)共享,無(wú)I/O沖突;⑤增加節(jié)點(diǎn)可實(shí)現(xiàn)線性擴(kuò)展存儲(chǔ)容量及工作性能;⑥對(duì)用戶透明。
安全性是數(shù)據(jù)封存系統(tǒng)最基本的特性,我們?cè)谝韵挛鍌€(gè)級(jí)別上來(lái)實(shí)現(xiàn)安全性。
⑴ 硬件級(jí)別:只提供網(wǎng)口和串口,屏蔽其他接口方式。串口主要傳輸系統(tǒng)的配置數(shù)據(jù)信息及可信任的客戶端證書(shū);網(wǎng)口主要傳輸系統(tǒng)的業(yè)務(wù)數(shù)據(jù)信息;實(shí)現(xiàn)控制與業(yè)務(wù)相分離的模式。
⑵ 操作系統(tǒng)級(jí)別:安裝定制的專用嵌入式系統(tǒng),該系統(tǒng)僅支持定制的命令和操作;并且不支持鍵盤(pán)、鼠標(biāo)、USB等接口,僅保留對(duì)網(wǎng)卡和串口設(shè)備的支持。
⑶ 應(yīng)用級(jí)別:對(duì)網(wǎng)絡(luò)傳輸提供SSL雙向加密認(rèn)證,日志中記錄外部主機(jī)的身份。對(duì)客戶端的接入及網(wǎng)絡(luò)傳輸提供SSL雙向加密認(rèn)證,以對(duì)稱密碼技術(shù)和公開(kāi)密碼技術(shù)相結(jié)合,實(shí)現(xiàn)數(shù)據(jù)傳輸過(guò)程中的機(jī)密性、完整性和認(rèn)證性。采用串口通訊方式傳輸并配置客戶端證書(shū)。
⑷ 數(shù)據(jù)級(jí)別:為保證數(shù)據(jù)文件的完整性,對(duì)完成寫(xiě)入的數(shù)據(jù)文件進(jìn)行多級(jí)校驗(yàn),文件校驗(yàn)采用SHA算法。
系統(tǒng)同時(shí)對(duì)存儲(chǔ)數(shù)據(jù)進(jìn)行加密,采用可選的128位分組對(duì)稱加密算法。數(shù)據(jù)與日志采用不同的加密方式。
⑸ 容災(zāi)級(jí)別:為了提高數(shù)據(jù)的安全性和可靠性,系統(tǒng)能夠提供在線容災(zāi)功能。系統(tǒng)設(shè)計(jì)采用分布式集群架構(gòu),系統(tǒng)主節(jié)點(diǎn)采用雙機(jī)冗余熱備方式,數(shù)據(jù)記錄節(jié)點(diǎn)采用分布式集群方式,支持雙機(jī)備份。當(dāng)硬件發(fā)生故障后,可以從另外節(jié)點(diǎn)進(jìn)行恢復(fù)。系統(tǒng)支持異地分布式多級(jí)存儲(chǔ)結(jié)構(gòu)。
存儲(chǔ)容量2T版本的數(shù)據(jù)封存系統(tǒng)已通過(guò)性能及穩(wěn)定性測(cè)試。在60Mbits/s的流量下,目前已穩(wěn)定運(yùn)行72小時(shí)(程序終止原因?yàn)槌绦蛏?jí)更新)。經(jīng)過(guò)性能優(yōu)化后,該版本的數(shù)據(jù)封存系統(tǒng)目前實(shí)際處理能力為200Mbits/s,遠(yuǎn)遠(yuǎn)超過(guò)某省級(jí)彩票機(jī)構(gòu)20000條/s記錄處理能力的要求。
隨著大數(shù)據(jù)時(shí)代來(lái)臨,政府和企、事業(yè)單位每天都有大量的原始數(shù)據(jù)需要封存。基于硬盤(pán)存儲(chǔ)技術(shù)的數(shù)據(jù)封存系統(tǒng)為我們提供了一個(gè)高效率低成本的一體化解決方案。采用的操作系統(tǒng)定制、信息安全協(xié)議、硬盤(pán)存儲(chǔ)及軟件開(kāi)發(fā)技術(shù)成熟、可靠,完美實(shí)現(xiàn)了系統(tǒng)的通用性、安全性和可擴(kuò)展性。其可行性已經(jīng)得到實(shí)際驗(yàn)證,能夠適應(yīng)我國(guó)大數(shù)據(jù)時(shí)代對(duì)數(shù)據(jù)封存的要求,極具推廣價(jià)值。
[1]財(cái)政部,民政部,國(guó)家體育總局.彩票管理?xiàng)l例實(shí)施細(xì)則[Z].中華人民共和國(guó)國(guó)務(wù)院,2012.
[2]中華人民共和國(guó)國(guó)務(wù)院.彩票管理?xiàng)l例[Z].中華人民共和國(guó)國(guó)務(wù)院,2009.
[3]譚小地.大數(shù)據(jù)時(shí)代的光存儲(chǔ)技術(shù)[J].紅外與激光工程,2016.9.
[4]何秉姣,童小念,舒萬(wàn)能,喻成.并行處理技術(shù)研究[R].全國(guó)第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議,2007.8.
[5]趙卓峰,魏文飛,馬強(qiáng).基于無(wú)共享架構(gòu)的海量感知數(shù)據(jù)實(shí)時(shí)處理系統(tǒng)[J].微電子學(xué)與計(jì)算機(jī),2012.9.
Design and research of data archiving system in big data age
Liu Han
(Department of business technology,Xijing University,Xi'an,Shannxi 710123,China)
In order to overcome the limitations of CD data archiving system in the age of big data,it is imperative to realize the functions of automatic data archiving,real-time archiving,bulk archiving through the network transmission,to research and develop the data archiving system with hard disk storage based and hardware and software integrated.In this paper,starting from the specific requirements of lottery industry,the data archiving system is designed with the focus on the universality,security and scalability,and realized by using several technologies such as MPP (massively parallel processing)and SNA (shared-nothing architecture)etc.A complete solution is provided,and its testing products meet the stringent requirements of the lottery industry for data archiving,so it is feasible.
data archiving;information security;lottery;massively parallel processing;shared-nothing architecture
TP309
A
1006-8228(2017)10-01-04
2017-09-08
劉瀚(1969-),男,陜西西安人,碩士研究生,工程師,主要研究方向:計(jì)算機(jī)應(yīng)用技術(shù)。
10.16644/j.cnki.cn33-1094/tp.2017.10.001