李占平++楊昱昺
摘要:目前高校檔案管理存在管理內(nèi)容獨(dú)立、管理不全面、重館藏輕利用等問(wèn)題,通過(guò)引入“云平臺(tái)+大數(shù)據(jù)”技術(shù),實(shí)現(xiàn)高校檔案管理向全面化、智能化方向發(fā)展。
關(guān)鍵詞:高校;檔案管理;云平臺(tái);大數(shù)據(jù)
一、引言
隨著信息技術(shù)的發(fā)展,我國(guó)高校教育信息化已日趨完善。高校每天從各個(gè)信息管理平臺(tái)產(chǎn)生了大量的電子文檔,特別是教學(xué)平臺(tái)產(chǎn)生的大量音頻視頻文件,日積月累,將給高校各信息系統(tǒng)的正常運(yùn)行和檔案管理帶來(lái)巨大挑戰(zhàn)。以前針對(duì)大量的電子文檔一般采用措施是:增加硬盤(pán)存貯空間、提高硬件性能或只保留規(guī)定年限內(nèi)的,其余刪除。目前,有一種新的解決方案:引入“云平臺(tái)+大數(shù)據(jù)”技術(shù)。云平臺(tái)可通過(guò)對(duì)大量普通PC機(jī)的集群,實(shí)現(xiàn)存貯空間的以快速低廉的成本進(jìn)行擴(kuò)充。大數(shù)據(jù)是以海量的信息、多種數(shù)據(jù)類(lèi)型、知識(shí)密集度低等特征為高校檔案信息資源實(shí)現(xiàn)數(shù)據(jù)分析與數(shù)據(jù)挖掘提供技術(shù)上的支撐。
二、高校檔案管理現(xiàn)狀
目前高校檔案管理主要存在如下幾方面的問(wèn)題:1、由于歷史原因,檔案管理信息系統(tǒng)一般都獨(dú)立存在,如:教師信息有教師信息管理系統(tǒng)、學(xué)生信息有學(xué)生信息管理系統(tǒng)、圖書(shū)館有圖書(shū)館信息管理系統(tǒng)、教學(xué)有專(zhuān)門(mén)的網(wǎng)站等,系統(tǒng)之間數(shù)據(jù)基本獨(dú)立。2、由于技術(shù)的限制,目前一般的信息管理系統(tǒng)都采用關(guān)系型數(shù)據(jù)庫(kù)存貯數(shù)據(jù),對(duì)結(jié)構(gòu)化數(shù)據(jù)信息存取比較方便,但對(duì)非結(jié)構(gòu)化電子文件,如文檔、表格、網(wǎng)頁(yè)、音頻視頻等存貯比較困難,所以目前這些非結(jié)構(gòu)化文件在檔案處理過(guò)程中,很多高校依然采用紙質(zhì)或統(tǒng)一以普通文件存放,造成管理不全面。3、目前國(guó)內(nèi)高校檔案管理中普遍存在“重館藏輕利用”的現(xiàn)象[1],檔案管理員對(duì)館藏?cái)?shù)量比較重視,但對(duì)如何提高檔案信息的利用率及應(yīng)用服務(wù)不夠重視。
三、高校檔案的特性
與一般檔案相比,高校檔案有其自身的特征,大致可歸納為如下幾個(gè)方面:
1、檔案形式廣泛、內(nèi)容多樣。高校檔案包括教師個(gè)人檔案、教師教學(xué)檔案、教師科研檔案、學(xué)生個(gè)人檔案、學(xué)校行政檔案、各分院行政檔案、資產(chǎn)檔案、圖書(shū)資料檔案等。如果將目前網(wǎng)絡(luò)教學(xué)平臺(tái)資料、學(xué)校OA平臺(tái)各類(lèi)文件、各分院網(wǎng)絡(luò)平臺(tái)資料也歸入檔案進(jìn)行統(tǒng)一存貯管理,內(nèi)容將更全面、豐富。
2、檔案存貯形式多樣。由于高校檔案來(lái)源廣泛,勢(shì)必造成有多種存貯形式,如教師個(gè)人檔案、學(xué)生個(gè)人檔案、資產(chǎn)檔案等以結(jié)構(gòu)化數(shù)據(jù)存貯為主;但對(duì)不少教學(xué)資料檔案、行政檔案、圖書(shū)資料檔案、各類(lèi)教師學(xué)生獲獎(jiǎng)證書(shū)等,大多還以紙質(zhì)形式存貯,或以電子掃描文件存貯;網(wǎng)絡(luò)教學(xué)平臺(tái)、學(xué)校OA平臺(tái)等發(fā)送的文件,一般以文檔、音視頻文件等形式存貯[2]。
3、檔案調(diào)用頻繁,利用率高。高校檔案大多都需要頻繁調(diào)用,如學(xué)生每學(xué)年的評(píng)優(yōu)、每一屆畢業(yè)生的調(diào)檔;教師每年晉升職稱(chēng)查檔;上級(jí)主管部門(mén)的教學(xué)評(píng)估和學(xué)校內(nèi)部教學(xué)質(zhì)量檢查調(diào)檔;學(xué)生轉(zhuǎn)專(zhuān)業(yè)、教師人事調(diào)動(dòng)調(diào)檔等。
4、檔案價(jià)值密度較大。由于高校檔案資源主要來(lái)自校內(nèi)已有的信息系統(tǒng),從這些系統(tǒng)中獲取的資料格式規(guī)范、內(nèi)容完整,其檔案信息的價(jià)值密度較高。
四、云平臺(tái)+大數(shù)據(jù)的應(yīng)用
云平臺(tái)分公有云和私有云[3],主要用于解決大容量存貯問(wèn)題。公有云目前常用的有阿里云服務(wù)器、騰迅云服務(wù)器、百度云服務(wù)器等,可通過(guò)租賃的方式獲取云空間。私有云目前常用Hadoop框架進(jìn)行搭建,相對(duì)公有云,私有云的優(yōu)勢(shì)在于采用自主管理,在擴(kuò)充存貯空間方面相對(duì)比較方便,并能對(duì)數(shù)據(jù)、安全性提供有效控制。
大數(shù)據(jù)技術(shù)是在合理時(shí)間內(nèi)完成海量數(shù)據(jù)的采集與處理,最后將處理結(jié)果反饋給用戶(hù),給用戶(hù)決策提供幫助。大數(shù)據(jù)有4V特征,分別是:數(shù)量(Volume),即數(shù)據(jù)巨大,從TB級(jí)別躍升到PB級(jí)別;多樣性(Variety),即數(shù)據(jù)類(lèi)型繁多,不僅包括傳統(tǒng)的格式化數(shù)據(jù),還包括來(lái)自互聯(lián)網(wǎng)的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等;速度(Velocity),即處理速度快;真實(shí)性(Veracity),即追求高質(zhì)量的數(shù)據(jù)[4]。
根據(jù)高校檔案的特性,采用云平臺(tái)+大數(shù)據(jù)技術(shù)可以很好的解決目前高校檔案管理中存在的問(wèn)題。圖1是結(jié)合“云平臺(tái)+大數(shù)據(jù)”的高校檔案管理系統(tǒng)設(shè)想。在該圖中,通過(guò)建立Hadoop私有云平臺(tái),在該平臺(tái)下,采用HDFS和Database相結(jié)合的數(shù)據(jù)庫(kù)存貯方式,將結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分別存貯,根據(jù)需要由大數(shù)據(jù)引擎的數(shù)據(jù)處理層進(jìn)行調(diào)配。HDFS和Database相結(jié)合的數(shù)據(jù)庫(kù)處理方式有利于充分發(fā)揮關(guān)系型數(shù)據(jù)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù)的優(yōu)勢(shì),使系統(tǒng)的處理效率更高。數(shù)據(jù)來(lái)源通過(guò)對(duì)已有的不同信息系統(tǒng)建立相應(yīng)的接口進(jìn)行處理,通過(guò)在休息時(shí)間由系統(tǒng)自動(dòng)調(diào)用接口,更新高校檔案管理系統(tǒng)數(shù)據(jù)庫(kù)。在應(yīng)用層,通過(guò)不同的業(yè)務(wù)訪(fǎng)問(wèn)檔案管理系統(tǒng)時(shí),可通過(guò)應(yīng)用接口層訪(fǎng)問(wèn)數(shù)據(jù)庫(kù)處理層,再由數(shù)據(jù)庫(kù)處理層訪(fǎng)問(wèn)到HDFS/Database數(shù)據(jù)庫(kù)。
五、結(jié)束語(yǔ)
通過(guò)結(jié)合“云平臺(tái)+大數(shù)據(jù)”的高校檔案管理系統(tǒng),由于將高校各種檔案管理或教學(xué)網(wǎng)站等信息系統(tǒng)的數(shù)據(jù)庫(kù)集成到一起,不但能解決目前高校檔案管理各自為戰(zhàn),信息不全,且查詢(xún)不方便的問(wèn)題,而且如果能引入大數(shù)據(jù)中的數(shù)據(jù)挖掘技術(shù),還可找出檔案信息之間、用戶(hù)之間以及檔案與用戶(hù)之間潛在的邏輯關(guān)聯(lián)規(guī)則,從而能夠?yàn)閷W(xué)校教學(xué)、學(xué)生綜合素質(zhì)評(píng)價(jià)提供幫助與決策。
參考文獻(xiàn):
[1]李小晨. 大數(shù)據(jù)時(shí)代背景下的檔案管理探討[J].云南檔案,2013.6:48-50.
[2]陳峰,孫淼洋. 大數(shù)據(jù)在高校檔案信息管理中的應(yīng)用研究[J].管理信息化,2015.7:54-55.
[3]孟宇,張濤,趙政文.數(shù)字檔案云平臺(tái)的構(gòu)建與研究[J].微處理機(jī),2013,34(6):49-52.
[4]石俊峰,周俐霞等. 大數(shù)據(jù)時(shí)代高校數(shù)字檔案資源管理研究[J].現(xiàn)代教育技術(shù),2015.1:19-24.