余紅光
(湖南信息職業(yè)技術(shù)學(xué)院 湖南 長(zhǎng)沙 410200)
在大數(shù)據(jù)時(shí)代背景下,人們?cè)絹?lái)越認(rèn)識(shí)到自身數(shù)據(jù)對(duì)管理的重要性,檔案是直接形成的歷史記錄,是對(duì)原始數(shù)據(jù)的記錄、收集、整理、保管、利用等,隨著信息量的增加,保存社會(huì)檔案越來(lái)越復(fù)雜,檔案行業(yè)管理越來(lái)越麻煩,大數(shù)據(jù)時(shí)代背景下的檔案利用服務(wù)需要進(jìn)一步探討。
隨著信息時(shí)代的到來(lái),數(shù)據(jù)增長(zhǎng)越來(lái)越快,人們生活步入大數(shù)據(jù)時(shí)代,大數(shù)據(jù)是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類(lèi)型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是海量的非結(jié)構(gòu)化數(shù)據(jù),基于云計(jì)算的數(shù)據(jù)處理與應(yīng)用模式通過(guò)數(shù)據(jù)的集成共享交叉復(fù)用形成的智力資源和知識(shí)服務(wù)能力,需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn),具有數(shù)量大、類(lèi)型繁多、價(jià)值密度低、速度快時(shí)效高的特點(diǎn),從某種程度上說(shuō),大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù),簡(jiǎn)言之從各種各樣類(lèi)型的數(shù)據(jù)中快速獲得有價(jià)值信息的能力就是大數(shù)據(jù)技術(shù)?,F(xiàn)代大型企業(yè),檔案部門(mén)主管公司檔案信息資料,將公司各單位部門(mén)信息統(tǒng)一管理,以便公司需要時(shí)快速找到相關(guān)信息,近年來(lái)隨著電子文件的廣泛應(yīng)用,掃描圖像、傳真、電子表格、演示文檔、照片、視頻片段等非結(jié)構(gòu)化數(shù)據(jù)直線上升,數(shù)字檔案館數(shù)據(jù)量直線上升,數(shù)據(jù)時(shí)代真正來(lái)臨。
在大數(shù)據(jù)時(shí)代背景下,檔案管理已由紙質(zhì)檔案發(fā)展到數(shù)字化階段,檔案館作為保存檔案、提供檔案、為社會(huì)服務(wù)的文化機(jī)構(gòu),必然貯存大量的信息量,檔案信息資源階梯式增長(zhǎng),現(xiàn)有的檔案工具手段已不能滿足數(shù)字化檔案管理,計(jì)算機(jī)數(shù)據(jù)庫(kù)的應(yīng)用順勢(shì)發(fā)展起來(lái),提高檔案資料管理的有效性,大數(shù)據(jù)時(shí)代背景下的數(shù)字檔案館藏量具有數(shù)據(jù)量大、媒體形式多的特點(diǎn),給檔案利用服務(wù)系統(tǒng)帶來(lái)了不小的挑戰(zhàn)。
隨著信息技術(shù)的廣泛應(yīng)用,數(shù)據(jù)庫(kù)信息技術(shù)不斷發(fā)展,電子文件數(shù)據(jù)信息量暴增,檔案信息保存的文件相應(yīng)增多,傳統(tǒng)的手工著錄、卡片檢索已不能滿足企業(yè)的需求,在檔案信息數(shù)據(jù)處理過(guò)程中,經(jīng)常會(huì)遇到文件找不到、查詢性能低、甚至出現(xiàn)服務(wù)器不響應(yīng)一系列難題,應(yīng)用以往的查詢服務(wù)方法已經(jīng)趕不上大數(shù)據(jù)時(shí)代發(fā)展的步伐,計(jì)算機(jī)輔助檔案資料管理變得更加便捷方便,但是在大數(shù)據(jù)時(shí)代,檔案信息化不斷推進(jìn),如何進(jìn)行檔案查詢,尤其是近來(lái)檔案數(shù)量的急劇增多,檔案數(shù)據(jù)甚至出現(xiàn)脹庫(kù),檔案查詢檢索性能下降,反應(yīng)遲鈍,如何精準(zhǔn)的在海量數(shù)據(jù)中找到所需信息,是檔案利用服務(wù)首先需要解決的問(wèn)題。
如今,檔案管理用戶已不滿足于對(duì)數(shù)據(jù)及文件的利用,而是希望獲得數(shù)據(jù)及文件隱含的知識(shí),也就是說(shuō),現(xiàn)在檔案管理的趨勢(shì)是知識(shí)管理,檔案利用服務(wù)也應(yīng)由提供數(shù)據(jù)信息轉(zhuǎn)變?yōu)橹R(shí)供給,但知識(shí)不是簡(jiǎn)單的數(shù)據(jù)信息,需要經(jīng)過(guò)抽取和挖掘才能從中得到有用信息,在海量數(shù)據(jù)中,僅僅依靠人工挖掘信息已不能滿足大數(shù)據(jù)時(shí)代,如何提供給用戶挖掘有用信息,依靠信息技術(shù)進(jìn)行數(shù)據(jù)挖掘,這是當(dāng)前檔案利用服務(wù)的任務(wù)。
傳統(tǒng)的檔案業(yè)務(wù)流程包括收集、整理、保存、利用,其中檔案利用采用的原始數(shù)據(jù),隨著電子文件的廣泛應(yīng)用,檔案數(shù)據(jù)信息量越來(lái)越大、媒體形式頗多,傳統(tǒng)的檔案流程已不能滿足用戶對(duì)信息數(shù)據(jù)的使用,原始數(shù)據(jù)的利用比較困難,數(shù)據(jù)查詢性能下降,甚至無(wú)法及時(shí)響應(yīng),延誤資料的使用,檔案數(shù)據(jù)庫(kù)需要更新,及時(shí)優(yōu)化IT結(jié)構(gòu),在找尋檔案數(shù)據(jù)前加入數(shù)據(jù)挖掘這一步驟,通過(guò)模糊識(shí)別對(duì)海量數(shù)據(jù)及多媒體數(shù)據(jù)進(jìn)行篩選,方便用戶在萬(wàn)千信息中找尋自己所需要的信息,優(yōu)化數(shù)據(jù)查詢性能,提高檔案服務(wù)質(zhì)量,這是解決檔案利用服務(wù)的一條有效途徑。
怎樣從大批量原始數(shù)據(jù)中篩選出有應(yīng)用價(jià)值的信息,提供給不同用戶作為參考信息,數(shù)據(jù)挖掘技術(shù)的應(yīng)用使得該問(wèn)題得到解決。概括地說(shuō),數(shù)據(jù)挖掘便是從海量的、不完整的、效果差的、未經(jīng)處理的數(shù)據(jù)中,提取具有潛在價(jià)值的信息與知識(shí)的過(guò)程。一般數(shù)據(jù)挖掘種類(lèi)劃分為結(jié)構(gòu)型數(shù)據(jù)挖掘、web數(shù)據(jù)挖掘及文本數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘應(yīng)用于海量檔案信息篩選過(guò)程中,簡(jiǎn)化了檔案信心提取程序,提高了檔案利用服務(wù)效率。文本挖掘是數(shù)據(jù)挖掘的基本構(gòu)成部分,在數(shù)據(jù)提取過(guò)程中應(yīng)用最廣泛,因此被稱(chēng)作文字探勘、文本數(shù)據(jù)挖掘等,可簡(jiǎn)單地理解為文字分析,其目的就是經(jīng)過(guò)文本處理后能獲取有價(jià)值的信息和知識(shí)。有價(jià)值信息的提取一般分為兩個(gè)步驟是分類(lèi)與預(yù)測(cè),文本挖掘就是以數(shù)據(jù)分析為基礎(chǔ),然后加上某些衍生語(yǔ)言特征或者消除雜音,隨后插入到數(shù)據(jù)庫(kù)中,形成結(jié)構(gòu)化數(shù)據(jù),最后完成評(píng)價(jià)與信息傳遞?!案咂焚|(zhì)”的文本挖掘一般是說(shuō)某類(lèi)組合的關(guān)聯(lián)性、獨(dú)特性與實(shí)用性。文本數(shù)據(jù)挖掘在眾多基礎(chǔ)領(lǐng)域普遍存在,例如數(shù)理統(tǒng)計(jì)、智能機(jī)器、聲像數(shù)據(jù)轉(zhuǎn)換,歸納起來(lái)無(wú)非就是利用文本信息篩選、文本劃分、文本聚類(lèi)、文本數(shù)據(jù)壓縮、文本數(shù)據(jù)處理;文本挖掘應(yīng)用最常見(jiàn)的領(lǐng)域包括信息訪問(wèn)(信息搜索、信息瀏覽、信息過(guò)濾、信息報(bào)告)、知識(shí)發(fā)現(xiàn)(數(shù)據(jù)預(yù)測(cè)、數(shù)據(jù)分析)。
數(shù)據(jù)挖掘技術(shù)是保證大數(shù)據(jù)背景下檔案服務(wù)的質(zhì)量的有效途徑,數(shù)據(jù)挖掘平臺(tái)是文本智能數(shù)據(jù)處理中心,建立在獨(dú)特地模糊識(shí)別及音視頻識(shí)別技術(shù)之上,抽取其中內(nèi)容進(jìn)行挖掘,提供用戶搜索應(yīng)用服務(wù),檔案服務(wù)從數(shù)據(jù)的收集、挖掘及智能搜索等步驟實(shí)現(xiàn),將數(shù)據(jù)結(jié)果顯示在數(shù)據(jù)挖掘平臺(tái)上。檔案資源數(shù)據(jù)挖掘包括三方面,首先是對(duì)音視頻內(nèi)容的檢索,自動(dòng)識(shí)別關(guān)鍵幀,區(qū)分定位視頻中的不同內(nèi)容,提高視頻處理的能力;其次是對(duì)語(yǔ)義的檢索,這是常見(jiàn)的搜索方式,只需提供計(jì)算機(jī)識(shí)別的語(yǔ)言即可;最后是檔案智能化輔助分類(lèi),從歷史分類(lèi)中提取檔案分類(lèi),實(shí)現(xiàn)文獻(xiàn)的自動(dòng)分類(lèi),促進(jìn)輔助分類(lèi)的準(zhǔn)確度,提高用戶整理效率,支持多維度動(dòng)態(tài)分類(lèi)。文本數(shù)據(jù)處理層是建立數(shù)據(jù)挖掘平臺(tái)的載體,其根本目的是以特殊的信息論及概率論的前提下的模式辨識(shí)技術(shù)和音視頻辨識(shí)技術(shù),提取具有重要價(jià)值的信息,為外圍提供搜索應(yīng)用服務(wù)。所以,數(shù)據(jù)挖掘平臺(tái)科通過(guò)采集數(shù)據(jù)、數(shù)據(jù)分析、數(shù)據(jù)挖掘、智能搜索應(yīng)用平臺(tái),將多類(lèi)型數(shù)據(jù)在采集平臺(tái)上完成層次化的數(shù)據(jù)采集。
綜上所述,大數(shù)據(jù)時(shí)代是科技進(jìn)步的產(chǎn)物,面對(duì)這樣的新形勢(shì),我們必須以數(shù)據(jù)挖掘與文本挖掘?yàn)榛A(chǔ),從而挖掘檔案間的內(nèi)在關(guān)聯(lián),探索檔案信息中潛藏的有價(jià)值信息,建立智能化處理平臺(tái)滿足不同客戶個(gè)性化的需求。
[1]崔麗娟.保密形勢(shì)下如何做好檔案利用工作的思考[J].科技創(chuàng)新導(dǎo)報(bào).2012(14)
[2]牛祿青.構(gòu)建大數(shù)據(jù)產(chǎn)業(yè)環(huán)境專(zhuān)訪中國(guó)工程院院士、中科院計(jì)算所首席科學(xué)家李國(guó)杰[J].新經(jīng)濟(jì)導(dǎo)刊.2012(12)
[3]李國(guó)杰,程學(xué)旗.大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國(guó)科學(xué)院院刊.2012(06)
[4]樊偉紅,李晨暉,張興旺,秦曉珠,郭自寬.圖書(shū)館需要怎樣的“大數(shù)據(jù)”[J].圖書(shū)館雜志.2012(11)
[5]鄧紅兵.檔案行進(jìn)在“快車(chē)道”——永州市公路局系統(tǒng)檔案管理工作走筆[J].湖南檔案.2000(03)