楊小梅
摘要:文章在闡述計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)內(nèi)涵、方法和基本類型的基礎(chǔ)上,分析檔案信息管理系統(tǒng)中的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)應(yīng)用的意義,建構(gòu)基于計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的檔案信息管理模型,探究計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的應(yīng)用。
關(guān)鍵詞:檔案信息管理系統(tǒng);計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù);應(yīng)用
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)29-0022-03
在網(wǎng)絡(luò)計(jì)算機(jī)逐漸普及的情況下,網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫(kù)發(fā)展日益成熟,對(duì)人們的生活生產(chǎn)產(chǎn)生了重要的影響,傳統(tǒng)的數(shù)據(jù)收集整理方式不再適應(yīng)社會(huì)的發(fā)展需要。檔案信息管理工作是一項(xiàng)復(fù)雜化的工作,在管理的過(guò)程中需要對(duì)大量的數(shù)據(jù)信息進(jìn)行篩選、分類,計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的應(yīng)用能夠提升檔案信息管理工作效率,并為檔案信息管理工作提供安全的保障,促進(jìn)檔案信息管理的高效發(fā)展。為此,文章對(duì)計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的應(yīng)用進(jìn)行分析。
1計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)概述
1.1內(nèi)涵
計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)是一種新型的數(shù)據(jù)處理技術(shù),主要是從大數(shù)據(jù)中的模糊記憶隨機(jī)數(shù)據(jù)中選擇符合人們需要數(shù)據(jù)的過(guò)程。計(jì)算機(jī)數(shù)據(jù)挖掘是一個(gè)不斷循環(huán)的過(guò)程,如果一個(gè)目標(biāo)的實(shí)現(xiàn)沒(méi)有達(dá)到預(yù)計(jì)的效果,計(jì)算機(jī)數(shù)據(jù)挖掘信息處理系統(tǒng)會(huì)重新返回到上一個(gè)目標(biāo)點(diǎn)進(jìn)行重新工作。通過(guò)對(duì)目標(biāo)任務(wù)的不斷細(xì)化處理來(lái)滿足人們生活、學(xué)習(xí)以及社會(huì)生產(chǎn)信息的需要。
1.2方法
1)關(guān)聯(lián)分析法
關(guān)聯(lián)分析法是指從特定的數(shù)據(jù)中挖掘出比較頻繁的項(xiàng)集模式知識(shí)。比如在商場(chǎng)中可以通過(guò)計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)分析法了解哪一種商品得到消費(fèi)者的喜愛(ài)(購(gòu)買(mǎi)頻率高)。
2)序列模式分析法
序列模式分析法是指根據(jù)數(shù)據(jù)得出信息之間的聯(lián)系,在具體操作上側(cè)重對(duì)數(shù)據(jù)模式的基本分析,通過(guò)對(duì)數(shù)據(jù)模式的分析最終發(fā)展數(shù)據(jù)之間的潛在關(guān)聯(lián)。
3)分類分析法
分類分析法是指從大量數(shù)據(jù)中找到一組具有數(shù)據(jù)典型特征的模型,從而實(shí)現(xiàn)對(duì)未知數(shù)據(jù)的分類識(shí)別處理。
4)聚類分析法
聚類分析法是指在特定的數(shù)據(jù)中找到數(shù)據(jù)之間的聯(lián)系。比如在商業(yè)發(fā)展中,商家可以應(yīng)用聚類分析法對(duì)消費(fèi)者進(jìn)行分組,找到消費(fèi)者的購(gòu)買(mǎi)模式并進(jìn)行分析,指定符合消費(fèi)者需要的營(yíng)銷(xiāo)方案。
1.3基本類型
在計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)中,根據(jù)數(shù)據(jù)采集信息的質(zhì)量和特性具體可以分為不同的類型,能夠?qū)τ?jì)算機(jī)數(shù)據(jù)挖掘的范圍、屬性、應(yīng)用計(jì)算模式、生成訓(xùn)練集合等過(guò)程進(jìn)行詳細(xì)分析。第一,相關(guān)規(guī)則。計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)中應(yīng)用的是技術(shù)水平較低、操作相對(duì)簡(jiǎn)單的關(guān)聯(lián)性分析原則。通過(guò)應(yīng)用關(guān)聯(lián)性分析原則能夠?qū)?shù)據(jù)信息進(jìn)行詳細(xì)的分析,對(duì)同樣信息內(nèi)容的資料進(jìn)行歸納,找到事物之間的聯(lián)系,以數(shù)據(jù)記錄的方式,在最大程度上減少因?yàn)閿?shù)據(jù)增加帶來(lái)的計(jì)算機(jī)系統(tǒng)空間占有率高問(wèn)題。第二,粗糙集。粗糙集是一種知識(shí)模糊的教學(xué)工作。粗糙集在計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)中的應(yīng)用能夠在無(wú)法掌握信息的情況下,通過(guò)簡(jiǎn)單的算法將用戶的工作變得簡(jiǎn)單。另外,粗糙集能夠節(jié)省用戶對(duì)數(shù)據(jù)庫(kù)研究、對(duì)數(shù)據(jù)資料表格化處理的實(shí)踐,提升對(duì)有關(guān)信息的查詢、檢索、應(yīng)用效率。
2計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案管理系統(tǒng)中的應(yīng)用意義
2.1提升檔案信息管理的安全
檔案信息往往會(huì)記錄非常重要的資料,且資料的信息能夠完好無(wú)損保留的時(shí)間越長(zhǎng),資料本身的歷史價(jià)值就越高,具有重要價(jià)值意義。這些具有高歷史價(jià)值的檔案資料也會(huì)得到更多的人使用,在使用的過(guò)程中會(huì)在不同程度上破壞檔案信息的科學(xué)、完整,由此也加重了檔案信息的管理難度。另外,檔案的保密性也是其重要的工作內(nèi)容,因?yàn)闄n案信息的泄漏會(huì)對(duì)有關(guān)人員的隱私安全帶來(lái)侵犯。將計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)應(yīng)用到檔案管理中能夠在最大程度上避免檔案信息管理問(wèn)題的出現(xiàn),加強(qiáng)檔案信息的安全。
2.2提高檔案信息管理的效率
計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的應(yīng)用是對(duì)傳統(tǒng)檔案管理模式的一種補(bǔ)充,能夠提升檔案管理工作人員的工作效率。檔案管理工作中的一個(gè)重要工作環(huán)節(jié)是對(duì)檔案的鑒定,傳統(tǒng)的檔案鑒定是由檔案管理人員依靠自己的主觀經(jīng)驗(yàn)完成的,受強(qiáng)烈主觀因素的影響很容易導(dǎo)致有價(jià)值檔案信息的丟失。在應(yīng)用了計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)之后,檔案管理人員能夠利用計(jì)算機(jī)系統(tǒng)對(duì)檔案信息的使用和保存情況進(jìn)行系統(tǒng)化分析,形成檔案信息管理規(guī)律,促進(jìn)檔案管理工作的穩(wěn)定進(jìn)行。
2.3提升檔案信息的使用效率
檔案信息具有一定的私密性,因而檔案信息的借閱范圍是有限制的,但由于檔案管理人員和使用人們對(duì)檔案的認(rèn)知水平不高,導(dǎo)致檔案管理部門(mén)對(duì)檔案信息的借閱管理處于一種被動(dòng),在人提出借閱申請(qǐng)之后,檔案管理人員才會(huì)將檔案信息提供給需要的人。在應(yīng)用了計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)之后,檔案管理人員能夠和檔案借閱者進(jìn)行及時(shí)的溝通,發(fā)現(xiàn)檔案借閱者對(duì)檔案信息的需求以及檔案節(jié)約的方向,進(jìn)而形成專門(mén)化的檔案信息提供渠道,為檔案借閱者提供有針對(duì)性的檔案信息,幫助檔案借閱者解決自己的難題。
2.4增強(qiáng)檔案信息的服務(wù)型
檔案信息經(jīng)過(guò)加密處理之后的適用范圍會(huì)縮小,在信息化快速發(fā)展的情況下,很多檔案信息自身會(huì)呈現(xiàn)出一些問(wèn)題。但是受傳統(tǒng)檔案管理思想的影響以及檔案管理過(guò)程中干擾因素的影響,使得現(xiàn)階段的檔案信息仍是為小部分的人提供服務(wù)。將計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)應(yīng)用到檔案信息服務(wù)管理中,能夠?qū)n案的使用情況進(jìn)行分析,通過(guò)分析發(fā)現(xiàn)潛在的檔案信息使用者和檔案信息的未來(lái)使用者,進(jìn)而在對(duì)檔案數(shù)據(jù)信息分析和收集的情況下進(jìn)一步提升檔案信息的服務(wù)性。
3基于計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的檔案信息管理模型
3.1數(shù)據(jù)籌備工作
檔案信息管理的過(guò)程中會(huì)出現(xiàn)各種形式的信息,比如檔案的編號(hào)、檔案存放地點(diǎn)的相關(guān)信息、檔案使用信息、檔案檢索產(chǎn)生的信息、檔案訪問(wèn)所產(chǎn)生的信息、檔案借閱歷史信息等。在檔案信息管理系統(tǒng)建立成功之后,系統(tǒng)使用者需要進(jìn)行注冊(cè),在注冊(cè)成功之后會(huì)頻繁地應(yīng)用檔案信息管理系統(tǒng),由此會(huì)出現(xiàn)大量的序列數(shù)據(jù)信息,比如檔案的檢索數(shù)據(jù)、檔案的瀏覽數(shù)據(jù)、檔案的借閱數(shù)據(jù)等。這些數(shù)據(jù)之間存在一些有價(jià)值、有意義的信息。信息化檔案管理需要以和檔案有關(guān)的信息為主要管理對(duì)象,做好數(shù)據(jù)的準(zhǔn)備工作。在一切準(zhǔn)備好之后將數(shù)據(jù)存儲(chǔ)到指定的數(shù)據(jù)庫(kù)中,為之后的計(jì)算機(jī)數(shù)據(jù)挖掘工作做好充分的準(zhǔn)備。
3.2對(duì)前期準(zhǔn)備好的數(shù)據(jù)信息進(jìn)行預(yù)處理
對(duì)前期準(zhǔn)備好的工作進(jìn)行預(yù)處理可以應(yīng)用數(shù)據(jù)清理較為容易忽略的元祖、人工填寫(xiě)方式對(duì)紙質(zhì)檔案明細(xì)進(jìn)行分類,從而實(shí)現(xiàn)對(duì)對(duì)應(yīng)檔案專業(yè)的統(tǒng)一管理,為之后的檔案信息分類管理提供重要的保障。根據(jù)最新區(qū)域的行政名稱,一些地區(qū)受區(qū)域名稱調(diào)整的影響會(huì)取消相應(yīng)的機(jī)關(guān)信息,針對(duì)這種狀況,可以應(yīng)用手工記賬填寫(xiě)的方式來(lái)進(jìn)行更正,保證數(shù)據(jù)前后信息的一致。
3.3應(yīng)用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行識(shí)別和應(yīng)用
檔案管理人員可以應(yīng)用數(shù)據(jù)預(yù)處理中的數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換等分層技術(shù)實(shí)現(xiàn)對(duì)存儲(chǔ)到數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘技術(shù)進(jìn)行識(shí)別和應(yīng)用。檔案信息管理數(shù)據(jù)庫(kù)中會(huì)存儲(chǔ)使用者的個(gè)人信息,在經(jīng)過(guò)數(shù)據(jù)預(yù)處理之后,能夠?qū)Λ@得的數(shù)據(jù)信息進(jìn)行清洗、修正、減少系統(tǒng)中的錯(cuò)誤數(shù)據(jù)信息,達(dá)到對(duì)數(shù)據(jù)的規(guī)范使用。檔案數(shù)據(jù)使用者將有關(guān)的信息存儲(chǔ)到數(shù)據(jù)庫(kù)中的時(shí)候,數(shù)據(jù)挖掘程序會(huì)對(duì)使用者的個(gè)人信息進(jìn)行更新和重新驗(yàn)證,并根據(jù)之前的預(yù)設(shè)值情況對(duì)信息重新分類處理,為檔案使用者提供具有針對(duì)性的服務(wù),保證使用者能夠獲得自己需要的信息。另外,在檔案信息管理系統(tǒng)數(shù)據(jù)庫(kù)中信息不斷增加的情況下,有關(guān)人員可以應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)對(duì)和檔案相關(guān)的專業(yè)進(jìn)行分析,完善對(duì)學(xué)科專業(yè)的就業(yè)分析。
4計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案管理中的應(yīng)用
4.1計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案分類管理中的應(yīng)用
檔案管理的基礎(chǔ)工作之一是檔案分類。計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)中的決策樹(shù)算法能夠按照一定的規(guī)則將不同類別、不同屬性的檔案信息在最短的時(shí)間內(nèi)進(jìn)行區(qū)分,并按照檔案整理規(guī)則將檔案進(jìn)行歸類整理,提升檔案管理的歸類速度、檢索速度。應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)對(duì)檔案進(jìn)行分類管理的工作流程具體表現(xiàn)為:從眾多的、不同類型的、不同特征的數(shù)據(jù)集中挑選中一些數(shù)據(jù)組合形成訓(xùn)練集(已經(jīng)完成檔案數(shù)據(jù)分類工作的數(shù)據(jù)集),數(shù)據(jù)集的構(gòu)建符合分類模型的構(gòu)建要求,在構(gòu)建好訓(xùn)練集之后將其應(yīng)用在沒(méi)有完成分類工作的檔案管理中,從而幫助檔案管理者根據(jù)檔案信息用戶對(duì)檔案信息的需求來(lái)進(jìn)行檔案分類總結(jié),同時(shí)還可以根據(jù)用戶的喜好為其推薦其他檔案數(shù)據(jù)信息。通過(guò)這些具有針對(duì)性的檔案數(shù)據(jù)挖掘分析能夠提升用戶獲取數(shù)據(jù)信息的時(shí)間,實(shí)現(xiàn)對(duì)檔案數(shù)據(jù)信息的高效利用,充分發(fā)揮出檔案數(shù)據(jù)的價(jià)值。比如檔案管理人員可以對(duì)檔案使用者訪問(wèn)的網(wǎng)頁(yè)內(nèi)容、檔案信息查詢的間隔時(shí)間、檔案信息查詢的停留時(shí)間、檔案信息的下載情況等信息進(jìn)行科學(xué)、系統(tǒng)的分析和匯總,之后根據(jù)數(shù)據(jù)分析對(duì)檔案使用者的興趣、愛(ài)好進(jìn)行總結(jié),挖掘檔案使用者的其他信息,比如檔案使用者喜歡針對(duì)檔案的內(nèi)容提出問(wèn)題等。通過(guò)對(duì)不同檔案使用者的具體特點(diǎn)和檔案喜好進(jìn)行差異化分析,能夠進(jìn)一步提升檔案使用者對(duì)檔案信息的有效使用,提升檔案信息服務(wù)質(zhì)量。
4.2計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案收集管理中的應(yīng)用
計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案收集管理中的應(yīng)用主要是根據(jù)計(jì)算機(jī)數(shù)據(jù)庫(kù)內(nèi)部的數(shù)據(jù)信息描述來(lái)構(gòu)建相應(yīng)的數(shù)據(jù)模型。之后將計(jì)算機(jī)數(shù)據(jù)樣本和數(shù)據(jù)模型進(jìn)行對(duì)比發(fā)現(xiàn)二者之間的差異,如果計(jì)算機(jī)數(shù)據(jù)樣本和數(shù)據(jù)模型之間相吻合,需要檔案管理人員根據(jù)測(cè)試樣本模型分類方式來(lái)對(duì)檔案信息進(jìn)行分類處理。檔案收集管理中對(duì)計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的應(yīng)用要求是要對(duì)檔案數(shù)據(jù)信息庫(kù)進(jìn)行全面的分析和測(cè)評(píng),從而得到科學(xué)的檔案收集方案。計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案收集管理中的應(yīng)用需要對(duì)檔案庫(kù)中的數(shù)據(jù)進(jìn)行分析,經(jīng)過(guò)分析建立專門(mén)的對(duì)已知數(shù)據(jù)詳細(xì)描述的概念模型,將這個(gè)模型和測(cè)試樣本比較。如果其中的一個(gè)模型在測(cè)試后被認(rèn)可,則是可以應(yīng)用這個(gè)模型來(lái)對(duì)檔案收集分類管理。比如當(dāng)檔案管理工作人員針對(duì)某一件事向客戶發(fā)放調(diào)查問(wèn)卷的時(shí)候,會(huì)利用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)將客戶的回答輸入到數(shù)據(jù)庫(kù)中。在這個(gè)數(shù)據(jù)庫(kù)中,檔案管理人員可以借助系統(tǒng)對(duì)客戶的回答內(nèi)容從多個(gè)具體屬性來(lái)進(jìn)行描述,比如客戶的年齡、職業(yè)等。在有新的客戶回答被輸入到數(shù)據(jù)庫(kù)時(shí),系統(tǒng)會(huì)對(duì)客戶的需求進(jìn)行分類。
比如:一個(gè)學(xué)校圖書(shū)館讓讀者在閱讀圖書(shū)實(shí)現(xiàn)進(jìn)行個(gè)人信息的登記。圖書(shū)館檔案管理工作人員對(duì)1000名讀者閱讀歷史、經(jīng)濟(jì)、科技、時(shí)政的情況進(jìn)行了分析,具體分析內(nèi)容如表一所示。從表1中可以發(fā)現(xiàn),文科學(xué)生比較喜歡閱讀歷史和時(shí)事政治方面的書(shū)籍;理科生則是喜歡閱讀科技和經(jīng)濟(jì)方面的書(shū)。通過(guò)以上的分析,圖書(shū)館檔案管理人員能夠根據(jù)不同用戶的不同閱讀需求為其提供具有針對(duì)性的借閱服務(wù)。
4.3計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案保留管理中的應(yīng)用
檔案保留法主要是指應(yīng)用傳統(tǒng)的檔案管理手段來(lái)保留檔案信息,使得檔案信息不流失的過(guò)程。對(duì)于企業(yè)的發(fā)展來(lái)講,留住老員工在某種程度上就是為企業(yè)的發(fā)展節(jié)省成本費(fèi)用。為此,企業(yè)留住老員工所采取的一項(xiàng)重要措施就是對(duì)找到老員工檔案流失的原因,并應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)來(lái)對(duì)老員工檔案流失的情況進(jìn)行細(xì)致的分析,根據(jù)分析結(jié)果采用相應(yīng)的解決辦法,從而避免企業(yè)老員工檔案的流失。
5結(jié)束語(yǔ)
綜上所訴,在社會(huì)科技的不斷發(fā)展下,計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的發(fā)展和應(yīng)用是一種必然,將其應(yīng)用在檔案信息管理中能夠提高檔案管理的效率,實(shí)現(xiàn)檔案管理的高效發(fā)展。為此,在對(duì)檔案信息的存儲(chǔ)、挖掘和利用上在保證基本的信息查詢服務(wù)之外,還需要隨著信息化在檔案管理中的推進(jìn),利用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)來(lái)對(duì)檔案數(shù)據(jù)信息進(jìn)行整合,在大量的檔案管理服務(wù)數(shù)據(jù)中建立數(shù)據(jù)間的關(guān)聯(lián),從而為檔案管理更好地服務(wù)。