於立勇
摘要:隨著社會(huì)的迅速發(fā)展以及計(jì)算機(jī)網(wǎng)絡(luò)的迅速普及,在推動(dòng)社會(huì)進(jìn)步的同時(shí),也改善了人們的日常生活。在檔案信息管理的過程中,計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的應(yīng)用,在提高檔案信息整體管理水平的同時(shí),還在一定程度上提高了檔案管理人員的檔案管理效率。因而在我國社會(huì)發(fā)展的過程中有著極其重要的作用。在此,該文針對(duì)計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)應(yīng)用在檔案信息管理系統(tǒng)中的相關(guān)問題,做以下幾方面論述。
關(guān)鍵詞:計(jì)算機(jī);數(shù)據(jù)挖掘技術(shù);檔案信息管理;形式分析;應(yīng)用
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)02-0260-02
在21世紀(jì)科技日益更新的年代,隨著網(wǎng)絡(luò)計(jì)算機(jī)的迅速普及、網(wǎng)絡(luò)技術(shù)的發(fā)展以及數(shù)據(jù)庫的日益成熟,人們?cè)谌粘I钪惺占瘮?shù)據(jù)的能力大幅度提高。隨著行業(yè)的不同,大量的數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等各個(gè)行業(yè)。在促進(jìn)我國社會(huì)發(fā)展的同時(shí),也在一定程度上給人們的日常生活帶來了困擾。在這些困擾中,其核心在于數(shù)據(jù)豐富而知識(shí)貧乏。由此人們?cè)诜治鰯?shù)據(jù)的過程中,很難取得有價(jià)值的知識(shí)。隨著數(shù)據(jù)挖掘技術(shù)的研究應(yīng)用,在解決這一問題的同時(shí),還在很大程度上推動(dòng)了社會(huì)的發(fā)展,直接提高檔案信息的管理效率。在此,本文從數(shù)據(jù)挖掘的概念與技術(shù)、數(shù)據(jù)挖掘的形式分析以及數(shù)據(jù)挖掘技術(shù)在檔案信息數(shù)據(jù)處理中的應(yīng)用等三個(gè)方面出發(fā),針對(duì)檔案信息管理系統(tǒng)中,計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的應(yīng)用,做以下分析。
1數(shù)據(jù)挖掘的概念與技術(shù)
隨著社會(huì)的迅速發(fā)展,傳統(tǒng)的數(shù)據(jù)收集模式已經(jīng)無法適應(yīng)現(xiàn)有的社會(huì)發(fā)展需求,而數(shù)據(jù)挖掘技術(shù)的應(yīng)用,在提高數(shù)據(jù)收集質(zhì)量的同時(shí),還在一定程度上促進(jìn)了社會(huì)的發(fā)展。而在數(shù)據(jù)挖掘的相關(guān)應(yīng)用中,具體分析如下:
1.1數(shù)據(jù)挖掘的概念
隨著計(jì)算機(jī)的迅速發(fā)展,數(shù)據(jù)挖掘(DataMining,DM),是一種決策支持過程,它主要基于人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)技術(shù),高度自動(dòng)化地分析企業(yè)原有的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者做出正確的決策。一般認(rèn)為數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)KDD的一個(gè)環(huán)節(jié),是KDD中采用具體的數(shù)據(jù)挖掘算法從數(shù)據(jù)中自動(dòng)高效地提取有用模式的最重要的步驟。然而,在產(chǎn)業(yè)界、媒體和數(shù)據(jù)庫研究界,“數(shù)據(jù)挖掘"比“數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)”更流行,由于DM的廣泛使用,我們也對(duì)DM和KDD不作嚴(yán)格區(qū)分,而認(rèn)為是等價(jià)的概念,在這種意義下它們的定義是一致的。KDD(DM)是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的并最終易于被人們理解的模式的非平凡處理過程。
1.2數(shù)據(jù)挖掘的技術(shù)
在數(shù)據(jù)挖掘技術(shù)運(yùn)用的過程中,一般所采用的是數(shù)學(xué)方法,然而在情況特殊的狀況下,也可以采用非數(shù)學(xué)的運(yùn)用方法。除此之外,在整個(gè)數(shù)據(jù)挖掘技術(shù)運(yùn)用的過程中,除了以上兩種方法之外,還在一定程度上可以運(yùn)用演繹與歸納的方法進(jìn)行數(shù)據(jù)收集。數(shù)據(jù)挖掘技術(shù)在運(yùn)用的過程中,通過對(duì)相關(guān)數(shù)據(jù)的挖掘、收集以及分析等得出一定的結(jié)果,而這一挖掘結(jié)果在某些狀況下可以直接運(yùn)用于信息管理、查詢優(yōu)化、決策支持、過程控制以及數(shù)據(jù)維護(hù)等多個(gè)方面。與此同時(shí),數(shù)據(jù)挖掘技術(shù)在應(yīng)用的過程中,鑒于數(shù)據(jù)挖掘技術(shù)特性,不僅涉及到多門學(xué)科,同時(shí)還涉及到數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、可視化、并行計(jì)算等領(lǐng)域。且在很大程度上,數(shù)據(jù)挖掘技術(shù)在使用的過程中,經(jīng)常使用的技術(shù)主要包括人工神經(jīng)網(wǎng)絡(luò)、決策數(shù)、遺傳算法、規(guī)則歸納以及可視化等相應(yīng)的技術(shù)。
2數(shù)據(jù)挖掘的形式分析
數(shù)據(jù)挖掘在其使用的過程中,基于不同的數(shù)據(jù)收集,因而在使用的過程中需要使用與之相符的數(shù)據(jù)收集方法。在確保數(shù)據(jù)收集資質(zhì)量的同時(shí),還能確保計(jì)算機(jī)整個(gè)系統(tǒng)的順利運(yùn)行。而在數(shù)據(jù)挖掘形式分析的過程中,主要包括以下幾種,具體分析如下:
2.1分類
在計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)運(yùn)用的過程中,分類作為計(jì)算機(jī)挖掘技術(shù)中的核心形式,不僅關(guān)系著數(shù)據(jù)收集的質(zhì)量,同時(shí)還關(guān)系著數(shù)據(jù)的收集屬性分析,因而在整個(gè)挖掘技術(shù)運(yùn)用的過程中有著極其重要的作用。而分類作為整個(gè)數(shù)據(jù)挖掘技術(shù)中的核心部分,在其運(yùn)用的過程中,主要是通過分析相關(guān)程序的數(shù)據(jù)庫,將元組分為與之相對(duì)的幾個(gè)小組。而在其劃分的過程中,針對(duì)部分?jǐn)?shù)據(jù),則尤其根據(jù)相關(guān)人員的操作,對(duì)其進(jìn)行集中處理劃分,在系統(tǒng)程序?qū)ζ浞治鲋?,由相關(guān)程序?qū)κS嗟臄?shù)據(jù)進(jìn)行最終檢測(cè),在達(dá)到檢測(cè)要求之后,按照相應(yīng)的規(guī)則進(jìn)行分類。在其具體分類的過程中,典型的分類過程包括了確定分類范圍、選取目標(biāo)屬性、形成訓(xùn)練集、屬性分析、選擇算法、分類運(yùn)算、顯示結(jié)果、抽取測(cè)試集、驗(yàn)證分類規(guī)則、分類規(guī)則輸出等l0個(gè)步驟。
2.2相關(guān)規(guī)則
在計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)運(yùn)用的過程中,相關(guān)規(guī)則作為整個(gè)技術(shù)中既簡(jiǎn)單又實(shí)用的關(guān)聯(lián)分析規(guī)則,不僅能將程序中產(chǎn)生的相關(guān)數(shù)據(jù)準(zhǔn)確的描述出來,同時(shí)還能針對(duì)相關(guān)數(shù)據(jù)資料進(jìn)行仔細(xì)的分析。而在其具體運(yùn)用的過程中,主要是通過一個(gè)具體的事物描寫,將同類事物中相同屬性的事物結(jié)合在一起,然后通過歸納總結(jié),得出他們共有的屬性與模式。在關(guān)聯(lián)規(guī)則使用的過程中,一般將其直接用在事物的數(shù)據(jù)庫中,不同的事物在產(chǎn)生數(shù)據(jù)的過程中,都由同一個(gè)記錄將其記錄集合。而這種事物數(shù)據(jù)庫通常被概括為龐大的數(shù)據(jù)。由此就需要關(guān)聯(lián)規(guī)則在其使用的過程中,應(yīng)恰當(dāng)?shù)倪M(jìn)行數(shù)據(jù)記錄,在減少數(shù)據(jù)占有空間的同時(shí),還能在很大程度上完善整個(gè)系統(tǒng)的數(shù)據(jù)運(yùn)行。
2.3粗糙集
在整個(gè)計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)使用的過程中,粗糙集作為一種研究不精確、不確定性知識(shí)的數(shù)學(xué)工具,在整個(gè)系統(tǒng)使用的過程中有著極大的優(yōu)勢(shì)。主要包括以下幾個(gè)方面:首先,在整個(gè)粗糙集運(yùn)行的過程中,無需知道相應(yīng)的信息,且在整個(gè)運(yùn)算的過程中,算法簡(jiǎn)單且易于操作,因而在很大程度上受到計(jì)算機(jī)用戶的青睞。其次,在整個(gè)數(shù)據(jù)挖掘研究的過程中,所面對(duì)的數(shù)據(jù)庫多為一系列的型號(hào)數(shù)據(jù)庫,而這種數(shù)據(jù)庫在數(shù)據(jù)收集的過程中,粗糙集收集方法的使用,能夠在最短的時(shí)間內(nèi)發(fā)現(xiàn)所有數(shù)據(jù)庫的規(guī)律,并通過相應(yīng)的表格歸納,將其列為決策表,方便了計(jì)算機(jī)用戶的查閱。最后,即使在現(xiàn)實(shí)世界,一些規(guī)則在使用的過程中也會(huì)發(fā)出不確定性,更何況虛擬的網(wǎng)絡(luò)世界。而在數(shù)據(jù)庫使用的過程中,也會(huì)發(fā)現(xiàn)一些不確定性的知識(shí),而這些都需要粗糙集方法對(duì)其進(jìn)行解決。
3數(shù)據(jù)挖掘技術(shù)在檔案信息數(shù)據(jù)處理中的應(yīng)用
檔案信息在日常管理的過程中,不僅關(guān)系著相關(guān)人員的歷史記錄,同時(shí)還是相關(guān)人員智慧成果的最終反映。隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的應(yīng)用,在檔案信息數(shù)據(jù)處理的過程中,數(shù)據(jù)挖掘技術(shù)的應(yīng)用,不僅能從根本上提高檔案信息數(shù)據(jù)的管理效果,同時(shí)還能在很大程度上創(chuàng)新檔案管理模式。針對(duì)數(shù)據(jù)挖掘技術(shù)在檔案信息數(shù)據(jù)處理中的應(yīng)用,具體分析如下:
3.1計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中應(yīng)用的重要性
3.1.1增強(qiáng)了檔案實(shí)體與內(nèi)容的安全保護(hù)
檔案信息關(guān)系著當(dāng)事人過去的勞動(dòng)成果,同時(shí)還關(guān)系著相關(guān)人員的隱私信息,一旦泄露,不僅侵犯了相關(guān)人員的隱私權(quán),同時(shí)還對(duì)其今后的生活造成極大的消極影響。而檔案管理人員在工作的過程中,針對(duì)檔案信息,除了保密性嚴(yán)之外,還應(yīng)注重檔案的長期保存質(zhì)量。針對(duì)一些利用率較高的檔案,壽命必然會(huì)在原有的基礎(chǔ)上縮短,而針對(duì)檔案資料中的相關(guān)信息,若缺乏完善的監(jiān)控設(shè)備,將直接造成檔案內(nèi)容的泄密。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于檔案信息效據(jù)管理,通過對(duì)異常借閱行為的分析統(tǒng)計(jì),可以防范非正當(dāng)?shù)睦眯袨榘l(fā)生。從而更好地保護(hù)檔案實(shí)體及檔案信息內(nèi)容。
3.1.2提高檔案的利用服務(wù)水平
檔案工作人員在檔案管理的過程中,針對(duì)檔案的保密性,在其使用的過程中,其涉及的范圍往往比較小。如果將數(shù)據(jù)挖掘技術(shù)應(yīng)用于檔案信息數(shù)據(jù)管理中,通過檔案利用情況分析,就可以加強(qiáng)與利用者溝通,發(fā)現(xiàn)潛在的用戶和利用方向。并通過針對(duì)性地提供檔案、加強(qiáng)相關(guān)檔案的收集、數(shù)字化和編研等形式,從而實(shí)現(xiàn)真正意義上的主動(dòng)提供檔案利用服務(wù)。
3.1.3加強(qiáng)檔案鑒定工作的水平,降低檔案的收集、保管成本
在檔案業(yè)務(wù)的整體工作環(huán)節(jié)中,檔案鑒定不僅關(guān)系著檔案的真實(shí)程度,同時(shí)還關(guān)系著檔案管理工作的整體性。然而在我國檔案鑒定中,所憑借的都是檔案管理人員的相關(guān)業(yè)務(wù)經(jīng)驗(yàn)來實(shí)現(xiàn)的,因而在很大程度上存在著主觀因素。數(shù)據(jù)挖掘技術(shù)應(yīng)用檔案數(shù)據(jù)處理中后,通過對(duì)利用情況和檔案情況的分析,了解各單位檔案形成特點(diǎn)、規(guī)律和檔案利用范圍,從中發(fā)現(xiàn)檔案收集工作的薰點(diǎn)。為檔案鑒定工作提供了一種的定量化方法,使檔案鑒定工作真正實(shí)現(xiàn)有據(jù)可依。
3.2計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案信息管理中的應(yīng)用
數(shù)據(jù)挖掘(data mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、潛在有用信息和知識(shí)的過程。在檔案信息管理中,數(shù)據(jù)挖掘技術(shù)可以通過自身特有的信息分析能力,對(duì)檔案信息的調(diào)閱以及操作等各個(gè)流程產(chǎn)生的數(shù)據(jù)進(jìn)行仔細(xì)的分析,在充分掌握各單位檔案形成的特點(diǎn)、規(guī)律以及檔案利用范圍之后,針對(duì)檔案信息活動(dòng)產(chǎn)生的數(shù)據(jù)進(jìn)行收集,并將其中的重點(diǎn)進(jìn)行集中歸納。而這些重點(diǎn),都是檔案鑒定的基本依據(jù)。
另一方面,數(shù)據(jù)挖掘技術(shù)能夠在檔案信息管理的過程中,針對(duì)大量的有聲信息、不完整信息、模糊信息以及隨機(jī)信息中提取人們不知道的或者潛在有用的信息,并將這些信息及時(shí)的反饋到檔案信息的整體管理系統(tǒng)中,使其在處理的過程中及時(shí)的采取措施,避免檔案信息的流失而造成嚴(yán)重的影響。除此之外,計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在運(yùn)行的過程中,能夠針對(duì)檔案信息管理中出現(xiàn)的大量數(shù)據(jù)進(jìn)行相應(yīng)的管理以及維護(hù),在確保檔案信息數(shù)據(jù)順利進(jìn)行的同時(shí),還能針對(duì)檔案信息自身存在的管理系統(tǒng)進(jìn)行整理,以便能及時(shí)的發(fā)現(xiàn)檔案信息管理中存在的問題,從而能及時(shí)的采取相關(guān)措施,避免相關(guān)檔案信息的流失。
4總結(jié)
綜上所述,隨著社會(huì)的發(fā)展以及科技的進(jìn)步,計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在使用的過程中,不僅促進(jìn)了計(jì)算機(jī)行業(yè)的發(fā)展,同時(shí)還在很大程度上推動(dòng)了社會(huì)的進(jìn)步。檔案信息管理中計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的運(yùn)用,在提高檔案信息管理水平的同時(shí),還在很大程度上完善了檔案信息管理,方便了檔案信息的保存。由此就需要相關(guān)人員在檔案信息管理的過程中,能夠準(zhǔn)確的使用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù),在確保檔案信息管理質(zhì)量的同時(shí),還能創(chuàng)新檔案信息的管理模式。
參考文獻(xiàn):
[1]羅艷,黃明初,陸旭安,潘雄偉.簡(jiǎn)述數(shù)據(jù)挖掘在數(shù)字檔案館中的應(yīng)用實(shí)現(xiàn)[J].廣西計(jì)算機(jī)學(xué)會(huì)2010年學(xué)術(shù)年會(huì)論文集[C],2010 .
[2]黃華.數(shù)據(jù)挖掘分析在檔案管理方面的應(yīng)用[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2009,( 4).
[3]藍(lán)天,劉劍,王蘭成.數(shù)據(jù)挖掘技術(shù)在信息管理領(lǐng)域中的應(yīng)用[J].情報(bào)探索,2009,(2).
[4]房紅菊.數(shù)據(jù)挖掘技術(shù)在檔案?jìng)€(gè)性化服務(wù)中的運(yùn)用[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2009,(10).
[5]王銳,馬德濤,陳晨.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用現(xiàn)狀探析[J].電腦應(yīng)用技術(shù), 2007,(2).
[6]潘旭武,陳玲洪.數(shù)據(jù)挖掘在數(shù)字檔案管理中的應(yīng)用研究[J].浙江高校圖書情報(bào)工作,2007,(1).
[7]黃建設(shè),姚奇富.數(shù)據(jù)挖掘技術(shù)在檔案管理中的應(yīng)用[J].浙江工商職業(yè)技術(shù)學(xué)院學(xué)報(bào),2005,(3).
[8]潘家財(cái),邵哲平,姜青山.數(shù)據(jù)挖掘在檔案信息管理中的應(yīng)用研究[J].中國航海,2010,(2).