劉大寧
1 引言
在信息社會的大背景下,檔案館社會化也將隨之而發(fā)展,數(shù)字檔案館訪問者將具有來源廣泛性、背景多樣性的特征,信息需求的個性化發(fā)展也會隨之而增強,數(shù)據(jù)挖掘?qū)蔀闄n案工作者全面掌握和準確理解檔案用戶的信息需求和心理行為最為便捷的方式。關(guān)聯(lián)規(guī)則作為數(shù)據(jù)挖掘的主要技術(shù)之一,也是在無指導(dǎo)學(xué)習(xí)系統(tǒng)中挖掘本地模式的最普遍形式??墒刮覀儷@得一些存在于數(shù)據(jù)庫中的關(guān)聯(lián)模式,為數(shù)字檔案館的建設(shè)提供科學(xué)依據(jù)。來檔案館查資料的人有不同目的,當(dāng)?shù)谝淮瓮ㄟ^數(shù)字檔案館閱覽時,可使用關(guān)聯(lián)規(guī)則由其注冊信息將他劃分為相關(guān)聯(lián)的用戶群。使用登錄賬號登錄數(shù)據(jù)庫閱覽時,數(shù)字檔案館數(shù)據(jù)庫已根據(jù)其個人關(guān)聯(lián)進行相對應(yīng)檢索,顯現(xiàn)在用戶面前網(wǎng)頁就有可能是其最需要的資料,從而減少訪問者檢索所需時間。即是根據(jù)各位訪問者經(jīng)常使用的信息進行一定的關(guān)聯(lián)分析,就可整理出數(shù)據(jù)庫中不同種類用戶群。
2 數(shù)據(jù)挖掘技術(shù)流程
2.1 確定對象。明確給出服務(wù)對象的業(yè)務(wù)需求,認清進行數(shù)據(jù)挖掘達到的目的是數(shù)據(jù)挖掘的重要一步,進行挖掘技術(shù)的最后結(jié)果是不可預(yù)知的,但要探索的問題卻是可以預(yù)見的,為了數(shù)據(jù)挖掘而進行數(shù)據(jù)挖掘則帶有一定的盲目性,成功率必然偏低。
2.2 前期準備。一是數(shù)據(jù)的選擇:搜索數(shù)據(jù)庫中與業(yè)務(wù)對象有關(guān)的各種數(shù)據(jù)信息,并從中挑選出適用于開展數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。二是數(shù)據(jù)的預(yù)處理:通過研究數(shù)據(jù)的質(zhì)量,為下一步的數(shù)據(jù)分析做準備,并選定將要進行的數(shù)據(jù)挖掘操作類型。三是數(shù)據(jù)轉(zhuǎn)換:將搜集的數(shù)據(jù)轉(zhuǎn)換成一個分析模型,是針對采用的挖掘算法而建立的。而建立一個真正與挖掘算法匹配的分析模型則是進行數(shù)據(jù)挖掘成功的重要環(huán)節(jié)。
2.3 開始挖掘。對前期經(jīng)過篩選所得并經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進行挖掘。在選擇合適的挖掘算法后,剩下的所有工作都能自動地完成。
2.4 挖掘分析。對挖掘結(jié)果進行解釋并作出評估,在此過程中使用的分析方法應(yīng)根據(jù)數(shù)據(jù)挖掘操作而定,一般采用可視化技術(shù)。
2.5 進行知識同化。將挖掘結(jié)果分析所得到知識進行集成,并以此建立完善業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)。
3 基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法
關(guān)聯(lián)分析(Association analysis)就是通過對數(shù)據(jù)庫中的各數(shù)據(jù)項之間存在的相關(guān)特性按照一定規(guī)則進行比對分析,尋找出隱藏在數(shù)據(jù)項之間的相互聯(lián)系,如果數(shù)據(jù)庫中有兩項或以上數(shù)據(jù)存在著某種聯(lián)系,就能根據(jù)這種聯(lián)系通過其相關(guān)聯(lián)數(shù)據(jù)對某一數(shù)據(jù)
進行預(yù)測。關(guān)聯(lián)分析就能通過訪問用戶查閱各種檔案信息間存在的關(guān)聯(lián)性,進而分析發(fā)現(xiàn)用戶使用模式。關(guān)聯(lián)規(guī)則分析就是通過尋找數(shù)據(jù)庫中數(shù)據(jù)之間相關(guān)性。如果兩項或以上屬性之間存在有此關(guān)聯(lián)性的話,通過這種方式就可依據(jù)其他屬性值預(yù)測其中某項的屬性值。即通過數(shù)據(jù)挖掘技術(shù)就可找出數(shù)據(jù)庫中藏匿的關(guān)聯(lián)網(wǎng),進而對下一步的決策提供指導(dǎo)。
一方面,對原有的檔案數(shù)據(jù)庫中的顯性知識和隱性知識進行搜集和整理,根據(jù)其概念描述歸納出便于提取的相關(guān)特征,通過基于布爾關(guān)聯(lián)規(guī)則的分析,按照相似性與差異性構(gòu)建不同的需求分析模型,然后利用Apriori算法進行迭代分析,將數(shù)據(jù)放入不同的分類中,便于提取。另一方面,要對用戶確定的主題進行定義,明確挖掘要求和目的。通過需求分析模型與用戶指定信息進行結(jié)合,進行差異分析和偏差檢測,排除其他不相關(guān)數(shù)據(jù),得到挖掘結(jié)果。最后要對挖掘結(jié)果開展評價,得到的挖掘結(jié)果可能有沒有關(guān)聯(lián)的數(shù)據(jù),也可能沒有達到需求,如果出現(xiàn)這種情況,整個數(shù)據(jù)挖掘過程就要返回到數(shù)據(jù)收集階段,并重新開始挖掘過程,這可以用“if not…then”規(guī)則來描述,反之即滿足數(shù)據(jù)挖掘要求,可為數(shù)字檔案館所用,并就將其充實到原有數(shù)據(jù)庫中,進行檔案館知識創(chuàng)新。
4 存在問題及對策
基于布爾關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)使數(shù)字檔案館從理論走向?qū)嵺`成為可能,它主要提供技術(shù)支撐,而數(shù)據(jù)挖掘的基礎(chǔ)是對各種數(shù)據(jù)的識別,也就是針對不同的數(shù)據(jù)庫都要能夠識別,就需要數(shù)據(jù)標準統(tǒng)一起來。當(dāng)前我國檔案信息化工作在標準體系建設(shè)方面相對延后,各種檔案管理軟件與檔案信息管理平臺尤其是檔案信息元數(shù)據(jù)、檔案數(shù)據(jù)庫結(jié)構(gòu)存在著無法兼容的情況,并且數(shù)據(jù)質(zhì)量標準多樣,無法滿足數(shù)據(jù)挖掘所需要的高質(zhì)量數(shù)據(jù)庫要求。需要對檔案信息整理統(tǒng)一標準體系,按照標準清理優(yōu)化數(shù)據(jù),完善數(shù)據(jù)庫結(jié)構(gòu)。需要借鑒數(shù)據(jù)挖掘在其他行業(yè)取得的成功做法,在數(shù)字檔案館建設(shè)中擴大數(shù)據(jù)挖掘在各個環(huán)節(jié)的應(yīng)用,進一步推動數(shù)字檔案館建設(shè)和發(fā)展。數(shù)據(jù)挖掘技術(shù)的精度仍需提高,即如何使得迭代算法能夠在進行關(guān)聯(lián)規(guī)則分析時穩(wěn)定收斂是仍需要進一步深入探討的問題,建議采用數(shù)理分析方法,提出一種基于參數(shù)的優(yōu)化模型,以此進一步優(yōu)化提高算法性能。
*本文為2013年河南省檔案局科技項目,編號:13-X-18
(作者單位:河南牧業(yè)經(jīng)濟學(xué)院人文與社會科學(xué)系 來稿日期:2014-06-16)