祝婷婷
摘要:以高校圖書館——長春工程學院圖書館為例,選擇決策樹C4.5算法構造模型,通過數據挖掘算法,得出制約圖書館數字資源使用因素間的一些潛在性聯系,從而進一步分析高校圖書館用戶的實際使用需求,為圖書館今后發(fā)展、決策提供意見及指導。
關鍵詞:數據挖掘;高校圖書館;決策樹算法
隨著圖書館事業(yè)的不斷發(fā)展,高校圖書館的職能也隨之發(fā)生了變化。如何更有效、合理的對高校圖書館用戶需求進行分析,從而有針對性的為讀者提供相對應服務,已經成為圖書館今后發(fā)展中所面臨的具體任務。
目前,雖然各高校圖書館都在為了更好地滿足用戶對信息的需求,積極推廣數字資源的開發(fā)利用,但由于缺乏對它的科學認識與管理,造成大量數字資源閑置、重復,使有限經費白白浪費。用戶對圖書館服務的需求正逐漸由傳統的圖書借閱擴展為信息檢索、文獻下載等數字資源服務。應用數據挖掘技術可以通過收集到的一些看似無關聯的,離散的調查問卷等數據,轉化為可供使用的參考信息,提供給圖書館決策者,這將使一些制約用戶使用圖書館數字資源的因素得到有效的處理。根據此需求選擇數據挖掘中的決策樹C45算法建立決策樹,挖掘出制約用戶對數字資源使用的一些主要因素間潛在的規(guī)則性知識,對高校圖書館用戶需求進行有效分析,使用戶更有效地利用圖書館的數字資源服務,為圖書館提高服務層次提供決策指導。
一、決策樹分類算法
決策樹方法是一種通過構造決策樹來發(fā)現訓練集中分類知識的數據挖掘方法,該方法用類似于流程圖的樹結構對數據記錄進行分類,根節(jié)點對應的數據集是訓練集,每個內部節(jié)點表示在某個屬性上的測試,每個分枝代表一個測試輸出,而每個葉節(jié)點代表類或類的分布[1]。
決策樹算法分為樹的生長算法和剪枝算法兩部分。其中,ID3 和 C45 作為決策樹生長的基本算法(貪心算法),都使用信息論度量為樹中每一個非樹葉節(jié)點選擇測試屬性。C45 對 ID3 算法預測變量的缺失值處理、剪枝技術、派生規(guī)則等方面進行了補充和改進,能夠將決策樹轉為等價的規(guī)則,是一種比較流行的算法。[2]本文主要應用C45 算法構造決策樹。
二、決策樹構造實例
為有效說明問題,通過長春工程學院學生對圖書館數字資源使用情況的調查問卷中選取了少量樣本數據,這樣構造出的決策樹比較簡單直觀。
決策樹的每個內部節(jié)點(非葉)表示一個屬性上的測試,每個葉節(jié)點表示一個類別,本實例的類別為自身因素(用戶是經常使用數字資源):是(1)和否(0)兩類。我們采用自頂向下遞歸算法來構造決策樹。可將表中的數據元組訓練集分為2類,即自身因素{是,否},所以有2個不同的類(m=2)。設類C1對應于是,有12個樣本,類C2對應于否,有6個樣本,據(1),可以得出該樣本的期望信息:
I(r1,r2)=I(12,6)=-(12/18)* log2(12/18)-(6/18)* log2(6/18)=0918
然后計算每一個決策屬性的期望信息量(即熵值)。
對屬性“宣傳因素”,當宣傳因素=高
I(s11,s21)= -(2/3)* log2(2/3)-(1/3)* log2(1/3)=0918
當宣傳因素=良
I(s12,s22)= -(7/8)* log2(7/8)-(1/8)* log2(1/8)=0544
當宣傳因素=中
I(s13,s23)= -(3/7)* log2(3/7)-(4/7)* log2(4/7)=0985
由此得出“宣傳因素”的熵值
E(宣傳因素)=3/18*I(s11,s21)+8/18*I(s12,s22)+7/18*I(s13,s23)=0778
因此屬性“宣傳因素”的信息增益為
G(宣傳因素)=I(r1,r2)-E(宣傳因素)=0140
同理,可得出表中其他各屬性的期望信息和信息增益值。
由于屬性“宣傳因素”具有最大信息增益,故而選擇該屬性作為決策樹的根節(jié)點。
對于每一個分枝, 依據分枝順序,重復上述步驟,只畫出關于第一層次單位和最差情況的決策樹,生成的決策樹如圖1所示。
三、結果分析與應用
(一)模型結果分析
由模型結果可以看出,最大的障礙是圖書館對如何使用數字資源的宣傳力度不夠,使用戶不了解其使用方法,甚至可能是不會利用數字資源來獲取信息,其次是資源本身的更新情況和圖書館的設備情況制約了其對資源的使用。要提高圖書館數字資源的利用率,就要提高高校圖書館對數字資源的宣傳和培訓,使更多用戶知道,熟悉其使用,其次,則需側重加強資源本身的優(yōu)化,確保數據庫收錄內容是否全面、準確、權威、時效性強,是否符合本館需求與圖書館設備的更新。
以往的調查問卷因為缺乏科學分析工具,無法及時對用戶的需求情況進行合理的統計分析,也就無法發(fā)現龐雜的數據中存在的關系和規(guī)則,圖書館管理者更多的依靠經難和習慣來進行工作。而利用決策樹C45算法,針對長春工程學院圖書館調查問卷的數據,有目的分類構造模型后,統計結果比以往手工統計調查問卷效率提高了數倍,結果分析的準確性也大大增強,并且在直觀可視的決策樹模型結果分析中,圖書館管理者可以輕易找出影響用戶需求的關鍵因素以及其中潛在依賴關系,為今后的服務決策提供了科學的依據。
(二)模型在圖書館服務工作中的應用
采用決策樹C45算法,對長春工程學院圖書館數字資源使用情況的調查問卷進行分類,生成決策樹模型,更直觀地顯示了影響讀者使用數字資源的相關因素,結合模型的分析結果,為圖書館在今后宣傳推廣、數字資源建設、設備更新等一系列服務中提供了工作方向。
1、圖書館以往的服務推廣策略缺乏技術支持手段,大多數是憑經驗制定的。在進行宣傳的時候沒有任何針對性,這就大大影響了宣傳的推廣效果。通過運用決策樹模型對用戶調查問卷進行分析后,得出讀者對館藏電子資源的了解程度是影響數字資源利用率高低的最直接因素。依據此分析結果,長春工程學院圖書館在日常的服務中加大了對數字資源的宣傳力度,開展了對剛入校的新生進行“如何利用圖書館資源”的教育講座;增加學生讀者利用電子文獻資源培訓講座的次數;圖書館工作人員還到各院系為廣大教師傳授網絡數據庫、電子圖書等數字資源的檢索技巧;推廣文獻檢索課程在各教學院系課程設置中的普選率;提高學生文獻檢索的信息素養(yǎng);重視參考館員的信息導航作用。通過一系列的宣傳活動,大大增強了用戶對圖書館數字資源的了解,使圖書館的數字資源利用率得到的顯著的提高。
2、根據決策樹模型結果分析出的另一因素——數字資源建設,長春工程學院圖書館也做了相應的改善工作。在資源建設中,加快了資源的更新速度,加大了采購數量,同時有計劃地在資源采購中向重點學科傾斜。在紙質文獻資源和電子資源的采購中,加強了對電氣工程、土木工程、機械工程等我校重點學科的資源采購,保證了我校重點學科電子資源的前沿性與時效性,另外還加大了特種資源中科技報告、專利、標準文獻等數據庫資源,以及能囊括和迅速揭示學科發(fā)展新動向的二次文獻數據庫的采購,使資源的覆蓋面更全,更廣。通過一系列的改進措施,廣大師生在圖書館的文獻利用率大幅提升,由原來的846%提高到現在的965%。
3、在長春工程學院新落成的圖書館中,加大了對硬件設備與有線、無線網絡的投入,使館內硬件設備更加高效,無線網絡設施覆蓋更廣,在寬敞明亮的環(huán)境中,越來越多的師生走進圖書館,使圖書館資源得到了最大程度的利用。僅以長春工程學院教工讀者的增長量為例,新建成的圖書館與老館的同期教工讀者量增長了74%。這一數據也證明了館內硬件設備與網絡設施的完善與更新,自動化建設步伐的加快,可以進一步提高圖書館服務的整體層次,吸引更多的讀者走進圖書館,利用圖書館。
四、結論
通過數據挖掘中決策樹C45算法構建的模型,得出部分影響其圖書館資源使用因素間的一些潛在性聯系,這種通過決策樹算法中得出的挖掘信息,可以使圖書館決策者更加清晰的了解用戶在利用圖書館信息資源中的各種需求,為圖書館服務工作提供了科學的指導,使服務工作的開展更有針對性、目的性、方向性,為后續(xù)服務的改進提供了充足、可靠的數據,最大限度地發(fā)揮了圖書館資源的利用率,為圖書館事業(yè)的發(fā)展起到了科學分析預測、決策的作用。當然,由于本次模型中樣本數量和項目還不夠多,分析程度和分類知識的獲取還不夠理想,可信度也還相對不夠,只能稱作一個簡單的粗層次的分類分析模型。但在對樣本數據的挖掘中,該算法提供了一個進行合理挖掘的模式,得出了一些具有參考價值的分析結論,可以說為該領域有效應用數據挖掘技術進行研究提供了一個方向。(作者單位:長春工程學院圖書館)
參考文獻:
[1]中國人民大學統計學系數據挖掘中心.數據挖掘中的決策樹技術及其應用.統計與信息論壇,2002(3):4~10
[2]朱紹文等.決策樹采掘技術及發(fā)展趨勢.計算機工程,2000(10):1~3
[3]馬秀紅,宋建社,董晟飛.數據挖掘中決策樹的探討.計算機工程與應用,2004,40(1).
[4][德].巴斯蒂安.數據倉庫與數據挖掘.武森,高學東,譯.北京:冶金工業(yè)出版社,2003.
[5]王德岳.面向就業(yè)分析的數據倉庫及其數據挖掘的研究.沈陽:東北大學,2000.