徐 震,李 楊,馮玉平
(中國人民解放軍戰(zhàn)略支援部隊信息工程大學,河南 鄭州 450000)
圖書館借閱量的影響因素較多,數據的變化相對復雜,存在一定的周期性和混沌性,為此,本文以一年為周期,利用大數據對借閱數據特征進行分析。
本文對借閱特征的分析是建立在大數據的基礎之上的,因此需要采集估計目標前一年的實際借閱數據。假設得到的樣本數據中共包含n個數據,首先將其按照借閱資源的類目進行分類處理,此時的數據可以表示為
n={a1,a2,…,ai}
(1)
其中,a表示不同類目資源的借閱量,i表示類目總數,此時的借閱量實現初步劃分。因此,要實現對不同因素作用強度的分析,才能根據新學期的入學人數信息估計出準確的借閱量。
本文將學生的專業(yè)、年齡以及性別作為影響因素,分析其在不同類目資源借閱量中的影響權重,得到不同影響因素在不同類目資源借閱量中的作用大小,以此作為估計模型的構建基礎,實現對新周期內圖書館借閱量的準確估計。
在得出不同因素對圖書館借閱量的影響作用基礎上,構建的圖書館借閱量估計模型如圖1所示。
圖1 圖書館借閱量估計模型
模型對最終借閱量的估計是以新周期內學生的數量為基礎。首先將學生按照性別、專業(yè)以及年齡分別進行分類,統(tǒng)計不同類別的數量后,按照大數據特征分析得到的各自在借閱量中的影響權重初步計算出借閱量,圖書館資源的儲備量低于實際借閱需求時,會對借閱量產生一定的抑制作用,因此,模型通過將估計結果與實際資源儲備之間建立對應關系,得出抑制效果的大小,以此為基礎實現對圖書館借閱量的準確估計。
以某高校圖書館作為實驗對象,利用Microsoft Visual C++6.0軟件實現對本文模型的編程。同時,為了提高估計結果評價的客觀性,將文獻[2]和文獻[3]提出的估計方法作為對照組。
本文以高校借閱系統(tǒng)的實際數據為實驗數據,調取圖書館某一年內的借閱量原始數據,其中包含借閱者姓名、年齡、性別、專業(yè)以及借閱書籍信息數據。將其作為樣本數據,構建了估計模型,利用該模型估計樣本數據下一年的借閱情況。為了簡化多估計接軌評價的難度,本文將誤差作為評價指標,計算方式為:
(2)
其中,d表示估計結果的誤差,Xi表示i類目資源的實際借閱量,xi表示i類目資源的估計借閱量。以此為基礎,分析統(tǒng)計不同方法的估計效果。
在上述數據的基礎上,分別采用3種方法對圖書館的借閱量進行估計,不同方法估計結果如表1所示。
表1 不同方法的估計結果 單位:%
從表1可看出,估計結果與實際之間的差異出現了明顯的波動,最大值幾乎達到500,并且在估計結果中出現了多個類目借閱量估計值低于實際借閱量的情況,這將直接影響學生的實際閱讀需求,雖然在整體借閱量的估計上誤差僅為-1.13%,但對那個類目的估計誤差最大值達到了12.24%(綜合);文獻[3]方法對整體借閱量的估計誤差也相對較低,僅為0.56%,通過觀察單個類目的估計結果可發(fā)現,其穩(wěn)定性較差,最大誤差達到了13.42%(交通),最小誤差僅為-0.41%(農業(yè))??煽闯龉烙嫿Y果并不理想。相比之下,本文方法的估計結果具有更高的可靠性,不僅整體誤差僅為0.55%,單個類目的估計誤差最高值也僅為2.82%,表明本文設計的估計模型可實現對圖書館借閱量的精準估計。
圖書館資源管理工作作為一項重要的工作,既要對書籍資料的采購方向進行合理控制,又要對不同類型資料的儲備量作出合理規(guī)劃,這些都需要以實際的圖書借閱需求為參考。本文設計了一種基于大數據的圖書館借閱量估計模型,實現了對圖書借閱需求的高精度預測,為圖書館的資源管理工作提供了重要的數據指導。