文/哈立原
基于數(shù)據(jù)挖掘技術的高校圖書館檔案信息管理平臺構建
文/哈立原
隨著現(xiàn)代科學技術的飛速發(fā)展,許多現(xiàn)代新型技術為高校圖書館檔案信息管理構建了嶄新的平臺。文章分析了數(shù)據(jù)挖掘技術在高校圖書館檔案信息管理平臺構建中的主要問題,提出了數(shù)據(jù)挖掘技術在圖書館檔案信息管理平臺構建中的應用思路。
數(shù)據(jù)挖掘技術;高校圖書館;檔案;信息管理
隨著網絡信息數(shù)據(jù)庫的日益擴大,各大高校圖書館均在短時間內積累了海量的數(shù)據(jù),對指定信息數(shù)據(jù)進行檢索變得非常困難。這需要更加有效的檢索技術。高校圖書館以往的管理方式強調對圖書的借閱以及歸還進行系統(tǒng)登記,并沒有對相關的數(shù)據(jù)進行及時分析,忽略了許多有效的信息資源。最新崛起的數(shù)據(jù)挖掘技術將基本理論與圖書館的實際管理結合起來,有利于構建高校圖書館的檔案信息平臺。
首先,描述定義與類別。該功能是用最淺顯易懂的詞句與語言對特定對象的主要特征進行描述。類別的劃分依據(jù)是按照所描述對象的主要特征進行群體的分類。定義強調的是對相同數(shù)據(jù)區(qū)共有特征的描述,但類別的重點在于不同數(shù)據(jù)對象之間的區(qū)分。
其次,關系發(fā)現(xiàn)。所謂的關系發(fā)現(xiàn)指的是,發(fā)現(xiàn)并且處理不同信息變量之間所存在的潛在規(guī)律與內部關聯(lián)。它又可以分為三個類型,即因果作用、時序關系以及簡單關系等。這項功能還被廣泛應用于商務管理、決策分析以及購物籃等方面,是一種非常受歡迎的數(shù)據(jù)挖掘方式。
再次,預估和分類。如果要對信息數(shù)據(jù)進行分類和預估,就必須在數(shù)據(jù)處理的前期實施有指導性意義的習得性操作,建立一套模型或者規(guī)定。分類主要是用于對散亂的信息進行估算,而預估則需要估計連續(xù)的信息。分類的常用方式有很多種,具有代表性的主要有遺傳算法、神經網絡、貝葉斯公式、決策樹、模糊集以及粗糙集等,而預估的常用技術主要是非線性回歸與線性回歸這兩種。
第四,聚合研究。聚合指的是對類似數(shù)據(jù)組成的多個類別進行詳細區(qū)分,樣本是按照組間的最小相似程度與最大相似程度進行歸類劃分的。在對信息對象進行研究的過程之中,研究對象的具體類別是無法知曉的。通常情況下,可以通過對類別的劃分、分層、網格主導、模型主導以及密度主導等方法來進行聚合研究。
第五,孤立點分析。不滿足信息的常規(guī)行為與一般模型均是使用孤立點來指代。這或許是由于系統(tǒng)檢索所存在的缺陷對信息的分析導致偶然性的偏差,從而被當做是無效數(shù)據(jù)而被去除的信息。實際上,它們大多數(shù)都是有意義和實際作用的數(shù)據(jù)。挖掘孤立點的方式主要有三種,分別為基于距離的方法、非基于距離的方法以及統(tǒng)計學方法[1]。
1.海量性。隨著我國經濟水平的提升,高等教育也逐漸普及,很多高校近年來都拓展了招生渠道。隨著生源的上升,圖書館讀者的數(shù)量也越來越多了。高校圖書館的借閱記錄以及館藏數(shù)據(jù)的積累量都具備了海量性的特點。
2.關聯(lián)性。累積于高校圖書館當中的大量借閱記錄數(shù)據(jù)都存在著這樣或者那樣的密切聯(lián)系,等待我們去發(fā)掘。
3.信息的潛在性。在高校圖書館的大量數(shù)據(jù)當中,潛藏著許多非常有價值的信息,為了把這些凌亂的數(shù)據(jù)轉化為對每個管理者和決策者都有價值的數(shù)據(jù),需要對它們進行詳細的分析和充分的挖掘。
現(xiàn)階段的高校圖書館,主要是為前來的讀者提供“借書、看書、還書”以及其它方面的資訊服務,能夠提供主動服務者少之又少。這就要求圖書館管理者不但要明白如何才能夠很快獲得信息以及相關細節(jié),還要知道哪些用戶現(xiàn)在需要這些信息。在整個圖書館系統(tǒng)的借閱數(shù)據(jù)庫當中,每天都會累積大量的數(shù)據(jù)。這些數(shù)據(jù)無法對讀者意向進行分析,需要科學應用數(shù)據(jù)挖掘技術對歷史借閱記錄數(shù)據(jù)進行深層次的分析,從而得出各種圖書借閱情況,最終制定科學的個性化服務。
1.文獻排架管理方面。如果應用數(shù)據(jù)挖掘技術,就可以對圖書館系統(tǒng)之中的數(shù)據(jù)進行詳細分析,進而得出各種圖書的利用率,將某一時間段之內最受歡迎的圖書挖掘出來,甚至可以針對特定的讀者群體,推薦相關書籍,并做簡單的介紹。除此之外,該技術還能注意讀者在圖書館連續(xù)借書的行為和所借圖書的種類,然后按照挖掘出來的圖書之間的相關性,設立一個專門的圖書展示處。
2.個性化服務工作。在時間序列分析上,可以合理利用讀者借閱的記錄庫,將讀者借閱圖書的順序特征找出來,然后在適當?shù)臅r候向讀者進行推薦,引導讀者進一步借閱。此外,如果發(fā)掘了讀者借閱的時間特性,還可以為圖書館的工作安排提供科學有效的指導。
在關聯(lián)規(guī)則分析上,合理利用讀者的借閱記錄庫,將各個種類圖書之間的相關性找出來,然后向讀者提供相關圖書的推薦服務。
1.系統(tǒng)的用例分析。系統(tǒng)首先從高校圖書館的各個業(yè)務系統(tǒng)、學生管理、教師管理以及教學管理的系統(tǒng)之中,用集成器的方式將相關的數(shù)據(jù)抽取出來,然后進行有效整理和清洗,并且將其加載到系統(tǒng)數(shù)據(jù)倉庫當中去。在現(xiàn)存的數(shù)據(jù)庫基礎上,這可以有效地抽取、綜合、集成并且挖掘已有數(shù)據(jù)庫的數(shù)據(jù)資源;可以充分利用數(shù)據(jù)挖掘技術,對倉庫當中的數(shù)據(jù)進行深入分析和挖掘,從而形成相關方面的知識,然后將這些知識通過靈活快捷的圖形化界面提供給每一位用戶,從而對圖書管理的具體工作進行進一步指導。
2.系統(tǒng)功能的模塊設計。根據(jù)對用例的分析可知,整個挖掘系統(tǒng)是由四大功能模塊所組成的,即收集數(shù)據(jù)部分、數(shù)據(jù)關聯(lián)挖掘部分、數(shù)據(jù)聚類挖掘部分以及對讀者信息的聯(lián)機分析處理。[2]
(1)收集數(shù)據(jù)模塊。數(shù)據(jù)挖掘當中所需要運用到的大量數(shù)據(jù),大多都是從高校圖書館的管理系統(tǒng)、學生管理系統(tǒng)、教學管理系統(tǒng)以及教師管理系統(tǒng)之中抽取收集到的。
(2)數(shù)據(jù)挖掘模塊。對數(shù)據(jù)進行深入挖掘,可以將數(shù)據(jù)背后所隱藏的信息發(fā)掘出來,進而掌握讀者的借閱規(guī)律,便可以對讀者的信息需求作出相對準確的預測。這是高校圖書館開展高質量服務的關鍵所在。系統(tǒng)首先利用數(shù)據(jù)采集器,將各個數(shù)據(jù)源當中的數(shù)據(jù)載入數(shù)據(jù)倉庫,然后合理使用數(shù)據(jù)挖掘系統(tǒng)智能處理中心,對來自數(shù)據(jù)倉庫的數(shù)據(jù)進行深入分析,從而獲取一系列用于實際決策過程的有價值信息。
(3)讀者信息服務的聯(lián)機分析處理。在建立起數(shù)據(jù)倉庫之后,如果要充分利用數(shù)據(jù)倉庫的信息資源,就需要一個能夠對數(shù)據(jù)倉庫中數(shù)據(jù)進行分析的強有力工具。而聯(lián)機分析處理就是數(shù)據(jù)倉庫技術當中應用最為廣泛的一個,簡稱OLAP。系統(tǒng)可以根據(jù)讀者的各種檔案獲取他們的背景信息,并且進一步了解他們的閱讀嗜好,最后建立相應的特色資源數(shù)據(jù)庫。在利用數(shù)據(jù)挖掘技術發(fā)現(xiàn)了讀者的集群特性之后,便可以為特定的讀者提供有針對性的服務,也便于引進新的圖書。
首先,真實性以及原始性。高校圖書館檔案管理的最基本準則便是原始性以及真實性。所用到的相關材料必須要真實有效,可以將圖書館的整體工作狀況正確地反映出來。這也就要求基于數(shù)據(jù)挖掘技術的高校圖書檔案管理具備原始性和真實性。高校圖書館中各個種類的檔案在數(shù)字化的進程當中一定要做到客觀真實。
其次,系統(tǒng)性以及完整性。整個高校圖書館檔案管理的過程,是一項系統(tǒng)且完整的浩大工程。信息管理平臺的構建在標引立卷、檔案的梳理分類、文獻加工以及編著目錄等方面都應當嚴格遵守系統(tǒng)性和完整性的原則。
再次,標準化著錄。為了構建數(shù)據(jù)挖掘技術的高校檔案管理平臺,并且讓其能夠正常運作,工作的重中之重就在于實現(xiàn)不一樣檔案信息的標準化著錄。這也表明,信息管理平臺需要將各個種類的信息合理科學地分類,并且進行匯總,確定這個平臺的建設板塊,各個種類的電子檔案一定要采用標準化的文件著錄格式。
第四,安全穩(wěn)定性。然而隨著經濟水平和科學技術的不斷進步,高校圖書館的檔案管理工作融入了數(shù)據(jù)挖掘技術以及信息化技術。它們所帶來的許多負面影響也是不容忽視。檔案信息管理平臺的管理者應當通過相關用戶權限的審核、文檔的備份和加密,確保檔案數(shù)據(jù)的安全,促進平臺的健康穩(wěn)定發(fā)展。[3]
合理地開發(fā)與利用圖書館的檔案信息資源,對圖書館的科學管理、發(fā)展方向都具有不可替代的重要意義。高校圖書館檔案信息資料類的數(shù)字化數(shù)據(jù)主要包含各類電子檔案、檔案軟件所搜集的信息。相關數(shù)據(jù)管理人員應當根據(jù)用戶的實際需求,把數(shù)據(jù)挖掘技術運用到管理中去,提升高校檔案管理的實際效率。
利用高校圖書館的檔案信息管理平臺,可以把檔案信息進行數(shù)字化的分析采集,然后進行存儲使用。在這個過程當中,可以將數(shù)據(jù)挖掘技術和計算機局域網結合起來,將方便快捷、安全有效的數(shù)字化平臺構建出來,盡快實現(xiàn)圖書檔案信息的有效儲存和分析,進而推動高校圖書館檔案信息的有效利用,并且為檔案的管理提供強有力的信息支持。
首先,合理利用數(shù)據(jù)挖掘技術的優(yōu)點,可以把強有力的保障提供給高校檔案管理。對數(shù)據(jù)挖掘技術之中的序列模式以及關聯(lián)進行合理利用,深入發(fā)掘網站的訪問趨勢等,可以盡可能地將多維度的模型構建出來,提升客戶的使用興趣。此外,還需進一步發(fā)掘相關客戶的訪問需要和具體模式,從各個不同的層面把握各個用戶對相關檔案的實際需求,從而為改進圖書館檔案提供更加方便的辦法。數(shù)據(jù)挖掘技術能夠盡可能地搜集到高校圖書館檔案數(shù)字化網絡的網站服務器之中所保存的訪問記錄和相關的用戶資料。經過仔細的篩選之后,它們最后轉化為可以輔助搜索分析的用戶查閱數(shù)據(jù)庫以及反饋信息集合。
其次,利用數(shù)據(jù)挖掘可以為圖書檔案信息管理指明發(fā)展方向。數(shù)據(jù)挖掘可以對高校圖書館的檔案網和檔案管理軟件訪問信息挖掘技術的優(yōu)勢進行合理利用,并且深入分析相關圖書館檔案資源的使用效率,然后把使用頻率極高的傳統(tǒng)檔案載體全部轉化為數(shù)字化模式。根據(jù)對相關圖書館檔案信息的訪問,還有詳細真實的檢索情況,對相關用戶請求失敗的情況進行深入分析,按照類別對圖書館檔案的拒用集和頻率利用進行統(tǒng)計,科學利用聚集算法來查詢隱藏于館藏資源當中的漏洞,讓檔案信息資源變得更加豐富。此外,人們還可以充分使用文本挖掘功能以及分類、關聯(lián)以及聚類等方式,進行檔案信息挖掘,然后再對這些信息進行重組、加工以及分類,從而逐漸完善并且建立起具有自身特性的信息數(shù)據(jù)庫和專題檔案信息庫等資源聚合體。[4]
再次,利用數(shù)據(jù)挖掘優(yōu)化檔案,可以對未來的工作進行預測。在提供利用環(huán)節(jié)方面,數(shù)據(jù)挖掘需要對高校圖書館檔案用戶每回查閱的信息都進行相關性的串連分析,進而在各種各樣的不同信息當中,發(fā)現(xiàn)相應的規(guī)則以及比例關系。這不僅可以進一步優(yōu)化檔案資料,還可以使得用戶的體驗發(fā)生改變,使它能夠更加順暢。此外,還要將高校圖書館檔案信息文本特征進行對比,并且建立相關的模型,對大量的圖像、文本以及圖像進行細分總結以及關聯(lián)分析等。通過這些詳細的對比分析,人們可以對未來的檔案管理工作進行科學的分析和預測。
高校檔案數(shù)字化建設的重點在于構建基于數(shù)據(jù)挖掘技術的高校圖書館檔案信息管理平臺。這可以有效推動圖書館的快速可持續(xù)發(fā)展。所以,我們應當充分利用數(shù)據(jù)挖掘技術的優(yōu)勢,加大人力以及物力的投入量,促進數(shù)字化檔案平臺的繼續(xù)發(fā)展和完善,在最大限度上提升高校圖書館檔案信息資源的使用效率,對檔案資源進行有效開發(fā)和利用,并且積極地推動高校圖書館事業(yè)向著更加科學的方向前進。
[1]項爾津.高校圖書館個性化服務中數(shù)據(jù)挖掘技術的應用研究[J].蘭臺世界,2014,(29).
[2]付雙雙.大數(shù)據(jù)時代高校檔案建設轉型思考[J].山西檔案,2015,(6).
[3]吳青霞.傳統(tǒng)檔案管理與“大數(shù)據(jù)—新媒體”融合途徑探索[J].山西檔案,2015,(6).
[4]周美蘭.大數(shù)據(jù)時代高校檔案資源體系建設的思考[J].山西檔案,2015,(6).
TP311.13;G258.6
A
1005-9652(2016)05-0105-03
(責任編輯:虞志堅)
哈立原(1964-),男,內蒙古錫林浩特人,吉林大學軟件工程碩士,錫林郭勒職業(yè)學院副教授,研究方向:數(shù)學與計算機。