蔡瑜婉
(永春縣圖書館 福建 泉州 362600)
傳統(tǒng)信息挖掘系統(tǒng)的缺陷就是系統(tǒng)響應(yīng)速度慢,無法實現(xiàn)信息共享,不能夠滿足學(xué)生通過數(shù)字圖書館個性化服務(wù)交互行為對教學(xué)資源進行共享。以此,本文設(shè)計數(shù)字圖書館個性化服務(wù)行為信息挖掘系統(tǒng),通過數(shù)據(jù)挖掘技術(shù)實現(xiàn)個性化交互服務(wù)行為信息的二次處理,對數(shù)字圖書館個性化交互服務(wù)行為信息潛在價值進行挖掘,從而實現(xiàn)高校教育教學(xué)的發(fā)展。數(shù)字圖書館使用信息挖掘技術(shù),能夠提高信息資源組織、使用、集成和加工的效率。信息技術(shù)和智能技術(shù)的結(jié)合,為數(shù)字圖書館個性化推薦系統(tǒng)提供支撐。
設(shè)計個性化服務(wù)行為信息挖掘系統(tǒng)中的云服務(wù)平臺框架,要求與圖書館實際情況結(jié)合,整合和合理使用圖書館內(nèi)部資源。云服務(wù)能夠?qū)⒋罅康臄?shù)據(jù)提供給系統(tǒng),使系統(tǒng)穩(wěn)定地運行。在設(shè)計云服務(wù)平臺框架的過程中,基于基礎(chǔ)功能設(shè)計使圖書館內(nèi)部資源作為系統(tǒng)設(shè)計重點,從而增強框架適應(yīng)能力,提高擴展性,降低成本。
在個性化服務(wù)行為信息挖掘系統(tǒng)架構(gòu)設(shè)計的過程中,將SSH框架作為核心架構(gòu)。此框架開發(fā)周期短、結(jié)構(gòu)簡單、維護方便,在多領(lǐng)域中廣泛使用,圖1為信息挖掘系統(tǒng)的總體架構(gòu)。
圖1 信息挖掘系統(tǒng)的總體架構(gòu)
(1)用戶層。使用JSP技術(shù)設(shè)計個性化服務(wù)行為信息挖掘系統(tǒng)架構(gòu)用戶層,此技術(shù)具備高效處理優(yōu)勢,被廣泛應(yīng)用在多領(lǐng)域中,能夠?qū)崿F(xiàn)個性化服務(wù)行為信息挖掘系統(tǒng)與用戶的交互邏輯處理。
(2)業(yè)務(wù)層。為了能夠使個性化服務(wù)行為信息挖掘系統(tǒng)穩(wěn)定地運行,在設(shè)計業(yè)務(wù)層架構(gòu)的過程中使用SSH框架開發(fā)系統(tǒng)業(yè)務(wù)層,實現(xiàn)系統(tǒng)業(yè)務(wù)層的層次細化,包括PO層、DAO層、Service層和Web層。利用細化的個性化服務(wù)行為信息挖掘系統(tǒng)業(yè)務(wù)層架構(gòu),方便個性化服務(wù)行為信息挖掘系統(tǒng)的維護,并且系統(tǒng)開發(fā)簡單方便。
(3)數(shù)據(jù)挖掘?qū)?。在設(shè)計數(shù)據(jù)挖掘的過程中,通過數(shù)據(jù)挖掘工具Weka處理數(shù)據(jù),使Weka作為個性化服務(wù)行為信息挖掘系統(tǒng)數(shù)據(jù)挖掘架構(gòu)核心,與聚類、神經(jīng)網(wǎng)絡(luò)、決策樹分類等算法結(jié)合,以此實現(xiàn)個性化服務(wù)行為信息挖掘系統(tǒng)數(shù)據(jù)的規(guī)劃處理,使個性化服務(wù)行為信息挖掘系統(tǒng)穩(wěn)定性得到提高。
(4)數(shù)據(jù)層。主要包括讀者瀏覽信息、借閱信息、圖書信息和個人信息等,該層能夠?qū)崿F(xiàn)數(shù)據(jù)存儲。所以,實現(xiàn)圖書館內(nèi)部數(shù)據(jù)資源的整合,通過此關(guān)系型數(shù)據(jù)庫存儲數(shù)據(jù)信息。
將數(shù)據(jù)處理過程劃分為在線與離線2個部分,利用系統(tǒng)處理之間的合理分配,使推薦速度得到提高[2]。離線設(shè)計是針對Web日志中的大規(guī)模海量數(shù)據(jù)信息,通過數(shù)據(jù)挖掘技術(shù)實現(xiàn)數(shù)據(jù)信息的加工處理,會耗費大量的時間,在線設(shè)計能夠處理當(dāng)前會話用戶的在線推薦引擎問題。
2.1.1 數(shù)據(jù)準(zhǔn)備
離線部分的主要功能就是準(zhǔn)備數(shù)據(jù),系統(tǒng)后臺存儲大量用戶訪問信息,通過處理之后得出有用的信息。在數(shù)據(jù)處理過程中,能夠?qū)崿F(xiàn)用戶訪問信息、屬性信息的處理與過濾,對數(shù)據(jù)維度的處理過濾能夠促進數(shù)據(jù)挖掘[3]。數(shù)據(jù)準(zhǔn)備為Web訪問挖掘的基礎(chǔ)工作,也是數(shù)據(jù)準(zhǔn)備核心工作。在數(shù)據(jù)準(zhǔn)備中,要對用戶訪問信息實現(xiàn)處理過濾等操作,具體步驟為:
(1)數(shù)據(jù)收集。在處理用戶訪問日志數(shù)據(jù)的過程中,要對客戶端與服務(wù)器端的數(shù)據(jù)信息進行收集。利用客戶端將多站點與單用戶的訪問行為反映出來,在服務(wù)器端用戶訪問的瀏覽行為比較模糊,客戶端比較精準(zhǔn);
(2)數(shù)據(jù)清洗。在收集用戶訪問Web的數(shù)據(jù)信息之后,要進行清洗與分類,對有價值的信息服務(wù)進行挖掘。清洗基于Web的訪問信息數(shù)據(jù),實現(xiàn)數(shù)據(jù)的抽取和刪除,具體包括:①刪除與數(shù)據(jù)挖掘無關(guān)的數(shù)據(jù),在用戶訪問Web日志信息中,存在與用戶Web訪問無關(guān)的數(shù)據(jù),比如圖像文件等,需刪除無關(guān)的數(shù)據(jù);②在一段時間內(nèi)解析用戶數(shù)據(jù)挖掘的信息,合并后得出精準(zhǔn)訪問Web數(shù)據(jù)信息,使數(shù)據(jù)信息轉(zhuǎn)化成為其他格式的數(shù)據(jù)。
(3)用戶識別。通過數(shù)據(jù)清洗的數(shù)據(jù)對每個用戶進行識別,有大量識別用戶的方法,比如利用IP地址、用戶注冊、嵌入會話ID等,都具有各自的優(yōu)缺點。
(4)會話識別。用戶在對Web進行訪問時將此訪問劃分成為多個會話,此時能夠?qū)Σ煌脩粼L問記錄進行區(qū)分。針對同個頁面,用戶訪問會話能夠在訪問日志中單獨存儲。針對某用戶訪問時間跨度大的請求,會在用戶訪問某站點時,對不同會話使用時間窗表示。針對某時間窗,設(shè)置timeout值。
2.1.2 創(chuàng)建用戶興趣模型庫
(1)創(chuàng)建的意義。數(shù)字圖書館為資源信息集合中心,存儲大量資源信息。在用戶海量信息與數(shù)據(jù)方面,要求讀者尋找信息。另外,此類資源與信息不斷增加,所以要使用相應(yīng)的措施快速尋找。因此,要求設(shè)計用戶興趣模型庫,根據(jù)知識模式尋找。
(2)用戶興趣模型庫。針對用戶個性化需求,無法使用統(tǒng)一標(biāo)準(zhǔn)對用戶需求多元素進行衡量,用戶在系統(tǒng)中不僅能夠?qū)eb頁面感興趣,還能夠?qū)D書感興趣,利用用戶興趣庫衡量其他用戶的個性化需求,實現(xiàn)個性化信息服務(wù)設(shè)計[4]。數(shù)字圖書館為重要數(shù)據(jù)信息服務(wù)部門,假如要為用戶提供個性化信息服務(wù),就要為用戶創(chuàng)建滿足實際用戶需求的興趣模型庫,包括用戶需要的數(shù)據(jù)和信息。之后通過數(shù)據(jù)挖掘算法與規(guī)則處理Web用戶數(shù)據(jù),得到用戶興趣和行為習(xí)慣。
數(shù)字圖書推薦系統(tǒng)使圖書信息實現(xiàn)數(shù)字化,數(shù)字圖書館具有大量信息,用戶在海量資源中尋找自己需要的信息不容易。目前,圖書推薦系統(tǒng)要創(chuàng)建圖書資源[5]。此時,應(yīng)轉(zhuǎn)變?yōu)橐宰x者用戶的思路創(chuàng)建,用戶興趣模型庫能夠使用戶深層次需求得到滿足,為其提供個性化推薦服務(wù),圖2為用戶興趣模型庫生成流程。
圖2 用戶興趣模型庫生成流程
第一階段為創(chuàng)建用戶興趣描述文檔,得出用戶信息需求,創(chuàng)建用戶興趣描述文檔包括Web瀏覽方式與瀏覽內(nèi)容;第二階段為根據(jù)對象所描述的用戶興趣,關(guān)聯(lián)資源信息實現(xiàn)用戶興趣信息組織。Web瀏覽內(nèi)容挖掘能夠分析用戶瀏覽的頁面聚類,創(chuàng)建用戶興趣數(shù)據(jù)庫模型,分析用戶瀏覽頁面行為。在此過程中,使兩者結(jié)合,能夠得出用戶感興趣的主題和感興趣程度,得出帶有加權(quán)的向量用戶興趣數(shù)據(jù)庫模型[6]。
針對用戶來說,分析用戶行為能夠快速得出用戶興趣。用戶瀏覽頁面與站點,在此基礎(chǔ)上會發(fā)生很多動作行為,比如用戶訪問頁面時的查詢和標(biāo)記書簽等動作,還包括訪問頁面時的訪問次數(shù)、停留時間、編輯、保存等行為,此瀏覽行為能夠使用戶訪問頁面興趣度得到展現(xiàn)。
讀者在對資源信息進行訪問時,讀者的興趣也會有所改變。興趣變化會影響讀者的興趣領(lǐng)域知識中心,以此使資源信息分類樹節(jié)點權(quán)值改變,對讀者用戶重新歸類。在整個過程中,節(jié)點權(quán)值能夠相互鏈接。對于讀者用戶,如果沒有經(jīng)常訪問就會降低權(quán)值,方便使最近訪問的節(jié)點在前面。
(1)權(quán)值更新。以讀者用戶對于資源信息不同的訪問方式修改資源信息分類樹中的權(quán)值,從而識別讀者興趣程度和領(lǐng)域,模型修改方法為式(1):
Newweight=oldWeight+r*t*k/D
(1)
式(1)中的r指的是讀者用戶對于資源信息訪問方式的參數(shù),以方式重要性實現(xiàn)某值的設(shè)置,本文使用專家小組指定;t指時間長度;k指文獻資源信息關(guān)聯(lián)度,取值范圍為0~1;D指調(diào)節(jié)常量,對不同分類興趣增長速度控制。
(2)權(quán)值衰減。用戶興趣數(shù)據(jù)庫模型會改變讀者的用戶興趣度,讀者如果沒有對某資源信息進行訪問,那么相應(yīng)的權(quán)值也會減少。在此過程中,如果當(dāng)天訪問和沒有訪問的,就要區(qū)別對待,不能夠降低權(quán)值。連續(xù)沒有訪問天數(shù)的節(jié)點具有快衰減。那么,在對權(quán)值衰減設(shè)計的過程中,利用斐波那契數(shù)列實現(xiàn)權(quán)值衰減模型的設(shè)計,通過系統(tǒng)管理員實現(xiàn)興趣衰減的設(shè)置。
斐波那契數(shù)列為式(2):
fibo[0]=0,fibo[1]=1,fibo[n]=[n-1]+fibo[n-2]
(2)
對權(quán)值衰減時,在fibo[i]中的i=0的時候,不會衰減當(dāng)天訪問節(jié)點的權(quán)值。如果i越大,表示連續(xù)沒有訪問天數(shù)比較長,權(quán)值衰減比較快。
利用智能過濾技術(shù)創(chuàng)建數(shù)字圖書館個性化推薦服務(wù),以信息共享平臺和智能推薦系統(tǒng)將個性化信息提供給用戶。結(jié)合用戶興趣愛好、專業(yè)、教育背景等全面分析用戶的知識結(jié)構(gòu),將信息數(shù)據(jù)進行智能化過濾,通過大數(shù)據(jù)挖掘技術(shù)分析用戶的興趣習(xí)慣,及時推薦給用戶文獻資源。以信息智能化的分類,系統(tǒng)中的用戶需求存在代理動態(tài),根據(jù)智能過濾技術(shù)使用戶個性化需求得到滿足。
在用戶需求分析的過程中,個性化定制能夠通過用戶的行為數(shù)據(jù)模型預(yù)測用戶的需求,從而為用戶推送信息服務(wù)。此種服務(wù)模式要針對用戶個性化需求和自主意愿,利用有效數(shù)據(jù)集合推算分析和用戶興趣變動,預(yù)測用戶可能產(chǎn)生的閱讀行為和習(xí)慣,對系統(tǒng)中參數(shù)進行調(diào)整,并且提供用戶自主選擇功能,根據(jù)用戶的需求制定個性化的信息推薦服務(wù)[7-9]。通過結(jié)合用戶的結(jié)構(gòu)知識和個人興趣,智能化定制館藏數(shù)字資源與網(wǎng)絡(luò)資源,使用戶個性化信息的獲取更加方便,主要實現(xiàn)代碼如圖3所示。
系統(tǒng)的運行環(huán)境詳見表1,對數(shù)字圖書館個性化交互服務(wù)的行為信息挖掘系統(tǒng)進行集成測試,根據(jù)測試規(guī)定步驟實現(xiàn)測試,對每個模塊之間的協(xié)調(diào)能力與數(shù)據(jù)流向進行掌握,測試的步驟詳見圖4。
表1 系統(tǒng)的運行環(huán)境
圖4 測試的步驟
通過以上系統(tǒng)測試步驟與運行環(huán)境,設(shè)置測試次數(shù)為50次,以傳統(tǒng)信息挖掘系統(tǒng)對各頁面響應(yīng)時間進行記錄。表2為頁面響應(yīng)時間的對比,不同界面系統(tǒng)具有不同的響應(yīng)時間。傳統(tǒng)信息挖掘系統(tǒng)的登錄界面響應(yīng)時間比較短,本文系統(tǒng)能夠使進入到系統(tǒng)的速度加快。以此可見,本文信息挖掘系統(tǒng)能夠促進系統(tǒng)響應(yīng)速度。
表2 頁面響應(yīng)時間對比
因為圖書館內(nèi)部的信息比較多,會導(dǎo)致個性化服務(wù)行為信息挖掘系統(tǒng)在挖掘信息的時候出現(xiàn)響應(yīng)速度慢等問題。為了使此問題得到解決,本文設(shè)計了個性化服務(wù)行為信息挖掘系統(tǒng),并且對系統(tǒng)開展測試。通過測試結(jié)果表明,本文信息挖掘系統(tǒng)的平均響應(yīng)速度比較快,此研究具有優(yōu)勢。