国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖書(shū)館數(shù)字資源訪問(wèn)系統(tǒng)的讀者行為數(shù)據(jù)挖掘研究

2016-02-15 09:00:42
現(xiàn)代情報(bào) 2016年1期
關(guān)鍵詞:日志數(shù)據(jù)挖掘數(shù)字

周 欣 陸 康

(南京曉莊學(xué)院圖書(shū)館,江蘇南京211171)

基于圖書(shū)館數(shù)字資源訪問(wèn)系統(tǒng)的讀者行為數(shù)據(jù)挖掘研究

周 欣 陸 康*

(南京曉莊學(xué)院圖書(shū)館,江蘇南京211171)

通過(guò)分析讀者在圖書(shū)館數(shù)字資源系統(tǒng)的行為日志數(shù)據(jù),可以準(zhǔn)確的挖掘出讀者的真實(shí)需求,更好的為讀者提供個(gè)性化服務(wù)。文章先介紹了讀者行為分析在圖書(shū)館行業(yè)的研究現(xiàn)狀,以及對(duì)讀者行為挖掘的研究意義,然后介紹了對(duì)讀者在數(shù)字資源訪問(wèn)系統(tǒng)中的訪問(wèn)日志數(shù)據(jù)進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)挖掘的方法,構(gòu)建了讀者行為分析系統(tǒng)模型。

圖書(shū)館;數(shù)字資源;數(shù)據(jù)挖掘;讀者行為;日志分析;聚類分析

信息時(shí)代的到來(lái),傳統(tǒng)的圖書(shū)館向數(shù)字圖書(shū)館轉(zhuǎn)化,圖書(shū)館員的服務(wù)方式和內(nèi)容也在向信息化方向轉(zhuǎn)變,由傳統(tǒng)的借閱服務(wù)及信息咨詢服務(wù),轉(zhuǎn)化為以網(wǎng)絡(luò)平臺(tái)為主的信息化服務(wù)[1]。圖書(shū)館的數(shù)字資源建設(shè),其資源的利用率有多高,如何對(duì)數(shù)字資源進(jìn)行評(píng)估,讀者的滿意度如何,讀者究竟需要什么樣的數(shù)字資源,如何為讀者提供更優(yōu)質(zhì)的數(shù)字化服務(wù)?這些問(wèn)題都是圖書(shū)館所需要關(guān)注的。

圖書(shū)館是文獻(xiàn)資源保障部門(mén),是為讀者提供優(yōu)質(zhì)文獻(xiàn)資源相關(guān)的服務(wù)。有學(xué)者指出,數(shù)字圖書(shū)館網(wǎng)站是否成功的關(guān)鍵之一是能否提供個(gè)性化的信息服務(wù)[2]?,F(xiàn)在網(wǎng)站門(mén)戶的個(gè)性化服務(wù)已經(jīng)不能夠滿足讀者的需求,原因是多方面的,其中最主要的原因就是互聯(lián)網(wǎng)尤其是移動(dòng)互聯(lián)網(wǎng)平臺(tái)的普及,每個(gè)讀者都有自己鐘愛(ài)的互聯(lián)網(wǎng)平臺(tái),例如學(xué)科博客、微博、微信等。本文從讀者的資源行為入手,對(duì)讀者通過(guò)對(duì)數(shù)字資源訪問(wèn),得出讀者的資源需求信息,通過(guò)數(shù)據(jù)挖掘技術(shù),從中提取出讀者服務(wù)與資源建設(shè)的相關(guān)的數(shù)據(jù)信息,分析讀者的學(xué)科訪問(wèn)軌跡以及資源需求,從學(xué)科建設(shè)角度進(jìn)行有針對(duì)性的向讀者提供個(gè)性化的推送服務(wù),最終向讀者推薦對(duì)其有用的信息,提高讀者對(duì)圖書(shū)館的信息需求滿足率。

1 研究背景

1.1 圖書(shū)館讀者行為分析

互聯(lián)網(wǎng)給讀者提供了資源獲取的多條途徑,讀者資源獲取的方式也呈現(xiàn)多元化。圖書(shū)館對(duì)讀者利用圖書(shū)館的行為需要重新進(jìn)行評(píng)估。例如雖然讀者到館的人數(shù)逐漸降低,但是這種情況并不代表讀者都不利用圖書(shū)館,數(shù)字資源等其他方式也是利用圖書(shū)館的一種方式。在互聯(lián)網(wǎng)環(huán)境下,圖書(shū)館的服務(wù)模式和服務(wù)理念也需要進(jìn)一步的更新。圖書(shū)館的資源建設(shè)與平臺(tái)建設(shè)急需重新評(píng)估,圖書(shū)館的個(gè)性化服務(wù)也必須通過(guò)對(duì)讀者的資源需求進(jìn)行調(diào)整。讀者的資源行為信息的獲取是當(dāng)前圖書(shū)館必須掌握的數(shù)據(jù)之一。

由于海量的讀者行為數(shù)據(jù)以不同形式存儲(chǔ)在不同的計(jì)算機(jī)中,同時(shí)不同的讀者行為數(shù)據(jù)都存在于不同的系統(tǒng)中。如果未建立統(tǒng)一的數(shù)據(jù)分析系統(tǒng),使蘊(yùn)藏在其中的大量信息無(wú)法得到有效的利用,圖書(shū)館員無(wú)法為讀者提供高質(zhì)量的服務(wù)。如何將這些數(shù)據(jù)信息轉(zhuǎn)化為知識(shí)表示,為學(xué)科建設(shè)提供更好的學(xué)科服務(wù),為讀者提供更好的信息服務(wù),將是圖書(shū)館的工作重點(diǎn)。近年來(lái)圖書(shū)館為了更好的為讀者服務(wù),越來(lái)越多的學(xué)者開(kāi)始研究讀者的行為分析,以“圖書(shū)館”和“行為分析”為關(guān)鍵詞在CNKI上面搜索,得到178條結(jié)果,其中碩博士論文23篇,期刊類論文155篇。論文發(fā)表的統(tǒng)計(jì)信息如圖1所示。從圖1中可以看出,在圖書(shū)館相關(guān)學(xué)者們對(duì)讀者行為分析的關(guān)注,呈逐年上升的趨勢(shì)。

圖1 CNKI關(guān)于“圖書(shū)館行為分析”的論文發(fā)表數(shù)量

有許多學(xué)者開(kāi)始關(guān)注于面向讀者提出針對(duì)性的服務(wù),例如,陳雅等學(xué)者提出利用Web日志分析技術(shù)來(lái)實(shí)現(xiàn)圖書(shū)館個(gè)性化[2],陳臣提出基于大數(shù)據(jù)的圖書(shū)館個(gè)性化服務(wù)用戶行為分析研究[5]。也有許多學(xué)者研究讀者行為的數(shù)據(jù)挖掘,例如,于徽提出數(shù)據(jù)挖掘在圖書(shū)館用戶行為分析中的應(yīng)用研究[6],王偉提出基于數(shù)據(jù)挖掘的圖書(shū)館用戶行為分析與偏好研究[7],周偉等提出基于數(shù)據(jù)挖掘和讀者行為分析的圖書(shū)館薦書(shū)系統(tǒng)的研究與設(shè)計(jì)[8],但是這些研究大都是基于圖書(shū)館紙質(zhì)館藏的讀者行為研究,本文是針對(duì)圖書(shū)館數(shù)字資源訪問(wèn)系統(tǒng)的讀者行為數(shù)據(jù)挖掘研究。

1.2 商業(yè)行為分析的成熟應(yīng)用

商業(yè)的訪客信息行為分析,已經(jīng)被廣泛運(yùn)用到網(wǎng)上購(gòu)物中,系統(tǒng)可以對(duì)用戶訪問(wèn)網(wǎng)頁(yè)的頁(yè)面進(jìn)行分析,向用戶進(jìn)行相關(guān)內(nèi)容的廣告推送服務(wù),例如:亞馬遜、淘寶、蘇寧易購(gòu)等商業(yè)網(wǎng)站。商業(yè)網(wǎng)站的個(gè)性化商品推薦與圖書(shū)館對(duì)讀者的知識(shí)服務(wù)有相似的地方,表1展示了淘寶商品推薦與圖書(shū)館知識(shí)服務(wù)的相似之處。很多的購(gòu)物網(wǎng)站為了吸引購(gòu)買(mǎi)者的注意,都會(huì)將讀者近期的搜索主題詞記錄下來(lái),以便于為購(gòu)物者及時(shí)的推薦想要購(gòu)買(mǎi)的東西,增強(qiáng)用戶的購(gòu)物體驗(yàn)。例如淘寶的“淘寶足跡”,將用戶瀏覽過(guò)的商品在手機(jī)客戶端或者網(wǎng)站頁(yè)面上進(jìn)行展示。如何將這一功能加以開(kāi)發(fā)利用,并運(yùn)用到圖書(shū)館對(duì)讀者的知識(shí)服務(wù)上,將讀者的歷史搜索記錄展示給讀者,針對(duì)讀者的歷史訪問(wèn)信息進(jìn)行深層次的數(shù)據(jù)挖掘,有針對(duì)性的向不同類型的讀者周期性的推送學(xué)科信息或讀者感興趣的信息,是圖書(shū)館技術(shù)部門(mén)所需要考慮的問(wèn)題。根據(jù)這個(gè)思路,建設(shè)相關(guān)的系統(tǒng)對(duì)讀者的行為進(jìn)行分析,是提升圖書(shū)館服務(wù)的一個(gè)重要方法。

表1 淘寶商品推薦與圖書(shū)館知識(shí)服務(wù)的相似之處

1.3 對(duì)讀者行為研究的意義

高校圖書(shū)館在資源建設(shè)過(guò)程中,數(shù)字資源經(jīng)費(fèi)的比例逐年提高,原因是多方面的,第一,資源的數(shù)字化程度越來(lái)越高,其價(jià)格也不斷增高;第二,讀者利用資源的方式逐步向數(shù)字資源轉(zhuǎn)變。高校圖書(shū)館對(duì)于資源建設(shè)費(fèi)用的投入普遍很高,數(shù)字資源的經(jīng)費(fèi)比例也逐年提高。傳統(tǒng)的圖書(shū)館管理信息系統(tǒng)暫時(shí)還不能對(duì)數(shù)字圖書(shū)館的資源有效管理,尤其是流通中讀者借閱的模塊只能統(tǒng)計(jì)出讀者對(duì)紙質(zhì)圖書(shū)的需求,無(wú)法統(tǒng)計(jì)讀者對(duì)數(shù)字資源的需求。因此,分析讀者對(duì)數(shù)字資源的使用行為,挖掘讀者在數(shù)字資源訪問(wèn)系統(tǒng)的行為信息,找出最頻繁出現(xiàn)的關(guān)鍵詞序列,發(fā)現(xiàn)不同類別用戶的閱讀愛(ài)好、學(xué)科方向,找出讀者的學(xué)科資源需求規(guī)律,以便運(yùn)用智能推薦系統(tǒng),向讀者提供個(gè)性化的資源推薦提供依據(jù),或者找出具有相近需求的讀者后相互推薦資源的下載信息等。分析讀者的資源需求傾向,圖書(shū)館可以根據(jù)讀者資源需求,進(jìn)行資源推送服務(wù)。

1.3.1 提升服務(wù)質(zhì)量

通過(guò)定性分析和定量研究相結(jié)合,分析和預(yù)測(cè)讀者在數(shù)字資源平臺(tái)上行為,深化科研服務(wù),為讀者提供針對(duì)性的信息推送,構(gòu)建優(yōu)化的信息環(huán)境給讀者提供更好的服務(wù)。1.3.2 優(yōu)化數(shù)字資源建設(shè)

通過(guò)對(duì)讀者檢索及下載內(nèi)容的分析,結(jié)合學(xué)校重點(diǎn)學(xué)科發(fā)展的方向,來(lái)調(diào)整數(shù)字資源建設(shè)和采購(gòu)的方向。根據(jù)讀者的下載行為來(lái)統(tǒng)計(jì)數(shù)字資源的利用率,可以優(yōu)化數(shù)字資源的建設(shè)方案,達(dá)到將資源經(jīng)費(fèi)合理化應(yīng)用的目的。

1.3.3 提高數(shù)字資源利用率

通過(guò)數(shù)字資源利用率信息,有針對(duì)性的對(duì)不同的數(shù)字資源進(jìn)行宣傳和組織培訓(xùn),使廣大讀者充分了解和利用圖書(shū)館的數(shù)字資源。做到資源的合理化利用,提高資源的利用率,避免數(shù)字資源的浪費(fèi)。

1.3.4 提升圖書(shū)館的智能化服務(wù)

分析讀者使用數(shù)字資源的行為,定期為學(xué)科院系提供統(tǒng)計(jì)信息或最新學(xué)科資訊,構(gòu)建學(xué)科與圖書(shū)館之間默契的合作關(guān)系。

2 圖書(shū)館讀者行為數(shù)據(jù)挖掘分析與設(shè)計(jì)

2.1 圖書(shū)館數(shù)字資源訪問(wèn)系統(tǒng)

為了方便讀者的信息需求,很多高校圖書(shū)館都建設(shè)或者購(gòu)買(mǎi)了圖書(shū)館電子資源訪問(wèn)系統(tǒng),將圖書(shū)館所有的數(shù)字資源訪問(wèn)匯集到一個(gè)系統(tǒng)或者平臺(tái)中管理,方便讀者訪問(wèn)或下載。為了使讀者在校園網(wǎng)內(nèi)或校外都能方便快捷的訪問(wèn)圖書(shū)館的數(shù)字資源,提高圖書(shū)館的服務(wù)水平以及數(shù)字資源的利用率,同時(shí)也更好的為教學(xué)和科研提供服務(wù),各個(gè)圖書(shū)館都相繼開(kāi)通了數(shù)字資源訪問(wèn)系統(tǒng)。數(shù)字資源訪問(wèn)系統(tǒng)的一般做法是校內(nèi)可以通過(guò)IP地址直接訪問(wèn),而校外需要安裝客戶端,或者與圖書(shū)館文獻(xiàn)服務(wù)系統(tǒng)進(jìn)行接口對(duì)接,輸入用戶名和密碼,可以訪問(wèn)圖書(shū)館的數(shù)字資源。很多高校的做法是與數(shù)字化校園的一卡通對(duì)接,實(shí)行讀者一卡通實(shí)名認(rèn)證系統(tǒng),使用統(tǒng)一的入口來(lái)訪問(wèn)圖書(shū)館的數(shù)字資源。

南京曉莊學(xué)院與匯文文獻(xiàn)系統(tǒng)相結(jié)合,數(shù)字資源訪問(wèn)系統(tǒng)與OPAC對(duì)接,通過(guò)OPAC的用戶名和密碼進(jìn)行校外資源的訪問(wèn)。OPAC的數(shù)據(jù)信息同時(shí)與校園一卡通對(duì)接,每個(gè)校內(nèi)讀者訪問(wèn)數(shù)字資源時(shí)都使用統(tǒng)一的一卡通賬號(hào),賬號(hào)信息存儲(chǔ)讀者的院系、聯(lián)系方式等,方便數(shù)據(jù)的統(tǒng)計(jì)及消息推送。

由于讀者對(duì)圖書(shū)館數(shù)字資源的使用都集中在“電子資源訪問(wèn)系統(tǒng)”的平臺(tái)上,因此,可以通過(guò)此系統(tǒng)服務(wù)器上的讀者訪問(wèn)日志進(jìn)行數(shù)據(jù)搜集和深層次的數(shù)據(jù)挖掘,獲取讀者在電子資源訪問(wèn)系統(tǒng)的訪問(wèn)檢索及下載信息。

2.2 構(gòu)建模型思想

要想有針對(duì)性的向讀者推薦學(xué)科信息或知識(shí)信息,首先要對(duì)讀者在數(shù)字資源訪問(wèn)系統(tǒng)上的海量搜索行為進(jìn)行采集;存儲(chǔ)每個(gè)讀者的歷史搜索記錄,了解每位讀者的真實(shí)需求,為每位讀者建立獨(dú)有的讀者信息挖掘庫(kù);然后根據(jù)這個(gè)信息庫(kù)對(duì)每位讀者的搜索記錄進(jìn)行讀者行為分析,使用數(shù)據(jù)挖掘聚類算法,找到其合適的讀者類型,最終為讀者推薦合適的學(xué)科信息。

圖書(shū)館數(shù)字資源讀者行為分析數(shù)據(jù)挖掘系統(tǒng)建立在MySQL或者Oracle數(shù)據(jù)庫(kù)上。讀者通過(guò)一卡通賬戶登錄圖書(shū)館數(shù)字資源訪問(wèn)系統(tǒng),進(jìn)行數(shù)據(jù)檢索、瀏覽或下載行為,在服務(wù)器上生成讀者行為日志文件。本文的目的是對(duì)讀者訪問(wèn)圖書(shū)館數(shù)字資源的行為進(jìn)行分析,具體到讀者常用的數(shù)據(jù)庫(kù)、檢索關(guān)鍵字、下載的文章以及讀者的檢索行為習(xí)慣等。具體的系統(tǒng)結(jié)構(gòu)模型如圖2所示。

對(duì)日志的處理和數(shù)據(jù)挖掘過(guò)程為:

(1)日志獲取,從圖書(shū)館數(shù)字資源訪問(wèn)系統(tǒng)服務(wù)器上采集要分析的讀者日志文件;

(2)對(duì)日志文件進(jìn)行預(yù)處理,如日志解析、日志清洗、日志過(guò)濾,處理過(guò)的逐句保存在日志分析系統(tǒng)服務(wù)器的MySQL數(shù)據(jù)庫(kù)中,形成讀者信息挖掘庫(kù);

(3)對(duì)讀者信息挖掘庫(kù)的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘建模分析,采用聚類算法,并將分析結(jié)果保存在相應(yīng)的數(shù)據(jù)表中;

(4)按照聚類分析的結(jié)果,將讀者分為不同的類型,根據(jù)結(jié)果生成各種形式的報(bào)表,將學(xué)科信息呈現(xiàn)給讀者,信息服務(wù)部門(mén)按照讀者類型針對(duì)不同的讀者有針對(duì)性的對(duì)其推送學(xué)科信息。

系統(tǒng)的設(shè)計(jì)思想,主要根據(jù)網(wǎng)絡(luò)數(shù)據(jù)的采集,即對(duì)讀者在各種系統(tǒng)中的行為日志進(jìn)行采集,分析其資源行為的內(nèi)容,研究其學(xué)術(shù)動(dòng)態(tài)。系統(tǒng)的主要工作是將讀者行為信息,通過(guò)技術(shù)手段采集,減少人為參與的因素,使得獲取的數(shù)據(jù)信息更加客觀公正,同時(shí)保證數(shù)據(jù)的全面性和完整性。

3 圖書(shū)館讀者行為數(shù)據(jù)挖掘方法與過(guò)程

3.1 讀者行為的數(shù)據(jù)采集

本文的目的是對(duì)圖書(shū)館數(shù)字資源訪問(wèn)系統(tǒng)的用戶進(jìn)行行為分析,因此,要收集圖書(shū)館數(shù)字資源訪問(wèn)系統(tǒng)的用戶訪問(wèn)數(shù)據(jù)。獲取數(shù)據(jù)的方法有很多種,兩種主流的數(shù)據(jù)獲取方法是網(wǎng)絡(luò)爬蟲(chóng)和開(kāi)放API平臺(tái)。這兩種方法都可以通過(guò)計(jì)算機(jī)程序快速準(zhǔn)確地得到所需數(shù)據(jù)[6]。本文是針對(duì)Web使用記錄挖掘,使用的方法是基于讀者訪問(wèn)日志的用戶行為分析方法。

當(dāng)用戶訪問(wèn)圖書(shū)館的數(shù)字資源訪問(wèn)系統(tǒng)時(shí),系統(tǒng)會(huì)在后臺(tái)記錄下讀者的每一步操作日志。例如讀者選取的是哪個(gè)數(shù)據(jù)庫(kù)、輸入的檢索詞、點(diǎn)擊的鏈接、下載了文章或電子書(shū)等都可在讀者的訪問(wèn)日志里面記錄下來(lái)。讀者的訪問(wèn)日志客觀的記錄了讀者的各種行為操作,通過(guò)對(duì)這些日志內(nèi)容進(jìn)行層次的挖掘,可以發(fā)掘出讀者的真實(shí)需求情況。

本文對(duì)讀者的行為采集是基于匯文公司構(gòu)建的“南京曉莊學(xué)院電子資源授權(quán)訪問(wèn)系統(tǒng)”,數(shù)據(jù)抓取采用直接對(duì)服務(wù)器上的訪問(wèn)日志文件進(jìn)行分析過(guò)濾。日志處理步驟如圖3所示。記錄讀者的日志信息包括:訪問(wèn)數(shù)字資源的日志信息,訪問(wèn)或者下載信息內(nèi)容,訪問(wèn)URL內(nèi)容和訪問(wèn)時(shí)間等。

圖2 圖書(shū)館數(shù)字資源讀者行為分析數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)模型

圖3 讀者日志獲取

3.2 數(shù)據(jù)預(yù)處理

由于日志文件本身是一個(gè)非結(jié)構(gòu)化的文本文件,而且數(shù)據(jù)量龐大,頁(yè)面復(fù)雜,缺乏統(tǒng)一的結(jié)構(gòu)特點(diǎn),因此,在數(shù)據(jù)分析之前有必要進(jìn)行預(yù)處理,將從非結(jié)構(gòu)化的數(shù)據(jù)中提取結(jié)構(gòu)化的數(shù)據(jù)。數(shù)據(jù)預(yù)處理是根據(jù)挖掘的目的,對(duì)原始Web日志文件中的數(shù)據(jù)進(jìn)行提取、分解、合并,最后轉(zhuǎn)化為適合進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)格式,并保存到關(guān)系型數(shù)據(jù)庫(kù)表或數(shù)據(jù)倉(cāng)庫(kù)中,等待進(jìn)一步處理[9]。傳統(tǒng)的數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清洗、用戶識(shí)別、會(huì)話識(shí)別和路徑補(bǔ)充等幾個(gè)階段[10]。數(shù)據(jù)的預(yù)處理提高了數(shù)據(jù)挖掘模式的質(zhì)量,可以降低算法實(shí)際運(yùn)行所需要的時(shí)間。

從系統(tǒng)中抓取的讀者訪問(wèn)日志包括用戶IP地址、用戶ID、用戶請(qǐng)求訪問(wèn)的URL頁(yè)面、請(qǐng)求方法、訪問(wèn)時(shí)間、傳輸協(xié)議、傳輸?shù)淖止?jié)數(shù)、錯(cuò)誤代碼、用戶代理等屬性。電子資源訪問(wèn)系統(tǒng)設(shè)計(jì)的日志文件同時(shí)也記錄了每個(gè)讀者的訪問(wèn)頁(yè)面、訪問(wèn)時(shí)間、檢索詞、檢索內(nèi)容、下載內(nèi)容等。實(shí)驗(yàn)采用的是一個(gè)小型的日志解析工具,直接對(duì)日志文件進(jìn)行解析,把解析到的數(shù)據(jù)存儲(chǔ)到MySQL或者Oracle數(shù)據(jù)庫(kù)中。數(shù)據(jù)庫(kù)中存儲(chǔ)的內(nèi)容包括訪問(wèn)時(shí)間、原IP地址、目的IP地址、資源名稱、請(qǐng)求站點(diǎn)URL地址、下載內(nèi)容、檢索內(nèi)容、用戶ID等。

數(shù)字資源訪問(wèn)日志文件主要記錄讀者的訪問(wèn)、檢索、下載記錄等。數(shù)據(jù)呈現(xiàn)部分采用網(wǎng)頁(yè)調(diào)用模板進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和分析。數(shù)據(jù)庫(kù)存儲(chǔ)讀者訪問(wèn)日志記錄如表2所示,包括訪問(wèn)、檢索及下載信息。

表2 讀者訪問(wèn)日志記錄表

3.3 數(shù)據(jù)挖掘——聚類分析

Web數(shù)據(jù)挖掘是對(duì)用戶訪問(wèn)Web時(shí)的訪問(wèn)記錄進(jìn)行數(shù)據(jù)挖掘,當(dāng)前的Web數(shù)據(jù)挖掘主要有分類、聚類、關(guān)聯(lián)規(guī)則和序列等Web日志挖掘算法[7]。聚類算法是一個(gè)將數(shù)據(jù)集劃分為若干組或類的過(guò)程,使得同一個(gè)組內(nèi)的數(shù)據(jù)對(duì)象具有較高的相似度,而不同組中的數(shù)據(jù)對(duì)象則不相似,即“物以類聚”。相似或不相似的度量是基于數(shù)據(jù)對(duì)象描述屬性的取值來(lái)確定的。

用聚類算法對(duì)圖書(shū)館讀者行為進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)讀者共同的愛(ài)好、興趣、規(guī)律和趨勢(shì),對(duì)于圖書(shū)館個(gè)性化服務(wù),數(shù)據(jù)對(duì)象的組織、存儲(chǔ),信息資源的分布、分類、索引、檢索等有重要作用,聚類要經(jīng)過(guò)多次才能得到一個(gè)理想的結(jié)果[8]??梢詫⒆x者按照其在網(wǎng)站上檢索的關(guān)鍵字,將其分為不同的學(xué)科,以便圖書(shū)館員為不同學(xué)科的讀者進(jìn)行個(gè)性化的服務(wù),提高讀者的滿意度。

采用K-means算法用于Web用戶數(shù)據(jù)挖掘,可以快速發(fā)現(xiàn)網(wǎng)絡(luò)用戶的興趣特征,進(jìn)而對(duì)群體用戶的興趣特征進(jìn)行聚類分析,發(fā)現(xiàn)用戶的興趣所在,有助于后期有針對(duì)性的對(duì)用戶進(jìn)行內(nèi)容推薦[11]。實(shí)驗(yàn)?zāi)M參照文獻(xiàn)[12]中第七章的一個(gè)案例中的部分思想,先對(duì)讀者活躍程度進(jìn)行分析,將讀者按照活躍程度劃分為5個(gè)等級(jí)。針對(duì)活躍等級(jí)高的讀者,通過(guò)對(duì)讀者檢索詞及下載內(nèi)容的分析,希望從中獲取關(guān)于讀者的某種興趣愛(ài)好或?qū)W科方向。

實(shí)驗(yàn)擬采用K-means算法對(duì)讀者群體進(jìn)行聚類分析。假設(shè)訓(xùn)練樣本集合為D:{x1,x2,…,xn},其中xi=(xi1,xi2,…,xir)是r維實(shí)數(shù)空間的向量,n表示數(shù)據(jù)點(diǎn)個(gè)數(shù)。KMeans聚類算法首先將訓(xùn)練樣本集劃分為k個(gè)聚類,對(duì)于每個(gè)聚類中心以外的樣本點(diǎn)分別計(jì)算到各聚類中心的距離,將數(shù)據(jù)點(diǎn)劃分到最近的聚類中心所代表的簇中,然后重新計(jì)算每個(gè)聚類的聚類中心。這個(gè)過(guò)程講過(guò)多次重復(fù)迭代,直到滿足終止條件為止,算法的好壞在一定程度上依賴于初始聚類中心的選取。

表3 K-means算法描述

4 研究應(yīng)用

4.1 數(shù)字資源的統(tǒng)計(jì)分析

對(duì)讀者在圖書(shū)館數(shù)字資源訪問(wèn)系統(tǒng)的訪問(wèn)行為進(jìn)行采集和預(yù)處理,可將數(shù)據(jù)直觀的通過(guò)報(bào)表呈現(xiàn)給圖書(shū)館員,服務(wù)人員可以統(tǒng)計(jì)到常用數(shù)據(jù)庫(kù)的訪問(wèn)量、下載量排行等。圖4是南京曉莊學(xué)院某1個(gè)月內(nèi)數(shù)字資源的訪問(wèn)情況。

有了讀者訪問(wèn)數(shù)字資源的原始數(shù)據(jù),同樣可以統(tǒng)計(jì)到某一種資源的訪問(wèn)趨勢(shì)、某個(gè)讀者的訪問(wèn)趨勢(shì)以及數(shù)字資源的匯總統(tǒng)計(jì)等。對(duì)數(shù)字資源的訪問(wèn)情況進(jìn)行統(tǒng)計(jì)可以直觀的看出資源的利用率,以此可以優(yōu)化資源的采購(gòu)方案,節(jié)省采購(gòu)經(jīng)費(fèi)。也可以根據(jù)資源的利用情況有針對(duì)性的對(duì)讀者開(kāi)展培訓(xùn),提高數(shù)字資源的利用率。

圖4 某段時(shí)間內(nèi)數(shù)字資源下載量統(tǒng)計(jì)

從圖4中,可以分析出2015年6月份的數(shù)字資源訪問(wèn)統(tǒng)計(jì)信息,例如CNKI的訪問(wèn)量較高,其次是202.119.47.6,這是維普的IP地址,再次就是萬(wàn)方數(shù)據(jù)的訪問(wèn)等。數(shù)字資源訪問(wèn)的統(tǒng)計(jì)分析,減少了人為因素對(duì)資源利用的參與,其結(jié)果具有較高的客觀性和準(zhǔn)確性。

4.2 活躍讀者學(xué)科信息推送

通過(guò)系統(tǒng)可以直觀的看到讀者的檢索明細(xì),以及下載明細(xì),同樣也可以直觀的統(tǒng)計(jì)到讀者在某段時(shí)間內(nèi)的下載量排行(如圖5所示)。應(yīng)用數(shù)據(jù)挖掘算法對(duì)讀者在圖書(shū)館資源管理系統(tǒng)上搜索或下載進(jìn)行分析之后,將讀者按照興趣、偏好和學(xué)科方向分為不同的讀者類別。學(xué)科館員可以定期通過(guò)郵箱或者手機(jī)等其他途徑向讀者推送信息。由于此系統(tǒng)涉及到的功能較多,用到的聚類分析算法相關(guān)知識(shí)具有很強(qiáng)的理論性,本文的實(shí)驗(yàn)暫時(shí)只對(duì)少量數(shù)據(jù)樣本進(jìn)行處理。目前已經(jīng)完成的工作有對(duì)讀者行為數(shù)據(jù)的采集和處理,讀者行為信息的展示,及對(duì)讀者的日志查詢和簡(jiǎn)單的分析。

4.3 讀者資源訪問(wèn)數(shù)據(jù)展示

讀者訪問(wèn)數(shù)據(jù)的展示,主要是讀者檢索內(nèi)容和下載內(nèi)容的??梢詫?duì)讀者在數(shù)字圖書(shū)館的檢索內(nèi)容進(jìn)行數(shù)據(jù)分析,其結(jié)果運(yùn)用于資源建設(shè)和評(píng)估,如圖6所示。從中可以看出,讀者在各個(gè)時(shí)段的檢索內(nèi)容都可以準(zhǔn)確獲取,將這些信息匯聚分析,可以得出讀者的研究?jī)?nèi)容和方向,資源建設(shè)需要時(shí)刻了解這樣的數(shù)據(jù)信息,檢索內(nèi)容同時(shí)也反映了部分讀者的需求信息。系統(tǒng)可以獲取讀者資源行為數(shù)據(jù),其意義是智能化圖書(shū)館建設(shè)的一個(gè)組成部分。

圖5 某段時(shí)間內(nèi)活躍讀者下載量排行

系統(tǒng)的組成主要從技術(shù)角度,對(duì)讀者的資源行為進(jìn)行分析,資源行為也反映了讀者的需求內(nèi)容。圖書(shū)館圍繞讀者服務(wù),及原始數(shù)據(jù)的獲得,從技術(shù)角度獲取,減少人為參與的因素,是未來(lái)發(fā)展的趨勢(shì),技術(shù)的手段可以減少人力資源投入,其結(jié)果更加公正客觀,同時(shí)資源建設(shè)工作也必須在技術(shù)手段的支持下進(jìn)行不斷改進(jìn),圖書(shū)館的特色資源服務(wù)才能體現(xiàn)出其智能性。

圖6 讀者訪問(wèn)檢索內(nèi)容獲取

5 總 結(jié)

本文對(duì)讀者行為數(shù)據(jù)挖掘研究的前提條件有兩個(gè):一是圖書(shū)館先建立完善的數(shù)字資源整合系統(tǒng)或數(shù)字資源整合平臺(tái),讀者訪問(wèn)圖書(shū)館資源時(shí)都從同一個(gè)入口進(jìn)行訪問(wèn)。二是數(shù)字資源訪問(wèn)系統(tǒng)與校園一卡通對(duì)接,而且系統(tǒng)中的讀者E-mail

或手機(jī)聯(lián)系方式要及時(shí)更新,讀者進(jìn)行實(shí)名認(rèn)證訪問(wèn),才能根據(jù)系統(tǒng)的訪問(wèn)日志信息跟蹤到每一位讀者。由于筆者在人工智能的學(xué)習(xí)能力有限,數(shù)據(jù)挖掘算法還需要進(jìn)一步商榷和完善。圖書(shū)館對(duì)讀者的用戶行為進(jìn)行數(shù)據(jù)挖掘后,可以針對(duì)讀者開(kāi)展多種多樣的個(gè)性化服務(wù)。例如,可以根據(jù)讀者的興趣、偏好和學(xué)科方向,對(duì)呈現(xiàn)給讀者的網(wǎng)頁(yè)內(nèi)容或結(jié)構(gòu)布局進(jìn)行個(gè)性化的調(diào)整,允許讀者自己添加感興趣模塊,或者對(duì)數(shù)據(jù)資源進(jìn)行評(píng)價(jià)等。也可以將用戶在系統(tǒng)中的歷史記錄展示給讀者,給用戶提供相關(guān)的瀏覽提示和幫助。圖書(shū)館數(shù)據(jù)分析系統(tǒng),主要目的是建立讀者與圖書(shū)館之間的橋梁,使圖書(shū)館與讀者之間的信息對(duì)稱,讓圖書(shū)館時(shí)刻了解讀者所需,從而建立適合讀者的服務(wù)機(jī)制,使讀者更好的體驗(yàn)到圖書(shū)館所提供的服務(wù)。

[1]陸康.基于媒體平臺(tái)效應(yīng)的圖書(shū)館網(wǎng)絡(luò)服務(wù)研究[J].現(xiàn)代情報(bào),2015,35(4):128-133.

[2]陳雅,譚華軍,鄭建明.圖書(shū)館個(gè)性化服務(wù)中的Web日志分析技術(shù)研究[J].圖書(shū)館雜志,2011,(7):43-46,54.

[3]陸康.網(wǎng)絡(luò)行為讀者需求分析運(yùn)用探討[J].現(xiàn)代情報(bào),2015,35(5):94-97,104.

[4]劉慧.基于網(wǎng)絡(luò)行為的圖書(shū)館數(shù)字資源評(píng)價(jià)方法研究[J].現(xiàn)代情報(bào),2015,35(2):62-66.

[5]陳臣.基于大數(shù)據(jù)的圖書(shū)館個(gè)性化服務(wù)用戶行為分析研究[J].圖書(shū)館工作與研究,2015,(2):28-31.

[6]于徽.?dāng)?shù)據(jù)挖掘在圖書(shū)館用戶行為分析中的應(yīng)用研究[D].北京:北方工業(yè)大學(xué),2009.

[7]王偉.基于數(shù)據(jù)挖掘的圖書(shū)館用戶行為分析與偏好研究[J].情報(bào)科學(xué),2012,(3):391-394,418.

[8]周偉,汪少華,楊云.基于數(shù)據(jù)挖掘和讀者行為分析的圖書(shū)館薦書(shū)系統(tǒng)的研究與設(shè)計(jì)[J].圖書(shū)情報(bào)研究,2014,(4):38-44.

[9]宋瑩,沈奇威,王晶.基于Hadoop的Web日志預(yù)處理的設(shè)計(jì)與實(shí)現(xiàn)[J].電信工程技術(shù)與標(biāo)準(zhǔn)化,2011,(11):84-89.

[10]馬瑞民,李向云.Web日志挖掘中數(shù)據(jù)預(yù)處理技術(shù)的研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,(10):2358-2360.

[11]羅森林,馬俊,潘麗敏.?dāng)?shù)據(jù)挖掘理論與技術(shù)[M].北京:電子工業(yè)出版社,2013.

[12]張良均.?dāng)?shù)據(jù)挖掘?qū)嵱冒咐治觯跰].北京:機(jī)械工業(yè)出版社,2013.

(本文責(zé)任編輯:孫國(guó)雷)

Data Mining on Reader Behaviors Based on Library Digital Resource System

Zhou Xin Lu Kang*
(Library,Nanjing Xiaozhuang University,Nanjing 211171,China)

The paper accurately achieved the actual acquirements of readers and provide better personalized service for readers by analyzing the behavior log data of library digital resource system.Firstly,the progress of the research on reader behaviors was introduced.Secondly,the meaning of the reader behavior data mining was described.Finally,the method for data acquisition and data mining in the digital resource system for readers in digital resource visiting system was introduced,and the reader behavior analysis system model was constructed.

library;digital library;data mining;reader behavior;log analysis;clustering analysis

10.3969/j.issn.1008-0821.2016.01.010

G250.71

A

1008-0821(2016)01-0051-06

2015-06-15

南京曉莊學(xué)院青年專項(xiàng)“基于信息覓食理論的數(shù)字圖書(shū)館學(xué)科服務(wù)模式研究”(項(xiàng)目編號(hào):2013NXY84);南京曉莊學(xué)院圖書(shū)館科研創(chuàng)新團(tuán)隊(duì)建設(shè)項(xiàng)目“圖書(shū)館數(shù)據(jù)分析機(jī)制與平臺(tái)建設(shè)”(項(xiàng)目編號(hào):T201504)研究成果之一。

周 欣(1984-),女,助理館員,碩士,研究方向:圖書(shū)館系統(tǒng)應(yīng)用與開(kāi)發(fā)。

陸 康(1983-),男,系統(tǒng)技術(shù)部副主任,館員,碩士,研究方向:數(shù)字資源建設(shè)與評(píng)估,數(shù)字資源平臺(tái)應(yīng)用與開(kāi)發(fā),發(fā)表論文24篇。

猜你喜歡
日志數(shù)據(jù)挖掘數(shù)字
一名老黨員的工作日志
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
扶貧日志
心聲歌刊(2020年4期)2020-09-07 06:37:14
答數(shù)字
游學(xué)日志
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)字看G20
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
成雙成對(duì)
一種基于粗集和SVM的Web日志挖掘模型
习水县| 九龙县| 遂宁市| 岗巴县| 周至县| 新和县| 都匀市| 蒙山县| 镇沅| 孟连| 蒲城县| 五指山市| 武陟县| 安泽县| 潜山县| 济南市| 同德县| 应城市| 酒泉市| 江都市| 新建县| 綦江县| 仪陇县| 平武县| 东明县| 湖州市| 苗栗县| 阳山县| 偃师市| 宝坻区| 北海市| 唐山市| 吉首市| 秀山| 忻城县| 子洲县| 襄城县| 葫芦岛市| 恭城| 岳普湖县| 唐海县|