孫雷 孫慶蘇
〔摘 要〕用戶模型是數(shù)字圖書館個(gè)性化系統(tǒng)中的關(guān)鍵技術(shù),傳統(tǒng)的用戶模型沒有考慮詞與詞之間的內(nèi)在聯(lián)系,本文提出了一種基于本體的用戶模型,該模型基于建立的興趣分類本體,借鑒了檢索領(lǐng)域常使用的激活模型來完成用戶模型的更新,并在用戶模型的基礎(chǔ)上,設(shè)計(jì)了個(gè)性化服務(wù)推薦流程。
〔關(guān)鍵詞〕個(gè)性化;興趣分類本體;用戶模型;本體
〔中圖分類號〕G251.5 〔文獻(xiàn)標(biāo)識碼〕B 〔文章編號〕1008-0821(2012)09-0080-04
個(gè)性化信息服務(wù)是數(shù)字圖書館的發(fā)展方向,數(shù)字圖書館個(gè)性化服務(wù)針對不同的用戶提供不同的信息服務(wù),以滿足他們不同的需要。數(shù)字圖書館個(gè)性化服務(wù)的實(shí)現(xiàn)過程是[1]通過對用戶信息需要、興趣愛好和訪問歷史的收集分析,建立一定的用戶模型,并將此模型應(yīng)用于網(wǎng)上信息的過濾和排序,因此用戶需求的獲取和用戶建模是實(shí)現(xiàn)個(gè)性化服務(wù)的關(guān)鍵因素。由于用戶興趣不斷變化的[2],反映用戶興趣的需求模型也要動態(tài)變化,但目前用戶的興趣多以關(guān)鍵詞表達(dá)的,個(gè)性化服務(wù)也是基于關(guān)鍵詞匹配的,并沒有理解用戶興趣的語義含義。本體的概念源于西方哲學(xué),從哲學(xué)的范疇來說,本體是客觀存在的一個(gè)系統(tǒng)的解釋。目前,本體已經(jīng)成為語義Web的核心內(nèi)容,將本體應(yīng)用于個(gè)性化用戶建??梢暂^好的解決理解用戶興趣語義這一問題。
1 本體的相關(guān)理論
本體的概念被引入到人工智能領(lǐng)域和計(jì)算機(jī)領(lǐng)域,其目的是克服計(jì)算機(jī)系統(tǒng)之間存在的“語義鴻溝”。目前,本體已經(jīng)成為語義Web的核心內(nèi)容,也是語義Web的語義基礎(chǔ)。
一個(gè)本體[3]可以由類或概念、關(guān)系、函數(shù)、公理、實(shí)例等5種元素組成。根據(jù)數(shù)字圖書館個(gè)性化的情況,將本體分成3類[4]:
(1)領(lǐng)域本體:描述特定領(lǐng)域中概念與概念之間的關(guān)系。
(2)任務(wù)本體:描述特定任務(wù)或行為中概念與概念之間的關(guān)系。
(3)應(yīng)用本體:描述的依賴于特定領(lǐng)域和任務(wù)的概念及概念之間的關(guān)系。
2 數(shù)字圖書館個(gè)性化服務(wù)的內(nèi)涵
數(shù)字圖書館個(gè)性化服務(wù)是一種滿足用戶個(gè)體信息需求的服務(wù)方式,目前數(shù)字圖書館的個(gè)性化服務(wù)主要是通過個(gè)性化檢索和個(gè)性化推薦的方式實(shí)現(xiàn)的,數(shù)字圖書館個(gè)性化推薦系統(tǒng)是從海量數(shù)據(jù)中向用戶自動推薦出符合其興趣愛好或需求的資源,如中國知網(wǎng)(CNKI)知識網(wǎng)絡(luò)服務(wù)平臺(KNS)將讀者相似文獻(xiàn)的鏈接及推薦文獻(xiàn)閱讀服務(wù),數(shù)字圖書館個(gè)性化服務(wù)的一般思路是:根據(jù)用戶的個(gè)性化需求,建立用戶模型,根據(jù)用戶模型對用戶進(jìn)行過濾,將用戶可能感興趣的文獻(xiàn)自動推薦給用戶,再根據(jù)用戶對推薦內(nèi)容的反饋,對用戶模型進(jìn)行修正,再進(jìn)行下一輪的推薦。
3 基于本體用戶模型的設(shè)計(jì)
個(gè)性化服務(wù)系統(tǒng)首先獲取用戶的興趣偏好信息,建立起用戶的興趣模型,采用本體描述用戶興趣時(shí),把用戶的興趣以層次結(jié)構(gòu)來描述,從而為用戶提供更加全面的推薦。
基于本體的個(gè)性化用戶模型主要包括用戶行為的收集、用戶興趣的抽取、用戶興趣的更新、興趣模型的表示以及個(gè)性化興趣本題庫這幾個(gè)部分,如圖1所示。
圖1 基于本體的個(gè)性化用戶興趣模型
基于本體的用戶模型由3個(gè)部分組成[5]:用戶個(gè)人信息、個(gè)性化領(lǐng)域本體、個(gè)性化信息需求,用一個(gè)三元組表示為:User Model=(Persona,Person0,PersonR),式中Persona表示用戶的個(gè)人信息,即用戶的姓名、性別、年齡、學(xué)歷、專業(yè)背景等,Person0表示用戶信息的個(gè)性化領(lǐng)域本體,PersonR表示用戶的個(gè)性化需求。
3.1 用戶興趣本體的表示
在實(shí)際中,每個(gè)人都有興趣、愛好,體現(xiàn)在瀏覽數(shù)字圖書館信息內(nèi)容方面,雖然每個(gè)用戶都有不同的信息需求,但是一定的知識背景、工作性質(zhì)決定了用戶會有相當(dāng)穩(wěn)定的興趣和信息需求,為了區(qū)分用戶的興趣類別,本文參照中圖法建立起數(shù)字圖書的分類本體,是一個(gè)只含類及其子類的樹狀結(jié)構(gòu),上層父類是對下層子類共同屬性的概括,而下層子類是對上層父類的細(xì)化,所有子節(jié)點(diǎn)之間形成平等的兄弟關(guān)系,分類層次越細(xì),描述用戶的興趣類別就越具體,圖2是生物本體部分結(jié)構(gòu)圖,用戶的興趣本體映射來自此本體,一般是此本體的子集。該本體主要用于分類,其中只含有Subclass Of關(guān)系,沒有其他屬性。
用戶的興趣本體是興趣分類本體的部分映射,用戶的興趣本體只映射到興趣類別的那一層,例如一個(gè)用戶的感興趣圖書的類別是{運(yùn)輸經(jīng)濟(jì)、中美關(guān)系、食品衛(wèi)生},那么該用戶的興趣本體就是如圖3這種形式:3.2 基于本體的用戶興趣度的獲取
要獲取用戶感興趣的圖書,就有必要分析用戶的訪問日志,數(shù)字圖書館網(wǎng)站服務(wù)器真實(shí)記錄了用戶訪問網(wǎng)站的所有日志,其中不僅記錄用戶的基本信息,而且記錄了用戶訪問的路徑,反應(yīng)頁面的關(guān)系,數(shù)據(jù)挖掘從這些日志中挖掘出用戶行為有用的模式,興趣度是用戶對某一網(wǎng)站感興趣的程度,數(shù)字圖書館可以根據(jù)用戶的興趣度進(jìn)行個(gè)性化服務(wù),從文獻(xiàn)[3]可知,通過訪問網(wǎng)站的時(shí)間和頻度來計(jì)算用戶的興趣度是一種有效的定量計(jì)算的方法,主要表現(xiàn)在用戶如果對某一網(wǎng)頁感興趣,則必然瀏覽該網(wǎng)頁的時(shí)間更長和會經(jīng)常重復(fù)瀏覽該網(wǎng)頁,使用F=(n/N+t/T)l/L[6]公式來定量計(jì)算用戶的興趣度,其中n為訪問該節(jié)點(diǎn)的次數(shù),N為本次的訪問次數(shù),t為訪問本節(jié)點(diǎn)消耗的時(shí)間,T為訪問網(wǎng)站的總時(shí)間,l為本次訪問的節(jié)點(diǎn)數(shù),L為網(wǎng)站的總節(jié)點(diǎn)數(shù),從Web日志中可以計(jì)算出用戶的興趣度,以江蘇廣播電視大學(xué)超星數(shù)字圖書館為例來計(jì)算用戶的興趣度,數(shù)據(jù)來源于江蘇廣播電視大學(xué)超星數(shù)字圖書館 2011年3月22日的一段日志:
2010 12-31 05∶54∶28 220.177.9.112-210.28.216.236 80 GET/09/diskRKF/RKF27/04/000073.pdg SSDOWNLOAD/3.8.0.0002+unRegister日志各段數(shù)據(jù)的含義為:
①訪問時(shí)間——2011-03-22 05∶54∶28
②用戶IP地址——220.177.9.112
③服務(wù)器地址和端口——210.28.216.236 80
④用戶請求信息的方法——GET
⑤用戶訪問的節(jié)點(diǎn)——/09/diskRKF/RKF27/04/000073.pdg
⑥以未注冊用戶的身份下載——SSDOWNLOAD/3.8.0.0002+unRegister
以IP為116.54.82.62的用戶在2010年12月31日訪問江蘇廣播電視大學(xué)超星數(shù)字圖書館的日志為例,進(jìn)行數(shù)據(jù)格式化處理,如表1。
江蘇廣播電視超星圖書館共有22個(gè)總節(jié)點(diǎn)數(shù),由表1可以得出,此用戶的興趣度為:
文學(xué)=(3/5+39/61)3/22=0.17
經(jīng)濟(jì)=(2/5+22/61)2/22=0.07
3.3 基于本體的用戶模型的更新
本文借鑒文獻(xiàn)[7]中用戶模型更新的思想,采用激活擴(kuò)散模型對用戶描述的興趣度進(jìn)行更新,激活擴(kuò)散模型是搜索關(guān)聯(lián)網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、語義網(wǎng)絡(luò)的一種方法。
激活擴(kuò)散算法如下:
輸入:含興趣值的本體化用戶描述
輸出:含更新的激活的本體化用戶描述
其具體表示為:
For each Cj∈CON do
IS(Cj)=IS(Cj)+Cj.Activation;
End
CON={C1,C2,…,Cn}∥用戶給予興趣值的概念,如本文中C1為文學(xué),C2為經(jīng)濟(jì)。
IS(Cj)∥表示概念Cj的興趣值,如本文中文學(xué)的興趣值為0.17,經(jīng)濟(jì)的興趣值為0.07
Cj.Activation∥激活值
Cj.Activation=IS(Cj)*sim(di,Cj)
sim(di,Cj)∥用余弦相似度度量書名向量di與概念Cj的相似值。
4 基于本體用戶模型的實(shí)現(xiàn)
本模塊主要用于用戶的興趣表示以及用戶模型的更新功能。
4.1 圖書信息分類本體的建立
為了實(shí)現(xiàn)該模型,首先建立圖書信息分類,通過參考中圖法分類,使用protege3.4.8建立一個(gè)含有圖書類別的概念,作為實(shí)驗(yàn)的本體,圖4是經(jīng)濟(jì)類圖書部分分類的層次結(jié)構(gòu),分類本體起著重要的作用,表現(xiàn)在:
(1)分類本體映射到用戶的興趣本體。
(2)分類本體輔助完成用戶模型的更新。
4.2 用戶興趣的獲取
當(dāng)建立分類本體后,可以根據(jù)每個(gè)用戶的興趣構(gòu)建興趣本體,在數(shù)字圖書個(gè)性化服務(wù)中,采用用戶注冊的方法來獲取用戶初始化興趣。用戶注冊時(shí),除了注冊用戶的一些基本信息外,還要選擇用戶的興趣類型。
4.3 用戶興趣的更新
在數(shù)字圖書個(gè)性化服務(wù)中,用戶只需要完成一次注冊,當(dāng)其興趣發(fā)生變化時(shí),不需要用戶手工定制興趣類型,采用激活擴(kuò)散模型完成用戶興趣的更新。這樣,可以根據(jù)用戶的瀏覽愛好對興趣模型進(jìn)行更新。
5 基于本體用戶模型的個(gè)性化服務(wù)推薦流程
個(gè)性化服務(wù)的目的是從海量數(shù)據(jù)中向用戶自動推薦出符合其興趣愛好的資源,個(gè)性化推薦服務(wù)的主動方是系統(tǒng)平臺,自動向用戶進(jìn)行推薦,基于本體用戶模型的個(gè)性化推薦服務(wù)的流程如圖5,其過程如下[8]:
(1)用戶注冊登錄進(jìn)入個(gè)性化服務(wù)系統(tǒng),在注冊過程中,除了注冊基本信息,還要進(jìn)行個(gè)性化定制,形成初始的用戶模型。
(2)用戶在瀏覽數(shù)字圖書館時(shí),形成的瀏覽訪問日志,對日志分析后與初始的用戶模型迭加,形成該用戶的基于本體的用戶模型。
(3)系統(tǒng)推薦的用戶潛在的需求的服務(wù)被推送到個(gè)性化推薦服務(wù),用戶進(jìn)行瀏覽。用戶對服務(wù)推薦結(jié)果的瀏覽行為也被系統(tǒng)用于更新用戶模型。
6 結(jié) 語
數(shù)字圖書館資源的迅速發(fā)展,面對海量的資源,為了幫助用戶找到其感興趣的信息,個(gè)性化服務(wù)成了研究的熱點(diǎn)。用戶模型作為用戶興趣的可計(jì)算描述,已經(jīng)成為個(gè)性化服務(wù)研究的重點(diǎn)。在傳統(tǒng)的基于向量的用戶模型中,各關(guān)鍵字互不相關(guān),導(dǎo)致語義信息的缺失。本文使用分類本體得到用戶的興趣本體,可以改善傳統(tǒng)用戶模型語義不足的缺陷。
參考文獻(xiàn)
[1]羅宇紅.數(shù)字圖書館個(gè)性化信息服務(wù)實(shí)踐研究[J].圖書館論壇,2010,(8):75-77.
[2]潘家武.基于領(lǐng)域本體的數(shù)字圖書館動態(tài)用戶興趣模型的構(gòu)建[J].圖書情報(bào)工作,2010,(8):64-67.
[3]鄧志鴻,唐世渭,張銘等.Ontology研究綜述[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2002,(5):730-738.
[4]肖敏.領(lǐng)域本體的構(gòu)建方法的研究[J].情報(bào)雜志,2006,(2):70-74.
[5]熊回香,陳姍,許穎穎.基于Web 3.0的個(gè)性化信息聚合技術(shù)研究[J].情報(bào)理論與實(shí)踐,2011,(8):95-99.
[6]郭家義.?dāng)?shù)字圖書館個(gè)性化服務(wù)信息行為的收集與分析[J].圖書館雜志,2003,(1):25-27.
[7]Ahu Sieg,Bamshad Mobasher,Robin Burke,Web search personalization with ontological user profiles[C].Proceedings of the sixteenth ACM conference on Conference on information and knowledge management,November 06-10,2007.
[8]曾春,邢春曉,周立柱.個(gè)性化服務(wù)技術(shù)綜述[J].軟件學(xué)報(bào),2002,(10):1952-1961.
(本文責(zé)任編輯:孫國雷)