魏 同,李紹穩(wěn),耿凡凡,孔 晨
(安徽農(nóng)業(yè)大學 信息與計算機學院,安徽 合肥 230036)
基于領域本體的用戶興趣模型構建方法研究
魏 同,李紹穩(wěn),耿凡凡,孔 晨
(安徽農(nóng)業(yè)大學 信息與計算機學院,安徽 合肥 230036)
現(xiàn)階段的電子商務個性化推薦系統(tǒng)中,存在構建用戶興趣模型過程復雜、繁瑣,蘊含的語義信息要素較少或者不完整等問題,研究基于本體的用戶模型構建方法已十分迫切和必要。為此,提出了一種基于本體投影算法和概念興趣度結合的用戶興趣模型構建方法。通過抽取數(shù)據(jù)庫中商品的屬性和特征值,對抽取后的屬性和特征值進行處理,采用OWL語言表述方法手動構建茶葉領域本體,進而在此基礎上采用投影算法生成用戶興趣本體;充分運用本體中的概念、屬性以及實例描述用戶興趣,從語義層面解讀用戶個人興趣,從而達到在個性化推薦中提高結果精度的目標。實驗結果表明,該方法易于構建用戶模型,且模型中的語義要素豐富,使用該模型進行推薦的精確度有所提升。
本體;投影;用戶模型;茶葉
隨著網(wǎng)絡信息資源爆炸式增長和目前信息服務機制的不健全,比如未考慮用戶之間興趣差異、缺乏語義要素支持等而導致的信息迷失、信息過載等問題日益嚴重,用戶精確、及時和智能地篩選出與興趣相關信息的難度越來越大[1]。在這種形勢下,個性化服務應運而生,而其中的關鍵點是用戶興趣模型的構建[2]。
至今已知的一些用戶模型構建方法主要有基于神經(jīng)網(wǎng)絡、向量空間、評價矩陣和本體等[3]。然而,基于神經(jīng)網(wǎng)絡的模型理解與使用不易、適用范圍較窄;基于向量空間的模型不穩(wěn)定,導致結果有一定偏差;基于評價矩陣的用戶模型適應能力較差以至于難以及時地對興趣進行更新;基于本體的用戶模型相比前面幾種相對較好,可以在語義層面上通過領域本體較為精確地表示用戶個性化興趣,但也有以下兩點不足:
(1)大多數(shù)學者只考慮本體概念間的分類關系,很少考慮如同位關系、屬性關系等非分類關系,導致模型中語義信息不完整,不能充分利用。
(2)目前用戶本體興趣模型的更新方式大多是使用興趣本體歸并參考本體進行更新,但是本體歸并過程中概念的上下位關系以及屬性、實例等關系會發(fā)生錯位或者遺失等問題,使得用戶興趣本體結構不完整,不能完全解讀用戶的需求。
針對以上問題,提出了一種改進的基于領域本體的用戶興趣模型構建方法。該方法根據(jù)《中國茶葉大辭典》以及《中國名優(yōu)茶選集》結合領域?qū)<业囊庖娛謩訕嫿ú枞~領域本體,在其中加入屬性關系和同位關系等非分類關系完善其中的語義信息;通過PC端和移動終端獲取的用戶數(shù)據(jù)從領域本體投影產(chǎn)生用戶本體;結合收集到的用戶興趣數(shù)據(jù)進行處理,結合文中提出的概念興趣度計算公式和概念屬性權重計算公式對用戶興趣模型進行初始化。實驗結果表明,推薦結果對于用戶興趣的精確性有顯著提高。
1.1 本體理論
本體被廣泛引用的定義是Gruber提出的“本體是概念模型的明確的規(guī)范說明[4]”。一般來說,本體是用來描述某個領域中的概念以及概念之間的關系,使得這些概念和關系在一定的共享范圍內(nèi)具有大家共同認可的、明確的、唯一的定義[5]。
本體的5個基本的建模元語分別是:概念(Concept)、關系(Relation)、函數(shù)(Function)、公理(Axiom)和實例(Instance)。其結構可表示成一個五元組:ont={C,R,F,A,I}。其中的C、R、F、A和I對應本體中概念、概念間關系、函數(shù)、公理和實例的集合[2]。
1.2 茶葉領域本體
構建領域本體就是使用手動或半自動構建方法生成在應用某一領域的本體。手動構建通常由個人完成,內(nèi)容較為完善,但是其中會帶有構建者的個人觀點且工作較為繁瑣;而半自動構建則是綜合了領域?qū)<液蛿?shù)據(jù)挖掘的結果,通過挖掘龐大的數(shù)據(jù)來獲得相應的領域名詞,工作量也較大,數(shù)據(jù)的完整和全面性會對領域本體造成一定的局限和影響。
文中采取的方法是根據(jù)《中國茶葉大辭典》以及《中國名優(yōu)茶選集》結合領域?qū)<业囊庖娛謩訕嫿ú枞~領域本體,在其中加入屬性關系和同位關系等非分類關系,完善其中的語義信息要素。其中屬性關系包含了數(shù)據(jù)屬性(Data Property)和對象屬性(Object Property),它是本體概念間重要的語義表示方法[6]。在茶葉領域本體中定義的數(shù)據(jù)屬性有hasPrice、hasLevel等,對象屬性有Be-Made-In、Provide等。除此之外,領域本體中包含了大量的實例,如茶葉品牌、茶葉商家等。茶葉領域本體的層次結構如圖1所示。
圖1 茶葉領域本體層次結構圖
2.1 用戶興趣模型的表示
用戶本體興趣模型目前沒有確切的定義,但是綜合大多數(shù)學者意見,筆者認為就是通過分析用自然語言表示的用戶興趣并將其中的語義之間的關聯(lián)轉化為本體各概念間關系[2,7],利用本體中的概念間分類關系、非分類關系以及學習推理能力,將用戶需求進行概念化、層次化、結構化的轉化,達到發(fā)現(xiàn)用戶新的興趣,在語義層面上對信息進行表示和儲存的目的[2,8]。
文中的用戶興趣模型可以明確表示為以下四元組:UserModel=(Userinfo,UserOnto,UserInt,UserTime)。其中用戶的個人基本信息UserInfo={ID,Name,Age,Sex,Conlevel},分別描述了用戶編號、姓名、年齡、性別、消費水平等信息。而用戶興趣本體UserOnto={C,RC,RN,FC,A,I}中,C表示是本體中用戶興趣概念;RC描述了用戶興趣本體中概念間的分類關系;RN描述了用戶興趣本體中的非分類關系(屬性、同位等);FC表示函數(shù);A表示公理;I表示實例。
UserInt={DC,DP}是興趣度的形式化描述,DC表示用戶對特定概念的喜好程度的量化即興趣度,且DC∈[0,1];DP描述了概念中屬性的權重,包括數(shù)據(jù)屬性、對象屬性等,而且文中定義對于同一概念C中全部DP之和為1。UserTime={CreatTime,RecentTime}表達了用戶概念的時間集,CreatTime表示概念創(chuàng)建的時間,RecentTime表示概念及其所含項目(實例等)最近一次的被訪問時間。
2.2 用戶興趣本體的構建
用戶興趣本體的構建需要采集用戶行為數(shù)據(jù),然后根據(jù)行為數(shù)據(jù)從領域本體通過投影算法生成用戶興趣本體。用戶興趣數(shù)據(jù)的采集大多通過對用戶各種行為記錄進行分析和處理。而其中主要方法有以下三種:參考類,如點擊鏈接;保存類,如下載、收藏等;審閱類,如頁面停留時間、滾動條拖動次數(shù)、頁面點擊頻率等。然而這三種方法都需要對網(wǎng)頁的主題進行識別,即利用分詞的方法使網(wǎng)頁與本體中的概念相對應。本體投影就是領域本體投影于各種不同用戶信息之上生成用戶興趣本體的過程,它是生成用戶興趣本體的重要方法和必要過程。文中的茶葉領域本體通過對各種不同的信息描述進行投影生成不同的投影面,進而生成用戶興趣本體[9],此過程如圖2所示。
圖2 本體投影關系圖
本體投影中的關鍵與重點就是如何創(chuàng)建關鍵詞與本體中概念的關聯(lián)關系,文中采用的是經(jīng)典的BPM-BM算法[10]。文中所涉及中文本體中的概念為中文詞匯,經(jīng)過分詞后得出中文詞匯和短語,利用BPM-BM算法對網(wǎng)頁分詞表中的詞匯和本體中概念進行匹配,本體投影算法如下:
Step1:將網(wǎng)頁分詞表中的數(shù)據(jù)賦值給字符串數(shù)組S[n],并新建棧Z初始化。
Step2:輸出起始概念頂點(領域本體根節(jié)點),將起始頂點改為“已訪問”標志,并使起始概念頂點進棧。
Step3:重復下列操作直到棧Z為空。
Step3.1:讀取棧Z頂元素頂點(不出棧)。
Step3.2:若存在棧Z頂元素頂點未被訪問的鄰接點W,則進行以下操作:
Step3.2.1:依次比較W與S[n]中的各元素,若W與S[i]二者匹配,則將網(wǎng)頁作為實例加入用戶本體,并將興趣度作為數(shù)據(jù)屬性加入本體初始化為0;若二者不匹配,則繼續(xù)比較W與S[i+1],當i=n時break;
Step3.2.2:將頂點W改為“已訪問”標志;
Step3.2.3:將頂點W進棧。
Step3.3:否則,當前頂點退棧。
文中概念興趣度取決于用戶本體(UserOnto)中的各種概念屬性等,因此提取網(wǎng)頁中的概念所對應的關鍵詞是獲取概念興趣度中一項十分重要的前期工作。而網(wǎng)頁中的內(nèi)容經(jīng)過分詞以后所得的詞語重要性各自不一,需要對提取出的詞匯進一步分析,從而選擇出可以代表該網(wǎng)頁的關鍵詞,同時也有利于降低網(wǎng)頁的維度,為下一步的存儲和分析等工作打下良好的基礎。
文中采用TF-IDF(TermFrequency-InverseDocumentFrequency),“詞頻-逆文檔頻率”用來量化處理后得出關鍵詞并得出其權重,從中選擇大于預先設定閾值的詞語作為特征詞匯。TF-IDF是一種用于信息搜索和信息挖掘的常用加權技術,并且被廣泛應用在搜索、文獻分類和其他相關領域。
TF-IDF是一種統(tǒng)計方法,用來評估一個語料庫或者文檔集中一份文件的重要程度。假設特定詞語在一個文檔中出現(xiàn)的次數(shù)較多,同時出現(xiàn)在其余文檔中的次數(shù)較少,則認為該詞語可以用來分類,能夠很好地區(qū)分不同類型的文檔[11]。詞語權重公式如下:
(1)
其中,分母是歸一化法中的歸一化因子。W(ti,dj)表示在文檔dj中詞語ti的權重;tf(ti,dj)表示在文檔dj中詞語ti的出現(xiàn)頻率;N表示文檔的總數(shù);ni表示在文檔集中有詞語ti出現(xiàn)的文檔數(shù)量。
通過公式選擇出權重最大的詞語后,將該詞語作為該文檔的代表詞匯,并且與用戶本體中的概念節(jié)點進行匹配,然后寫入到該概念的實例之中。
3.1 概念興趣度的學習
文中用戶模型的學習與更新由采集和解析用戶的行為來實現(xiàn)。而用戶的行為數(shù)據(jù)如前文所述大致歸為三種:參考、保存和審閱類。這三類行為主要都發(fā)生在用戶的搜索和瀏覽的過程中,可以通過用戶的行為數(shù)據(jù)確定其短期興趣,然后與用戶的長期興趣相結合進而完成用戶模型的學習與更新。
相關理論研究發(fā)現(xiàn),人類記憶分為長期、短期和感覺記憶三種。當外部刺激作用于認得感覺器官時或產(chǎn)生感覺記憶,進而儲存得到短期記憶,而經(jīng)過一系列復雜的條件,短期記憶可以轉化為長期記憶。因此文中的用戶興趣度計算公式充分考慮了用戶的長期記憶和短期記憶以及用戶行為數(shù)據(jù),如下所示:
I=Io×F(i)+IN
(2)
其中,I為用戶興趣度;Io為原始用戶興趣度;F(i)為遺忘函數(shù)[8];IN為用戶瀏覽新頁面后產(chǎn)生的興趣度變化值。
遺忘函數(shù)為:
(3)
其中,Tn為當天日期;Tv為用戶本體中概念節(jié)點最近的訪問時間;Tc為用戶本體中概念節(jié)點的創(chuàng)建時間;S為生命周期參數(shù),由于人的記憶在接觸新知識一周后便開始衰弱,所以一般將S設為7。從式中可以得出F(i)的范圍是(0,1)。
在式(2)中,對影響IN的因素則提出三點假設:
(1)用戶對于關鍵詞搜索的次數(shù)SN和頁面數(shù)量PN,搜索的次數(shù)越多,說明用戶對這種產(chǎn)品主動了解程度越感興趣,此時頁面數(shù)量PN與興趣度成正比。
(2)用戶消耗在頁面的時間T及其長度L,若長度相同,時間與興趣成正比;若時間相同,長度與興趣成反比。
(3)用戶在某頁面發(fā)生交互行為次數(shù)CN,很明顯如果用戶在網(wǎng)頁中點擊鏈接而進入的頁面越多,和拉動滾動條次數(shù)與興趣度成正比。
綜合以上三點得出的概念興趣度變化如式(4):
IN=W1×f1(SN,PN)+W2×f2(T,L)+W3×f3(CN)
(4)
其中,f1,f2,f3是將前文的三個因素對興趣度的影響進行量化得出的三個函數(shù),分別表示為:
f1=10-(100/SN×PN)
(5)
(6)
(7)
其中,f1說明了搜索次數(shù)和頁面數(shù)量與興趣度的關系,其中分子100代表兩個頁面存在的商品數(shù)目,各電商網(wǎng)站每個頁面含有50~52個左右,文中默認每個頁面為50個商品,普遍情況下用戶為尋找合適的商品一般瀏覽兩個頁面的情況占大多數(shù);f2解釋了停留時間和頁面長度對興趣度的影響,其中L的單位是字節(jié)數(shù),T的單位是s;f3表示了交互行為與興趣度之間的關系,其中CN為交互行為的總量,分子中常數(shù)20則是按照統(tǒng)計數(shù)據(jù),統(tǒng)計出大多數(shù)用戶與物品的交互次數(shù)。通過以上三個公式得出f1、f2、f3的值均在[0,1]之間。
W1,W2,W3分別是它們在興趣度變化量中的權重,而且三者的關系滿足條件:
W1+W2+W3=1
(8)
因此,從式(4)中可以計算出興趣度的改變值,而且IN的范圍同樣為[0,1]。進而可以通過式(2)計算出興趣度I的值,并且I的范圍始終為[0,1]。
3.2 概念屬性權重的學習
領域本體中每個概念含有許多屬性,也可以分為數(shù)據(jù)和對象兩種屬性,其中每個屬性對應著不同的實例集合,而茶葉領域本體定義了很多不同的屬性。文中的用戶模型賦予了屬性不同的權重,并且這些權重會隨著用戶的查詢、瀏覽等交互行為而不斷地學習與更新[12]。概念中屬性權重的計算公式為[13]:
(9)
其中,degree(t)(Ac)為屬性A在時間t時的權重;degree(t-1)(Ac)為屬性A在時間t-1時的權重;freq(Ac)為概念c之中的屬性A在用戶此次的查詢與瀏覽行為中出現(xiàn)的數(shù)量總和;隨著時間的變化,用戶的短期記憶會轉變?yōu)殚L期記憶,w是一個類似遺忘函數(shù)的常量,用來平衡用戶的長期記憶與短期記憶[14]。
隨著用戶與系統(tǒng)的交互行為不斷增加,由此產(chǎn)生的用戶數(shù)據(jù)也不斷增多。文中算法通過分析數(shù)據(jù)后可以得出概念興趣度和概念屬性權重等用戶興趣的相關知識,進而可以利用相關的算法發(fā)掘出新的用戶興趣,同時新產(chǎn)生的用戶興趣也會與用戶產(chǎn)生交互行為繼而產(chǎn)生新的用戶數(shù)據(jù),由此完成用戶模型的學習與更新。通過不斷地改進用戶模型,完善其中的語義信息,提升模型的完整性和準確性。
利用protégé構建領域本體,利用Java語言配合Jena對本體進行解析,進而完成系統(tǒng)構建。圖3和圖4分別為用protégé構建的茶葉領域本體圖和茶葉領域概念節(jié)點總覽圖。
采用MAE(平均絕對誤差值)對實驗結果進行評價,它通過比較實驗的預期值與最終用戶的評分,最終得出推薦結果的精確度[9]。文中采用MAE作為衡量用戶興趣模型的一個重要指標。MAE的公式為:
(10)
其中,N為推薦商品的總數(shù)量;pi為用戶對于i的預測評分;qi為真實評分。
實驗采用的數(shù)據(jù)集是由627條數(shù)據(jù)組成,分別為用戶的ID、購買時間、物品名稱以及評分。出于實驗的目的,將其中的70%進行訓練,30%進行測試,實驗結果如圖5所示。
圖中的實驗結果表明,文中構建的本體模型所產(chǎn)生的推薦結果更加精確,其MAE值與傳統(tǒng)模型相比更低,但是隨著興趣最近鄰的不斷增加,兩者之間的MAE值的差距逐漸變小,最后趨于穩(wěn)定。
針對現(xiàn)階段推薦系統(tǒng)中用戶模型構建繁瑣,以及其中語義要素不完整導致推薦結果精確度不高等問題,提出了結合本體投影算法和概念興趣度的用戶興趣模型構建方法。通過構建茶葉領域本體,利用投影算法生成用戶個性化本體。實驗結果表明:用戶興趣模型的構建相較于傳統(tǒng)用戶模型對于個性化推薦算法有著更好的支持作用;基于本體投影算法的用戶興趣模型易于構建,能夠更好地利用本體中的各種語義信息,使推薦結果更加精確。但因數(shù)據(jù)集的限制,本體中的一些語義要素還不夠完整,可能會對結果造成一定的影響。下一步工作可以尋找更優(yōu)的數(shù)據(jù)集,并對算法進行進一步優(yōu)化,使用戶模型更加完善。
[1]JamesonA,ParisC,TassoC.Usermodeling[C]//ProceedingsofthesixthinternationalconferenceonUM.NewYork:[s.n.],1997:1-3.
[2] 孫雨生.國內(nèi)基于本體的用戶興趣建模研究進展(下)-模型管理[J].情報理論與實踐,2015,38(1):139-144.
[3] 陳一峰,趙恒凱,余小清,等.基于本體的用戶興趣模型構建研究[J].計算機工程,2010,36(21):46-48.
[4]GruberTR.Atranslationapproachtoportableontologyspecifications[J].KnowledgeAcquisition,1993,5(2):199-220.
[5] 徐濟成,李紹穩(wěn),張友華.農(nóng)業(yè)本體及本體學習研究[J].計算機技術與發(fā)展,2009,19(8):212-215.
[6] 張靜嫻.基于網(wǎng)絡本體語言的本體映射研究[D].北京:北京工業(yè)大學,2009.
[7] 張 瑜.基于本體的農(nóng)業(yè)科技信息用戶建模系統(tǒng)研究[D].北京:中國農(nóng)業(yè)科學院,2009.
[8] 黃彩容.基于本體的用戶興趣模型在搜索引擎中的應用[J].圖書館學刊,2009,31(12):100-103.
[9] 劉佳音.基于本體的個性化信息系統(tǒng)的應用研究[D].杭州:杭州電子科技大學,2009.
[10]BusenbergS,CookeKL.Theeffectofintegralconditionsincertainequationsmodellingepidemicsandpopulationgrowth[J].JournalofMathematicalBiology,1980,10(1):13-32.
[11] 楊 潔,季 鐸,蔡東風,等.基于聯(lián)合權重的多文檔關鍵詞抽取技術[J].中文信息學報,2008,22(6):75-79.
[12] 陳 鈺,張功亮,闞述賢,等.一種基于領域本體的用戶建模方法[J].計算機與數(shù)字工程,2011,39(2):86-89.
[13]JiangX,TanAH.Learningandinferencinginuserontologyforpersonalizedsemanticwebsearch[J].InformationSciences,2009,179(16):2794-2808.
[14] 蔣秀林,謝 強,丁秋林.基于領域本體的用戶模型的研究[J].計算機應用研究,2012,29(2):606-608.
Investigation on Constructed Method of User Interest Model with Domain Ontology
WEI Tong,LI Shao-wen,GENG Fan-fan,KONG Chen
(School of Information and Computer Science,Anhui Agriculture University,Hefei 230036,China)
There are many problems in electronic commerce personalized recommendation system nowadays,such as complicated and cumbersome process in building user interest model,less and/or incomplete semantic information elements etc.So a method to construct user interest model has been presented,actually synthesis of ontology projection algorithm and concept interest degree.The tea domain ontology has been established via extracting the attribute and the characteristic value of the goods in the database and OWL language,in which user interest ontology is produced with projection algorithm.Concept,attributes and instances of the ontology to describe the user’s interests,which interprets the user’s personal interest from the semantic level to achieve higher accurate results in process of personalized recommendation.The experimental results show that the proposed method is prone to establish user model and semantic elements inside user interest model are rich as well as accuracy of the results has been promoted with the model established.
ontology;projection;user model;tea
2016-05-05
2016-09-01
時間:2017-02-17
國家自然科學基金資助項目(31271615)
魏 同(1991-),男,碩士研究生,研究方向為人工智能、個性化推薦;李紹穩(wěn),教授,博導,通訊作者,研究方向為人工智能、農(nóng)業(yè)信息化。
http://www.cnki.net/kcms/detail/61.1450.TP.20170217.1634.086.html
TP301.6
A
1673-629X(2017)03-0065-05
10.3969/j.issn.1673-629X.2017.03.014