徐海文 譚臺哲,2
1.廣東工業(yè)大學計算機學院;2.河源市灣區(qū)數(shù)字經(jīng)濟技術創(chuàng)新中心
在以往的推薦系統(tǒng)模型中,大多是通過協(xié)同過濾算法實現(xiàn)的,所以會存在冷啟動和數(shù)據(jù)稀疏性等問題,從而導致推薦質量不高。一般的解決辦法就是通過加入一些附加的語義信息來提升推薦的精度。而知識圖譜中就包含了大量的語義內(nèi)容,可以在推薦系統(tǒng)中引入知識圖譜作為附加信息。因此,本文提出了基于知識圖譜的個性化推薦系統(tǒng)構建。在推薦模型中加入知識圖譜,可以很好的增強推薦的準確性。
隨著不同平臺的數(shù)據(jù)量以前所未有的速度增長,人們充分享受到了獲得信息的便利。但是,與此同時人們也面臨著一些問題,比如在如此冗雜的數(shù)據(jù)中尋找信息時,如何快速、準確、高效地定位目標,如何屏蔽垃圾信息,為用戶呈現(xiàn)出有用的結果等。雖然搜索引擎能夠解決掉一些問題,但是對于一些用戶,他們在瀏覽網(wǎng)頁的時候,沒有明確目標,只是隨便看看。如果網(wǎng)站不能提供給用戶更有興趣的內(nèi)容,那么就很難留住用戶。因此,通過互聯(lián)網(wǎng)技術,為用戶實時的推薦一些合適感興趣的內(nèi)容,成為了當下研究的熱點。
大數(shù)據(jù)時代,推薦系統(tǒng)在很多領域都有應用,并且取得了不錯的成績,尤其是在電商領域。但也面臨著許多的挑戰(zhàn),傳統(tǒng)的推薦算法,利用了用戶與用戶之間,物品與物品之間內(nèi)在少量的信息,從而導致了推薦精度下降,并且難以逾越這些瓶頸。推薦系統(tǒng)還存在冷啟動和數(shù)據(jù)稀疏性等問題,一般的方法是通過引入一些語義內(nèi)容作為附加信息,就可以很好的提升推薦的質量[1]。知識圖譜就是一種語義關系圖,可以作為推薦系統(tǒng)的輔助內(nèi)容。知識圖譜由多個節(jié)點和邊連接而成,它們共同構成了一個大的語義關系網(wǎng)絡,描述了各種實體或概念及其關系。它可以挖掘出用戶之間,物品之間,以及用戶和物品之間的更深層次的關系。將大數(shù)據(jù)內(nèi)容轉換為知識,增強了對互聯(lián)網(wǎng)內(nèi)容的理解,將知識存儲在知識庫,再融合到推薦算法當中,可以很好的提高推薦性能。
知識圖譜是谷歌推出的一項通過圖技術來增強搜索功能的技術,它已經(jīng)成為了當前智能相關應用的重要資源。知識圖譜通常由多個三元組“頭實體-關系-尾實體”構成的圖,實體被稱為圖的節(jié)點,節(jié)點之間的邊為關系。“實體”是其最基本的組成單位,“關系”是不同實體之間的語義聯(lián)系。在知識圖譜中,節(jié)點用來表示實體,邊用來表示關系,然后知識圖譜就形成了結構化的網(wǎng)絡圖。圖是展現(xiàn)客觀世界中知識的一種符號方式。
在知識圖譜內(nèi)部由數(shù)據(jù)層和模式層構成。知識在這兩層中都表示為“實體-關系-實體”三元組或“屬性-值”對[2]。事實和實例存儲在數(shù)據(jù)層中,其中的實體是具體的事物,例如人、組織、地點和時間[3]。模式層存儲概念和規(guī)則,模式層中的實體是抽象術語,也稱為本體,它代表了對合理存在的事物的一種闡述[4]。在人工智能領域,本體被定義為一個標準化的、語義化的描述性概念模型,它描述了模式層中知識的概念層次結構。模式層為數(shù)據(jù)層提供概念模型和邏輯層次結構。數(shù)據(jù)層存儲模式層中概念的實現(xiàn)。由于模式層存儲的內(nèi)容經(jīng)過了知識加工,更適合推理,因此模式層通常被視為知識圖譜的核心。然而,也有一些知識圖譜只有數(shù)據(jù)層而沒有模式層[5]。根據(jù)知識圖譜的應用領域不同,知識圖譜可以被劃分為兩類:通用知識圖譜和領域知識圖譜。
與以往的數(shù)據(jù)表示和存儲工具相比,知識圖譜的優(yōu)勢大致可以總結為以下三個方面:
(1)智能:知識圖譜可以從概念和邏輯層面實現(xiàn)數(shù)據(jù)的深度檢索,而不是傳統(tǒng)的基于字符串匹配和超鏈接的檢索。深度檢索更貼近人類自然的檢索需求。此外,知識圖譜構建方法包括知識加工和知識更新技術。不斷更新和學習可以提高知識圖譜的智能;(2)可解釋性:基于知識圖譜的決策系統(tǒng)不僅可以提供結果,還可以為決策提供依據(jù),有助于人類理解;(3)準確性:知識圖譜使用清晰準確的方式來表示實體之間的關系,有助于將圖中的所有信息連接成一個相互關聯(lián)的網(wǎng)絡,因此可以挖掘出數(shù)據(jù)更深層次的聯(lián)系。傳統(tǒng)數(shù)據(jù)庫用表格或其他類似的結構來存儲數(shù)據(jù),這些結構很難對關系進行建模,導致數(shù)據(jù)相對孤立。
知識圖譜的構建通常基于原始數(shù)據(jù),從中提取出相應的知識并存儲在知識庫的數(shù)據(jù)層和模式層中。數(shù)據(jù)層將知識以事實為一個單元存儲起來。模式層以前者為基礎,作為知識圖譜的核心,將提取的知識存儲在其中[6]。知識建模通過數(shù)據(jù)構建知識圖譜模型,通常分為自頂向下和自底向上兩種方式。
(1)自頂向下的方法通常是從各種權威的信息網(wǎng)站中獲取數(shù)據(jù),從中提取本體和模式信息,從頂層開始構建,定義概念后逐漸向下劃分和細化;(2)自底向上的方法一般是從公開收集的數(shù)據(jù)中提取所需的信息,從底層構建,對已有的實體進行歸納和加工,在定義概念后逐步向上發(fā)展。這種方法主要用于開放領域知識圖譜中的知識建模。
知識圖譜中包含了大量的語義內(nèi)容,可以在推薦系統(tǒng)中引入知識圖譜作為附加信息來提高推薦質量。因此,提出了基于知識圖譜的個性化推薦模型構建。該模型主要包含了通過引入知識圖譜來建立用戶興趣模型,對用戶的相似度進行評分預測,對項目的相似度進行評分預測,最后通過融合算法,融合兩個推薦列表得出Top-N結果集。該模型如圖1所示。
圖1 基于知識圖譜的推薦模型Fig.1 Recommendation model based on knowledge map
利用TransR知識表示對實體的屬性三元組進行向量化,得到三元組的向量表示,然后計算三元組集合中每個屬性的權重并進行加權求和,建立用戶興趣模型。利用TransR算法得到實體、關系和屬性的向量表示,然后計算用戶興趣向量。三元組的集合如公式(1)所示。
其中Vu是用戶u歷史訪問的實體集,Tu是用戶u訪問的實體集中三元組信息。(h,r,s)是用戶已經(jīng)評估的三元組,h是實體,r是關系,s是實體的屬性值。通過對實體和屬性的向量表示,使用公式(2)計算實體h中的屬性s的權重。
其中,h和rs是通過特征學習方法獲得的實體和關系的向量表示。用戶興趣模型Cu是通過對用戶歷史評估集中的所有屬性值進行加權求和得到的。計算過程如公式(3)所示。
用戶之間的偏好相似度,使用了歐式距離公式來計算,如公式(4)所示;使用公式(5)將結果控制在[0,1]之間,得到用戶u、v之間的相似性。
考慮到相似度較低的用戶之間的偏好對推薦結果的影響并不大,但會影響到計算的效率。因此設置閾值δ,當用戶間偏好相似度高于閾值時,認為用戶間偏好相似,否則認為用戶偏好不同,則用戶相似度設置為0。用戶相似度矩陣算法1,偽代碼算法1所示:
用戶相似度矩陣算法1輸入:相似性閾值δ,用戶興趣模型Uc,用戶評價集U輸出:用戶偏好相似度矩陣S for循環(huán)U內(nèi)的用戶u:for循環(huán)U內(nèi)的用戶v:用戶u感興趣向量Cu; //來自Uc用戶v的興趣向量Cv; //來自Uc采用歐式距離來計算用戶偏好相似度; //公式(7)偏好相似性sim(u,v); //公式(8)如果 sim(u,v) < δ:Suv = 0;否則Suv = sim(u,v); //公式(8)end for end for return Suv;
通過得到的用戶相似矩陣,使用公式(6)計算所有項目來預測用戶得分。
其中Pui表示通過項目i來預測用戶u得分,sim(u,v)表示用戶之間的偏好相似度表示用戶u的平均得分,表示用戶v的平均得分,s(u)表示用戶u的相鄰集合。然后將結果做一個排序,就可以得到一個Top-N的推薦列表了。
采用了基于項目的協(xié)同過濾算法。使用用戶的歷史得分記錄,來對未被用戶評估的項目進行評分預測。項目相似度的計算如公式(7)所示。
其中Tki表示用戶k對項目i的評價。通過得到的項目相似矩陣,計算出用戶對該項目的預測得分。計算過程如公式(8)所示。
其中,Pui表示用戶u對第 i 項目的預測得分,N(u)表示用戶u得分的項目集合,sim(i,j)表示用戶k與第i項最相似的項目集合。通過對計算出的預測評分進行排序,選擇前N個項目來生成一個推薦列表。
通過融合算法將兩個部分進行融合,就可以得出一個新的推薦結果。融合過程如算法2所示,該算法的主要思想是使用循環(huán)進行遍歷,將兩個集合L和E中的項依次放入新集合C中。在這個過程中,需要確保集合元素是無重復的。
推薦列表融合算法2輸入:基于知識圖譜和項目相似度的協(xié)同過濾相似集合 Set L={L0,……,Ln} ;基于用戶偏好相似度的相似集合 Set E={E0,……,En};輸出:被推薦集合 C={C0,……,Ck}for i<N do:如果Li不含于C:集合C中添加Li;如果Len(C)==k;break;如果Ei不含于E:集合C中添加Ei;如果Len(C)==k;break;end for return Top-N的推薦集合C;
綜上所述,分析了推薦系統(tǒng)研究的意義,在推薦系統(tǒng)廣闊的應用前景下,為了提高推薦精度,可以引入知識圖譜作為輔助內(nèi)容?;谥R圖譜嵌入的推薦模型,是一種將用戶和項目知識實體引入推薦算法的簡單有效的方法。該模型主要包含了四個部分:建立用戶興趣模型,用戶相似度得分預測,基于項目相似度的得分預測,推薦列表融合。通過將推薦結果兩部分的融合,最后生成了最終的推薦結果來進行推薦。對于未來的工作,我們還要考慮將該模型應用到具體的系統(tǒng)中去使用。