劉愛琴 劉揚(yáng)
摘 要 本文基于信息距離的文獻(xiàn)個(gè)性化知識(shí)發(fā)現(xiàn)系統(tǒng),首先基于文獻(xiàn)領(lǐng)域本體對(duì)用戶輸入得到的概念擴(kuò)展集進(jìn)行修正處理,形成更符合用戶興趣的概念集合;其次,借助興趣概念集合,將主題詞和與其互相關(guān)聯(lián)的知識(shí)匹配,實(shí)現(xiàn)用戶層級(jí)的知識(shí)發(fā)現(xiàn);最后,融入基于信息距離和信息層次的個(gè)性化推薦算法,對(duì)錨定的未評(píng)分文獻(xiàn)集合進(jìn)行打分排序,采用Top-N算法,從中挖掘出更深度的知識(shí)關(guān)聯(lián),形成推薦列表,實(shí)現(xiàn)個(gè)性化的文獻(xiàn)知識(shí)發(fā)現(xiàn)。該系統(tǒng)一方面改善了基于內(nèi)容的知識(shí)發(fā)現(xiàn)系統(tǒng)中結(jié)果過于專一化和延展性差等問題,擴(kuò)展了查詢粒度;另一方面通過信息量權(quán)重的引入,在提高知識(shí)檢索效率和知識(shí)推薦準(zhǔn)確度的同時(shí),實(shí)現(xiàn)了更為精準(zhǔn)的個(gè)性化知識(shí)發(fā)現(xiàn)。
關(guān)鍵詞 信息距離 興趣概念集合 文獻(xiàn)個(gè)性化 知識(shí)發(fā)現(xiàn)系統(tǒng)
分類號(hào) G251.6
DOI 10.16810/j.cnki.1672-514X.2021.07.010
Design and Implementation of Personalized Knowledge Discovery System Based on Information Distance
Liu Aiqin, Liu Yang
Abstract Based on the literature personalized knowledge discovery system of information distance, this paper corrects the concept extension set obtained by the user based on the literature domain ontology, and forms a collection of concepts that more in line with the users interest. Secondly, with a collection of interest concepts, matching subject words and interrelated knowledge to achieve knowledge discovery at the user level. Finally, the personalized recommendation algorithm based on information distance and information level is integrated to rank the collection of unscored literature, and the Top-N algorithm is used to excavate the deeper knowledge correlation, form the recommendation list and realize the personalized literature knowledge discovery. On the one hand, the system improves the problems of excessive specialization and poor elongation of the results in the content-based knowledge discovery system, expands the granularity of query. On the other hand, with the help of information content, it can realize more accurate personalized knowledge discovery while improving the efficiency of knowledge retrieval and the accuracy of knowledge recommendation.
KeywordsInformation distance. Collection of interest concepts. Literature personalization. The knowledge discovery system.
1 研究背景
由于用戶信息服務(wù)的重點(diǎn)和難點(diǎn)正從文獻(xiàn)獲取轉(zhuǎn)變?yōu)橹R(shí)發(fā)現(xiàn)[1],因此打破以往的書刊目錄、文獻(xiàn)索引和部分文獻(xiàn)全文利用的局限,引入知識(shí)挖掘、索引規(guī)則構(gòu)建信息資源的立體知識(shí)網(wǎng)絡(luò)[2],為用戶提供具有完善、高效的知識(shí)挖掘與數(shù)據(jù)分析功能的知識(shí)發(fā)現(xiàn)系統(tǒng)[3]迫在眉睫。
發(fā)現(xiàn)系統(tǒng)經(jīng)歷了傳統(tǒng)資源發(fā)現(xiàn)、學(xué)術(shù)資源發(fā)現(xiàn)和知識(shí)發(fā)現(xiàn)三個(gè)階段。第一階段,全球第一個(gè)資源發(fā)現(xiàn)系統(tǒng)Summon,其重點(diǎn)放在資源發(fā)現(xiàn)功能上,信息服務(wù)體系未能形成。第二階段,發(fā)現(xiàn)系統(tǒng)從出版商、內(nèi)容商、大學(xué)、公開網(wǎng)站等提取各類有價(jià)值的數(shù)據(jù)信息資源[4],實(shí)現(xiàn)了資源獲取。目前,知識(shí)發(fā)現(xiàn)系統(tǒng)的發(fā)展正處于第三階段,一方面致力于解決復(fù)雜異構(gòu)數(shù)據(jù)庫群的集成整合,完成高效、精準(zhǔn)、統(tǒng)一的學(xué)術(shù)資源搜索;另一方面通過聚類、分析、抽取等算法研究實(shí)現(xiàn)高價(jià)值學(xué)術(shù)文獻(xiàn)發(fā)現(xiàn)、縱橫結(jié)合的深度知識(shí)挖掘和可視化的全方位知識(shí)關(guān)聯(lián),并將潛在有用的知識(shí)直接傳遞給用戶, 為用戶提供個(gè)性化的知識(shí)服務(wù)[5]。
針對(duì)不同個(gè)性化知識(shí)發(fā)現(xiàn)系統(tǒng)的算法,國內(nèi)外學(xué)者都在積極展開著相關(guān)研究。P. Ganesan[6]提出的基于邊權(quán)重和有向節(jié)點(diǎn)的信息距離相似度計(jì)算方法幫助實(shí)現(xiàn)項(xiàng)目推薦;Wu and Palmer[7]方法則認(rèn)為語義相關(guān)度是通過衡量兩個(gè)概念的公共父節(jié)點(diǎn)與這兩個(gè)概念的路徑距離而得出;Degemmis[8]用WordNet代替基于關(guān)鍵詞的傳統(tǒng)方法,結(jié)合語義網(wǎng)與基于內(nèi)容的推薦算法,計(jì)算項(xiàng)目之間相似度距離進(jìn)行推薦;Y.Zhang[9]通過自適應(yīng)過濾技術(shù)對(duì)用戶的配置文件進(jìn)行更新,將有關(guān)用戶喜好的信息進(jìn)行整理總結(jié),與Web文件流中的相關(guān)內(nèi)容進(jìn)行距離對(duì)比,將相關(guān)性最高的文件推薦給用戶;Debnath[10]研究了不同特征信息權(quán)重的提取方法,并對(duì)其推薦效果進(jìn)行綜合評(píng)估。國內(nèi)學(xué)者黎雪微[11]提出了一種基于語義關(guān)聯(lián)和信息距離的個(gè)性化推薦方法,在傳統(tǒng)語義相似度上融入信息量理論,實(shí)現(xiàn)了用戶興趣偏好的有效遷移;林鑫[12]針對(duì)基于內(nèi)容的個(gè)性化推薦策略,提出資源信息特征選擇與權(quán)值計(jì)算優(yōu)化策略,從而改善個(gè)性化推薦的效果。嚴(yán)凡[13]等利用卷積神經(jīng)網(wǎng)絡(luò)的特征提取功能,對(duì)圖書主題信息進(jìn)行挖掘,通過信息權(quán)重計(jì)算向量相似度將得分靠前的圖書推薦給讀者。
綜上可見,當(dāng)前的研究集中于關(guān)鍵字與本體概念的距離算法研究和推薦,而基于文獻(xiàn)知識(shí)發(fā)現(xiàn)系統(tǒng)的研究剛剛起步?;谛畔⒕嚯x研究用戶興趣的個(gè)性化需求能夠擴(kuò)散用戶偏好,改善推薦系統(tǒng)中過于專門化的問題,有效提高個(gè)性化知識(shí)發(fā)現(xiàn)的推薦效果,因此本文基于文獻(xiàn)領(lǐng)域本體和用戶興趣模型,首先對(duì)用戶輸入得到的概念擴(kuò)展集進(jìn)行修正處理,形成更符合用戶興趣的概念集合;其次,借助用戶興趣概念集合在標(biāo)準(zhǔn)化數(shù)字資源庫中進(jìn)行文獻(xiàn)查詢,實(shí)現(xiàn)用戶層級(jí)的知識(shí)發(fā)現(xiàn),并且對(duì)與該主題詞互相關(guān)聯(lián)的主題詞進(jìn)行檢索并匹配相關(guān)的知識(shí),共同展示給用戶;第三,在用戶已評(píng)分文獻(xiàn)的基礎(chǔ)之上,融入基于信息距離和信息層次的個(gè)性化推薦算法,對(duì)錨定的未評(píng)分文獻(xiàn)集合進(jìn)行打分排序,采用Top-N算法,從中挖掘出更深度的知識(shí)關(guān)聯(lián),形成推薦列表,實(shí)現(xiàn)個(gè)性化的文獻(xiàn)知識(shí)發(fā)現(xiàn)。
2 信息距離算法理論基礎(chǔ)
在信息科學(xué)中,對(duì)于任意兩個(gè)帶有信息的實(shí)體的信息距離,Bennett等人在1998年給出了定義。由于信息距離不可計(jì)算,在實(shí)際應(yīng)用中,我們需要用不同方法對(duì)信息距離進(jìn)行測度。
2.1 信息層次測度
以語義樹為架構(gòu),采用基于邊權(quán)重和有向節(jié)點(diǎn)的信息層次相似度的計(jì)算方法,假設(shè)用戶感興趣的文獻(xiàn)實(shí)例m與目標(biāo)文獻(xiàn)實(shí)例n都屬于同一個(gè)類,且m、n之間存在層次相關(guān)性,兩實(shí)例的層次距離相似度表示為公式(1)。
(1)
其中,LCP(Lowest Common Parents)指最低層級(jí)的公共雙親,LCP(m,n)表示m、n最近的公共雙親,即到m、n的具有最短路徑的公共雙親,任意兩個(gè)結(jié)點(diǎn)都有至少一個(gè)根結(jié)點(diǎn)作為其公共雙親;depth(m)表示根結(jié)點(diǎn)到結(jié)點(diǎn)m的上一層級(jí)的雙親結(jié)點(diǎn)的路徑長度。如果兩個(gè)實(shí)例為一個(gè)類的子類,則depth(LCP(m,n))=depth(m)=depth(n),即它們的層次距離相似度為1;如果兩實(shí)例的最近公共雙親(LCP)為根結(jié)點(diǎn),則其層次距離相似度為0。
2.2 信息量距離測度
基于信息層次的相似度計(jì)算存在默認(rèn)本體中所有路徑所處權(quán)重相同的問題,但是每個(gè)結(jié)點(diǎn)因其所包含的子結(jié)點(diǎn)數(shù)量的不同,包含的信息量也不同,因此在知識(shí)發(fā)現(xiàn)中目標(biāo)文獻(xiàn)存在偏差。為此,本文引入基于王浣塵提出的信息距離測度計(jì)算模型來解決此類問題,并將結(jié)點(diǎn)所包含的信息量表示為結(jié)點(diǎn)所包含的子結(jié)點(diǎn)在所有結(jié)點(diǎn)的權(quán)重,結(jié)點(diǎn)a可表示為公式(2)。
(2)
其中,a表示本體中的某個(gè)結(jié)點(diǎn),k是a的子結(jié)點(diǎn),weig(a)表示a所包含的子結(jié)點(diǎn)總數(shù)。同時(shí),為了表示a的子結(jié)點(diǎn)數(shù)在本體所有結(jié)點(diǎn)中所占的權(quán)重p(a),可表示為公式(3),由此計(jì)算得出的信息量IC(a)根據(jù)結(jié)點(diǎn)a所在本體層次的高低而變化,可表示為公式(4)。
(3)
(4)
結(jié)點(diǎn)位置越高,p(a)的值越大,但I(xiàn)C(a)越小,即結(jié)點(diǎn)信息量隨結(jié)點(diǎn)層次位置的上升而遞減,反之遞增。反映了處于高層次的結(jié)點(diǎn)所包含的信息量少,含義抽象;處于低層次的結(jié)點(diǎn)包含的信息量多,含義更加具體。
假設(shè)一對(duì)父子結(jié)點(diǎn)a、b,兩者之間由于信息層次不同而信息量存在差異,則將兩者之間的信息量差表示為公式(5)。
(5)
假設(shè)兩個(gè)具有共同上層結(jié)點(diǎn)的實(shí)例m、n,通過屬性結(jié)點(diǎn)聯(lián)通,兩者之間的信息距離可以表示為聯(lián)通路徑上每個(gè)結(jié)點(diǎn)之間的信息量差之和,假設(shè)有n段結(jié)點(diǎn)路徑,則m、n的信息距離可表示為公式(6)。
(6)
兩結(jié)點(diǎn)之間可能存在不只一條的聯(lián)通路徑,假設(shè)m、n之間有s條路徑,第i條路徑的信息距離可表示為ICdistancei(m,n),則m、n之間的信息距離相似度表示為公式(7)。
(7)
2.3 基于信息層次和信息距離的綜合相似度
通過信息量差得出的信息距離相似度修正信息層次距離相似度,解決了原先的層次距離相似度中路徑權(quán)重相等問題,使結(jié)果得到一定的擴(kuò)散。為兩者之間設(shè)定權(quán)重 (0≦≦1),修正后的綜合相似度(Comprehensive Similarity)表示為公式(8)。
(8)
3 知識(shí)發(fā)現(xiàn)系統(tǒng)構(gòu)建
基于信息距離的個(gè)性化文獻(xiàn)知識(shí)發(fā)現(xiàn)系統(tǒng)由用戶層、推薦層和數(shù)據(jù)層三層結(jié)構(gòu)組成,三大主要層次構(gòu)成自上而下具有反饋循環(huán)機(jī)制的知識(shí)發(fā)現(xiàn)系統(tǒng),具體操作流程如圖1所示。
數(shù)據(jù)層通過文獻(xiàn)領(lǐng)域本體為語義擴(kuò)展和概念糾正提供支持,文獻(xiàn)資源庫為推薦層文獻(xiàn)查詢奠定數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)層包括目標(biāo)文獻(xiàn)領(lǐng)域本體和數(shù)字文獻(xiàn)資源庫兩部分,目標(biāo)文獻(xiàn)領(lǐng)域本體是知識(shí)發(fā)現(xiàn)系統(tǒng)的基礎(chǔ),借助領(lǐng)域術(shù)語詞典和領(lǐng)域?qū)<业闹笇?dǎo)通過七步法構(gòu)建目標(biāo)文獻(xiàn)領(lǐng)域的本體,為系統(tǒng)提供語義查詢和語義擴(kuò)展功能;數(shù)字文獻(xiàn)資源庫通過文獻(xiàn)預(yù)處理系統(tǒng),將數(shù)字資源庫中篩選調(diào)用出的文獻(xiàn)預(yù)先進(jìn)行標(biāo)準(zhǔn)化處理,處理后的文獻(xiàn)資源其核心信息將保存在數(shù)據(jù)庫中以便進(jìn)行查詢。
推薦層是連接用戶層和數(shù)據(jù)層的樞紐,對(duì)來自用戶層的用戶信息進(jìn)行用戶模型構(gòu)建,借助相應(yīng)算法對(duì)輸入數(shù)據(jù)進(jìn)行處理,并將文獻(xiàn)資源與用戶進(jìn)行匹配。推薦層包括構(gòu)建用戶興趣模型和基于信息距離的個(gè)性化推薦模塊兩部分,通過用戶文獻(xiàn)興趣偏好構(gòu)建用戶興趣模型,用戶利用個(gè)性化知識(shí)發(fā)現(xiàn)系統(tǒng)發(fā)現(xiàn)符合用戶模型要求的相關(guān)文獻(xiàn),并在閱讀完后進(jìn)行文獻(xiàn)興趣評(píng)分,其評(píng)分結(jié)果用于對(duì)用戶模型進(jìn)行更新與完善;個(gè)性化文獻(xiàn)推薦模塊以用戶模型和目標(biāo)領(lǐng)域本體為基礎(chǔ),通過本體中定義的概念關(guān)系幫助用戶在文獻(xiàn)資源庫中匹配相關(guān)文獻(xiàn),并根據(jù)用戶已評(píng)分文獻(xiàn)集和待選文獻(xiàn)集之間的信息層次與信息距離相似度計(jì)算待選文獻(xiàn)興趣度并進(jìn)行排序,生成個(gè)性化推薦結(jié)果。
用戶層是知識(shí)發(fā)現(xiàn)系統(tǒng)的可視化交互平臺(tái),將用戶相關(guān)信息和輸入內(nèi)容傳遞到推薦層,并將推薦結(jié)果以可視化形式展示,同時(shí)會(huì)搜集用戶信息和評(píng)測分?jǐn)?shù)反饋給下層,便于推薦層進(jìn)行數(shù)據(jù)完善。用戶層包括用戶信息管理模塊、基于本體的文獻(xiàn)推薦模塊和文獻(xiàn)評(píng)測模塊(如圖2)。
用戶信息管理模塊為用戶提供注冊(cè)、登陸、個(gè)人信息、歷史記錄等功能。用戶登陸后,系統(tǒng)讀取用戶信息并抽象為用戶模型,在用戶輸入搜索信息后,系統(tǒng)通過用戶模型和本體知識(shí)庫為用戶推薦其可能感興趣的文獻(xiàn)集,按照Top-N算法的排序順序以列表形式展示給用戶,在用戶閱讀完文獻(xiàn)后將對(duì)其進(jìn)行評(píng)測打分,根據(jù)用戶興趣分對(duì)用戶模型進(jìn)行更新,完善升級(jí)系統(tǒng)推薦功能。
4 知識(shí)發(fā)現(xiàn)系統(tǒng)實(shí)現(xiàn)測試結(jié)果
利用中國知網(wǎng)CNKI數(shù)據(jù)庫對(duì)上述基于信息距離的個(gè)性化文獻(xiàn)知識(shí)發(fā)現(xiàn)系統(tǒng)進(jìn)行仿真驗(yàn)證。首先,借助于Python爬蟲技術(shù),檢索關(guān)鍵字“知識(shí)發(fā)現(xiàn)”,并選取前300篇文獻(xiàn)形成實(shí)驗(yàn)的數(shù)字文獻(xiàn)資源庫,同時(shí)對(duì)文獻(xiàn)摘要進(jìn)行領(lǐng)域本體概念的修正與擴(kuò)展,形成目標(biāo)文獻(xiàn)領(lǐng)域本體。部分爬蟲代碼和獲得的由文獻(xiàn)與領(lǐng)域主題詞構(gòu)成的仿真實(shí)驗(yàn)數(shù)據(jù)庫如圖3和圖4所示。
其次,分析用戶的訪問歷史數(shù)據(jù),形成用戶興趣本體UserModel,并在領(lǐng)域文獻(xiàn)本體LiteratureModel定位已評(píng)分文獻(xiàn)。假設(shè)用戶通過知識(shí)發(fā)現(xiàn)系統(tǒng)中的文獻(xiàn)評(píng)測模塊對(duì)文獻(xiàn)集合I={I1,I2}進(jìn)行自主評(píng)分,其中,l1表示文獻(xiàn)集合元素基于知識(shí)發(fā)現(xiàn)的圖書館個(gè)性化知識(shí)服務(wù)研究,興趣度0.8;l2表示文獻(xiàn)集合元素共詞分析法用于文獻(xiàn)隱性關(guān)聯(lián)知識(shí)發(fā)現(xiàn)研究,興趣度0.2,系統(tǒng)根據(jù)興趣分?jǐn)?shù)更新用戶模型,形成用戶已評(píng)分文獻(xiàn)集合I。隨后,用戶本體對(duì)文獻(xiàn)資源庫進(jìn)行修正過濾,形成錨定待選文獻(xiàn)集合J。然后,基于信息層次與信息距離的相似性測度計(jì)算I與J之間的綜合相似度。最后,利用已評(píng)分文獻(xiàn)I的興趣度來推測未評(píng)分文獻(xiàn)J的興趣度,并對(duì)興趣度從高到低排序,生成Top-N個(gè)性化推薦列表。結(jié)果如表1所示。
最后,采用LDA主題分析,通過相關(guān)算法、數(shù)據(jù)挖掘、優(yōu)化等對(duì)Top-N個(gè)性化推薦列表進(jìn)行解釋,解釋結(jié)果詳見圖5和圖6。
在圖5中,圓表示不同主題,圓的大小表示主題的重要程度,以深色突出顯示重要程度最大的主題圓。通過以上分析,可見在LDA分析的十個(gè)主題中,主題1的重要優(yōu)先級(jí)高于其他主題,其他主題由于出現(xiàn)的詞頻為前30的關(guān)鍵字?jǐn)?shù)量較少且頻率較低。
圖6通過數(shù)據(jù)統(tǒng)計(jì),以條形圖方式列出了與主題最有關(guān)的前30個(gè)詞語以及相應(yīng)的詞頻。主題1作為最重要的主題,條形圖展示了對(duì)應(yīng)主題中出現(xiàn)的詞語以及詞頻,每個(gè)詞語的頻率代表了其相應(yīng)的比重。利用該結(jié)果,可以將同一主題的相關(guān)知識(shí)進(jìn)行整合,并通過主題詞共現(xiàn)方式提取知識(shí)關(guān)聯(lián)。
5 結(jié)語
基于信息距離的文獻(xiàn)個(gè)性化知識(shí)發(fā)現(xiàn)系統(tǒng)將信息層次相似度和信息量距離相似度綜合起來對(duì)用戶興趣進(jìn)行擴(kuò)散,一方面改善了基于內(nèi)容的知識(shí)發(fā)現(xiàn)系統(tǒng)中結(jié)果過于專一化和延展性差等問題,擴(kuò)展了查詢粒度;另一方面通過對(duì)信息量權(quán)重的引入,在提高知識(shí)檢索效率和知識(shí)推薦準(zhǔn)確度的同時(shí),實(shí)現(xiàn)了更為精準(zhǔn)的個(gè)性化知識(shí)發(fā)現(xiàn)。
參考文獻(xiàn):
廖鳳,周靜怡.國內(nèi)外文獻(xiàn)數(shù)據(jù)庫個(gè)性化服務(wù)研究[J].圖書情報(bào)工作,2010,54(13):67-70,146.
趙功群,王恒.國內(nèi)三大中文發(fā)現(xiàn)系統(tǒng)比較分析及評(píng)價(jià)[J].圖書館研究,2016,46(6):72-77.
廖志江.知識(shí)發(fā)現(xiàn)及數(shù)字圖書館知識(shí)服務(wù)平臺(tái)建設(shè)研究[J].情報(bào)科學(xué),2012,30(12):1849-1853.
曾建勛.資源發(fā)現(xiàn)系統(tǒng)的顛覆性[J].數(shù)字圖書館論壇,2016,(2):1.
陸韡.面向OA資源的圖書館知識(shí)發(fā)現(xiàn)系統(tǒng)應(yīng)用研究[J].圖書館工作與研究,2019(10):83-88.
PRASANNA G, HECTOR G M, JENNIFER W.Exploiting hierarchical domain structure to compute similarity[J].ACM Trans.Inf. Syst.2003,21 (1):64-93.
RADA R, MILI H, BICKNELL E, et al. Development and application of a metric on semantic nets[J]. IEEE Transactions on Systems, Man and Cybemnetics, 1989, 5(s): 17-30.
DEGEMMIS M, LOPS P, SEMERARO G. A content-collaborative recommender that exploits WordNet-based user profiles for neighborhood formation[J].User Modeling and User-Adapted Interaction,2007,17 (3):217-255.
ZHANG Y, CALLAN J. Maximum likelihood estimation for filtering thresholds[C].Proceedings of the 24th annual interational ACM SIGIR conference on Research and development in information retrieval.New York.2001.294-302.
DEBNATH S, GANGULY N, MITRA P. Feature weighting in content based recommendation system using social network analysis[C].Proceedings of the 17th international conference on World Wide Web. ACM,2008:1041-1042.
黎雪微,應(yīng)時(shí),洪偉.基于語義關(guān)聯(lián)和信息距離的個(gè)性化推薦方法研究[J].情報(bào)理論與實(shí)踐,2019,42(11):142-149.
林鑫,桑運(yùn)鑫,龍存鈺.基于用戶決策機(jī)理的個(gè)性化推薦[J].圖書情報(bào)工作,2019,63(2):99-106.
嚴(yán)凡,張霽月.基于圖書語義信息的推薦方法研究[J].圖書館學(xué)研究,2018,(21):40-45.
劉愛琴 山西大學(xué)經(jīng)濟(jì)與管理學(xué)院副教授。 山西太原,030006。
劉 揚(yáng) 山西大學(xué)經(jīng)濟(jì)與管理學(xué)院本科生。 山西太原,030006。
(收稿日期:2020-07-18 編校:左靜遠(yuǎn),劉 明)