劉培明+駱新泉
摘 要:針對(duì)數(shù)字圖書(shū)館中書(shū)目資源規(guī)模的增大導(dǎo)致對(duì)關(guān)聯(lián)圖書(shū)書(shū)目檢索的時(shí)效性和準(zhǔn)確性不好的問(wèn)題,提出一種基于相似度標(biāo)簽索引和關(guān)聯(lián)規(guī)則挖掘的數(shù)字圖書(shū)館中的關(guān)聯(lián)書(shū)目檢索推薦方法。計(jì)算數(shù)字圖書(shū)館中的關(guān)聯(lián)圖書(shū)書(shū)目的相似度標(biāo)簽信息參量,在相似度便簽索引下進(jìn)行圖書(shū)檢索的語(yǔ)義分析,在語(yǔ)義本體模型中通過(guò)關(guān)聯(lián)規(guī)則挖掘?qū)崿F(xiàn)對(duì)相似用戶和相似書(shū)目的信息融合和協(xié)同推薦,提高了對(duì)數(shù)字圖書(shū)館的檢索效能。仿真測(cè)試結(jié)果表明,該推薦方法相比于傳統(tǒng)方法具有較高的推薦準(zhǔn)確性。
關(guān)鍵詞: 數(shù)字圖書(shū)館; 關(guān)聯(lián)規(guī)則挖掘; 信息融合; 書(shū)目檢索
中圖分類號(hào): TN914.3?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)14?0072?03
Abstract: Aiming at poor timeliness and low accuracy of association books bibliography retrieval caused by the increase of bibliographic resources in digital library, a recommendation retrieval method of association bibliographic in the digital library is put forward, which is based on similarity label index and association rules mining. The similarity label information parameters of correlation book bibliography in the digital library are calculated. Semantic analysis of book retrieval is conducted in combination with the similarity label index. The association rules mining is used to realize information fusion and collaborative recommendation of similar users and similar bibliography in the semantic ontology model, and improve the retrieval efficiency of digital library. The simulation test result show that the recommended method has higher accuracy, compared with the traditional methods.
Keywords: digital library; association rule mining; information fusion; bibliography retrieval
0 引 言
數(shù)字圖書(shū)館資源作為一種開(kāi)放性的公共資源,隨著大數(shù)據(jù)的更新和圖書(shū)出版的增多,數(shù)字圖書(shū)館館藏的書(shū)目規(guī)模不斷增多。圖書(shū)館館藏資源的增加和大數(shù)據(jù)信息規(guī)模的增大具有關(guān)聯(lián)關(guān)系。在進(jìn)行數(shù)字圖書(shū)館的資源檢索和圖書(shū)借閱中,需要有效的檢索方法,結(jié)合圖書(shū)館管理系統(tǒng)的有效推薦,提高對(duì)圖書(shū)資源的準(zhǔn)確檢索和獲取能力,對(duì)數(shù)字圖書(shū)館的關(guān)聯(lián)圖書(shū)的可靠性檢索成為評(píng)價(jià)圖書(shū)館的智能化和個(gè)性化服務(wù)水平的重要參考標(biāo)準(zhǔn)。研究圖書(shū)館的圖書(shū)個(gè)性化推薦服務(wù)模型,對(duì)解決圖書(shū)的過(guò)載借閱和用戶不能有效獲取有用圖書(shū)之間的矛盾關(guān)系[1?2]同樣具有重要意義。本文對(duì)當(dāng)前國(guó)內(nèi)外圖書(shū)館推薦模型研究的基礎(chǔ)上,以協(xié)同過(guò)濾推薦和內(nèi)容推薦模型為基礎(chǔ),提出一種基于相似度標(biāo)簽索引和關(guān)聯(lián)規(guī)則挖掘的數(shù)字圖書(shū)館中的關(guān)聯(lián)書(shū)目檢索推薦方法,實(shí)現(xiàn)圖書(shū)資源的個(gè)性化推薦。
1 圖書(shū)關(guān)聯(lián)書(shū)目的相似度計(jì)算
為了實(shí)現(xiàn)對(duì)數(shù)字圖書(shū)館中的關(guān)聯(lián)書(shū)目檢索推薦,需要分析標(biāo)簽的上下文信息,這就需要進(jìn)行圖書(shū)管關(guān)聯(lián)書(shū)目的相似度計(jì)算,用戶相似度計(jì)算方法包括皮爾遜相關(guān)系數(shù)法、向量余弦法、斯皮爾曼相關(guān)系數(shù)法等[3?4]。采用不同的方法計(jì)算用戶的不同關(guān)聯(lián)信息特征,圖書(shū)檢索用戶在進(jìn)行圖書(shū)檢索中,備選標(biāo)簽集特征向量是依賴于其所有鄰居節(jié)點(diǎn),對(duì)用戶文檔進(jìn)行分析,顯性特征數(shù)據(jù)表示為:
式中:表示用戶對(duì)數(shù)字圖書(shū)館中的關(guān)聯(lián)書(shū)目的推薦評(píng)分;表示用戶對(duì)數(shù)字圖書(shū)館中的關(guān)聯(lián)書(shū)目推薦已給出的評(píng)分;是利用式(1)求得的歧義標(biāo)簽的權(quán)值。則用戶u對(duì)圖書(shū)館關(guān)聯(lián)書(shū)目推薦的語(yǔ)義相關(guān)度矩陣可表示為:
基于同義詞和歧義詞的協(xié)作過(guò)濾,提高推薦的可靠性,更好地反映圖書(shū)內(nèi)容和用戶興趣,采用余弦相似度進(jìn)行圖書(shū)推薦過(guò)程中的同義詞過(guò)濾,余弦相似度計(jì)算式描述為:
式中:sim(i,j)表示瀏覽圖書(shū)的關(guān)鍵詞和圖書(shū)之間的相似度;和表示被同一用戶評(píng)分同義詞和歧義詞的評(píng)分向量。
采用皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)方法分析對(duì)圖書(shū)檢索中的語(yǔ)義隱形特征數(shù)據(jù)挖掘用戶之間的關(guān)聯(lián)性[5],皮爾遜相關(guān)系數(shù)相似度計(jì)算為:
式中:表示關(guān)聯(lián)規(guī)則挖掘中待推薦的圖書(shū)組合集合;表示W(wǎng)ordNet詞匯本體的推薦結(jié)果平均評(píng)分。在皮爾遜相關(guān)系數(shù)約束下,得到基于相似度標(biāo)簽索引的關(guān)聯(lián)書(shū)目推薦的皮爾遜準(zhǔn)則為:
分析標(biāo)簽的上下文信息進(jìn)行圖書(shū)數(shù)目的關(guān)聯(lián)行為替換,構(gòu)建圖書(shū)館關(guān)聯(lián)書(shū)目相似度約束下的優(yōu)先級(jí)列表見(jiàn)表1。
通過(guò)表1所示的相似度約束下的優(yōu)先級(jí)列表進(jìn)行書(shū)目檢索的協(xié)同過(guò)濾推薦控制,確定一個(gè)標(biāo)簽的涵義,根據(jù)優(yōu)先級(jí)列表,分析標(biāo)簽的上下文信息,采用皮爾遜相關(guān)系數(shù)相似度算法,進(jìn)行推薦模型的積極評(píng)估和消極評(píng)估。
2 基于關(guān)聯(lián)規(guī)則挖掘的推薦方法實(shí)現(xiàn)
根據(jù)上述關(guān)聯(lián)規(guī)則設(shè)計(jì)方案,在語(yǔ)義本體模型中通過(guò)關(guān)聯(lián)規(guī)則挖掘?qū)崿F(xiàn)對(duì)相似用戶和相似書(shū)目的信息融合和協(xié)同推薦,計(jì)算相似用戶對(duì)圖書(shū)檢索中的語(yǔ)義信息的相似度。用表示用戶感興趣的圖書(shū)集,間的相似度,其值在0和1之間變化,相似用戶對(duì)圖書(shū)感興趣時(shí),,否則。最終的推薦圖書(shū)包含在圖書(shū)集,中,語(yǔ)義本體為,其中的計(jì)算公式為:
式中:和分別表示用戶感興趣的圖書(shū)集的目標(biāo)用戶相似的用戶集數(shù)目;表示推薦圖書(shū)的公共結(jié)點(diǎn)數(shù)目。的計(jì)算公式為:
式中:表示相似用戶集中相似標(biāo)簽之間的詞義消岐向量;,分別表示圖書(shū)書(shū)目集,中推薦結(jié)果生成器對(duì)備選標(biāo)簽集的數(shù)目。
計(jì)算相似標(biāo)簽之間的相似度,計(jì)算完和后,對(duì)結(jié)果進(jìn)行綜合,并對(duì)每個(gè)語(yǔ)義返回相似度值,形成語(yǔ)義相似度,如下:
式中,當(dāng)時(shí),查詢圖書(shū)標(biāo)簽有最高的相似度值,在協(xié)同過(guò)濾推薦模塊中計(jì)算中的連接度如下:
式中,表示圖書(shū)集中選出相似用戶感興趣的圖書(shū)。根據(jù)用戶查詢請(qǐng)求,從WordNet詞匯本體數(shù)據(jù)庫(kù)中提取標(biāo)簽信息進(jìn)行查詢索引,從而將經(jīng)過(guò)過(guò)濾的圖書(shū)集推薦給目標(biāo)用戶,實(shí)現(xiàn)關(guān)聯(lián)書(shū)目的檢索推薦。
3 實(shí)驗(yàn)結(jié)果分析
在Matlab仿真軟件中進(jìn)行數(shù)字圖書(shū)館關(guān)聯(lián)書(shū)目檢索推薦的仿真分析,實(shí)驗(yàn)采用大型網(wǎng)絡(luò)數(shù)字圖書(shū)館的BookCrossing數(shù)據(jù)集作為測(cè)試集,測(cè)試數(shù)據(jù)[6]有1 000 000條,使用爬蟲(chóng)程序采集圖書(shū)標(biāo)簽數(shù)據(jù)進(jìn)行語(yǔ)義分析和信息加載,關(guān)聯(lián)規(guī)則的閾值設(shè)定為:規(guī)則1,0.033 5;規(guī)則2,0.045 5;規(guī)則3,0.054 59;規(guī)則4,0.290 9;規(guī)則5,0.098 5;規(guī)則6,0.089 76;規(guī)則7,0.087 53;規(guī)則8,0.257 8。以圖書(shū)書(shū)目檢索推薦準(zhǔn)確率(Precision,Pr)、召回率(Recall,Re)、準(zhǔn)確率和召回率的相關(guān)性關(guān)系R為測(cè)試指標(biāo),R值越大,表示推薦的可靠度越高,采用不同推薦算法在三組實(shí)驗(yàn)中取平均值,得到不同方法進(jìn)行圖書(shū)推薦的測(cè)試結(jié)果見(jiàn)表2。
為了更好地直觀分析,對(duì)上述數(shù)據(jù)進(jìn)行繪圖處理,得到不通推薦模型進(jìn)行圖書(shū)推薦的準(zhǔn)確性和召回性對(duì)比結(jié)果如圖1所示。
分析上述實(shí)驗(yàn)結(jié)果得知,采用本文方法進(jìn)行數(shù)字圖書(shū)館的關(guān)聯(lián)書(shū)目推薦,準(zhǔn)確度較高,可靠度較好,表明本文方法具有優(yōu)越性。
4 結(jié) 語(yǔ)
為了提高數(shù)字圖書(shū)館的圖書(shū)推薦和檢索能力,本文提出一種基于相似度標(biāo)簽索引和關(guān)聯(lián)規(guī)則挖掘的數(shù)字圖書(shū)館中的關(guān)聯(lián)書(shū)目檢索推薦方法。首先在傳統(tǒng)的內(nèi)容推薦和協(xié)同過(guò)濾推薦的基礎(chǔ)上,計(jì)算數(shù)字圖書(shū)館中的關(guān)聯(lián)圖書(shū)書(shū)目的相似度標(biāo)簽信息參量。然后在相似度便簽索引下進(jìn)行圖書(shū)檢索的語(yǔ)義分析,在語(yǔ)義本體模型中通過(guò)關(guān)聯(lián)規(guī)則挖掘?qū)崿F(xiàn)對(duì)相似用戶和相似書(shū)目的信息融合和協(xié)同推薦,提高了對(duì)數(shù)字圖書(shū)館的檢索效能。研究得出。本文提出的推薦方法相比于傳統(tǒng)方法具有較高的推薦準(zhǔn)確性和可靠性。
參考文獻(xiàn)
[1] 王翠萍,楊冬梅.知識(shí)門戶的個(gè)性化服務(wù)現(xiàn)狀及優(yōu)化研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2009,35(5):117?122.
[2] MAHMOUD E E. Complex complete synchronization of two nonidentical hyperchaotic complex nonlinear systems [J]. Mathematical methods in the applied sciences, 2014, 37(3): 321?328.
[3] PALOMARES I, MARTINEZ L, HERRERA F. A consensus model to detect and manage non?cooperative behaviors in large scale group decision making [J]. IEEE trans on fuzzy system, 2014, 22(3): 516?530.
[4] ZHANG H, WANG Z, LIU D A. Comprehensive review of stability analysis of continuous?time recurrent neural networks [J]. IEEE trans on neural networks and learning systems, 2014, 25(7): 1229?1262.
[5] CRESPOA Rubén González, MART?NEZB Oscar Sanjuán, LOVELLEB Juan Manuel Cueva, et al. Recommendation system based on user interaction data applied to intelligent electronic books [J]. Computers in human behavior, 2011, 27 (4): 1445?1449.
[6] AHU Sieg, BAMSHAD Mobasher, ROBIN Burke. Improving the effectiveness of collaborative recommendation with ontology?based user profiles [C]// Proceedings of the 1st International Workshop on Information Heterogeneity and Fusion in Recommender Systems. [S.l.]: HetRec, 2010: 39?46.