摘要:該文針對(duì)現(xiàn)有推薦方法推薦準(zhǔn)確率過低的問題,開展智慧圖書館文獻(xiàn)資源個(gè)性化推薦方法設(shè)計(jì)研究。先通過用戶畫像的應(yīng)用,構(gòu)建用戶興趣特征模型。然后提取文獻(xiàn)資源特征,實(shí)現(xiàn)文獻(xiàn)資源特征與用戶興趣特征的匹配,實(shí)現(xiàn)文獻(xiàn)資源個(gè)性化推薦。最后應(yīng)用對(duì)比實(shí)驗(yàn)證明所提方法的先進(jìn)性。實(shí)驗(yàn)結(jié)果證明,新的推薦方法可有效促進(jìn)文獻(xiàn)資源推薦準(zhǔn)確率的提升,應(yīng)用效果較好。
關(guān)鍵詞:用戶畫像;文獻(xiàn)資源;推薦;個(gè)性化;智慧圖書館
doi:10.3969/J.ISSN.1672-7274.2024.07.012
中圖分類號(hào):TP 391.41 文獻(xiàn)標(biāo)志碼:B 文章編碼:1672-7274(2024)07-00-03
Research on Personalized Recommendation Method for Literature Resources
in Smart Libraries Based on User Profile
ZHANG Fengtao
(Taiyuan Library, Taiyuan 030024, China)
Abstract: This article focuses on the problem of low recommendation accuracy in existing recommendation methods, and conducts research on the design of personalized recommendation methods for literature resources in smart libraries. Firstly, construct a user interest feature model tSEcRyou0Bvfaf8GjXcyfwg==hrough the application of user profiling. Then extract the features of literature resources, match them with user interest features, and achieve personalized recommendation of literature resources. Finally, comparative experiments are carried out to prove the progressiveness of the proposed method. The experimental results show that the new recommendation method can effectively promote the improvement of accuracy in literature resource recommendation, and the application effect is good.
Keywords: user profile; literature resources; recommendation; personalization; smart library
隨著信息技術(shù)的飛速發(fā)展,圖書館的文獻(xiàn)資源數(shù)量和種類快速增長,這為讀者提供了更多的選擇,但同時(shí)增加了讀者查找和篩選所需信息的時(shí)間和難度。為了解決這一問題,智慧圖書館應(yīng)運(yùn)而生[1]。智慧圖書館是一種利用先進(jìn)的信息技術(shù),實(shí)現(xiàn)圖書館的數(shù)字化、網(wǎng)絡(luò)化、智能化服務(wù)管理模式,以更加便捷、高效的方式為廣大讀者提供服務(wù)的圖書館[2]。為促進(jìn)智慧圖書館的建設(shè)與發(fā)展,本文結(jié)合用戶畫像技術(shù),開展對(duì)智慧圖書館文獻(xiàn)資源個(gè)性化推薦方法的設(shè)計(jì)研究。
1 基于用戶畫像的用戶興趣特征模型構(gòu)建
先構(gòu)建基于用戶畫像的用戶興趣特征模型,步驟如下。
第一步,數(shù)據(jù)收集。首先需要收集用戶的基本信息、閱讀歷史、搜索記錄等數(shù)據(jù),這些數(shù)據(jù)可以來自于圖書館的借閱系統(tǒng)、網(wǎng)站日志、社交媒體等渠道。
第二步,數(shù)據(jù)預(yù)處理。對(duì)收集到的數(shù)據(jù)進(jìn)行清洗、去重、標(biāo)準(zhǔn)化等預(yù)處理操作,以保證數(shù)據(jù)的質(zhì)量和準(zhǔn)確性。
第三步,用戶畫像構(gòu)建。利用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等技術(shù),對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行處理和分析,提取出用戶的個(gè)性化特征,形成一個(gè)較為完整的用戶畫像[3]。在構(gòu)建用戶畫像時(shí),將用戶項(xiàng)目評(píng)分矩陣作為基礎(chǔ),用戶興趣特征模型可以用用戶—項(xiàng)目評(píng)分矩陣表示,其中,為用戶數(shù)量;標(biāo)識(shí)線項(xiàng)目的數(shù)量。在該評(píng)分矩陣當(dāng)中,某一用戶對(duì)某一項(xiàng)目的評(píng)分可用表示。構(gòu)建如表1所示的用戶—項(xiàng)目評(píng)分矩陣。
基于用戶畫像的用戶興趣特征模型具有結(jié)構(gòu)簡(jiǎn)單、易于實(shí)現(xiàn)、無須對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、直接利用已有的評(píng)價(jià)數(shù)據(jù)對(duì)用戶進(jìn)行推薦等優(yōu)點(diǎn)。通過對(duì)任意兩個(gè)特征向量的相似程度進(jìn)行分析,得出兩個(gè)用戶感興趣的相似性或兩個(gè)項(xiàng)目的相似性[4]。與聚類等其他方法相結(jié)合,可以有效地提高搜索的效率。本文引入K-means聚類算法,將項(xiàng)目看作樣本,使用樣本距離作為劃分標(biāo)準(zhǔn)。樣本距離與樣本相似度之間存在反比例關(guān)系。兩個(gè)樣本之間的距離越短,則其相似度越高。根據(jù)這一理論,通過歐氏距離計(jì)算,確定樣本之間的距離:
(1)
式中,為第個(gè)樣本對(duì)象;為第個(gè)聚類中心;為樣本維度;為兩個(gè)樣本之間的歐氏距離。在聚類的過程中,每一次迭代都需要重新完成對(duì)聚類中心的計(jì)算,求得聚類中所有樣本的平均值。假設(shè)某一類別的聚類中心為,則可通過式(2)計(jì)算得出:
(2)
式中,為聚類集合。根據(jù)上述公式不斷迭代并重新進(jìn)行類別劃分,更新。在滿足終止條件后,完成迭代。
第四步,用戶興趣特征提取。從用戶畫像中提取出與興趣相關(guān)的特征,如閱讀歷史中出現(xiàn)的書籍類別、關(guān)鍵詞等,這些特征可以反映出用戶的興趣愛好和閱讀習(xí)慣。
2 文獻(xiàn)資源特征與用戶興趣特征匹配
通過上述論述,結(jié)合用戶畫像,完成對(duì)用戶興趣特征模型的構(gòu)建后,為實(shí)現(xiàn)文獻(xiàn)資源特征與用戶興趣特征匹配,提取智慧圖書館文獻(xiàn)資源特征[5]。文獻(xiàn)資源特征提取的基本流程如圖1所示。
文獻(xiàn)的特征提取與用戶的興趣提取相似。第一步是對(duì)每一篇文獻(xiàn)進(jìn)行數(shù)據(jù)的預(yù)處理,包括數(shù)據(jù)的清洗、文本類型的變換,以便更好地實(shí)現(xiàn)文本的切分、刪除和特征的提取[6]。第二步,對(duì)文本進(jìn)行切分,獲得文本的分詞結(jié)果,并剔除中文文本中的“這”“否則”“而且”等,英文的“the”“a”等停頓詞,這些單詞對(duì)文本推薦毫無幫助。第三步,采用基于TF-IDF的特征提取方法,對(duì)文本中的特征詞語進(jìn)行加權(quán)處理,以體現(xiàn)該詞語的重要性。第四步,選取具有較高權(quán)重的特征詞語,作為文獻(xiàn)資源特點(diǎn)的表征。
通過提取的特征詞和權(quán)重,表征文獻(xiàn)資源的特征,同樣,通過提取的特征詞和它們的權(quán)重來表達(dá)用戶的興趣特征。然后,通過對(duì)文本信息的相似程度進(jìn)行計(jì)算,將相似程度高的文獻(xiàn)進(jìn)行排序。根據(jù)所得到的特征詞和權(quán)重,再通過訓(xùn)練得到新的特征詞和權(quán)重,對(duì)用戶的興趣和文獻(xiàn)資源進(jìn)行匹配度的計(jì)算。匹配度的數(shù)值可以通過式(3)計(jì)算得出:
(3)
式中,為匹配度值;為從文獻(xiàn)資源中篩選出的權(quán)重較大的特征詞對(duì)應(yīng)權(quán)重;為從用戶興趣特征模型中篩選出的權(quán)重較大的特征詞對(duì)應(yīng)權(quán)重;為文獻(xiàn)資源中篩選出的權(quán)重較大的特征詞的余弦值。通過上述公式對(duì)匹配度的計(jì)算,將得到的值較高的文獻(xiàn)推薦給相應(yīng)的智慧圖書館用戶,以此實(shí)現(xiàn)文獻(xiàn)資源特征與用戶興趣特征匹配,最后依據(jù)匹配結(jié)果實(shí)現(xiàn)個(gè)性化推薦。
3 對(duì)比實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證本文上述提出的基于用戶畫像的推薦方法的應(yīng)用優(yōu)勢(shì),進(jìn)行以下對(duì)比實(shí)驗(yàn)研究:將本文提出的基于用戶畫像的推薦方法設(shè)置為實(shí)驗(yàn)組,將基于改進(jìn)加權(quán)信息熵的推薦方法設(shè)置為對(duì)照A組,將基于知識(shí)圖譜的推薦方法設(shè)置為對(duì)照B組,設(shè)置了8個(gè)不同領(lǐng)域、不同主題的文獻(xiàn)資源,將其作為實(shí)驗(yàn)數(shù)據(jù),并結(jié)合智慧圖書館的實(shí)際情況,在實(shí)驗(yàn)數(shù)據(jù)當(dāng)中增設(shè)了125篇其他主題。在利用三種推薦方法為用戶推薦文獻(xiàn)資源時(shí),設(shè)置不同的用戶興趣特征詞數(shù)量條件,對(duì)比三種方法的推薦結(jié)果,繪制表2所示的推薦結(jié)果對(duì)比表。
從表2的實(shí)驗(yàn)數(shù)據(jù)可以看出,三組推薦方法的推薦結(jié)果準(zhǔn)確率均呈現(xiàn)出隨用戶興趣特征詞數(shù)量增加而增加的變化趨勢(shì)。實(shí)驗(yàn)組推薦結(jié)果的準(zhǔn)確率均高于95.00%,在用戶興趣特征詞數(shù)量為10個(gè)時(shí),準(zhǔn)確率已經(jīng)能夠達(dá)到95.85%的水平,而對(duì)照A組推薦結(jié)果準(zhǔn)確率最高僅為80.25%,對(duì)照B組推薦結(jié)果準(zhǔn)確率最高僅為86.24%。通過上述得出的實(shí)驗(yàn)結(jié)果可以看出,實(shí)驗(yàn)組推薦方法的推薦準(zhǔn)確率最高,能夠?yàn)橹腔蹐D書柜用戶提供更符合其需求的文獻(xiàn)資源。同時(shí),用戶畫像在智慧圖書館中的應(yīng)用,可以幫助圖書館更好地了解讀者的需求和興趣,為讀者提供更加個(gè)性化、精準(zhǔn)的文獻(xiàn)資源推薦服務(wù)。另外,基于用戶畫像的推薦方法也可以提高圖書館的資源利用率和讀者滿意度,為圖書館的發(fā)展和公共文化服務(wù)體系建設(shè)做出貢獻(xiàn)。
4 結(jié)束語
本文深入探討了用戶畫像的概念、原理和應(yīng)用,以及其在智慧圖書館文獻(xiàn)資源個(gè)性化推薦中的作用。通過對(duì)比現(xiàn)有其他兩種推薦方法,驗(yàn)證了基于用戶畫像的智慧圖書館文獻(xiàn)資源個(gè)性化推薦方法的可行性和有效性。在未來的研究中,將進(jìn)一步優(yōu)化基于用戶畫像的智慧圖書館文獻(xiàn)資源個(gè)性化推薦方法,提高推薦的準(zhǔn)確度和效率,加強(qiáng)數(shù)據(jù)分析和挖掘能力,以更好地滿足讀者的需求。
參考文獻(xiàn)
[1] 王麗麗,田燕妮,歐陽靜.基于深度學(xué)習(xí)的高校移動(dòng)圖書館資源推薦研究[J].長春理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2023,36(5):77-81.
[2] 李婷.大數(shù)據(jù)背景下公共圖書館傳統(tǒng)文化資源推薦策略研究[J].河南圖書館學(xué)刊,2021,41(12):45-47,52.
[3] 吳冬梅.基于人工智能的圖書館信息資源推薦檢索平臺(tái)設(shè)計(jì)[J].信息與電腦(理論版),2021,33(13):159-161.
[4] 翟小樂,蔣麗銘,任云鵬.基于協(xié)同過濾的高校圖書館數(shù)字資源個(gè)性化推薦方法[J].信息與電腦(理論版),2023,35(9):96-98.
[5] 陳安琪,金昆,陶興華,等.基于知識(shí)圖譜的圖書館智能化資源推薦系統(tǒng)架構(gòu)與優(yōu)化策略[J].圖書館界,2023(2):21-25.
[6] 于非.基于情境要素適配的高校數(shù)字圖書館資源情境化推薦路徑研究[J].圖書館工作與研究,2021(6):74-81.