面向OPAC的非個性化圖書推薦算法

2021-02-04 07:50鄒鼎杰方世敏

現(xiàn)代情報 2021年2期

鄒鼎杰方世敏

摘?要：[目的/意義]OPAC書目檢索系統(tǒng)用戶處于非登錄狀態(tài)，系統(tǒng)無法獲取用戶個人信息，個性化推薦算法難以發(fā)揮作用，有必要探索非個性化推薦算法。[方法/過程]首先提出基于圖書語義相似度的圖書推薦算法，通過構(gòu)建向量空間模型計算圖書語義相似度，向讀者推薦與當前瀏覽圖書相似的圖書;然后提出基于共借關(guān)系的圖書推薦算法，向讀者推薦借閱了當前瀏覽圖書的讀者還借閱過的其他圖書;最后討論了兩種算法的融合策略。[結(jié)果/結(jié)論]選取10本圖書作為推薦窗口，在復旦大學圖書館真實借閱數(shù)據(jù)集上進行實驗，推薦成功率為20%。每5名讀者中有1名讀者能在推薦列表中發(fā)現(xiàn)自己后續(xù)會借閱的圖書。

關(guān)鍵詞：OPAC;圖書推薦;非個性化推薦;高校圖書館;復旦大學

DOI：10.3969/j.issn.1008-0821.2021.02.013

〔中圖分類號〕G251?〔文獻標識碼〕A?〔文章編號〕1008-0821（2021）02-0125-07

Abstract：[Purpose/Significance]Non-personalized Book Recommendation Algorithm is necessary for OPAC book retrieval system，because users are always in the state of logging out.It is impossible to access user information，without which personalized recommendation algorithm cannot work efficiently.[Method/Process]Firstly，book recommendation algorithm based on semantic similarity was designed with vector space model recommending books similar to book browsing.Secondly，algorithm based on relation of same readers was introduced，which recommended books borrowed by readers who also borrowed the book that the user was browsing.Lastly，methods to merge two algorithm were discussed.[Results/Conclusion]With ten recommending books，the result of experiment on Fudan University library's book borrowed datasets showed that success rate of algorithm was 20%，such that one in five readers could find at least one books that he would borrow in recommending book list.

Key words：OPAC;book algorithm;non-personalized book recommendation;university library

高等學校圖書館是學校的文獻信息資源中心，主要任務(wù)是建設(shè)全校的文獻信息資源體系和建立健全全校的文獻信息服務(wù)體系[1]。據(jù)教育部高等學校圖書情報工作指導委員會統(tǒng)計[2]，我國高校圖書館館均紙質(zhì)文獻資源購置費為每年200余萬元，中山大學圖書館等高校每年采購紙質(zhì)圖書的經(jīng)費高達1億元。根據(jù)各高校圖書館官網(wǎng)介紹，中山大學圖書館紙質(zhì)館藏總量達685.14萬冊，復旦大學圖書館收藏紙本、報紙合訂本資源約546.4萬冊，浙江大學圖書館實體館藏總量達655.8萬冊。面對海量的館藏圖書，如何讓讀者發(fā)現(xiàn)并利用這些圖書，讓“每本書有其讀者”是圖書館在建設(shè)學校文獻信息服務(wù)體系的時候需要考慮的關(guān)鍵問題。

OPAC（Online Public Access Catalogue，聯(lián)機公共檢索目錄）是圖書與讀者之間的橋梁。對于采取閉架借閱制度的書庫，OPAC系統(tǒng)是圖書與讀者之間的唯一橋梁。OPAC系統(tǒng)的主要職能是書目檢索，讀者在明確自己所需圖書主題或者知道所需圖書標題、作者、出版社等檢索點時，通過輸入檢索表達式查閱圖書。檢索只能滿足讀者顯性的、意識到的、能夠用檢索式表達的圖書需求，無法滿足讀者隱性的、潛在的、尚未用檢索式表達的圖書需求。大量所需圖書因為無法出現(xiàn)在檢索結(jié)果中不被讀者知曉，無法發(fā)揮應(yīng)用作用。圖書推薦可以根據(jù)讀者的檢索、瀏覽等行為數(shù)據(jù)以及圖書館的圖書借閱數(shù)據(jù)“猜測”讀者可能需要的圖書，彌補檢索帶來的不足。

1?相關(guān)研究評述

根據(jù)推薦書目是針對1位讀者還是多位讀者，圖書推薦分為個性化圖書推薦和非個性化圖書推薦。個性化圖書推薦根據(jù)讀者借閱歷史等個人信息生成書單，不同讀者收到的推薦書單并不相同，能夠做到“千人千面”。非個性化推薦通常面向特定用戶群體提供一份相同的書單。

非個性化圖書推薦由來已久。《論語》中就有孔子向弟子推薦《詩經(jīng)》的記載[3]。梁啟超編《西學書目表》，向公眾推薦300余種圖書，影響廣泛。這種依托領(lǐng)域?qū)＜一蛘邎D書館館員生成的閱讀書單至今仍然是重要的圖書推薦手段，一般稱作書目推薦[4]。除了依靠人工推薦圖書，依托計算機技術(shù)生成書單也逐漸受到關(guān)注。黎邦群[5]受到信息檢索中查詢推薦的啟發(fā)，提出了基于檢索行為的非個性化圖書推薦算法，認為通過用戶的檢索歷史記錄可以提供更有效的圖書推薦，是非個性化圖書推薦算法的一次不錯嘗試。明均仁等[6]提出一種推薦書目自動生成方法，通過收集豆瓣讀書、京東圖書、卓越亞馬遜等網(wǎng)站的書評數(shù)據(jù)，經(jīng)過數(shù)據(jù)預(yù)處理、資源整合、書單生成、人工篩選等步驟自動生成書單，使推薦書目更加高效且擁有群體智慧。劉麗帆等[7]從形式、效用、內(nèi)容等維度提出了一種高校圖書熱門TOP圖書的評價模型，用于向讀者提供一份熱門TOP書單。在非圖書領(lǐng)域，崔春生等[8]提出了一種基于Vague值的非個性化產(chǎn)品推薦策略，Chakraborty A等[9]針對紐約時報、CNN等新聞網(wǎng)站用戶處于非登錄狀態(tài)問題，圍繞時效性、新穎性和多樣性3個目標提出了新聞的非個性化推薦方法。相對于個性化推薦，依托計算機技術(shù)生成書單的非個性化推薦理論研究比較稀缺，缺乏對圖書館中的借閱數(shù)據(jù)和圖書的著錄數(shù)據(jù)的挖掘和利用。實踐層面，圖書館OPAC系統(tǒng)的非個性化推薦卻比較普遍。李民等[10]通過訪問國內(nèi)116所“211工程”院校的圖書館網(wǎng)站，發(fā)現(xiàn)100%的圖書館都提供非個性化推薦服務(wù)，主要有新書通告、熱門檢索、熱門借閱、借閱排行等，這些推薦通常以一個簡單頁面將全部信息呈現(xiàn)給所有用戶，不夠靈活、缺乏智能。郭婧婧等[11]發(fā)現(xiàn)城市圖書館推薦系統(tǒng)的非個性化推薦主要有兩類：一類是基于統(tǒng)計分析的推薦方法，如借閱排行、熱門檢索、熱門借閱;另一類是基于手工的推薦方法，比如新生推薦、特色館藏推薦等;但均存在智能化程度不高的問題，與李民等[10]的調(diào)查結(jié)果相一致。

實際上，個性化圖書推薦的智能化程度更高，也是當前研究熱點。只是個性化推薦算法要求用戶處于“登錄”狀態(tài)以獲取用戶的借閱歷史、性別、年級等個人信息，而OPAC系統(tǒng)用戶通常處于“游客”狀態(tài)，個人信息難以被系統(tǒng)獲取，個性化推薦算法難以發(fā)揮作用。個性化推薦算法雖然無法直接用于非個性化推薦，但是其中的思想可以指導非個性化算法的設(shè)計。本文通過對個性化推薦算法的改進，提出了用戶非登錄狀態(tài)下的非個性化推薦算法。

2?算法設(shè)計

圖書推薦算法的目的是從大量圖書中過濾掉用戶不需要的圖書，篩選出用戶需要的圖書。如果不引入額外信息、根據(jù)等可能假設(shè)，用戶對每本圖書的需要程度是相同的，在海量圖書中發(fā)現(xiàn)用戶所需圖書的概率是1/N，其中N為圖書總數(shù)量，通常在幾十萬至幾百萬不等，這是一個很小的概率。推薦算法通過引入額外信息消除不確定性，增加用戶所需圖書被推薦的概率。引入的額外信息包括以下3種：①圖書的內(nèi)容特征，包括標題、作者、出版社、主題詞、分類號等，這些特征是讀者選取圖書的依據(jù);②圖書借閱歷史，即所有讀者在過去借閱圖書的歷史記錄。借閱歷史是協(xié)同過濾圖書推薦算法依賴的信息，該算法認為擁有相似借閱偏好的讀者在未來也將借閱相似圖書，以此作為圖書推薦依據(jù);③待推薦讀者的個人信息，既包括讀者的年級、專業(yè)等屬性信息，也包括讀者借閱圖書的歷史記錄。在非個性化推薦算法中，系統(tǒng)無法獲取第3種信息，但依然能獲取第1和第2兩種信息。利用第1種信息發(fā)現(xiàn)讀者所需圖書的算法通常稱作基于內(nèi)容的推薦算法，本文將其稱作基于語義相似度的推薦算法，該算法向讀者推薦與當前瀏覽圖書語義上最相近的k本圖書。利用第2種信息的推薦算法通常稱作協(xié)同過濾算法，本文將其稱作基于共借關(guān)系的推薦算法，該算法向讀者推薦借閱了當前瀏覽圖書的讀者都還借閱了其他k本圖書。

2.1?基于語義相似度的非個性化推薦

語義是指文字載體承載的意義，意義是人們對世界的認識。意義通常在表達時賦予，在閱讀時理解。算法可以在特定維度上“理解”文字載體上的意義，典型的做法有自上而下地構(gòu)建本體和自下而上地提取特征兩種。前者對領(lǐng)域?qū)＜业囊蕾嚦潭容^大，后者從海量數(shù)據(jù)中提取的統(tǒng)計特征。本文采用后一種思路，利用向量模型計算圖書的語義相似度。

計算語義相似度之前有兩個關(guān)鍵步驟：特征詞的選取和特征詞權(quán)重的確定。OPAC系統(tǒng)中的圖書是紙質(zhì)圖書。紙質(zhì)圖書的特點是只有標題、作者、出版社等屬性數(shù)據(jù)是電子化的，能夠作為特征詞的來源。紙質(zhì)圖書的內(nèi)容一般不會電子化，難以成為特征詞來源。相對于電子書、網(wǎng)頁等載體，紙質(zhì)圖書的特征詞來源稀缺。因此，紙質(zhì)圖書的特征詞提取應(yīng)當使用細粒度的分詞技術(shù)以提升圖書召回率。選用TF-IDF作為特征詞權(quán)重，特征詞i在圖書j中的權(quán)重計算方法如式（1）所示，其中N是圖書館的館藏圖書種數(shù)，ni是包含有特征詞i的圖書種數(shù)，log2N/ni是反比文檔頻率（Inverse Document Frequency，IDF）的標準計算公式;fij是特征詞i在圖書j中的詞頻（Term Frequency，TF），為了與IDF值具有可比性，對頻率fij做了取以2為底的對數(shù)處理，并通過加1避免出現(xiàn)值為0的情況。沒有在圖書j中出現(xiàn)過的特征詞權(quán)值為0。

假設(shè)總共從館藏圖書中提取出t個特征詞，利用t維向量表示圖書的語義特征。圖書bi和bj的向量空間分別如式（2）和式（3）所示。利用向量間的余弦夾角表示圖書之間的語義相似度，計算方法如式（4）所示。

圖書館藏有圖書規(guī)模較大，圖書的特征詞數(shù)量t是一個較大數(shù)值。以復旦大學圖書館5年間的借閱數(shù)據(jù)集為例，總共從數(shù)據(jù)集中提取40余萬個特征詞;但由于紙質(zhì)圖書特征詞來源的稀疏性，一本圖書的特征詞通常不超過10個。如果直接使用向量存儲特征詞，空間利用率為1/40 000，利用率極低。該借閱數(shù)據(jù)集僅包含了該校圖書館不到1/10的圖書，如果要表示該館所有圖書，特征向量會更長，空間利用率會更低。改用哈希表分別存儲每本書的特征值權(quán)值將極大地節(jié)省存儲空間。為每本圖書創(chuàng)建一個哈希表，表的鍵是圖書包含的特征詞，表的值是對應(yīng)特征詞的權(quán)值，沒有在圖書中出現(xiàn)過的特征詞的權(quán)值為零，無需存儲。圖書bi與bj之間語義相似度計算方法如式（5）所示，式中C是圖書b的特征詞集合，H是圖書b的特征詞哈希表，H[c]是特征詞c對應(yīng)的特征權(quán)值。

為了給一本圖書尋找與其最鄰近的k本圖書，需要計算這本圖書與其余所有圖書的語義距離，然后根據(jù)距離排序，找出排名前k的圖書。算法為每本圖書尋找與其最鄰近的k本圖書。如果圖書館有N本圖書，需要進行C2N次距離計算，計算時間復雜度為O（N2）。高校圖書館藏有圖書規(guī)模較大，難以接受該計算復雜度。以擁有100萬藏書的圖書館為例，需要進行1 000億次距離計算。即便每次距離計算耗時為1微秒，所需耗時將達11天。大多數(shù)高校圖書館藏書都在100萬以上。好消息是圖書館中絕大多數(shù)圖書之間的語義相似度是0，即圖書bi的特征詞集合Ci與圖書bj的特征詞集合Cj的交集為空，Ci∩Cj=。利用索引技術(shù)找出與圖書b距離非0的所有圖書集合Cb，在Cb中尋找與圖書bi最鄰近的k本書。由于Cb的規(guī)模遠小于整個圖書館的圖書數(shù)量，因此可以極大地降低計算復雜度，使基于語義相似度的非個性化推薦算法變得可行。使用哈希表MAP表示該索引，其中的鍵是特征詞c，對應(yīng)的哈希值MAP[c]是包含有該特征詞的所有圖書集合B。圖1是在哈希表中查找與圖書b距離非零圖書集合Cb的算法。關(guān)鍵步驟為（1）～（3），不斷根據(jù)特征詞查找包含有該詞的圖書并添加到集合Cb。圖書b自身也會被查詢并添加到集合Cb中，因此需要在步驟（4）將b從Cb中移除。

搜索到與待推薦圖書b距離非零的圖書集合Cb后，根據(jù)式（5）計算圖書b與Cb中每一本圖書的距離，排序后取相似度最高的前k本圖書，即為向用戶推薦的圖書?；谡Z義相似度的非個性化推薦算法可以視作一種查詢擴展技術(shù)，即通過讀者對圖書的點擊信息幫助讀者重構(gòu)查詢式，并將查詢排名前k的圖書展現(xiàn)給讀者。該思想與文獻[5]有相似之處。

2.2?基于共借關(guān)系的非個性化推薦

共借關(guān)系是指圖書bi與bj共同被若干名讀者借閱的關(guān)系，這兩本書或許在語義上有較高的相似度，也有可能在語義上體現(xiàn)不出相似度，是由于其他因素被共同借閱?；诠步桕P(guān)系的推薦算法被認為比基于語義的推薦算法更能幫助讀者發(fā)現(xiàn)新穎圖書。協(xié)同過濾算法利用圖書之間的共借關(guān)系向讀者推薦圖書，這種推薦算法無法直接應(yīng)用于非個性化推薦，需要做相應(yīng)改進。

在協(xié)同過濾算法中，計算兩本圖書鄰近關(guān)系的方法主要有余弦相似度和皮爾遜相似度，這兩種相似度計算方法無法直接適用于共借讀者人數(shù)較少的情況。由于兩種計算方法原理類似，以余弦相似度為例說明。余弦相似度的計算方法如式（6）所示，Ri是圖書bi的讀者集合，Rj是圖書bj的讀者集合，daysrb是用戶r借閱圖書b的天數(shù)。如果兩本圖書只有1名讀者借閱，這兩本圖書的余弦相似度為1，即最大值;如果兩本圖書本有兩名讀者借閱，僅當這兩名讀者的借閱天數(shù)相等時，余弦相似度才等于1，否則余弦相似度將小于1。也就是說，兩本圖書共被借閱的人數(shù)為1時，它們之間的相似度最大;隨著這兩本圖書共借人數(shù)的增加，這兩本圖書的相似度會逐漸下降。該算法不符合常識。實際上，余弦相似度和皮爾遜相似度僅在圖書的共借人數(shù)較多且相等時有比較價值。決定圖書之間共借相似度的首要因素是共借讀者人數(shù)n。因此將圖書共借關(guān)系強度定義為式（7），即共借人數(shù)與余弦相似度之和。共借人數(shù)是整數(shù)，余弦相似度的值域區(qū)間為（0，1]。從數(shù)值上比較圖書之間共借關(guān)系強度時，共借讀者人數(shù)是首要因素，余弦相似度是次因素。

基于共借關(guān)系的推薦算法與基于語義相似度的推薦算法面臨類似問題——需要計算每本圖書之間的距離，由此帶來的時間復雜度已經(jīng)在上一節(jié)中論述，在此不再贅述。類似地，圖書館中擁有共借關(guān)系的圖書并不多，因此可以直接提取擁有共借關(guān)系的圖書而忽略沒有共借關(guān)系的圖書。高校圖書館的讀者借閱記錄通常保存在數(shù)據(jù)庫中，可以利用數(shù)據(jù)庫的連接查詢技術(shù)快速獲取擁有共借關(guān)系的圖書。在查詢到與圖書b具有共借關(guān)系的圖書集合以后，根據(jù)式（7）計算圖書之間的共借關(guān)系距離，排序后取前k本圖書推薦給讀者。

2.3?融合語義相似度和共借關(guān)系的非個性化推薦

基于語義相似度的推薦算法與基于共借關(guān)系的推薦算法有各自的優(yōu)勢，也有各自的劣勢?；谡Z義相似度的推薦算法通常向用戶推薦主題相近的圖書，這些圖書或者在標題上具有某種相似度，或者來自同一作者，或者來自同一出版社，或者兼而有之。對于正在進行主題閱讀的讀者，語義推薦算法能夠給他們帶來較大幫助，因為推薦算法能夠滿足他們發(fā)現(xiàn)同一主題下大量圖書的需求。語義推薦算法的弊端也很明顯，這些主題相近的圖書通常在相鄰排架甚至同一排架，即便沒有推薦系統(tǒng)，讀者也可以在排架上方便地找到這些圖書?；诠步桕P(guān)系的推薦算法是在向讀者回答“讀過這本書的人還讀過哪些書？”，推薦的圖書在語義上可能相關(guān)，也可能無關(guān)?；诠步桕P(guān)系的算法更能夠給讀者帶來新穎性，能夠幫助讀者發(fā)現(xiàn)意想不到的圖書，通常認為基于共借關(guān)系的推薦算法優(yōu)于基于語義相似度的推薦算法。但是基于共借關(guān)系的算法存在一個弊端——冷啟動問題，對于借閱率較低的圖書，算法甚至無法找到足夠數(shù)量的推薦圖書;對于從未被借閱過的圖書，算法無法根據(jù)共借關(guān)系作出推薦。兩種算法的融合能發(fā)揮各自優(yōu)勢，帶來更好的推薦效果。本文提出了平等融合和補充融合兩種策略，前者在把兩種推薦算法視作同等地位，后者以基于共借關(guān)系的推薦算法為主，基于語義相似度的推薦算法作為補充，解決冷啟動問題。

平等融合算法認為通過語義關(guān)系和共借關(guān)系獲得的圖書具有同等重要的推薦價值，首選同時被兩種算法推薦的圖書，然后根據(jù)排名先后選取只被一種算法推薦的圖書。同時被兩種算法推薦的圖書根據(jù)在各自推薦列表中的排名求和后重新排名。通過例子說明選取和排序的規(guī)則。假設(shè)推薦5本圖書，兩種算法給出的推薦圖書分別是a、b、c、d、e和g、c、e、b、f。同等融合算法首選同時出現(xiàn)在兩個列表的圖書b、c、e，這3本圖書在兩個列表的排名之和分別是6、5、8，因此排序應(yīng)當是c、b、e。然后從余下圖書中選取排名靠前的a和g構(gòu)成5本推薦圖書。

補充融合算法認為共借關(guān)系推薦的圖書最重要，語義算法推薦的圖書在共借算法無法發(fā)現(xiàn)足夠圖書時作為補充。假設(shè)推薦窗口為k本，如果共借算法能夠發(fā)現(xiàn)k本以上圖書，則使用該算法發(fā)現(xiàn)的前k本圖書;如果共借算法只發(fā)現(xiàn)j（j

3?實驗結(jié)果及其分析

評估推薦算法的常用方法有離線評估、用戶調(diào)查和在線評估，本研究根據(jù)實際情況選擇了復旦大學圖書館的真實外借數(shù)據(jù)集進行離線評估。

3.1?數(shù)據(jù)集

測試數(shù)據(jù)為復旦大學圖書館在2013—2017年間的所有圖書借閱記錄，該數(shù)據(jù)集由2019年首屆“慧源共享”上海高校開放數(shù)據(jù)創(chuàng)新研究大賽主辦方提供，包含有該高校5萬余名讀者在2013—2017年間對大約40萬種圖書的160余萬條借閱記錄。由于高等院校的教學活動以學年為單位進行，為了更接近高校圖書館圖書推薦的真實情況，將數(shù)據(jù)集分為2013—2014年、2014—2015年、2015—2016年和2016—2017年4個學年，以前3個學年的借閱數(shù)據(jù)作為基于共借關(guān)系的非個性化推薦算法的訓練集，以2016—2017學年的借閱數(shù)據(jù)作為測試集?；谡Z義的推薦算法以所有圖書作為訓練集，以2016—2017學年的借閱數(shù)據(jù)作為測試集。

3.2?評估方法

選取最終效用作為評估標準，即推薦窗口的圖書是否包含用戶后續(xù)借閱圖書。以2016—2017學年借閱兩本以上圖書的讀者作為測試標準，假設(shè)讀者借閱的第1本圖書在OPAC系統(tǒng)中檢索過，且讀者瀏覽了這本書的詳細頁面。在這本書的詳細頁面中，算法將推薦10本與第1本圖書相關(guān)的圖書，如果推薦窗口中有用戶后續(xù)借閱的圖書，則認為是一次成功的推薦;如果窗口中任何一本圖書都沒有被讀者借閱過，則認為是一次失敗的推薦。舉例說明，讀者r在2016—2017學年間按照時間先后順序借閱3本圖書b1、b2、b3，假設(shè)讀者r借閱圖書b1時在OPAC系統(tǒng)上檢索并瀏覽了該書的詳情頁面，算法將在頁面底部根據(jù)圖書b1推薦10本圖書，如果r后續(xù)借閱的圖書b2或b3出現(xiàn)在這10本圖書之中，則認為算法是一次成功的推薦;如果后續(xù)任何一本圖書均沒有出現(xiàn)在推薦范圍內(nèi)，則認為是一次失敗的推薦。以推薦成功率作為評估效果的指標，計算方法是成功推薦次數(shù)除以總推薦次數(shù)。

3.3?實驗結(jié)果

3.3.1?算法的成功率

4種推薦算法的成功率如圖2所示?；诠步桕P(guān)系的推薦效果略好于基于語義相似度的推薦效果。融合以后的推薦效果要好于單一推薦算法的效果，但提升的程度并不十分明顯。把語義推薦結(jié)果和共借推薦結(jié)果視作同等重要的平等融合的效果最好，以共借關(guān)系為主，語義關(guān)系為輔的補充融合算法雖然也能起到一定改進作用，但效果不如前者。從實用的角度，每5名讀者中有1名讀者能夠在推薦列表中發(fā)現(xiàn)他這一學年會借閱的圖書，是一個可以讓讀者接受的推薦效果。

3.3.2?推薦窗口大小對成功率的影響

推薦窗口大小是指最多允許向讀者推薦的圖書數(shù)量。圖3中，橫坐標為推薦窗口大小，縱坐標是推薦成功率。圖中可以看出，推薦窗口大小與推薦成功率表現(xiàn)為成類似對數(shù)函數(shù)的曲線關(guān)系，在推薦窗口較小時，推薦成功率隨窗口的增大而迅速增大;在窗口較大時，推薦成功率的增幅趨于平緩。這說明盲目增大窗口并不是總能帶來更好的效果，過大的推薦窗口反而會帶來糟糕的用戶體驗。

3.3.3?推薦算法對不同受眾的影響

高等院校圖書館的讀者主要有本科生、碩士生、博士生和教職員工，他們的借閱習慣存在一定差異，因此體驗到的最終效果也存在一定差異。整體來看，推薦算法在本科生中的效果最好，在教職員工中的效果最差，這與訓練樣本中本科生遠多于教職員工有關(guān)，數(shù)據(jù)驅(qū)動的算法更有利于大多數(shù)群體。對于本科生人群，基于共借關(guān)系的推薦算法成功率遠高于基于語義推薦算法的成功率，說明本科生讀者的共借關(guān)系比較密切。本科生的主要任務(wù)是學習公共課和專業(yè)課，所學內(nèi)容比較相近，因此共借關(guān)系比較密切。隨著學歷層次的增加，基于語義推薦算法的成功率逐漸增加，而基于共借關(guān)系的推薦算法成功率逐漸下降。原因是學歷越高的讀者，他們之間的需求差異越大，共借關(guān)系偏弱。而他們研究的書目普遍處于同一主題，因此基于語義推薦的算法更有效。通過上述分析，可以清晰地看到同一個算法面向不同受眾的弊端，在個性化推薦算法中，這些弊端將得到較好地解決。

4?結(jié)?語

針對OPAC系統(tǒng)用戶普遍處于非登錄狀態(tài)，個性化推薦算法難以發(fā)揮效用的問題，本文分別從語義相似度和共借關(guān)系兩個角度提出了兩種圖書非個性化推薦算法。通過構(gòu)建詞向量模型計算圖書之間的語義相似度，提出基于語義相似度的算法，推薦成功率為15.5%;基于共借關(guān)系的推薦成功率為17.2%。兩種算法有各自的優(yōu)勢也有各自的缺點，提出了兩種算法融合策略：一種是基于平等關(guān)系的融合策略，該策略把兩種算法推薦的結(jié)果視作同等重要，推薦成功率為22.1%;另一種是以共借關(guān)系為主體以語義關(guān)系為補充的融合算法，推薦成功率為19.1%。另外，本文還討論了在大規(guī)模圖書和讀者條件下算法的實現(xiàn)問題，通過引入哈希表有效節(jié)省了向量空間模型帶來的存儲開銷，通過引入索引技術(shù)解決了距離計算量的問題。

需要說明的是，成功率并非評估推薦算法的標準，多樣性、驚喜度等在推薦算法中同樣重要。在實踐中，推薦算法的選擇還應(yīng)當與圖書館的服務(wù)宗旨和服務(wù)理念相一致。因此，本文提出的4種推薦算法沒有絕對的優(yōu)劣之分，只有在不同場景下合適還是不合適的區(qū)別。

參考文獻

[1]中華人民共和國教育部.普通高等學校圖書館規(guī)程[EB/OL].http：//www.scal.edu.cn/gczn/sygc，2020-02-20.

[2]教育部高等學校圖書情報工作指導委員會秘書處.2018年高校圖書館發(fā)展報告[EB/OL].http：//www.scal.edu.cn/sites/default/files/attachment/tjpg/2018年中國高校圖書館發(fā)展報告.pdf，2020-02-20.

[3]王心裁.文化沖突交融中的導讀目錄[J].圖書情報知識，1998，（4）：2-6.

[4]蔣小峰.近十年來我國圖書館推薦書目服務(wù)研究綜述[J].圖書館理論與實踐，2017，（9）：6-11，20.

[5]黎邦群.基于檢索行為的非個性化圖書推薦[J].圖書館雜志，2013，32（8）：36-41.

[6]明均仁，周知，陳雪.閱讀推廣推薦書目的自動生成研究[J].圖書館論壇，2017，37（10）：94-99，113.

[7]劉麗帆，朱紫陽.基于“全評價”理論的高校圖書館熱門TOP圖書推薦模型研究[J].圖書情報工作，2018，62（7）：47-53.

[8]崔春生，蘇白云.基于Vague值的非個性化產(chǎn)品推薦研究[J].計算機工程與應(yīng)用，2012，48（13）：63-66.

[9]Chakraborty A，Ghosh S，Ganguly N.Optimizing the Recency-Relevance-Diversity Trade-offs in Non-personalized News Recommendations[J].Information Retrieval Journal，2019，22（5）：447-475.

[10]李民，王穎純，劉燕權(quán).“211工程”高校圖書館館藏資源推薦系統(tǒng)調(diào)查探析[J].圖書情報工作，2016，60（9）：55-60.

[11]郭婧婧，王穎純，劉燕權(quán).城市圖書館館藏資源推薦系統(tǒng)調(diào)查分析[J].圖書館學研究，2019，（4）：76-82，101.

（責任編輯：郭沫含）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

面向OPAC的非個性化圖書推薦算法