国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于線性加權(quán)融合模式的圖書資源推薦方法研究

2018-06-21 09:21譚亮周靜

譚亮 周靜

摘要:隨著計(jì)算機(jī)技術(shù)的發(fā)展,越來(lái)越多的書籍采用數(shù)字化方式進(jìn)行出版,為解決信息過(guò)載,幫助讀者快速查找到需要的圖書資源,本文利用數(shù)字圖書管理系統(tǒng)已有的用戶信息、用戶借閱等信息,采用線性加權(quán)融合模式,設(shè)計(jì)了一種基于圖書資源內(nèi)容過(guò)濾和用戶隱式行為評(píng)分相混合的,并能應(yīng)用于實(shí)際工程環(huán)境的圖書資源個(gè)性化推薦模型,從而為讀者提供快速、準(zhǔn)確的個(gè)性化推薦服務(wù)。

關(guān)鍵詞:資源推薦;內(nèi)容過(guò)濾;隱式評(píng)分;線性加權(quán)融合

隨著計(jì)算機(jī)技術(shù)的發(fā)展,越來(lái)越多的書籍采用數(shù)字化方式進(jìn)行出版,數(shù)字圖書資源已成為各級(jí)各類圖書館收藏的重點(diǎn)。面對(duì)指數(shù)級(jí)增長(zhǎng)的數(shù)字圖書資源,數(shù)字圖書館的建設(shè)已經(jīng)從信息資源的數(shù)字化進(jìn)入了信息整合、服務(wù)個(gè)性化的發(fā)展階段;從用戶被動(dòng)查找數(shù)字圖書到主動(dòng)根據(jù)用戶的興趣和行為提供個(gè)性化的推薦服務(wù)。如何采用個(gè)性化推薦技術(shù)為讀者提供快速、準(zhǔn)確的圖書推薦服務(wù),是現(xiàn)代圖書館學(xué)研究的重點(diǎn)。

一、研究現(xiàn)狀

近年來(lái),電子商務(wù)領(lǐng)域的個(gè)性化推薦服務(wù)已有不少研究成果,并有研究成果應(yīng)用于實(shí)際生產(chǎn)環(huán)境中。因此,有許多學(xué)者提出將數(shù)據(jù)挖掘相關(guān)技術(shù)應(yīng)用到個(gè)性化圖書推薦中,幫助讀者快速、準(zhǔn)確地找到自己想要的圖書資源。通過(guò)對(duì)相關(guān)文獻(xiàn)的分析和研究可以看出,目前國(guó)內(nèi)對(duì)于圖書推薦系統(tǒng)的研究,理論型偏多,主要通過(guò)以下3種方式實(shí)現(xiàn)圖書資源的個(gè)性化推薦:第一種方式是分析用戶的借閱歷史,為用戶推薦與其借閱記錄中相類似的圖書;第二種方式是挖掘用戶的借閱行為,通過(guò)建立興趣模型為用戶推薦具有相似借閱行為用戶的借閱信息;第三種是關(guān)聯(lián)用戶與圖書的特征信息,通過(guò)發(fā)現(xiàn)用戶與圖書之間的關(guān)聯(lián)特征或模式并生成關(guān)聯(lián)規(guī)則,從而為用戶推薦其可能感興趣的圖書…。從實(shí)現(xiàn)技術(shù)來(lái)看,針對(duì)以上3種方式提出了一些個(gè)性化的推薦技術(shù),包括基于內(nèi)容的個(gè)性化推薦、基于用戶的個(gè)性化推薦、基于知識(shí)的個(gè)性化推薦以及組合推薦等。雖然目前已有多種推薦方法被用于個(gè)性化推薦領(lǐng)域,但是通過(guò)研究發(fā)現(xiàn)基于單一模式的推薦方式存在諸多的缺陷,現(xiàn)在有不少學(xué)者研究基于混合模式的推薦方法,通過(guò)組合盡可能地彌補(bǔ)和避免單一模式的弱點(diǎn)。從理論上講,各種模式都可以組合,但是實(shí)際應(yīng)用中,并不是所有的模式組合都會(huì)提升推薦的準(zhǔn)確性,目前使用最多的是將內(nèi)容推薦和協(xié)同過(guò)濾推薦相組合。在組合方式上,不同的組合方法適用于不同的應(yīng)用場(chǎng)景,經(jīng)過(guò)對(duì)文獻(xiàn)的研究分析,可以將組合方式大致分為線性加權(quán)融合模式、交叉融合模式、瀑布型融合模式、特征融合模式、預(yù)測(cè)融合模式和分類器模式等5種。

線性加權(quán)融合模式簡(jiǎn)單易用,工程實(shí)現(xiàn)方便,常應(yīng)用于實(shí)際生產(chǎn)環(huán)境。考慮到系統(tǒng)的應(yīng)用場(chǎng)景和系統(tǒng)的復(fù)雜度,本文采用線性加權(quán)融合推薦模式,設(shè)計(jì)一種基于圖書資源內(nèi)容推薦和用戶行為推薦相混合的推薦方式,對(duì)用戶進(jìn)行個(gè)性化圖書資源推薦,有效地幫助用戶發(fā)現(xiàn)自己感興趣的圖書資源,提高圖書資源的流通利用率和用戶滿意度。

二、圖書資源個(gè)性化推薦系統(tǒng)設(shè)計(jì)

本文設(shè)計(jì)的圖書資源推薦系統(tǒng)基于原有圖書管理系統(tǒng)中保存的大量用戶基本信息、用戶行為、讀者評(píng)價(jià)等信息,首先根據(jù)圖書資源內(nèi)容進(jìn)行推薦,在此結(jié)果上再根據(jù)用戶隱式行為進(jìn)行推薦,從而最大限度地利用系統(tǒng)已有的信息資源,實(shí)現(xiàn)圖書資源的更加準(zhǔn)確的推薦,具體系統(tǒng)流程圖如下:

(一)用戶數(shù)據(jù)管理與維護(hù)。用戶是圖書系統(tǒng)的服務(wù)對(duì)象和基礎(chǔ),因此用戶數(shù)據(jù)是圖書系統(tǒng)的基礎(chǔ),本文所指的用戶數(shù)據(jù)包括用戶基本信息數(shù)據(jù)和用戶借閱歷史數(shù)據(jù)。為了更好地為用戶提供個(gè)性化推薦服務(wù),需要對(duì)這些數(shù)據(jù)進(jìn)行管理與維護(hù)。

(二)圖書資源數(shù)據(jù)提取與管理。圖書資源數(shù)據(jù)包括元數(shù)據(jù)和內(nèi)容數(shù)據(jù)。圖書資源的元數(shù)據(jù),是指數(shù)字圖書資源的基本描述信息,如標(biāo)題、作者、出版社、書號(hào)、簡(jiǎn)介、關(guān)鍵字等數(shù)據(jù)。本文所設(shè)計(jì)的推薦系統(tǒng)將充分利用已有的圖書管理系統(tǒng),提取出圖書資源的元數(shù)據(jù),為實(shí)現(xiàn)基于內(nèi)容的推薦做基本的數(shù)據(jù)準(zhǔn)備;并在系統(tǒng)允許或者版權(quán)允許范圍內(nèi)提取出圖書資料的內(nèi)容信息,為更好地實(shí)現(xiàn)基于內(nèi)容的推薦提供支持。

(三)圖書資源內(nèi)容相似度分析。圖書資源內(nèi)容數(shù)據(jù)主要是指數(shù)字圖書資源的內(nèi)容文本數(shù)據(jù),本文主要涉及對(duì)中文數(shù)據(jù)內(nèi)容的分析處理,經(jīng)過(guò)分詞、去停用詞、關(guān)鍵詞提取和內(nèi)容相似度計(jì)算等步驟,得到圖書資源內(nèi)容的相似度值。

(四)用戶隱式行為數(shù)據(jù)分析。用戶行為數(shù)據(jù)指用戶與管理系統(tǒng)進(jìn)行交互時(shí)所產(chǎn)生的借閱記錄、瀏覽記錄、檢索記錄和收藏記錄等數(shù)據(jù)。由于圖書管理系統(tǒng)或者用戶習(xí)慣的不同,目前在實(shí)際應(yīng)用中對(duì)圖書資源進(jìn)行顯式評(píng)分的情形還是比較少,這不利于對(duì)用戶行為進(jìn)行量化分析。對(duì)此本文采取隱式評(píng)分機(jī)制,通過(guò)制定較為合理的策略,將用戶常見的對(duì)圖書資源的非評(píng)分行為轉(zhuǎn)化為評(píng)分行為,對(duì)數(shù)據(jù)進(jìn)行分析和建模,將用戶的行為作為隱式反饋來(lái)推測(cè)用戶的興趣,以彌補(bǔ)之前基于圖書資源自身內(nèi)容信息缺失的不足。

(五)圖書資源個(gè)性化推薦。本文采用線性加權(quán)融合推薦模式,即首先采用基于圖書資源內(nèi)容的推薦技術(shù)產(chǎn)生推薦結(jié)果;再采用用于隱式行為的推薦方法產(chǎn)生推薦結(jié)果;最后根據(jù)兩次的推薦結(jié)果采用線性加權(quán)方式得出個(gè)性化推薦結(jié)果列表。

三、圖書資源內(nèi)容相似度分析

基于圖書資源內(nèi)容的推薦首先面對(duì)的問(wèn)題是中文文本數(shù)據(jù)的處理,經(jīng)過(guò)分詞、去停用詞、特征的選擇與提取、特征加權(quán)和內(nèi)容相似度計(jì)算,構(gòu)建圖書資源內(nèi)容的文本內(nèi)容向量。

(一)分詞。分詞是中文信息處理的關(guān)鍵步驟,其主要作用是將中文文檔處理為獨(dú)立的特征。本文采用中文分詞方法HanLP,該分詞器性能高效,底層采用高速數(shù)據(jù)結(jié)構(gòu),能應(yīng)用于實(shí)際生產(chǎn)環(huán)境中,采用極速分詞模式能達(dá)到2000萬(wàn)字每秒。

(二)去停用詞。去停用詞即去掉文本中對(duì)于分類無(wú)用的信息以及一些在文檔中頻繁出現(xiàn)的字和詞,如“的”、“地”、“得”等之類的助詞。

(三)特征提取。目前通常采用向量空間模型來(lái)描述文本向量,在文本的向量空間模型表示方法中,如果直接采用分詞算法得到的特征項(xiàng)來(lái)表示文本向量中的各個(gè)維,那么這個(gè)向量的維度將非常大,從而導(dǎo)致計(jì)算量太大,無(wú)法應(yīng)用于生產(chǎn)環(huán)境。因此,在保證或提高性能的前提下,需要降低向量空間的維度,本文使用在信息檢索領(lǐng)域廣泛使用的常用TF-IDF算法進(jìn)行關(guān)鍵詞提取,降低向量空間維度,該算法簡(jiǎn)單快速,能應(yīng)用于實(shí)際生產(chǎn)環(huán)境。

(四)內(nèi)容相似度計(jì)算。對(duì)于圖書資源,在經(jīng)過(guò)分詞、去停用詞、特征選擇、特征加權(quán)等處理步驟后,可得到一組高頻關(guān)鍵詞及其各自出現(xiàn)次數(shù)的數(shù)據(jù),進(jìn)而可得到待比較的資源的特征向量。本文采用余弦定理計(jì)算資源內(nèi)容的相似度,余弦定理公式如下:

根據(jù)公式(1)可知,當(dāng)兩個(gè)向量夾角的余弦等于1時(shí),表示這兩個(gè)資源完全相同;當(dāng)夾角的余弦接近于1時(shí),表示這兩個(gè)資源相似,從而可以歸成一類;夾角的余弦越小,表示兩個(gè)資源越不相關(guān)。

四、用戶隱式行為數(shù)據(jù)分析

用戶行為數(shù)據(jù)指用戶與圖書管理系統(tǒng)進(jìn)行交互時(shí)所產(chǎn)生的各類數(shù)據(jù),包括借閱記錄、瀏覽記錄、檢索記錄和收藏記錄等。本文采取隱式評(píng)分機(jī)制,將用戶常見的對(duì)圖書資源的非評(píng)分行為轉(zhuǎn)化為評(píng)分行為,為之后的分析和計(jì)算做好鋪墊。

隱式行為數(shù)據(jù)則是指不需要用戶主動(dòng)參與,通過(guò)間接分析用戶與系統(tǒng)的交互行為或者系統(tǒng)訪問(wèn)日志來(lái)獲取用戶的各類偏好信息。例如用戶瀏覽頁(yè)面的時(shí)長(zhǎng),閱讀頁(yè)面的次數(shù)、訪問(wèn)頁(yè)面鏈接等都屬于用戶隱式行為數(shù)據(jù)。隱式行為數(shù)據(jù)能夠客觀反映用戶當(dāng)前興趣,因此相較于顯式行為數(shù)據(jù),隱式行為數(shù)據(jù)的內(nèi)容更加豐富。本文通過(guò)用戶對(duì)圖書資源的借閱、瀏覽、檢索、收藏四種行為進(jìn)行研究,將用戶的行為量化為用戶的興趣,實(shí)現(xiàn)隱式評(píng)分到顯式評(píng)分的轉(zhuǎn)換,最終構(gòu)建用戶圖書資源評(píng)分模型。具體步驟如下:

f)根據(jù)本系統(tǒng)情況,用戶的四種行為反映用戶對(duì)圖書資源的興趣,但興趣程度不同,本文假設(shè)用戶的借閱和瀏覽行為反映出的對(duì)圖書資源的興趣比檢索和收藏行為要高,且本文所賦予的借閱和瀏覽行為的獎(jiǎng)勵(lì)因子相等,設(shè)為0.3,檢索和收藏行為的獎(jiǎng)勵(lì)因子相等,設(shè)為0.2。

根據(jù)上述步驟,可以通過(guò)公式(2)量化用戶的行為,計(jì)算出用戶u對(duì)資源i的評(píng)分R。

表l展示了一種用戶行為與對(duì)應(yīng)的隱式評(píng)分值的關(guān)系表,根據(jù)這樣的關(guān)系就可構(gòu)造出用戶對(duì)圖書資源的隱式評(píng)分矩陣R=(r),矩陣中的每一項(xiàng)。表示第f位用戶對(duì)第,件圖書資源的隱式評(píng)分。可以發(fā)現(xiàn),若用戶對(duì)某圖書資源的隱式評(píng)分越高,則表示他對(duì)該圖書資源的感興趣程度越大。

五、圖書資源個(gè)性化推薦

本文實(shí)現(xiàn)的圖書資源個(gè)性化推薦主要采用基于資源內(nèi)容的過(guò)濾推薦,基于用戶行為的推薦,以及二者混合推薦方式,得出最終的資源推薦列表。

(一)基于圖書資源內(nèi)容的推薦,首先根據(jù)用戶的借閱歷史資源數(shù)據(jù)的文本特征向量,構(gòu)造用戶的興趣向量,再根據(jù)圖書資源內(nèi)容的文本內(nèi)容向量與用戶興趣向量的相似度,得到用戶的基于內(nèi)容的圖書推薦列表。

(二)基于用戶隱式行為的推薦,首先為每位用戶尋找其鄰居用戶,再基于其鄰居用戶,估計(jì)用戶對(duì)未評(píng)分項(xiàng)目的隱式評(píng)分,并引入時(shí)間函數(shù),把鄰居用戶在不同時(shí)間的評(píng)分給予不同的權(quán)重。

根據(jù)之前得到的隱式評(píng)分矩陣R=(Y)分析出任兩位用戶之間的相似性。與某位用戶相似性較高的其他用戶,稱為該用戶的鄰居用戶。本文采用Pearson相關(guān)系數(shù)計(jì)算用戶之間的相似性其公式為:

如果用戶還未在系統(tǒng)中產(chǎn)生任何行為數(shù)據(jù),則可以利用用戶基本信息,尋找與其具有相似人口統(tǒng)計(jì)學(xué)特征的鄰居用戶,通過(guò)鄰居用戶估計(jì)對(duì)未評(píng)分資源的隱式評(píng)分,能較好地解決“冷啟動(dòng)”問(wèn)題。

(三)線性加權(quán)融合推薦,給出推薦結(jié)果列表。結(jié)合之前基于圖書資源內(nèi)容和基于用戶行為得出的圖書相似度和隱式評(píng)分等關(guān)鍵數(shù)據(jù),擬合并產(chǎn)生它們的分?jǐn)?shù),其公式為:

六、結(jié)果

隨著圖書館數(shù)字圖書資源的日益增加,人們尋找適合自己的數(shù)字圖書越發(fā)困難,本文采用線性加權(quán)融合模式,設(shè)計(jì)一種基于內(nèi)容過(guò)濾和用戶行為相結(jié)合的混合推薦技術(shù)的個(gè)性化圖書資源推薦系統(tǒng),為讀者提供個(gè)性化的圖書資源推薦服務(wù),將優(yōu)化推薦效果,提高圖書館的服務(wù)質(zhì)量和圖書使用率,同時(shí)還可以輔助圖書館管理者決策。

宁津县| 额济纳旗| 隆化县| 红安县| 新绛县| 芷江| 綦江县| 精河县| 宜宾市| 微博| 依兰县| 化德县| 南乐县| 小金县| 桐城市| 龙山县| 广安市| 湖南省| 乐昌市| 尤溪县| 德化县| 宝应县| 桦甸市| 金秀| 永登县| 松桃| 那坡县| 正镶白旗| 正宁县| 利川市| 凉城县| 梅州市| 隆化县| 繁昌县| 庄浪县| 大港区| 龙井市| 永定县| 利辛县| 康平县| 金坛市|