国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖表示學(xué)習(xí)和深度學(xué)習(xí)的圖書推薦研究

2022-08-01 06:26:52林寬欣
圖書館學(xué)刊 2022年6期
關(guān)鍵詞:編碼器向量圖書

林寬欣

(調(diào)兵山市圖書館,遼寧 調(diào)兵山 112700)

1 引言

個性化書目推薦是數(shù)字圖書館的特色服務(wù)項(xiàng)目之一。目前,數(shù)字圖書館圖書推薦的方法主要包括基于內(nèi)容的推薦算法和基于協(xié)同過濾的推薦算法。基于內(nèi)容的推薦算法[1-3],是通過用戶以往借閱圖書的歷史痕跡向其推薦類似的圖書。基于協(xié)同過濾的推薦算法[4-6],是基于產(chǎn)品的流行度評分系統(tǒng)結(jié)合平均偏好權(quán)重向用戶有目的地推薦圖書。此外,數(shù)字圖書館還采用了其他一些圖書推薦方法,如基于關(guān)聯(lián)規(guī)則的推薦算法[7],即在同一個用戶所借的不同圖書之間找到關(guān)聯(lián)關(guān)系;基于標(biāo)簽、關(guān)聯(lián)規(guī)則協(xié)同過濾用戶需求特征,構(gòu)建組合推薦模型,通過推薦模型找到當(dāng)前用戶的相似用戶,并將相似用戶所借閱的圖書推薦給當(dāng)前用戶[8];基于社交網(wǎng)絡(luò)的圖書推薦方案,依據(jù)社交關(guān)系網(wǎng)絡(luò)挖掘用戶的信息需求特征,進(jìn)而有目的地向用戶推薦圖書[9]等。

目前學(xué)界關(guān)于數(shù)字圖書館圖書推薦的理論已經(jīng)很充實(shí),相關(guān)的模型框架也比較完備,但是仍存在一定的局限性,值得深入探索。從所檢索文獻(xiàn)來看,現(xiàn)有圖書推薦主要集中于基于內(nèi)容的圖書推薦和基于協(xié)同過濾的圖書推薦,對于圖書作者、出版社等圖書元特征的挖掘利用較少。筆者試圖構(gòu)建基于圖書和圖書相關(guān)信息的異構(gòu)圖,利用圖表示學(xué)習(xí)算法嵌入圖書元特征,利用向量空間模型將圖書標(biāo)題轉(zhuǎn)換成數(shù)值型圖書內(nèi)容特征向量,并將圖書元特征與內(nèi)容特征向量拼接得到圖書特征向量。在此基礎(chǔ)上,以讀者閱讀歷史記錄為數(shù)據(jù)來源訓(xùn)練分類器,使用深度學(xué)習(xí)模型判定待推薦圖書是否符合讀者閱讀興趣,并向其推薦圖書。在提取圖書內(nèi)容特征向量的同時提取圖書元特征,拓展了當(dāng)前數(shù)字圖書館有關(guān)圖書推薦研究的視野,同時,通過實(shí)證研究結(jié)果也證明,圖書元特征引入數(shù)字圖書館圖書推薦過程,可以有效提高圖書推薦的準(zhǔn)確率。

2 相關(guān)研究

圖書推薦作為數(shù)字圖書館推薦系統(tǒng)的一個重要分支,近年來得到了廣泛的研究。其目標(biāo)是向有興趣的用戶推薦合適的書籍。如前所述,數(shù)字圖書館現(xiàn)有的圖書推薦方法主要有基于協(xié)同過濾的推薦方法和基于內(nèi)容的推薦方法。近年來,關(guān)于推薦系統(tǒng)的研究成果有很多。安薩里(Ansari)等[7]研究了基于內(nèi)容和協(xié)同過濾方法的優(yōu)勢,構(gòu)建了一種用于營銷的偏好模型,并描述了貝葉斯偏好模型。齊格勒(Ziegler)等[8]提出多樣化主題,這是一種旨在平衡和多樣化個性化推薦列表,以反映用戶興趣范圍完整性的新方法。Konstas 等[9]創(chuàng)建了一個協(xié)作推薦系統(tǒng),可以有效地適應(yīng)每個用戶的個人信息需求。其采用了帶重啟的隨機(jī)行走的一般框架,以提供一種更自然、更有效的方式來表示社交網(wǎng)絡(luò)。羅比拉德(Robillard)等[10]提出了一個軟件工程推薦系統(tǒng),它可以幫助開發(fā)人員進(jìn)行各種活動,從重用代碼到編寫有效的錯誤報告。史密斯(Smyth)等[11]提出了一個基于定義良好的特征集(如價格、顏色、品牌等)的基于案例的推薦系統(tǒng)。這些表示使基于案例的推薦者能夠根據(jù)產(chǎn)品的相似性做出判斷,從而提高其推薦質(zhì)量。Fu等[12]捕捉用戶的導(dǎo)航歷史,并應(yīng)用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)歷史中包含的隱藏知識。這些知識將被用來向用戶推薦可能感興趣的網(wǎng)頁。Drineas 等[13]提出了競爭性推薦系統(tǒng)的概念,將競爭力獲取問題簡化為矩陣重構(gòu)問題,并提出了一種競爭矩陣重構(gòu)方案。上述方法解決了基于協(xié)同過濾的推薦問題。但是基于協(xié)同過濾的方法存在一定的局限性:在協(xié)同過濾算法中傾向于推薦熱門條目,因此算法的探索性較差。此外,在數(shù)據(jù)稀疏的情況下,該算法也不能很好地執(zhí)行。所以隨著機(jī)器學(xué)習(xí)技術(shù)的普及,越來越多的機(jī)器學(xué)習(xí)方法被應(yīng)用到推薦系統(tǒng)的設(shè)計。

除了傳統(tǒng)的協(xié)同過濾方法外,許多研究也集中在基于內(nèi)容的推薦方法上。Sabitha 等人[14]提出了一種基于用戶神經(jīng)網(wǎng)絡(luò)的圖書推薦方法。Maneewongvatana 等人[15]使用 k-means 聚類方法推薦大學(xué)圖書館的圖書。通過瀏覽圖書館的借閱歷史,清理數(shù)據(jù)后,根據(jù)主題的相似度,將其分配到不同的集群。然后實(shí)現(xiàn)關(guān)聯(lián)規(guī)則挖掘,實(shí)現(xiàn)圖書推薦。Yang 等[16]利用文本挖掘技術(shù)建立了圖書購買推薦模型,設(shè)立3個模塊:關(guān)鍵字密度詞匯、關(guān)鍵字序列詞匯和關(guān)鍵字圖書映射,通過關(guān)鍵字提取與書庫中的關(guān)鍵字匹配來推薦圖書,生成圖書推薦列表。Tewari 等[17]提出一種向讀者推薦書籍的方法,即結(jié)合內(nèi)容過濾、協(xié)同過濾和關(guān)聯(lián)規(guī)則挖掘等功能,生成有效的推薦建議。Sohail 等[18]提出一種基于意見挖掘的推薦技術(shù),即根據(jù)顧客的需求和顧客的意見,對圖書的功能進(jìn)行分類。筆者根據(jù)用戶已經(jīng)分類和評論過的幾個特性對其功能進(jìn)行了分析。根據(jù)權(quán)重的重要性和目的,對分類后的特征進(jìn)行權(quán)重分配,并給出相應(yīng)的等級。Kanetkar等[19]提出一個基于Web的個性化混合圖書推薦系統(tǒng)模型,該系統(tǒng)使用傳統(tǒng)協(xié)作和基于內(nèi)容的過濾方法之外的其他方法來推薦圖書。Vaz 等[20]提出一種混合推薦任務(wù),即結(jié)合兩種基于條目的協(xié)同過濾算法來預(yù)測用戶最喜歡的書籍和作者。作者的預(yù)測被擴(kuò)大為書目列表,并與之前的預(yù)測合并在一起,最后生成的圖書列表將用于生成排名前n位的圖書推薦。

筆者認(rèn)為,利用機(jī)器學(xué)習(xí)方法可以結(jié)合圖書的特點(diǎn)對圖書進(jìn)行分類,有效解決協(xié)同過濾方法推薦熱門條目過多的問題;深度學(xué)習(xí)的聚類方法可有效解決推薦系統(tǒng)中的數(shù)據(jù)稀疏性問題。

3 研究方案

3.1 圖書元特征提取

筆者構(gòu)建包含圖書、出版社、作者的異構(gòu)圖,利用圖表示學(xué)習(xí)算法學(xué)習(xí)圖書節(jié)點(diǎn)嵌入,獲取圖書元特征,圖書元特征可學(xué)習(xí)圖書在作者、出版社等方面的結(jié)構(gòu)化信息,為圖書推薦提供更全面的圖書特征。圖書相關(guān)信息異構(gòu)圖構(gòu)建思路包括:從圖書信息中提取出版社、作者,使用共現(xiàn)分析方法構(gòu)建共現(xiàn)網(wǎng)絡(luò),共現(xiàn)網(wǎng)絡(luò)節(jié)點(diǎn)為圖書、出版社、作者,邊為圖書與出版社、作者之間的共現(xiàn)關(guān)系。具體共現(xiàn)網(wǎng)絡(luò)如圖1 所示,其中圓形節(jié)點(diǎn)表示圖書,橢圓形節(jié)點(diǎn)表示出版社,菱形節(jié)點(diǎn)表示作者。

圖1 圖書相關(guān)信息異構(gòu)圖

圖書相關(guān)信息異構(gòu)圖構(gòu)建完成后,使用深度游走(DeepWalk)算法學(xué)習(xí)圖書節(jié)點(diǎn)在包含出版社、作者等圖書相關(guān)信息的大型異構(gòu)圖的節(jié)點(diǎn)嵌入,得到圖書元特征。對于網(wǎng)絡(luò)圖G=(V,E),深度游走算法通過制定隨機(jī)游走策略,得到圖中節(jié)點(diǎn)的序列,采用循環(huán)神經(jīng)網(wǎng)絡(luò)算法將節(jié)點(diǎn)v嵌入為低維空間中數(shù)值向量,該低維空間中節(jié)點(diǎn)表示向量可用于圖表示學(xué)習(xí)的各種下游任務(wù)。

3.2 圖書內(nèi)容特征提取

文本數(shù)據(jù)大多是非結(jié)構(gòu)化的、計算機(jī)難識別的數(shù)據(jù),因此文本挖掘前需將文本數(shù)據(jù)向量化。向量空間模型(VSM,Vector Space Model),也稱“詞袋”模型,將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為計算機(jī)可處理的結(jié)構(gòu)化數(shù)據(jù),如表1 所示,是目前文本處理工作的標(biāo)準(zhǔn)模式。向量空間模型下,文檔中連續(xù)性語句在分詞工具下切割成單一詞匯,文檔中每個詞匯均可表征文本特征,文本集中的每一篇文檔都被轉(zhuǎn)化為一個高維向量,所有可以表示文本特征的詞語構(gòu)成一個線性空間,每一個特征詞對應(yīng)該空間的一個維度,每一個維度的坐標(biāo)對應(yīng)詞語在文檔中的占比。

表1 向量空間模型

使用向量空間模型將圖書文本內(nèi)容轉(zhuǎn)換為向量空間下數(shù)值向量,轉(zhuǎn)換后的數(shù)值向量便于輸入機(jī)器學(xué)習(xí)模型處理,并進(jìn)行文本分類或文本聚類操作。筆者使用Python 將圖書文本數(shù)據(jù)轉(zhuǎn)變?yōu)閿?shù)值向量。具體操作為:在python 中輸入圖書文本數(shù)據(jù)集,創(chuàng)建語料庫后進(jìn)行文本清洗操作,去除文本數(shù)據(jù)中的標(biāo)點(diǎn)符號、數(shù)字和空白,完成文本數(shù)據(jù)預(yù)處理過程,然后統(tǒng)計詞匯在文本中出現(xiàn)頻次,并將圖書文本轉(zhuǎn)換成數(shù)值向量。

3.3 基于自動編碼器的圖書推薦

自動編碼器功能是從輸入數(shù)據(jù)中學(xué)習(xí)代表性代碼并將這些代碼映射回輸入的神經(jīng)網(wǎng)絡(luò),如圖2所示。該模型通常用于對輸入變量進(jìn)行編碼,并輸出該輸入的壓縮版本。它由兩個主要部分組成:編碼器和解碼器。編碼器是學(xué)習(xí)輸入數(shù)據(jù)深層特征的部分。解碼器依靠學(xué)習(xí)的特征來重建所提供的原始數(shù)據(jù)。自動編碼器模型有3 層:輸入層、輸出層和隱藏層。編碼器原理如(式1)(式2)所示。

圖2 自編碼器

其中,dist(x,xˉ)表示 x 與 xˉ的相似度,f( x )代表編碼層對輸入層輸入向量的操作,h( f ( x ))表征解碼層對編碼層編碼后向量進(jìn)行的操作。

在我們的研究中,網(wǎng)絡(luò)的輸入層是記錄圖書特征的向量。編碼器中的隱藏層學(xué)習(xí)一個代表輸入數(shù)據(jù)的小向量。解碼器隨后將隱藏層映射到與原始輸入向量具有相同維度的向量。訓(xùn)練自動編碼器的目標(biāo)是最小化輸入向量和重構(gòu)輸出向量之間的均方誤差,同時避免數(shù)據(jù)過擬合。

自動編碼器模型能夠?qū)W習(xí)輸入數(shù)據(jù)集的代表性特征,并在正常數(shù)據(jù)集上進(jìn)行訓(xùn)練。在訓(xùn)練過程中,模型吸收一系列正常數(shù)據(jù),學(xué)習(xí)所有正常數(shù)據(jù)集潛在的共同特征。當(dāng)訓(xùn)練好的模型對異常數(shù)據(jù)集進(jìn)行編碼和解碼時,重建誤差通常很大,因?yàn)槟P椭粚W(xué)習(xí)如何重建正常數(shù)據(jù)。這意味著,如果模型是用正常數(shù)據(jù)預(yù)先訓(xùn)練的,當(dāng)模型以高重構(gòu)誤差重構(gòu)輸入數(shù)據(jù)時,輸入數(shù)據(jù)可以被認(rèn)為是異常。因此,自動編碼器可以用作圖書推薦解決方案,其中自動編碼器最初在讀者借閱記錄中出現(xiàn)的圖書(被認(rèn)為是正常的數(shù)據(jù))上進(jìn)行訓(xùn)練。

圖書數(shù)據(jù)轉(zhuǎn)換為圖書特征數(shù)值向量后,提取讀者歷史借閱記錄,以借閱記錄所包含圖書為正常數(shù)據(jù)集,以未出現(xiàn)在讀者借閱記錄中圖書為異常數(shù)據(jù)集,訓(xùn)練自動編碼器模型,然后將待推薦圖書輸入訓(xùn)練后的自動編碼器模型,若自動編碼器模型判定其屬于正常數(shù)據(jù),則將待推薦圖書推薦給讀者,反之則不推薦給讀者。

4 實(shí)證檢驗(yàn)

4.1 數(shù)據(jù)來源及圖書特征構(gòu)建

筆者選用某高校數(shù)字圖書館的讀者借閱記錄及圖書數(shù)據(jù)庫為數(shù)據(jù)來源,提取圖書的題名、作者、出版社信息,進(jìn)行圖書推薦試驗(yàn)。首先以圖書、作者、出版社為節(jié)點(diǎn),圖書、作者、出版社之間的貢獻(xiàn)關(guān)系為邊,構(gòu)建圖書相關(guān)信息異構(gòu)圖。其次使用圖表示學(xué)習(xí)中深度游走(Deepwalk)算法學(xué)習(xí)圖書異構(gòu)圖中圖書節(jié)點(diǎn)嵌入向量,得到圖書元特征,圖書節(jié)點(diǎn)嵌入向量如表2所示。

表2 圖書節(jié)點(diǎn)嵌入向量

圖書內(nèi)容特征提取階段,使用Python 中分詞模組將圖書題名分詞,然后使用向量空間模型將分詞后圖書題名轉(zhuǎn)換為數(shù)值向量。圖書元特征與圖書內(nèi)容特征提取完畢后,將二者合并為圖書特征,為圖書推薦做好數(shù)據(jù)準(zhǔn)備。

4.2 結(jié)果分析

圖書特征構(gòu)建完成后,將讀者借閱記錄中的圖書作為訓(xùn)練數(shù)據(jù)的正常樣本,選擇大量非讀者借閱記錄中的圖書作為訓(xùn)練數(shù)據(jù)的異常樣本,訓(xùn)練自動編碼器模型。模型生成后將待推薦圖書數(shù)據(jù)輸入自動編碼器,預(yù)測待推薦圖書類別后便可進(jìn)行圖書推薦。圖書推薦前,需確定自動編碼器重構(gòu)誤差閾值,以區(qū)分正常數(shù)據(jù)與異常數(shù)據(jù)。筆者通過觀察正常樣本和異常樣本的重構(gòu)誤差的差別設(shè)定合適閾值。如圖3所示,閾值為0.11時正常樣本與異常樣本的區(qū)分度最大,故筆者將重構(gòu)誤差設(shè)置為0.11。

圖3 重構(gòu)誤差差別

為驗(yàn)證此項(xiàng)研究中圖書推薦方案的有效性,隨機(jī)選取4 位擁有1000 本借閱記錄的讀者進(jìn)行圖書推薦實(shí)驗(yàn),圖書特征構(gòu)建與模型輸入過程如上文所述。在圖書推薦實(shí)驗(yàn)過程中,提取讀者1000本借閱記錄中的圖書作為正常數(shù)據(jù),隨機(jī)選取非讀者借閱記錄中的1000 本圖書數(shù)據(jù)作為異常數(shù)據(jù),以這兩種數(shù)據(jù)為樣本數(shù)據(jù),樣本總量2000,正常數(shù)據(jù)與異常數(shù)據(jù)各占50%。在模型訓(xùn)練過程中,選取樣本數(shù)據(jù)的70%為訓(xùn)練數(shù)據(jù)集,訓(xùn)練自動編碼器。在測試過程中,選取剩余30%樣本數(shù)據(jù)為測試集,將測試數(shù)據(jù)的特征向量輸入自動編碼器,在自動編碼器模型中對測試數(shù)據(jù)進(jìn)行處理后,判定其是否屬于正常數(shù)據(jù)集,并將判定結(jié)果與真實(shí)結(jié)果進(jìn)行比對,以此評估模型的準(zhǔn)確性。筆者取推薦實(shí)驗(yàn)中4 位讀者推薦準(zhǔn)確率的平均值為模型準(zhǔn)確率。

另外,筆者在此項(xiàng)研究中應(yīng)用支持向量機(jī)、隨機(jī)森林兩種算法,依據(jù)圖書內(nèi)容特征完成圖書推薦任務(wù),并將結(jié)果與前文所提模型的性能進(jìn)行對比;同時將僅采用圖書內(nèi)容特征的自動編碼器模型的性能與圖書元特征、圖書內(nèi)容特征合并使用的自編碼器模型的性能進(jìn)行比較,以觀察元特征的引入對圖書推薦效果的影響。支持向量機(jī)(Support Vector Model,SVM)、隨機(jī)森林(Random forest,RF)是兩種傳統(tǒng)的機(jī)器學(xué)習(xí)算法,被廣泛用于完成分類任務(wù)。支持向量機(jī)模型通過尋找兩類數(shù)據(jù)的支持向量建立最優(yōu)分類超平面,解決了二值分類問題。隨機(jī)森林是一種基于樹的機(jī)器學(xué)習(xí)算法,它利用群體決策思維生成多棵決策樹來完成分類任務(wù)。上述兩種模型基于Python 環(huán)境完成,自動編碼器模型基于Python 深度學(xué)習(xí)框架實(shí)現(xiàn)。對比實(shí)驗(yàn)完成后,用精確率P(式3)、召回率R(式4)、F1(式5)衡量各模型的自動評估性能。精確率指判定為真陽的樣本數(shù)據(jù)中實(shí)際的真陽數(shù)量占所有識別為真陽樣本數(shù)的比例;召回率指判定為真陽樣本數(shù)據(jù)中實(shí)際的真陽樣本數(shù)量占所有真陽樣本數(shù)的比例;F1值是精確率和召回率的調(diào)和值。

各模型對比結(jié)果如表3所示。其中AE代表使用圖書內(nèi)容特征的自動編碼器模型,AE*代表使用圖書元特征與圖書內(nèi)容特征的自動編碼器模型。從表3 可觀察到,不引入元特征情況下,各模型的圖書推薦性能相差不大,均在80%左右。引入元特征后,模型的圖書推薦性能超過82%,高于現(xiàn)有模型。

表3 各模型圖書推薦性能

5 結(jié)論

面對各種書目,讀者很難在短時間內(nèi)找到自己感興趣的書籍,傳統(tǒng)圖書館借閱方式的用戶體驗(yàn)效果較差。筆者從圖書題名文本信息中提取圖書內(nèi)容特征,從圖書相關(guān)信息異構(gòu)網(wǎng)絡(luò)中提取圖書元特征,提出了基于圖書內(nèi)容特征與圖書元特征的圖書推薦方案。

這一方案在數(shù)字圖書館圖書推薦領(lǐng)域引入圖表示學(xué)習(xí)理論,在圖書特征提取階段引入了圖書元特征,提出基于內(nèi)容特征和圖表示學(xué)習(xí)的推薦方案,拓展了圖書推薦研究領(lǐng)域關(guān)于圖書特征提取的思路。

本項(xiàng)研究的科學(xué)實(shí)驗(yàn)結(jié)果證明,兼容圖書元特征和圖書內(nèi)容特征的自動編碼器模型的性能優(yōu)于僅使用圖書內(nèi)容特征的自動編碼器模型的性能。圖書元特征概念引入數(shù)字圖書館圖書推薦系統(tǒng)的構(gòu)建與實(shí)踐,能夠有效提高圖書推薦的準(zhǔn)確率。圖書元特征作為圖書特征值得深入研究和應(yīng)用。

當(dāng)然,為進(jìn)一步提高圖書推薦的準(zhǔn)確率,上述自動編碼器模型仍需在數(shù)字圖書館圖書推薦的實(shí)踐中不斷得到檢驗(yàn)和優(yōu)化。在圖書內(nèi)容特征提取方面,使用深度學(xué)習(xí)模型或網(wǎng)絡(luò)模型替代向量空間模型,可以獲得更優(yōu)的圖書內(nèi)容特征數(shù)據(jù),克服向量空間模型無法提取語義信息的局限性;在圖書元特征提取方面,可以加入更多的圖書相關(guān)信息,以獲得更加全面的圖書元特征數(shù)據(jù)。

猜你喜歡
編碼器向量圖書
向量的分解
聚焦“向量與三角”創(chuàng)新題
圖書推薦
南風(fēng)(2020年22期)2020-09-15 07:47:08
歡迎來到圖書借閱角
基于FPGA的同步機(jī)軸角編碼器
班里有個圖書角
基于PRBS檢測的8B/IOB編碼器設(shè)計
向量垂直在解析幾何中的應(yīng)用
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
電子器件(2015年5期)2015-12-29 08:42:24
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
安吉县| 赫章县| 梁山县| 綦江县| 郑州市| 阳原县| 南充市| 江都市| 冕宁县| 道真| 太湖县| 乌苏市| 闽清县| 凤山县| 夹江县| 德昌县| 武山县| 白山市| 呼玛县| 彰武县| 曲阳县| 庆城县| 海口市| 崇州市| 许昌县| 齐齐哈尔市| 庐江县| 乐亭县| 重庆市| 鄂伦春自治旗| 长子县| 永善县| 湘乡市| 开原市| 恩平市| 邢台县| 万年县| 遵义市| 嵩明县| 富民县| 汝城县|