国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結合會員借閱行為的圖書館啟發(fā)式借閱流程模型構建

2023-10-12 09:41劉晶
微型電腦應用 2023年9期
關鍵詞:實體書詞頻電子化

劉晶

(青島大學附屬醫(yī)院,圖書館,山東,青島 266003)

0 引言

近年來,因為會員閱讀習慣逐漸轉向有聲書及電子書,公共圖書館的實體書借閱市場受到?jīng)_擊。而公共圖書館屬于非盈利機構,其對社會效益的需求遠大于經(jīng)濟效益[1]。實體書本身的文化承載力、知識傳播力應得到有效強化。所以,當前各地公共圖書館在全面展開紙質書電子化的技術革新的同時,也在積極構建實體書借閱推薦技術升級工作[2]。

該研究有兩個前提:①所有實體書均經(jīng)過了全面電子化處理,包括借閱卡信息的電子化和圖書內容的電子化,圖書全部檢索信息和圖書內容均可通過計算機通道完成檢索;②公共圖書館有完善的會員體系,該會員支持會員在線借閱電子書、有聲書的同時,也支持會員的實體書借閱過程,且全部借閱信息形成統(tǒng)一的會員數(shù)據(jù)畫像系統(tǒng)[3]。

通過會員借閱習慣大數(shù)據(jù)畫像,構建啟發(fā)式借閱流程,向會員推薦適合其閱讀習慣的圖書,并完成借閱預約,是該研究的重點和創(chuàng)新點[4]。

1 全面電子化的公共圖書館大數(shù)據(jù)體系

公共圖書館的數(shù)據(jù)來源主要為以下3項:①圖書電子化大數(shù)據(jù):通過激光掃描、文字識別、機器翻譯等模塊化數(shù)據(jù)處理工具,將實體書的文字部分轉化為多種語言的電子文本,部分圖書館可以利用機器朗讀等模塊化處理工具將實體書轉化成的電子書轉化為音頻,構建有聲書數(shù)據(jù),這些數(shù)據(jù)可以實現(xiàn)電子書與實體書的線上線下雙通道借閱;②圖書借閱卡大數(shù)據(jù):圖書的書名、作者、出版社、出版時間、印次與印數(shù)、開本、頁數(shù)、文獻識別碼、中圖分類號、多語言版本摘要、關鍵詞等形成傳統(tǒng)圖書借閱卡的基本內容,這些內容之間可以形成檢索邏輯,實現(xiàn)批量檢索,大數(shù)據(jù)環(huán)境下,圖書電子化后,圖書的詞頻特征碼、文風標識碼等圖書內容挖掘信息也會被計入圖書借閱卡大數(shù)據(jù)中,實現(xiàn)整體檢索邏輯;③會員大數(shù)據(jù):會員的姓名、年齡、性別、民族、工作單位、工作性質、線上借閱記錄、實體書借閱記錄等會形成會員大數(shù)據(jù),該研究中重點利用圖書電子化大數(shù)據(jù)和圖書借閱大數(shù)據(jù)對會員大數(shù)據(jù)進行賦值,形成啟發(fā)式借閱推薦流程模型。上述3項大數(shù)據(jù)的邏輯關系如圖1所示。

圖1 啟發(fā)式借閱流程模型基本邏輯架構圖

圖1中,系統(tǒng)最終向借閱者提供的圖書推薦分類,按照優(yōu)先級,主要有以下4類:①與會員多次借閱歷史圖書相同關鍵詞或相近書名、相近內容的圖書,從受眾心理學角度分析,這類圖書屬于純理智條件下會員最容易接受的圖書,但應排除會員希望更換借閱范疇嘗試新型圖書的心理趨向;②與會員多次借閱歷史圖書相同作者或作者存在關聯(lián)的圖書,作者存在關聯(lián)指2個作者多次發(fā)表同類圖書或2個作者存在親緣、同事等關系,如讀者多次借閱賈平凹的圖書,系統(tǒng)可以嘗試向其推薦賈淺淺的圖書;③推薦與讀者工作內容、工作性質相關的圖書,因為當前實體書中比例最大的圖書種類為職業(yè)經(jīng)驗、輔導類圖書,如讀者為公務員或企事業(yè)單位管理干部,則向其推薦管理學、心理學相關書籍,如讀者為工程師、技術類工作或工人,則向其推薦技術輔導類圖書;④推薦讀者自選多個關鍵詞相關的圖書,包括書名、關鍵詞、摘要、內容詞頻特征等借閱卡資料中包含該類關鍵詞的圖書[5-6]。

綜合上述推薦需求,結合前文圖1展示的邏輯架構,該大數(shù)據(jù)體系中核心工作流程節(jié)點為圖書的電子化過程、詞頻提取過程、圖書文風標識碼提取過程。下文中將重點針對這三項工作展開論述[7-9]。

2 實體書電子化相關技術及工作流程

當前技術條件下,實體書電子化工作僅能滿足將實體書的文本部分轉化為電子文本并進行后續(xù)處理,包括機器翻譯、詞頻提取、機器朗讀等,但實體書電子化過程是實現(xiàn)該技術的重要支持因素。相比較單純使用電子化圖書借閱卡執(zhí)行圖書推薦操作,將實體書電子化后形成更完善的圖書特征描述體系,更適合大數(shù)據(jù)云計算體系下的計算機輔助圖書推薦算法需求。該過程基本邏輯架構如圖2所示。

圖2 實體書電子化工作流程邏輯架構圖

圖2中,激光掃描位圖生成過程和識別過程采用漢王激光掃描系統(tǒng),機器翻譯使用百度翻譯系統(tǒng),機器朗讀采用科大訊飛機器朗讀系統(tǒng),均可實現(xiàn)相關軟件技術的全面國產(chǎn)化,而后續(xù)的詞頻分析功能、神經(jīng)網(wǎng)絡分析功能使用MATLAB大數(shù)據(jù)分析工具軟件。該系統(tǒng)通過文風特征碼和詞頻特征碼實現(xiàn)對圖書內容可供機器學習功能主動識別的數(shù)字化信息,文字識別后的原始語言版本和機器翻譯后多語言版本,也用于直接檢索過程[10]。

3 詞頻特征碼與文風特征碼的提取與應用過程

詞頻特征碼與文風特征碼均為64位比特型數(shù)據(jù),其實際構成為2個每個4字節(jié)(32位)雙精度浮點型變量的前后疊加,其初始生成算法架構如圖3所示。

圖3 特征碼生成算法邏輯架構圖

圖3中,使用2個結構相同、輸入數(shù)據(jù)相同的卷積神經(jīng)網(wǎng)絡模塊分別生成2列獨立數(shù)據(jù),2個神經(jīng)網(wǎng)絡模塊在不同訓練需求下向不同方向收斂,進而進入2個卷積神經(jīng)網(wǎng)絡,分別生成特征碼的高32位(由雙精度浮點型變量強制轉化而來)和低32位(由雙精度浮點型變量強制轉化而來)。其中,生成高32位特征碼的神經(jīng)網(wǎng)絡在另一路神經(jīng)網(wǎng)絡輸出端取1路補充數(shù)據(jù)。最終疊加為一個64位特征碼。詞頻特征碼與文風特征碼的生成邏輯架構基本一致,僅其輸入數(shù)據(jù)有所差異,生成詞頻特征碼的輸入數(shù)據(jù)為電子書經(jīng)過詞頻提取算法后的詞頻序列數(shù)據(jù),生成文風特征碼的輸入數(shù)據(jù)為電子書的原始文本數(shù)據(jù)[11-12]。

2個特征碼被提取后,與會員閱讀習慣特征碼進行比較和合并,機器學習算法會判斷會員閱讀習慣特征碼與圖書的2個特征碼的相似度,給出推薦序列,且會員執(zhí)行借閱后,其會員特征碼會根據(jù)圖書的2個特征碼進行刷新改寫。該過程的邏輯架構如圖4所示。

圖4 特征碼應用及轉換機制邏輯架構圖

圖4中,使用二值化神經(jīng)網(wǎng)絡,給出一個[0,1]區(qū)間上的判斷結果,經(jīng)過神經(jīng)網(wǎng)絡數(shù)據(jù)訓練,少部分圖書會偏向1.000方向,作為推薦篩選結果書目,其余大部分圖書偏向0.000方向,在推薦系統(tǒng)中被篩選屏蔽。會員借閱時,詞頻特征碼與文風特征碼聯(lián)通會員特征碼一起被輸入到一個卷積神經(jīng)網(wǎng)絡模塊中,生成合并后的新會員特征碼,該特征碼會對會員卡數(shù)字化信息進行重新賦值,用于后續(xù)判斷過程。在新會員特征碼的生成算法中,實體書借閱時間、電子書和有聲書的瀏覽時間等會作為其他控制變量用于新會員特征碼的生成計算過程。

上述特征碼比較過程獨立在前文所述的傳統(tǒng)圖書推薦流程之外,形成該研究中創(chuàng)新提出的基于機器學習的圖書推薦算法,用于前文4種推薦需求的第1種推薦需求中。該算法將徹底杜絕傳統(tǒng)算法的以下兩點不足:①傳統(tǒng)算法受制于圖書借閱卡基本信息的不完備性,圖書借閱卡中不論是關鍵詞、書名還是摘要信息,均無法全面表達圖書的類型信息,而使用該推薦算法后,當神經(jīng)網(wǎng)絡的節(jié)點數(shù)量和隱藏層規(guī)模等達到一定兩邊基數(shù)后,系統(tǒng)可以更充分判斷會員的后續(xù)借閱行為;②傳統(tǒng)算法與該創(chuàng)新算法相結合,將該算法作為優(yōu)先推薦門類,在其他推薦板塊仍然保留傳統(tǒng)推薦算法的推薦結果,可以使兩者形成有益互補[13]。

4 該算法對啟發(fā)式借閱流程的實際支持效果

4.1 仿真條件下的效果測試

首先對該算法的神經(jīng)網(wǎng)絡進行數(shù)據(jù)訓練,訓練模式為在MATLAB環(huán)境下搭建鏡像仿真平臺,電子化實體圖書原始資料和圖書借閱卡原始資料拷貝自公共圖書館真實資料,訓練數(shù)據(jù)來自會員借閱記錄,即根據(jù)會員之前借閱記錄和下次借閱記錄,推測一個推薦范圍,使推薦范圍內圖書出現(xiàn)在該推薦范圍中。實際訓練過程中,選擇2019年及2020年全年的借閱記錄,使用其中18個月數(shù)據(jù)作為原始訓練數(shù)據(jù),6個月數(shù)據(jù)作為驗證數(shù)據(jù)。根據(jù)個人閱讀習慣,選取前6位推薦和前20位推薦,最終驗證結果如表1所示。

表1 仿真環(huán)境下的驗證結果

表1中,t值與P值來自SPSS大數(shù)據(jù)分析軟件中的雙變量t校驗分析,用于比較的差異性并提供差異性結果的信度。當t<10.000且P<0.01時,認為2組數(shù)據(jù)具有顯著的統(tǒng)計學差異,且t值越小證明差異性越大,P值越小證明差異性結果信度越高。表1中,使用該系統(tǒng)后,前6位重點推薦書目中,會員借閱量從0.271冊提升到0.893冊,即借閱率從4.5%提升到14.9%,提升了3.3倍,前20位推薦書目中,會員借閱量從0.639冊提升到1.580冊,即借閱率從3.2%提升到7.9%,提升了2.5倍。該借閱率提升的量變引起了質變,即會員從前20位推薦書目中必然選擇借閱1冊,使推薦效率大幅度提升,會員對推薦書目的依從性大幅度增強。

4.2 啟發(fā)式借閱系統(tǒng)試運行結果

在上述仿真分析的基礎上,該研究成果論證階段,推出了與傳統(tǒng)借閱系統(tǒng)平行的借閱系統(tǒng),會員可以在使用借閱推薦系統(tǒng)時選擇使用新系統(tǒng)或者傳統(tǒng)系統(tǒng)檢索圖書。2021年1月20日至今,使用新系統(tǒng)完成借閱檢索的會員2761人,人均使用5.27次,即該系統(tǒng)先后服務借閱過程14 550人次,比較會員使用該系統(tǒng)后選擇借閱圖書的位置,得到表2。

表2 會員借閱過程推薦位置使用率的比較結果

表2中,推薦位的相關算法有直接差異,具體表現(xiàn)在該系統(tǒng)使用的推薦算法結合了前文所述的機器學習推薦算法,之前系統(tǒng)的推薦算法是根據(jù)關鍵詞檢索的傳統(tǒng)推薦算法。使用該系統(tǒng)后,推薦位給出的書目,會員接受度和認可度更高,具體表現(xiàn)在之前系統(tǒng)中75.27%的借閱行為需要通過會員主動搜索才可以確定借閱書目,而使用該系統(tǒng)后,會員主動搜索的借閱行為占比下降到了28.79%,可以推算出,推薦成功率從24.73%提高到71.21%,提升2.9倍。表2中,雙變量t校驗結果,t<10.000,P<0.01,具有顯著的統(tǒng)計學差異。

在驗證過程中,為了評價會員對系統(tǒng)推薦效果的主觀評價,要求使用過該系統(tǒng)的會員做出主觀滿意度評價,滿分10分,最低0分,參加該主觀評價的會員量為851人,占全部使用過該系統(tǒng)會員2761人的30.8%,其評價結果如表3所示。

表3 會員主觀評價結果匯總表

表3中,使用該系統(tǒng)后,會員對該系統(tǒng)的主觀評價明顯高于對之前系統(tǒng)的評價,平均分從7.52提升到8.93,提升幅度為18.75%。該數(shù)據(jù)經(jīng)過雙變量t校驗,t<10.000,P<0.01,具有顯著的統(tǒng)計學差異。

5 總結

該研究核心創(chuàng)新點在于引入基于卷積神經(jīng)網(wǎng)絡、二值化神經(jīng)網(wǎng)絡等機器學習算法,讓系統(tǒng)的推薦書目更符合會員的借閱預期書目,實現(xiàn)啟發(fā)式借閱推薦模式。經(jīng)過仿真實驗和試運行,會員對推薦位置書目的借閱量顯著增加。因為該研究使用了最初級的神經(jīng)網(wǎng)絡架構,所以神經(jīng)網(wǎng)絡設計過程未展開論述,后續(xù)研究中,將從軟硬件兩方面全面升級神經(jīng)網(wǎng)絡,實現(xiàn)更深度地數(shù)據(jù)挖掘機器學習過程,使啟發(fā)式借閱模式的算法效率進一步提升。

猜你喜歡
實體書詞頻電子化
基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
書海飄香 了解5款“實體書”閱讀APP
基于區(qū)塊鏈技術的圖書館借閱創(chuàng)新模式
推進外匯窗口服務電子化
1 我省市級國庫集中支付電子化系統(tǒng)首次上線運行
朗讀節(jié)目《見字如面》同名實體書出版
詞頻,一部隱秘的歷史
云存儲中支持詞頻和用戶喜好的密文模糊檢索
汽車電子化,沒有假設
以關鍵詞詞頻法透視《大學圖書館學報》學術研究特色