国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于區(qū)塊鏈技術的公共圖書館線上數(shù)據(jù)庫信息檢索方法

2023-01-07 03:09劉家材
信息記錄材料 2022年11期
關鍵詞:查準率信息檢索檢索

劉家材

(武漢職業(yè)技術學院 湖北 武漢 430000)

0 引言

互聯(lián)網(wǎng)技術的發(fā)展以及網(wǎng)絡技術的興起在極大程度上加速了數(shù)字化建設的進程,以此為基礎的線上圖書館在應用方面表現(xiàn)出的便捷性使用戶群體在短時間內實現(xiàn)了大幅增加[1-2]。但是值得注意的是,由于公共圖書館線上數(shù)據(jù)庫信息的規(guī)模較大,且資源之間的關聯(lián)關系較為復雜,導致在信息檢索階段的時間開銷較長,用戶檢索結果的滿意度較低[3]。針對該問題,部分學者以線上數(shù)據(jù)庫信息檢索為目標,展開了對應的研究。其中,蘇珂等[4]提出在對排序學習與預訓練模型進行融合的基礎上,設計了一種檢索排序方法。在一定程度上提高了檢索結果與用戶檢索目標的一致性,用戶的滿意度實現(xiàn)了有效提升。但是其在排序階段的時間開銷較長,難以滿足現(xiàn)階段高效的檢索需求。梁少博等[5]以公共數(shù)字文化資源為研究對象,通過聯(lián)合實體識別與翻譯機制,實現(xiàn)了信息的跨語言檢索,提高了檢索的執(zhí)行效率。在一定程度上縮短了對目標信息的檢索時間,但是由于對實體的識別需要借助額外的輔助結構,因此在應用方面存在一定的局限性。結合上述信息檢索的研究情況可以看出,進一步深化對信息檢索方法的研究是十分必要的。

為此,本文提出基于區(qū)塊鏈技術的公共圖書館線上數(shù)據(jù)庫信息檢索方法研究,借助區(qū)塊鏈技術的優(yōu)勢,建立數(shù)據(jù)庫信息資源之間的關聯(lián)關系,確保檢索階段能夠根據(jù)輸入的內容在數(shù)據(jù)庫內實現(xiàn)對目標資源的快速、準確定位。

1 公共圖書館線上數(shù)據(jù)庫信息檢索方法設計

公共圖書館線上數(shù)據(jù)庫信息檢索,有利于提高信息數(shù)據(jù)挖掘效果,為線上數(shù)據(jù)資源整合提供技術支撐。根據(jù)公共圖書館線上數(shù)據(jù)關聯(lián)屬性,將工作量證明機制作為區(qū)塊鏈的共識協(xié)議,構建信息存儲結構,降低線上資源數(shù)據(jù)重復搜索概率。采用相似度計算方式,提高公共圖書館線上數(shù)據(jù)庫信息最終檢索結果的可靠性,以偏差系數(shù)為依據(jù)得到滿足檢索目標的尋優(yōu)結果,實現(xiàn)公共圖書館線上資源檢索,有效降低了檢索時間開銷,增強公共圖書館線上數(shù)據(jù)庫信息交互處理能力。

1.1 基于區(qū)塊鏈技術的數(shù)據(jù)庫信息結構構建

在信息檢索階段,由于基于公共圖書館線上數(shù)據(jù)庫中包含的資源規(guī)模總量較大,且資源的種類較多,這就導致在以檢索內容為基準在數(shù)據(jù)庫內匹配目標資源時需要進行大量的重復計算[6-7]。這不僅增加了檢索的時間開銷,同時也降低檢索結果的可靠性。為此,本文首先借助區(qū)塊鏈技術構建了具有關聯(lián)屬性的信息存儲結構。結合區(qū)塊鏈技術的運行機制,本文對公共圖書館線上數(shù)據(jù)的存儲交易建立在數(shù)字簽名驗證的基礎上,并以當前區(qū)塊為基準,對數(shù)據(jù)屬性進行證明,確認滿足要求后,將當前區(qū)塊添加到對應區(qū)塊鏈的尾部。在具體的設置過程中,本文將工作量證明機制作為區(qū)塊鏈的共識協(xié)議,對應的公共圖書館線上數(shù)據(jù)區(qū)塊鏈結構如圖1所示。

圖1 區(qū)塊鏈技術的數(shù)據(jù)庫信息結構

按照圖1所示的方式,利用工作量作為區(qū)塊加入的判斷標準,以此確保整個數(shù)據(jù)結構中各個節(jié)點信息的共識程度保持一致。當公共圖書館中的任意數(shù)據(jù)存儲在區(qū)塊上時,表明該數(shù)據(jù)資源與對應的數(shù)據(jù)鏈中所有區(qū)塊節(jié)點均有相同的屬性,并且這一屬性具有不可更改和持久的特點[8]。在此基礎上,當數(shù)據(jù)成功存儲到區(qū)塊鏈上后,則對應數(shù)據(jù)為元數(shù)據(jù),也就是具體的公共圖書館資源也存儲到了該區(qū)塊鏈。通過圖1中的數(shù)據(jù)庫信息結構可以看出,本文為區(qū)塊鏈上公共圖書館資源構建的標簽包括記錄號、關鍵詞以及數(shù)據(jù)簽名。通過這樣的方式降低在檢索階段對海量可連接數(shù)據(jù)重復搜索的問題,利用關鍵詞可以最快速度確定目標信息的檢索范圍。對于數(shù)據(jù)簽名的設置,本文以公共圖書館資源的特定屬性為基礎,具體的計算方式可以表示為:

其中,k表示數(shù)據(jù)簽名的設置結果,x表示經(jīng)過某規(guī)則檢索后的屬性參數(shù),Q表示某公共圖書館資源中包含的所有屬性信息。

通過這樣的方式,構建以區(qū)塊鏈技術為基礎的公共圖書館線上數(shù)據(jù)資源庫。通常將數(shù)據(jù)集(水平劃分)作為一個域,將其元數(shù)據(jù)作為公共圖書館線上數(shù)據(jù)庫信息結構,為后續(xù)的檢索機制執(zhí)行提供可靠基礎。

1.2 基于相似度的信息檢索

研究人員在完成對公共圖書館線上數(shù)據(jù)庫信息結構的構建后,為了提高最終檢索結果的可靠性,降低檢索過程的重復操作。本文以檢索內容為基準,與區(qū)塊鏈結構下的公共圖書館線上數(shù)據(jù)庫信息進行相似度計算[9-10]。

假設檢索欄輸入的檢索內容為y1,首先借助工作量證明機制計算與其對應資源鏈,在此基礎上,匹配其與當前區(qū)塊的相似度。具體地方計算方式可以表示為:

其中,sim(y1,y2)表示檢索內容與當前區(qū)塊y2資源的相似度,d表示區(qū)塊鏈結構下數(shù)據(jù)庫的最大深度參數(shù),x1和x2分別表示y1和y2的經(jīng)過規(guī)則檢索后的屬性參數(shù),dis(x1-x2)表示x1和x2之間的偏差系數(shù)。根據(jù)式(2)可以看出,dis(x1-x2)的取值結果越小,則資源y2與檢索內容y1的相似度sim(y1,y2)越大。對應資源y2與檢索內容y1的匹配程度越高。也就是說,鏈上信息資源與檢索內容的屬性偏差系數(shù)越小,二者之間的擬合度越高,對應資源與檢索目標越接近。結合這一理論基礎,對于目標信息檢索問題就轉換為了對最小dis(x1-x2)的尋優(yōu)問題。

對于具體的尋優(yōu)方式,本文設計了如圖2所示的執(zhí)行方案。

圖2 檢索信息匹配結果尋優(yōu)方式

如圖2所示,在對檢索信息匹配結果尋優(yōu)的過程中,本文根據(jù)y2資源的記錄號對具體的尋優(yōu)方向進行控制。當dis(x1-x2)為負值時,則沿數(shù)據(jù)鏈向前與對應區(qū)塊上的資源進行相似度計算;當dis(x1-x2)為正值時,則沿數(shù)據(jù)鏈向后與對應區(qū)塊上的資源進行相似度計算。直至計算結果滿足

將對于區(qū)塊上的資源作為最終的檢索結果,輸出的交互頁面。由此完成對信息的檢索。

2 測試與分析

2.1 測試環(huán)境設計

在對本文設計的基于區(qū)塊鏈技術的公共圖書館線上數(shù)據(jù)庫信息檢索方法應用效果進行測試階段,分別采用蘇珂等[4]方法和梁少博等[5]方法作為測試的對照組,通過對比上述三種方法的檢索結果,對本文設計方法的應用價值進行分析。

2.2 測試方法

本文以某數(shù)字圖書館數(shù)據(jù)庫內的資源子集作為基礎測試環(huán)境,對應的信息規(guī)模總量分別為10.0 T、20.0 T、30.0 T、40.0 T、50.0 T。在此基礎上,分別設置了10 條不同的固定檢索內容作為檢索信息,采用三種方法實施檢索??紤]到除了檢索結果的可靠性外,信息檢索的執(zhí)行效率也是評價檢索方法的重要指標之一。因此,本文對不同檢索方法的響應時間進行約束,根據(jù)現(xiàn)階段檢索方法的平均響應時間,以30 s 作為臨界標準,當信息檢索方法未能在30 s 內針對檢索內容做出反饋,則判定對應的測試失敗,測試結果取0。

對于測試結果的評價,本文結合信息檢索的實際需求,分別設置召回率、查準率作為評價指標。其中,利用召回率對檢索結果的查全情況進行分析,利用查準率對檢索結果的精準情況進行分析。

2.3 測試結果與分析

首先,統(tǒng)計了三種方法在不同規(guī)模數(shù)據(jù)子集下的召回率,得到的數(shù)據(jù)結果如表1所示。

表1 不同檢索方法召回率統(tǒng)計表

通過對比表1中的檢索結果可以看出,隨著測試數(shù)據(jù)庫子集規(guī)模的不斷增大,三種方法的召回率測試結果均出現(xiàn)一定程度的下降。其中,蘇珂等[4]方法的下降幅度最大,當檢索數(shù)據(jù)子集的規(guī)模由10.0T 增加到50.0 T 時,召回率降低了4.22%。相比之下,梁少博等[5]方法的下降程度與之相比幅度較小,但是也達到了3.77%。而在本文設計方法的檢索結果中,召回率的下降程度僅為1.86%,與對照組的兩種方法相比表現(xiàn)出了更高的穩(wěn)定性。不僅如此,通過對具體的召回率進行分析可以發(fā)現(xiàn),蘇珂等[4]方法的召回率最大值僅為84.44%,梁少博等[5]方法的召回率最大值也僅為86.02%。而在本文設計方法的測試結果中,召回率的最大值達到了88.45%,分別高于蘇珂等[4]方法和梁少博等[5]方法4.01%和2.43%。測試結果表明本文設計的基于區(qū)塊鏈技術的公共圖書館線上數(shù)據(jù)庫信息檢索方法能夠實現(xiàn)對信息的全面檢索。

其次,統(tǒng)計了三種方法在不同規(guī)模數(shù)據(jù)子集下的查準率,得到的數(shù)據(jù)結果如圖3所示。

圖3 不同檢索方法查準率對比圖

通過觀察圖3中的測試結果可以看出,在三種檢索方法中,蘇珂等[4]方法和梁少博等[5]方法對應的查準率表現(xiàn)出明顯的下降趨勢。隨著測試數(shù)據(jù)子集規(guī)模的增加,兩種方法查準率的整體下降程度基本相同,當測試數(shù)據(jù)子集的規(guī)模達到50.0T 時,對應的查準率分別為80.44%和79.62%。但是相比之下,本文設計方法的檢索結果查準率雖然也呈現(xiàn)出了一定程度的下降,但是下降程度明顯低于蘇珂等[4]方法和梁少博等[5]方法。當測試數(shù)據(jù)子集的規(guī)模達到50.0 T 時,對應的查準率也達到了88.60%,分別高于對照組8.16%和8.89%。不僅如此,從整體角度分析,本文設計方法的查準率也始終明顯高于另外兩組測試結果,表明本文設計的基于區(qū)塊鏈技術的公共圖書館線上數(shù)據(jù)庫信息檢索方法能夠實現(xiàn)對目標信息的精準檢索,在線上公共圖書館中具有一定的應用價值。

3 結語

為了提高用戶對線上圖書館的使用感受,本文從信息檢索的角度出發(fā),設計了一種基于區(qū)塊鏈技術的公共圖書館線上數(shù)據(jù)庫信息檢索方法,通過建立數(shù)據(jù)之間的關聯(lián)關系,提高了檢索信息與數(shù)據(jù)庫資源之間的匹配效果,使得檢索過程更加高效,檢索結果也更加準確。通過本文的研究,希望能夠為實際的線上數(shù)據(jù)庫信息檢索機制構建提供參考價值,提高公共圖書館資源的利用率。

猜你喜歡
查準率信息檢索檢索
高職院校圖書館開設信息檢索課的必要性探討
瑞典專利數(shù)據(jù)庫的檢索技巧
一種基于Python的音樂檢索方法的研究
基于數(shù)據(jù)挖掘技術的網(wǎng)絡信息過濾系統(tǒng)設計
計算機信息檢索技術的發(fā)展及問題研究
大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
淺議專利檢索質量的提升
基于深度特征分析的雙線性圖像相似度匹配算法
基于神經(jīng)網(wǎng)絡的個性化信息檢索模型研究
公共圖書館信息檢索服務的實踐探索——以上海浦東圖書館為例