劉家材
(武漢職業(yè)技術學院 湖北 武漢 430000)
互聯(lián)網(wǎng)技術的發(fā)展以及網(wǎng)絡技術的興起在極大程度上加速了數(shù)字化建設的進程,以此為基礎的線上圖書館在應用方面表現(xiàn)出的便捷性使用戶群體在短時間內實現(xiàn)了大幅增加[1-2]。但是值得注意的是,由于公共圖書館線上數(shù)據(jù)庫信息的規(guī)模較大,且資源之間的關聯(lián)關系較為復雜,導致在信息檢索階段的時間開銷較長,用戶檢索結果的滿意度較低[3]。針對該問題,部分學者以線上數(shù)據(jù)庫信息檢索為目標,展開了對應的研究。其中,蘇珂等[4]提出在對排序學習與預訓練模型進行融合的基礎上,設計了一種檢索排序方法。在一定程度上提高了檢索結果與用戶檢索目標的一致性,用戶的滿意度實現(xiàn)了有效提升。但是其在排序階段的時間開銷較長,難以滿足現(xiàn)階段高效的檢索需求。梁少博等[5]以公共數(shù)字文化資源為研究對象,通過聯(lián)合實體識別與翻譯機制,實現(xiàn)了信息的跨語言檢索,提高了檢索的執(zhí)行效率。在一定程度上縮短了對目標信息的檢索時間,但是由于對實體的識別需要借助額外的輔助結構,因此在應用方面存在一定的局限性。結合上述信息檢索的研究情況可以看出,進一步深化對信息檢索方法的研究是十分必要的。
為此,本文提出基于區(qū)塊鏈技術的公共圖書館線上數(shù)據(jù)庫信息檢索方法研究,借助區(qū)塊鏈技術的優(yōu)勢,建立數(shù)據(jù)庫信息資源之間的關聯(lián)關系,確保檢索階段能夠根據(jù)輸入的內容在數(shù)據(jù)庫內實現(xiàn)對目標資源的快速、準確定位。
公共圖書館線上數(shù)據(jù)庫信息檢索,有利于提高信息數(shù)據(jù)挖掘效果,為線上數(shù)據(jù)資源整合提供技術支撐。根據(jù)公共圖書館線上數(shù)據(jù)關聯(lián)屬性,將工作量證明機制作為區(qū)塊鏈的共識協(xié)議,構建信息存儲結構,降低線上資源數(shù)據(jù)重復搜索概率。采用相似度計算方式,提高公共圖書館線上數(shù)據(jù)庫信息最終檢索結果的可靠性,以偏差系數(shù)為依據(jù)得到滿足檢索目標的尋優(yōu)結果,實現(xiàn)公共圖書館線上資源檢索,有效降低了檢索時間開銷,增強公共圖書館線上數(shù)據(jù)庫信息交互處理能力。
在信息檢索階段,由于基于公共圖書館線上數(shù)據(jù)庫中包含的資源規(guī)模總量較大,且資源的種類較多,這就導致在以檢索內容為基準在數(shù)據(jù)庫內匹配目標資源時需要進行大量的重復計算[6-7]。這不僅增加了檢索的時間開銷,同時也降低檢索結果的可靠性。為此,本文首先借助區(qū)塊鏈技術構建了具有關聯(lián)屬性的信息存儲結構。結合區(qū)塊鏈技術的運行機制,本文對公共圖書館線上數(shù)據(jù)的存儲交易建立在數(shù)字簽名驗證的基礎上,并以當前區(qū)塊為基準,對數(shù)據(jù)屬性進行證明,確認滿足要求后,將當前區(qū)塊添加到對應區(qū)塊鏈的尾部。在具體的設置過程中,本文將工作量證明機制作為區(qū)塊鏈的共識協(xié)議,對應的公共圖書館線上數(shù)據(jù)區(qū)塊鏈結構如圖1所示。
圖1 區(qū)塊鏈技術的數(shù)據(jù)庫信息結構
按照圖1所示的方式,利用工作量作為區(qū)塊加入的判斷標準,以此確保整個數(shù)據(jù)結構中各個節(jié)點信息的共識程度保持一致。當公共圖書館中的任意數(shù)據(jù)存儲在區(qū)塊上時,表明該數(shù)據(jù)資源與對應的數(shù)據(jù)鏈中所有區(qū)塊節(jié)點均有相同的屬性,并且這一屬性具有不可更改和持久的特點[8]。在此基礎上,當數(shù)據(jù)成功存儲到區(qū)塊鏈上后,則對應數(shù)據(jù)為元數(shù)據(jù),也就是具體的公共圖書館資源也存儲到了該區(qū)塊鏈。通過圖1中的數(shù)據(jù)庫信息結構可以看出,本文為區(qū)塊鏈上公共圖書館資源構建的標簽包括記錄號、關鍵詞以及數(shù)據(jù)簽名。通過這樣的方式降低在檢索階段對海量可連接數(shù)據(jù)重復搜索的問題,利用關鍵詞可以最快速度確定目標信息的檢索范圍。對于數(shù)據(jù)簽名的設置,本文以公共圖書館資源的特定屬性為基礎,具體的計算方式可以表示為:
其中,k表示數(shù)據(jù)簽名的設置結果,x表示經(jīng)過某規(guī)則檢索后的屬性參數(shù),Q表示某公共圖書館資源中包含的所有屬性信息。
通過這樣的方式,構建以區(qū)塊鏈技術為基礎的公共圖書館線上數(shù)據(jù)資源庫。通常將數(shù)據(jù)集(水平劃分)作為一個域,將其元數(shù)據(jù)作為公共圖書館線上數(shù)據(jù)庫信息結構,為后續(xù)的檢索機制執(zhí)行提供可靠基礎。
研究人員在完成對公共圖書館線上數(shù)據(jù)庫信息結構的構建后,為了提高最終檢索結果的可靠性,降低檢索過程的重復操作。本文以檢索內容為基準,與區(qū)塊鏈結構下的公共圖書館線上數(shù)據(jù)庫信息進行相似度計算[9-10]。
假設檢索欄輸入的檢索內容為y1,首先借助工作量證明機制計算與其對應資源鏈,在此基礎上,匹配其與當前區(qū)塊的相似度。具體地方計算方式可以表示為:
其中,sim(y1,y2)表示檢索內容與當前區(qū)塊y2資源的相似度,d表示區(qū)塊鏈結構下數(shù)據(jù)庫的最大深度參數(shù),x1和x2分別表示y1和y2的經(jīng)過規(guī)則檢索后的屬性參數(shù),dis(x1-x2)表示x1和x2之間的偏差系數(shù)。根據(jù)式(2)可以看出,dis(x1-x2)的取值結果越小,則資源y2與檢索內容y1的相似度sim(y1,y2)越大。對應資源y2與檢索內容y1的匹配程度越高。也就是說,鏈上信息資源與檢索內容的屬性偏差系數(shù)越小,二者之間的擬合度越高,對應資源與檢索目標越接近。結合這一理論基礎,對于目標信息檢索問題就轉換為了對最小dis(x1-x2)的尋優(yōu)問題。
對于具體的尋優(yōu)方式,本文設計了如圖2所示的執(zhí)行方案。
圖2 檢索信息匹配結果尋優(yōu)方式
如圖2所示,在對檢索信息匹配結果尋優(yōu)的過程中,本文根據(jù)y2資源的記錄號對具體的尋優(yōu)方向進行控制。當dis(x1-x2)為負值時,則沿數(shù)據(jù)鏈向前與對應區(qū)塊上的資源進行相似度計算;當dis(x1-x2)為正值時,則沿數(shù)據(jù)鏈向后與對應區(qū)塊上的資源進行相似度計算。直至計算結果滿足
將對于區(qū)塊上的資源作為最終的檢索結果,輸出的交互頁面。由此完成對信息的檢索。
在對本文設計的基于區(qū)塊鏈技術的公共圖書館線上數(shù)據(jù)庫信息檢索方法應用效果進行測試階段,分別采用蘇珂等[4]方法和梁少博等[5]方法作為測試的對照組,通過對比上述三種方法的檢索結果,對本文設計方法的應用價值進行分析。
本文以某數(shù)字圖書館數(shù)據(jù)庫內的資源子集作為基礎測試環(huán)境,對應的信息規(guī)模總量分別為10.0 T、20.0 T、30.0 T、40.0 T、50.0 T。在此基礎上,分別設置了10 條不同的固定檢索內容作為檢索信息,采用三種方法實施檢索??紤]到除了檢索結果的可靠性外,信息檢索的執(zhí)行效率也是評價檢索方法的重要指標之一。因此,本文對不同檢索方法的響應時間進行約束,根據(jù)現(xiàn)階段檢索方法的平均響應時間,以30 s 作為臨界標準,當信息檢索方法未能在30 s 內針對檢索內容做出反饋,則判定對應的測試失敗,測試結果取0。
對于測試結果的評價,本文結合信息檢索的實際需求,分別設置召回率、查準率作為評價指標。其中,利用召回率對檢索結果的查全情況進行分析,利用查準率對檢索結果的精準情況進行分析。
首先,統(tǒng)計了三種方法在不同規(guī)模數(shù)據(jù)子集下的召回率,得到的數(shù)據(jù)結果如表1所示。
表1 不同檢索方法召回率統(tǒng)計表
通過對比表1中的檢索結果可以看出,隨著測試數(shù)據(jù)庫子集規(guī)模的不斷增大,三種方法的召回率測試結果均出現(xiàn)一定程度的下降。其中,蘇珂等[4]方法的下降幅度最大,當檢索數(shù)據(jù)子集的規(guī)模由10.0T 增加到50.0 T 時,召回率降低了4.22%。相比之下,梁少博等[5]方法的下降程度與之相比幅度較小,但是也達到了3.77%。而在本文設計方法的檢索結果中,召回率的下降程度僅為1.86%,與對照組的兩種方法相比表現(xiàn)出了更高的穩(wěn)定性。不僅如此,通過對具體的召回率進行分析可以發(fā)現(xiàn),蘇珂等[4]方法的召回率最大值僅為84.44%,梁少博等[5]方法的召回率最大值也僅為86.02%。而在本文設計方法的測試結果中,召回率的最大值達到了88.45%,分別高于蘇珂等[4]方法和梁少博等[5]方法4.01%和2.43%。測試結果表明本文設計的基于區(qū)塊鏈技術的公共圖書館線上數(shù)據(jù)庫信息檢索方法能夠實現(xiàn)對信息的全面檢索。
其次,統(tǒng)計了三種方法在不同規(guī)模數(shù)據(jù)子集下的查準率,得到的數(shù)據(jù)結果如圖3所示。
圖3 不同檢索方法查準率對比圖
通過觀察圖3中的測試結果可以看出,在三種檢索方法中,蘇珂等[4]方法和梁少博等[5]方法對應的查準率表現(xiàn)出明顯的下降趨勢。隨著測試數(shù)據(jù)子集規(guī)模的增加,兩種方法查準率的整體下降程度基本相同,當測試數(shù)據(jù)子集的規(guī)模達到50.0T 時,對應的查準率分別為80.44%和79.62%。但是相比之下,本文設計方法的檢索結果查準率雖然也呈現(xiàn)出了一定程度的下降,但是下降程度明顯低于蘇珂等[4]方法和梁少博等[5]方法。當測試數(shù)據(jù)子集的規(guī)模達到50.0 T 時,對應的查準率也達到了88.60%,分別高于對照組8.16%和8.89%。不僅如此,從整體角度分析,本文設計方法的查準率也始終明顯高于另外兩組測試結果,表明本文設計的基于區(qū)塊鏈技術的公共圖書館線上數(shù)據(jù)庫信息檢索方法能夠實現(xiàn)對目標信息的精準檢索,在線上公共圖書館中具有一定的應用價值。
為了提高用戶對線上圖書館的使用感受,本文從信息檢索的角度出發(fā),設計了一種基于區(qū)塊鏈技術的公共圖書館線上數(shù)據(jù)庫信息檢索方法,通過建立數(shù)據(jù)之間的關聯(lián)關系,提高了檢索信息與數(shù)據(jù)庫資源之間的匹配效果,使得檢索過程更加高效,檢索結果也更加準確。通過本文的研究,希望能夠為實際的線上數(shù)據(jù)庫信息檢索機制構建提供參考價值,提高公共圖書館資源的利用率。