基于人工智能技術(shù)的圖書館信息檢索模型

2021-07-30 07:57布艷艷

電子設(shè)計工程 2021年14期

布艷艷

（西安科技大學(xué)高新學(xué)院圖書館，陜西西安 710109）

圖書館已趨于數(shù)字化，圖書館將眾多高科技應(yīng)用于信息資源中，實現(xiàn)信息資源的管理[1-3]。數(shù)字圖書館存在檢索信息與用戶所輸入檢索詞相關(guān)度較低，無法滿足用戶需求的缺陷[4-5]。以往圖書館信息檢索模型僅將關(guān)鍵詞作為搜索的主要元素，未考慮文獻間的關(guān)聯(lián)，無法體現(xiàn)檢索信息間的語義關(guān)系，導(dǎo)致查詢結(jié)果具有較高的誤檢率以及漏檢率。程煜華等人研究基于D-S 證據(jù)理論的信息檢索模型[6-7]，利用D-S 證據(jù)理論建立信息檢索模型，存在檢索信息相關(guān)性較差的缺陷；李莉研究基于多Agent 技術(shù)的數(shù)字圖書館個性化信息服務(wù)檢索模型，可有效提升檢索精度，但檢索實時性較差[8-10]。

人工智能技術(shù)包含機器學(xué)習(xí)、自然語言處理與自動化、機器視覺、語義網(wǎng)、貝葉斯網(wǎng)絡(luò)等，為了提高圖書館信息檢索正確率，提出了基于人工智能技術(shù)的圖書館信息檢索模型，為圖書館信息實時檢索提供理論依據(jù)。

1 圖書館信息檢索模型具體設(shè)計

1.1 圖書館信息檢索模型

基于人工智能技術(shù)的語義網(wǎng)建立圖書館信息檢索模型，如圖1 所示。從圖1 可以看出，所建立圖書館信息檢索模型包括用戶請求模塊、信息檢索處理模塊以及資源庫3 部分。用戶輸入關(guān)鍵詞或語句等查詢請求后發(fā)送至信息檢索模塊，資源庫利用圖書館信息資源通過標(biāo)準(zhǔn)化以及規(guī)劃化表達方式和工作步驟創(chuàng)建本體，信息檢索處理模塊選取貝葉斯網(wǎng)絡(luò)作為推理機，通過語義邏輯推理、語義抽取以及語義查詢處理用戶所輸入關(guān)鍵詞或語句，獲取邏輯表達式，從知識庫中尋找理想結(jié)果，將檢索結(jié)果排序后輸出結(jié)果至用戶界面。

圖1 圖書館信息檢索模型

通過語義網(wǎng)處理海量圖書館信息資源，獲取理想的信息檢索結(jié)果。利用語義網(wǎng)的概念檢索技術(shù)及資源標(biāo)注技術(shù)與語義字典等工具結(jié)合，建立可體現(xiàn)圖書館信息資源領(lǐng)域知識的領(lǐng)域本體模型。建立領(lǐng)域本體模型過程中需充分利用領(lǐng)域?qū)＜业慕?jīng)驗及知識來獲取該領(lǐng)域內(nèi)詞匯，依據(jù)形式化模式獲取不同詞匯關(guān)系的具體定義，所獲取領(lǐng)域本體可實現(xiàn)資源庫內(nèi)文檔的標(biāo)引[11-12]。利用本體更新器依據(jù)資源庫內(nèi)信息變化擴展領(lǐng)域本體，更新器可依據(jù)網(wǎng)絡(luò)信息更新本體知識，并將不需要的知識進行實時刪除以及修改。

1.2 本體創(chuàng)建

通過標(biāo)準(zhǔn)化以及規(guī)范化表達方式和工作步驟建立模型本體，依據(jù)待建立本體的層次、原則、用途、評價標(biāo)準(zhǔn)選取建立本體所需的描述語言和建立模式[13]。選取中國圖書分類法構(gòu)建圖書館信息檢索模型知識本體，利用OWL 語言作為建立本體的描述語言，OWL 語言是語義互聯(lián)網(wǎng)內(nèi)的本體描述語言標(biāo)準(zhǔn)，利用斯坦福大學(xué)開發(fā)的本體開發(fā)工具Protégé軟件建立本體，本體開發(fā)過程以及生命周期如圖2 所示。利用領(lǐng)域?qū)＜逸o助建立包括本體目的、范圍、實現(xiàn)本體形式化程度的規(guī)格說明書，利用中國圖書分類法獲取不同信息間的關(guān)聯(lián)知識，利用不同信息資源關(guān)聯(lián)知識建立概念模型，通過識別領(lǐng)域詞匯表呈現(xiàn)問題，并提出相應(yīng)解決方案，實現(xiàn)模型本體創(chuàng)建。

圖2 本體開發(fā)以及生命周期

1.3 貝葉斯網(wǎng)絡(luò)推理與檢索

1.3.1 擴展貝葉斯網(wǎng)絡(luò)

選取雙術(shù)語層體現(xiàn)術(shù)語節(jié)點內(nèi)的關(guān)聯(lián)。設(shè)R與Ri分別表示原始術(shù)語層以及術(shù)語節(jié)點，將存在于原始術(shù)語層R內(nèi)的全部術(shù)語節(jié)點Ri復(fù)制，所獲取的術(shù)語節(jié)點用來建立新術(shù)語層，用R′表示。不同層次內(nèi)術(shù)語節(jié)點間弧的指向用基于本體關(guān)聯(lián)的術(shù)語節(jié)點間聯(lián)系獲取[14]，其過程如下：

1.3.2 概率估計

設(shè)為隨機存在的根術(shù)語節(jié)點，需明確與該根術(shù)語節(jié)點相關(guān)的邊緣概率，設(shè)給定集合內(nèi)全部術(shù)語節(jié)點的概率相同，可得根術(shù)語節(jié)點相關(guān)邊緣概率為：

式中，M表示集合內(nèi)術(shù)語節(jié)點總數(shù)。

根術(shù)語節(jié)點不相關(guān)概率公式如下：

貝葉斯網(wǎng)絡(luò)內(nèi)節(jié)點的父節(jié)點決定隨機非根節(jié)點的概率，設(shè)Ri為集合內(nèi)隨機非根術(shù)語節(jié)點，pa(Ri)內(nèi)各術(shù)語變量相關(guān)與不相關(guān)取值組合也用pa(Ri)表示，以此得到一般正則模型概率函數(shù)，計算公式如下：

其中，vij表示術(shù)語影響術(shù)語Ri的權(quán)重。

當(dāng)術(shù)語Ri存在眾多父節(jié)點時，可得權(quán)重vij為：

其中，η與Srd分別表示調(diào)節(jié)參數(shù)以及術(shù)語節(jié)點集合內(nèi)術(shù)語本體關(guān)聯(lián)度之和。

術(shù)語本體關(guān)聯(lián)度之和的最大值為：

術(shù)語相關(guān)詞對術(shù)語影響之和小于術(shù)語對自身的影響[15-16]，當(dāng)i=j，0.5 ≤η≤1.0 時，表現(xiàn)明顯。

設(shè)Bj表示集合內(nèi)存在的文檔，得其條件概率為：

其中，pa(Bj)與wij分別表示pa(Bj)內(nèi)各術(shù)語變量相關(guān)以及不相關(guān)取值的組合以及文檔Bj的索引術(shù)語Rj的權(quán)重。以上公式需滿足wij≥0(?i,j)，。當(dāng)ri∈pa(Bj)時，表示pa(Bj)內(nèi)相關(guān)術(shù)語權(quán)重之和。

Bj的相關(guān)概率值在pa(Bj)內(nèi)相關(guān)術(shù)語越多時越高。選取TF-IDF 算法計算wij，如式（7）所示：

其中，γ為時的規(guī)格化常數(shù)，且滿足?Bj∈B，rfij與ibfi分別表示術(shù)語頻度以及倒排文檔頻度。

1.3.3 推理與檢索

設(shè)Q為用戶查詢以及提交的信息，相關(guān)度P(Bj|Q)表示查詢Q時獲取文檔Bj的條件概率，獲取相關(guān)度步驟如下：

1）屬于Q術(shù)語的邊緣概率在用戶提交查詢信息Q時，被實例化。當(dāng)∈Q以及?Q時，分別獲取結(jié)果為。

2）依據(jù)以下公式獲取隨機術(shù)語Ri在術(shù)語層R內(nèi)的后驗概率：

3）通過以下公式計算查詢信息Q與文檔Bj間相關(guān)度P(Bj|Q)，即文檔Bj最終后驗概率：

所獲取與查詢信息Q相關(guān)度最高的文檔Bj即為與用戶所查詢信息最相關(guān)文檔，即用戶所需文檔，通過以上過程實現(xiàn)圖書館信息檢索。

2 模型性能的測試

2.1 測試樣本

選取Cornell 大學(xué)的SMART 11.0 系統(tǒng)測試文中所建立模型檢索信息的有效性，該系統(tǒng)是利用向量空間模型建立的信息檢索仿真系統(tǒng)，通過該系統(tǒng)可評價不同模型索引以及檢索功能，是研究信息檢索功能的實用平臺。選取常用于信息檢索測試的citeseer 圖書館科學(xué)標(biāo)準(zhǔn)數(shù)據(jù)集作為實驗樣本，該樣本包含2 564 篇文檔、6 854 個術(shù)語索引項、10 854 個詞以及56 個查詢。數(shù)據(jù)集內(nèi)包含數(shù)據(jù)挖掘、人工智能、科學(xué)計算、地理等眾多領(lǐng)域內(nèi)容，選取大數(shù)據(jù)分析、模式識別、支持向量機、圖像特征、神經(jīng)網(wǎng)絡(luò)、電磁波衰減作為測試詞語。

2.2 測試指標(biāo)

測試圖書館信息檢索模型檢索性能的指標(biāo)眾多，選取檢索相關(guān)度、檢索精度、查全率、查準(zhǔn)率、查全率/查準(zhǔn)率曲線作為模型檢索性能測試指標(biāo)。用Q與R分別表示用戶查詢信息以及相關(guān)文檔集，|R|與A分別表示集合內(nèi)文檔數(shù)量以及檢索后返回的文檔集合，|A|與|Ra|分別表示文檔集合的總數(shù)量以及文檔集合R與文檔集合A內(nèi)存在相同文檔的數(shù)量，可得查全率B以及查準(zhǔn)率C，公式如下：

查準(zhǔn)率/查全率曲線是指查全率以及查準(zhǔn)率分別為橫軸以及縱軸時所獲取的曲線。檢索精度是指實際檢索相關(guān)文檔數(shù)與全部檢索獲取文檔總數(shù)之比。

2.3 測試結(jié)果

輸入測試詞語時，統(tǒng)計所獲取檢索結(jié)果與測試詞語相關(guān)度，并將該文模型與D-S 證據(jù)理論模型(參考文獻[6])以及多Agent 模型(參考文獻[7])對比，統(tǒng)計結(jié)果如圖3 所示。通過圖3 測試結(jié)果可以看出，采用該文模型檢索信息所獲取文檔的相關(guān)度明顯高于采用D-S 證據(jù)理論模型以及多Agent 模型檢索信息所獲取文檔的相關(guān)度，有效說明采用該文模型檢索所獲取結(jié)果與測試詞語相關(guān)度較高，具有較高的檢索性能。

圖3 檢索相關(guān)度對比

統(tǒng)計不同模型檢索測試詞語的檢索精度，對比結(jié)果如圖4 所示。通過圖4 測試結(jié)果可以看出，采用文中模型檢索測試詞語的檢索精度明顯高于采用D-S 證據(jù)理論模型以及多Agent 模型檢索精度，文中模型的檢索精度高達99%以上，有效驗證了文中模型具有較高的檢索精度。

圖4 檢索精度對比

統(tǒng)計不同模型檢索測試詞語的查全率，對比結(jié)果如圖5 所示。由圖5 測試結(jié)果可以看出，輸入不同測試詞語后該文模型檢索的查全率明顯高于D-S 證據(jù)理論模型以及多Agent 模型，驗證了該文模型具有較高的查全性能。

圖5 不同模型查全率對比

統(tǒng)計不同模型檢索測試詞語的查準(zhǔn)率，對比結(jié)果如圖6 所示。由圖6 測試結(jié)果可以看出，采用該文模型檢索測試詞語獲取的查準(zhǔn)率明顯高于D-S證據(jù)理論模型以及多Agent 模型，有效說明了采用該文模型檢索測試詞語的準(zhǔn)確性高于另兩種模型。

圖6 不同模型查準(zhǔn)率對比

依據(jù)以上測試結(jié)果繪制不同模型的查全率/查準(zhǔn)率曲線圖，如圖7 所示。由圖7 測試結(jié)果可以看出，當(dāng)查全率為10%以及20%時，3 種模型查準(zhǔn)率相差較小，主要原因是查全率較低時，3 種模型可檢索文檔數(shù)量較少，所檢索文檔相關(guān)度較高，因此查準(zhǔn)率相差不大。隨著查全率不斷提升，該文模型的查全率明顯高于另兩種模型，所檢索文檔數(shù)量也高于另兩種模型，因此具有較高的查準(zhǔn)率。

圖7 查全率/查準(zhǔn)率曲線

查全率、查準(zhǔn)率以及檢索精度是檢測信息檢索性能的重要指標(biāo)，從以上測試結(jié)果可以看出，該文模型不僅具有較高的檢索精度，且檢索不同測試詞語所獲取的查全率以及查準(zhǔn)率均明顯高于另兩種模型，有效驗證了該文模型具有優(yōu)越的檢索性能。

3 結(jié)束語

大數(shù)據(jù)背景下圖書館信息檢索需求有所提升，將人工智能技術(shù)應(yīng)用于圖書館信息檢索中具有較高的應(yīng)用性。人工智能技術(shù)可符合用戶信息采集需求，提升圖書館信息檢索效率，推動數(shù)字化圖書館的不斷進步及穩(wěn)定發(fā)展。圖書館作為用戶提供信息服務(wù)的載體，需充分考慮用戶需求，知識化以及智能化集成數(shù)字信息資源和服務(wù)是數(shù)字化圖書館的重要發(fā)展方向。文中所采用的語義網(wǎng)技術(shù)可通過語義層次實現(xiàn)用戶的信息檢索需求，為數(shù)字圖書館智能化發(fā)展提供理論基礎(chǔ)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡