布艷艷
(西安科技大學(xué)高新學(xué)院圖書館,陜西西安 710109)
圖書館已趨于數(shù)字化,圖書館將眾多高科技應(yīng)用于信息資源中,實現(xiàn)信息資源的管理[1-3]。數(shù)字圖書館存在檢索信息與用戶所輸入檢索詞相關(guān)度較低,無法滿足用戶需求的缺陷[4-5]。以往圖書館信息檢索模型僅將關(guān)鍵詞作為搜索的主要元素,未考慮文獻間的關(guān)聯(lián),無法體現(xiàn)檢索信息間的語義關(guān)系,導(dǎo)致查詢結(jié)果具有較高的誤檢率以及漏檢率。程煜華等人研究基于D-S 證據(jù)理論的信息檢索模型[6-7],利用D-S 證據(jù)理論建立信息檢索模型,存在檢索信息相關(guān)性較差的缺陷;李莉研究基于多Agent 技術(shù)的數(shù)字圖書館個性化信息服務(wù)檢索模型,可有效提升檢索精度,但檢索實時性較差[8-10]。
人工智能技術(shù)包含機器學(xué)習(xí)、自然語言處理與自動化、機器視覺、語義網(wǎng)、貝葉斯網(wǎng)絡(luò)等,為了提高圖書館信息檢索正確率,提出了基于人工智能技術(shù)的圖書館信息檢索模型,為圖書館信息實時檢索提供理論依據(jù)。
基于人工智能技術(shù)的語義網(wǎng)建立圖書館信息檢索模型,如圖1 所示。從圖1 可以看出,所建立圖書館信息檢索模型包括用戶請求模塊、信息檢索處理模塊以及資源庫3 部分。用戶輸入關(guān)鍵詞或語句等查詢請求后發(fā)送至信息檢索模塊,資源庫利用圖書館信息資源通過標(biāo)準(zhǔn)化以及規(guī)劃化表達方式和工作步驟創(chuàng)建本體,信息檢索處理模塊選取貝葉斯網(wǎng)絡(luò)作為推理機,通過語義邏輯推理、語義抽取以及語義查詢處理用戶所輸入關(guān)鍵詞或語句,獲取邏輯表達式,從知識庫中尋找理想結(jié)果,將檢索結(jié)果排序后輸出結(jié)果至用戶界面。
圖1 圖書館信息檢索模型
通過語義網(wǎng)處理海量圖書館信息資源,獲取理想的信息檢索結(jié)果。利用語義網(wǎng)的概念檢索技術(shù)及資源標(biāo)注技術(shù)與語義字典等工具結(jié)合,建立可體現(xiàn)圖書館信息資源領(lǐng)域知識的領(lǐng)域本體模型。建立領(lǐng)域本體模型過程中需充分利用領(lǐng)域?qū)<业慕?jīng)驗及知識來獲取該領(lǐng)域內(nèi)詞匯,依據(jù)形式化模式獲取不同詞匯關(guān)系的具體定義,所獲取領(lǐng)域本體可實現(xiàn)資源庫內(nèi)文檔的標(biāo)引[11-12]。利用本體更新器依據(jù)資源庫內(nèi)信息變化擴展領(lǐng)域本體,更新器可依據(jù)網(wǎng)絡(luò)信息更新本體知識,并將不需要的知識進行實時刪除以及修改。
通過標(biāo)準(zhǔn)化以及規(guī)范化表達方式和工作步驟建立模型本體,依據(jù)待建立本體的層次、原則、用途、評價標(biāo)準(zhǔn)選取建立本體所需的描述語言和建立模式[13]。選取中國圖書分類法構(gòu)建圖書館信息檢索模型知識本體,利用OWL 語言作為建立本體的描述語言,OWL 語言是語義互聯(lián)網(wǎng)內(nèi)的本體描述語言標(biāo)準(zhǔn),利用斯坦福大學(xué)開發(fā)的本體開發(fā)工具Protégé軟件建立本體,本體開發(fā)過程以及生命周期如圖2 所示。利用領(lǐng)域?qū)<逸o助建立包括本體目的、范圍、實現(xiàn)本體形式化程度的規(guī)格說明書,利用中國圖書分類法獲取不同信息間的關(guān)聯(lián)知識,利用不同信息資源關(guān)聯(lián)知識建立概念模型,通過識別領(lǐng)域詞匯表呈現(xiàn)問題,并提出相應(yīng)解決方案,實現(xiàn)模型本體創(chuàng)建。
圖2 本體開發(fā)以及生命周期
1.3.1 擴展貝葉斯網(wǎng)絡(luò)
選取雙術(shù)語層體現(xiàn)術(shù)語節(jié)點內(nèi)的關(guān)聯(lián)。設(shè)R與Ri分別表示原始術(shù)語層以及術(shù)語節(jié)點,將存在于原始術(shù)語層R內(nèi)的全部術(shù)語節(jié)點Ri復(fù)制,所獲取的術(shù)語節(jié)點用來建立新術(shù)語層,用R′表示。不同層次內(nèi)術(shù)語節(jié)點間弧的指向用基于本體關(guān)聯(lián)的術(shù)語節(jié)點間聯(lián)系獲取[14],其過程如下:
1.3.2 概率估計
設(shè)為隨機存在的根術(shù)語節(jié)點,需明確與該根術(shù)語節(jié)點相關(guān)的邊緣概率,設(shè)給定集合內(nèi)全部術(shù)語節(jié)點的概率相同,可得根術(shù)語節(jié)點相關(guān)邊緣概率為:
式中,M表示集合內(nèi)術(shù)語節(jié)點總數(shù)。
根術(shù)語節(jié)點不相關(guān)概率公式如下:
貝葉斯網(wǎng)絡(luò)內(nèi)節(jié)點的父節(jié)點決定隨機非根節(jié)點的概率,設(shè)Ri為集合內(nèi)隨機非根術(shù)語節(jié)點,pa(Ri)內(nèi)各術(shù)語變量相關(guān)與不相關(guān)取值組合也用pa(Ri)表示,以此得到一般正則模型概率函數(shù),計算公式如下:
其中,vij表示術(shù)語影響術(shù)語Ri的權(quán)重。
當(dāng)術(shù)語Ri存在眾多父節(jié)點時,可得權(quán)重vij為:
其中,η與Srd分別表示調(diào)節(jié)參數(shù)以及術(shù)語節(jié)點集合內(nèi)術(shù)語本體關(guān)聯(lián)度之和。
術(shù)語本體關(guān)聯(lián)度之和的最大值為:
術(shù)語相關(guān)詞對術(shù)語影響之和小于術(shù)語對自身的影響[15-16],當(dāng)i=j,0.5 ≤η≤1.0 時,表現(xiàn)明顯。
設(shè)Bj表示集合內(nèi)存在的文檔,得其條件概率為:
其中,pa(Bj)與wij分別表示pa(Bj)內(nèi)各術(shù)語變量相關(guān)以及不相關(guān)取值的組合以及文檔Bj的索引術(shù)語Rj的權(quán)重。以上公式需滿足wij≥0(?i,j),。當(dāng)ri∈pa(Bj)時,表示pa(Bj)內(nèi)相關(guān)術(shù)語權(quán)重之和。
Bj的相關(guān)概率值在pa(Bj)內(nèi)相關(guān)術(shù)語越多時越高。選取TF-IDF 算法計算wij,如式(7)所示:
其中,γ為時的規(guī)格化常數(shù),且滿足?Bj∈B,rfij與ibfi分別表示術(shù)語頻度以及倒排文檔頻度。
1.3.3 推理與檢索
設(shè)Q為用戶查詢以及提交的信息,相關(guān)度P(Bj|Q)表示查詢Q時獲取文檔Bj的條件概率,獲取相關(guān)度步驟如下:
1)屬于Q術(shù)語的邊緣概率在用戶提交查詢信息Q時,被實例化。當(dāng)∈Q以及?Q時,分別獲取結(jié)果為。
2)依據(jù)以下公式獲取隨機術(shù)語Ri在術(shù)語層R內(nèi)的后驗概率:
3)通過以下公式計算查詢信息Q與文檔Bj間相關(guān)度P(Bj|Q),即文檔Bj最終后驗概率:
所獲取與查詢信息Q相關(guān)度最高的文檔Bj即為與用戶所查詢信息最相關(guān)文檔,即用戶所需文檔,通過以上過程實現(xiàn)圖書館信息檢索。
選取Cornell 大學(xué)的SMART 11.0 系統(tǒng)測試文中所建立模型檢索信息的有效性,該系統(tǒng)是利用向量空間模型建立的信息檢索仿真系統(tǒng),通過該系統(tǒng)可評價不同模型索引以及檢索功能,是研究信息檢索功能的實用平臺。選取常用于信息檢索測試的citeseer 圖書館科學(xué)標(biāo)準(zhǔn)數(shù)據(jù)集作為實驗樣本,該樣本包含2 564 篇文檔、6 854 個術(shù)語索引項、10 854 個詞以及56 個查詢。數(shù)據(jù)集內(nèi)包含數(shù)據(jù)挖掘、人工智能、科學(xué)計算、地理等眾多領(lǐng)域內(nèi)容,選取大數(shù)據(jù)分析、模式識別、支持向量機、圖像特征、神經(jīng)網(wǎng)絡(luò)、電磁波衰減作為測試詞語。
測試圖書館信息檢索模型檢索性能的指標(biāo)眾多,選取檢索相關(guān)度、檢索精度、查全率、查準(zhǔn)率、查全率/查準(zhǔn)率曲線作為模型檢索性能測試指標(biāo)。用Q與R分別表示用戶查詢信息以及相關(guān)文檔集,|R|與A分別表示集合內(nèi)文檔數(shù)量以及檢索后返回的文檔集合,|A|與|Ra|分別表示文檔集合的總數(shù)量以及文檔集合R與文檔集合A內(nèi)存在相同文檔的數(shù)量,可得查全率B以及查準(zhǔn)率C,公式如下:
查準(zhǔn)率/查全率曲線是指查全率以及查準(zhǔn)率分別為橫軸以及縱軸時所獲取的曲線。檢索精度是指實際檢索相關(guān)文檔數(shù)與全部檢索獲取文檔總數(shù)之比。
輸入測試詞語時,統(tǒng)計所獲取檢索結(jié)果與測試詞語相關(guān)度,并將該文模型與D-S 證據(jù)理論模型(參考文獻[6])以及多Agent 模型(參考文獻[7])對比,統(tǒng)計結(jié)果如圖3 所示。通過圖3 測試結(jié)果可以看出,采用該文模型檢索信息所獲取文檔的相關(guān)度明顯高于采用D-S 證據(jù)理論模型以及多Agent 模型檢索信息所獲取文檔的相關(guān)度,有效說明采用該文模型檢索所獲取結(jié)果與測試詞語相關(guān)度較高,具有較高的檢索性能。
圖3 檢索相關(guān)度對比
統(tǒng)計不同模型檢索測試詞語的檢索精度,對比結(jié)果如圖4 所示。通過圖4 測試結(jié)果可以看出,采用文中模型檢索測試詞語的檢索精度明顯高于采用D-S 證據(jù)理論模型以及多Agent 模型檢索精度,文中模型的檢索精度高達99%以上,有效驗證了文中模型具有較高的檢索精度。
圖4 檢索精度對比
統(tǒng)計不同模型檢索測試詞語的查全率,對比結(jié)果如圖5 所示。由圖5 測試結(jié)果可以看出,輸入不同測試詞語后該文模型檢索的查全率明顯高于D-S 證據(jù)理論模型以及多Agent 模型,驗證了該文模型具有較高的查全性能。
圖5 不同模型查全率對比
統(tǒng)計不同模型檢索測試詞語的查準(zhǔn)率,對比結(jié)果如圖6 所示。由圖6 測試結(jié)果可以看出,采用該文模型檢索測試詞語獲取的查準(zhǔn)率明顯高于D-S證據(jù)理論模型以及多Agent 模型,有效說明了采用該文模型檢索測試詞語的準(zhǔn)確性高于另兩種模型。
圖6 不同模型查準(zhǔn)率對比
依據(jù)以上測試結(jié)果繪制不同模型的查全率/查準(zhǔn)率曲線圖,如圖7 所示。由圖7 測試結(jié)果可以看出,當(dāng)查全率為10%以及20%時,3 種模型查準(zhǔn)率相差較小,主要原因是查全率較低時,3 種模型可檢索文檔數(shù)量較少,所檢索文檔相關(guān)度較高,因此查準(zhǔn)率相差不大。隨著查全率不斷提升,該文模型的查全率明顯高于另兩種模型,所檢索文檔數(shù)量也高于另兩種模型,因此具有較高的查準(zhǔn)率。
圖7 查全率/查準(zhǔn)率曲線
查全率、查準(zhǔn)率以及檢索精度是檢測信息檢索性能的重要指標(biāo),從以上測試結(jié)果可以看出,該文模型不僅具有較高的檢索精度,且檢索不同測試詞語所獲取的查全率以及查準(zhǔn)率均明顯高于另兩種模型,有效驗證了該文模型具有優(yōu)越的檢索性能。
大數(shù)據(jù)背景下圖書館信息檢索需求有所提升,將人工智能技術(shù)應(yīng)用于圖書館信息檢索中具有較高的應(yīng)用性。人工智能技術(shù)可符合用戶信息采集需求,提升圖書館信息檢索效率,推動數(shù)字化圖書館的不斷進步及穩(wěn)定發(fā)展。圖書館作為用戶提供信息服務(wù)的載體,需充分考慮用戶需求,知識化以及智能化集成數(shù)字信息資源和服務(wù)是數(shù)字化圖書館的重要發(fā)展方向。文中所采用的語義網(wǎng)技術(shù)可通過語義層次實現(xiàn)用戶的信息檢索需求,為數(shù)字圖書館智能化發(fā)展提供理論基礎(chǔ)。