摘 要:提出了基于貝葉斯網(wǎng)絡(luò)的航空化工材料信息快速檢索方法。以飛機座艙軟連接用膠粘劑為研究對象,利用有向無環(huán)圖貝葉斯網(wǎng)絡(luò),根據(jù)局域條件概率,計算多個變量的聯(lián)合概率分布,并對多個變量之間相關(guān)性分析。充分考慮檢索信息邊緣權(quán)值,在貝葉斯網(wǎng)絡(luò)統(tǒng)一表示模型下,計算多變量字符排序,達到快速抽取檢索關(guān)鍵詞的目的。使用索引詞描述檢索語句,計算索引詞近似度,引入K均值聚類算法,實現(xiàn)信息快速檢索。實驗結(jié)果表明,所研究方法召回率和準(zhǔn)確率最大值分別是0.99和0.95,檢索耗時最短為0.1 s,能夠達到快速檢索的目的。
關(guān)鍵詞:貝葉斯網(wǎng)絡(luò);航空化工材料;信息快速檢索;K均值聚類
中圖分類號:TQ433.4+32
文獻標(biāo)志碼:A文章編號:1001-5922(2024)03-0061-04
A fast retrieval method for aerochemical material information based
on bayesian networks
LI Binhui
(Shanghai Aircraft Design and Research Institute,Shanghai? 2012104,China
)
Abstract:A fast retrieval method for aviation chemical material information based on Bayesian networks was proposed.Taking the adhesive used for soft connection of aircraft cockpit as the research object,the joint probability distribution of multiple variables was calculated based on local Conditional probability using Directed acyclic graph Bayesian network,and the correlation between multiple variables was analyzed.Fully considering the edge weights of retrieval information,the multivariate character sorting was calculated under the unified representation model of Bayesian networks to achieve the goal of quickly extracting retrieval keywords.The index terms were used to describe the search statement,the approximation of the index words was calculated,and the K-means clustering algorithm was introduced to realize the rapid retrieval of information.The experimental results showed that the maximum recall and accuracy of the proposed method were 0.99 and 0.95,respectively,and the shortest retrieval time was 0.1 s,which can achieve the purpose of fast retrieval.
Key words:bayesian network;aviation chemical materials;quick information retrieval;K-means clustering
近年來,關(guān)于航空化工原料的信息呈爆炸性增長,使得用戶可以方便快捷地獲取這些信息。然而,大部分用戶獲取的信息不完整。如提出了一種基于循環(huán)生成對抗網(wǎng)絡(luò)的檢索算法,首先構(gòu)建了一種基于循環(huán)生成對抗網(wǎng)絡(luò)的詞項和信息互換模型,運用交互式學(xué)習(xí)法,在多個維度上,實現(xiàn)了對多模態(tài)數(shù)據(jù)的語義一致性約束[1]。提出了基于詞映射構(gòu)建偽查詢的檢索算法,利用詞匯映射來構(gòu)建偽查詢語句,首先使用共享 Transformer獲取查詢上下文,然后使用查詢和偽查詢之間的雙語交互注意機制獲取查詢的跨語言特征表達結(jié)果,最后通過雙語交互排序來獲得查詢與文檔的匹配分?jǐn)?shù),進而實現(xiàn)跨語言的信息檢索[2]。為此,研究提出了基于貝葉斯網(wǎng)絡(luò)的航空化工材料信息快速檢索方法。該方法以飛機座艙軟連接用膠粘劑為研究對象,
結(jié)合貝葉斯網(wǎng)絡(luò)算法和K均值聚類算法,對信息進行快速檢索。
1 航空化工材料膠粘劑
以飛機駕駛艙軟性連接用的膠粘劑為例,用到的原材料主要有:
癸二酸,
山東齊魯藍帆塑料助劑有限公司;
三元醇,
武漢克米克生物醫(yī)藥技術(shù)有限公司;
乙二醇,
冰川冷媒(山東)環(huán)??萍加邢薰?
丙酮,
廣州富飛化工實力供應(yīng)商;
催化劑,
江蘇林越環(huán)??萍加邢薰?。
將癸二酸、乙二醇和三元醇置于三頸的瓶子中,在160~170 ℃溫度下進行2 h的反應(yīng);最后,在220~230 ℃溫度下放置聚酯反應(yīng)催化劑進行2 h的反應(yīng)。然后,將其脫水至預(yù)定分子質(zhì)量,進行冷卻取出,就可以進行聚酯的合成了。
膠粘試樣的強度計算公式,可表示為:
C=KH
(1)
式中:K表示破壞荷載;H表示試樣寬度[3]。
通過對所合成的聚氨酯膠粘劑的性質(zhì)及一些影響其性質(zhì)的因素的考察,對其添加了1%的催化劑,經(jīng)過化學(xué)反應(yīng),得到二元、三元醇摩爾比為1∶0.3,異氰酸酯與聚酯的質(zhì)量比例為1∶1的結(jié)論[4]。本產(chǎn)品具有良好的耐高、低溫性能,適用于各類飛機座艙的軟性連接。
2 基于貝葉斯網(wǎng)絡(luò)的膠粘劑信息快速檢索
將飛機座艙軟連接用膠粘劑為研究對象,將信息多變量相互關(guān)系分析結(jié)果輸入貝葉斯網(wǎng)絡(luò)統(tǒng)一表示模型,以此快速抽取檢索關(guān)鍵詞。計算索引詞近似度,引入K均值聚類算法,實現(xiàn)信息的快速檢索。
2.1 基于貝葉斯網(wǎng)絡(luò)的檢索信息多變量相互關(guān)系分析
貝葉斯網(wǎng)絡(luò)是一類不含回路的有向圖,它可以用局部的條件概率表達出多個變量集的聯(lián)合概率分布,也可以用來研究多個變量間的相關(guān)性[5]?;诖耍瑯?gòu)建的檢索模型如圖1所示。
因為化學(xué)材料膠粘劑的樣本節(jié)點在邏輯上將信息取回的節(jié)點與被取回的節(jié)點分開,使得它們彼此獨立,利用貝葉斯原理,可以求出分布的聯(lián)合概率:
Pai|b=∑cPai|c→×Pb|c→×Pc→Pb
(2)
式中:i表示節(jié)點總數(shù);c→表示信息庫的單位向量[6]。
提取單位矢量的目標(biāo)是將矢量中單一信息的影響納入考量,從而計算出該矢量對信息檢索節(jié)點以及被檢索節(jié)點的影響[7-8]。
因此,待檢索節(jié)點中樣本節(jié)點的影響可表示為:
H1ai|c→=ωj∑ij=1ω2j0c→∧b→=1其他
(3)
式中:ωj表示第j個樣本權(quán)值;b→表示待檢索節(jié)點的單位向量[9]。信息庫信息與待檢索信息相似度越高,則權(quán)值越大[10]。
對于航空化工材料膠粘劑信息庫和待檢索信息的關(guān)系,在二者之間加入索引詞節(jié)點,通過索引詞計算這二者分布的聯(lián)合概率:
Pai|c→=∑dPai|d→×Pd→|c→
(4)
式中:d→表示索引詞節(jié)點的單位向量[11]。通過該計算結(jié)果,能夠反映d→對ai和c→的影響,所以待檢索節(jié)點中索引詞節(jié)點的影響可表示為:
H1ai|d→=ωj∑ij=1ω2j0dj∧aj=1其他
(5)
用影響變量描述航空化工材料膠粘劑信息檢索要求,能夠避免用固定特征詞描述檢索而導(dǎo)致描述結(jié)果不全面的缺陷,更適合對膠粘劑信息的檢索[12]。通過上述分析,明確了概率檢索空間,具有更為堅實的檢索基礎(chǔ)。
2.2 基于Tag的檢索關(guān)鍵詞快速抽取
在膠粘劑檢索信息多變量交互作用下,由于未考慮檢索信息的邊界權(quán),且不同詞項間的關(guān)聯(lián)度并不相同,所以假定2個信息之間的相關(guān)程度是相同的,使用Tag進行檢索關(guān)鍵詞快速抽取。Tag標(biāo)記是一種高層次的語義信息,它能反映出信息的主要內(nèi)容,被用戶標(biāo)記的相關(guān)頁面可以作為附加信息,估計膠粘劑下詞項之間的關(guān)聯(lián)程度,而這種關(guān)聯(lián)程度可以作為信息的邊緣權(quán)重,從而影響到最終抽取結(jié)果。因此,針對每一個標(biāo)簽,可以獲得一個信息的重要性排名,最終獲得的網(wǎng)頁關(guān)鍵詞可以被認為是一個集成了多種排名結(jié)果的過程,如圖2所示。
在貝葉斯網(wǎng)絡(luò)統(tǒng)一表示模型下,計算多變量字符排序,可表示為:
scorex=∑η1rankx,η
(6)
式中:x表示詞項;η表示排序結(jié)果[13]。
從對相同詞項進行多個排序的結(jié)果可以看出,排名分?jǐn)?shù)較高的詞最終的得分也很高,通過Tag標(biāo)記能夠有效解決多個交互文檔序同時檢索造成的檢索量大的問題[14]。使用Tag的關(guān)鍵詞抽取方式,在一個特定頁面上,假設(shè)已標(biāo)注出相應(yīng)特征信息,就可直接從特定頁面中抽取排名最高的關(guān)鍵詞。
2.3 基于貝葉斯網(wǎng)絡(luò)的信息快速檢索
結(jié)合檢索關(guān)鍵詞抽取結(jié)果,將某一特定的檢索關(guān)鍵詞的重要性作為一個聚類問題,計算檢索結(jié)果中的關(guān)鍵字和被檢索對象之間的相似性,并預(yù)先設(shè)置相應(yīng)的閾值。當(dāng)接近值大于閾值時,表示提取與具體信息相關(guān);反之,則不相關(guān)。不同的膠粘劑信息詞在不同的標(biāo)簽詞中所占的比例不同,因此,可以將膠粘劑信息詞的索引重要程度視為一個集群問題。膠粘劑信息的類間接近度在文件集中被引導(dǎo)為索引詞:
Ik=lgMmk
(7)
式中:M表示特定膠粘劑信息文檔總數(shù);mk表示第k個信息出現(xiàn)的文檔數(shù)[15]。
基于該計算結(jié)果,使用索引詞將材料信息文檔內(nèi)容描述出來的頻率進行統(tǒng)一化處理,結(jié)果為:
Dk=IkmaxIk1,Ik2,…Ikl·α
(8)
式中:Ikl表示第k個信息在文檔集合l中出現(xiàn)的導(dǎo)頻率;α表示文檔近似度系數(shù)。
使用索引詞對檢索語句描述,并通過以下公式計算索引詞近似度。
simai|b=∑ni=1ωij·Dk∑ni=1Dk2·∑ni=1ωij2
(9)
設(shè)置閾值λ,當(dāng)simai|b≥λ時,膠粘劑信息檢索結(jié)果和目標(biāo)檢索相關(guān),否則無關(guān)。
引入K均值聚類算法設(shè)計了如圖3所示的信息快速檢索流程。
引入K均值聚類算法能夠?qū)⒕哂邢嗤瑢傩缘男畔⒕奂谝黄?,劃分為多個種類,從而對具有不同屬性信息開展精準(zhǔn)化檢索。
充分考慮膠粘劑信息中的噪聲數(shù)據(jù)對K均值聚類效果所產(chǎn)生的干擾,通過聚類分析將具有相同屬性的信息聚集為一類。根據(jù)膠粘劑用到的原材料,可將信息簇劃分為癸二酸、三元醇、乙二醇、丙酮、催化劑這5類,K均值聚類目標(biāo)是使檢索平均誤差達到最小,公式為:
minε=∑vr=5∑x∈Zr‖x-φr‖22
(10)
式中:r表示信息量;Zr表示信息對應(yīng)的簇;φr表示簇Zr的均值向量。
通過引入K均值聚類算法進行精準(zhǔn)化檢索,降低檢索誤差。
3 實例分析
3.1 膠粘劑應(yīng)用數(shù)據(jù)分析
飛機座艙邊緣連接對聚氨酯膠的黏性有較高的要求,其中以聚酯為主的聚氨酯膠的黏性要比以聚醚膠為主的聚酯膠黏性要好,所以選擇聚酯作為樹脂組成成分。聚氨酯膠粘劑的膠接強度分析,如表1所示。
由表1可知,二元、三元醇摩爾比對膠水的粘接強度有顯著影響,可通過調(diào)節(jié)二元醇與三元醇摩爾比而得到具有優(yōu)良性能的聚酯。
3.2 仿真環(huán)境
為了能夠驗證基于貝葉斯網(wǎng)絡(luò)的航空化工材料信息快速檢索效果,建立了一個信息檢索環(huán)境。該環(huán)境使用了如圖4所示的檢索引擎。
為使用戶能夠從數(shù)以億計的原始網(wǎng)頁庫中迅速、方便地檢索到檢索結(jié)果,搜索引擎需要對這些原始網(wǎng)頁進行預(yù)處理。通過一定策略,將網(wǎng)絡(luò)上的特定信息提取出來,并反饋給用戶,為用戶提供快速、高關(guān)聯(lián)度的信息服務(wù)。
3.3 檢索指標(biāo)
檢索指標(biāo)主要有2種,分別是召回率和準(zhǔn)確率。
實際情況下,2個指標(biāo)均較高,說明信息檢索效果好。
3.4 檢索效果分析
為了驗證所研究方法的有效性,將其與基于循環(huán)生成對抗網(wǎng)絡(luò)的檢索算法、基于詞映射構(gòu)建偽查詢的檢索算法進行對比,結(jié)果如圖6所示。
由圖6可知,使用基于循環(huán)生成對抗網(wǎng)絡(luò)的檢索算法召回率和準(zhǔn)確率最大值分別是0.79%和0.54%;使用基于詞映射構(gòu)建偽查詢的檢索算法召回率和準(zhǔn)確率最大值分別是0.45%和0.38%;使用基于貝葉斯網(wǎng)絡(luò)的快速檢索方法召回率和準(zhǔn)確率最大值分別是0.99%和0.95%。
為了驗證所研究方法能夠快速檢索,對比3種方法信息檢索耗時情況,結(jié)果如表2所示。
由表2可知,使用所研究方法相比于其他2種方法檢索時間要短,其中檢索原材料的最短時間為0.1 s,檢索膠接強度的最短時間為3 s。
4 結(jié)語
(1)使用有向無環(huán)圖貝葉斯網(wǎng)絡(luò),明確了檢索信息多變量相互關(guān)系,在貝葉斯網(wǎng)絡(luò)統(tǒng)一表示模型下,解決了傳統(tǒng)方法只能單一抽取關(guān)鍵詞的問題;
(2)在貝葉斯網(wǎng)絡(luò)中引入K均值聚類算法,能夠達到快速檢索的目的。
【參考文獻】
[1] 聶為之,王巖,楊嵩,等.基于循環(huán)生成對抗網(wǎng)絡(luò)的跨媒體信息檢索算法[J].計算機學(xué)報,2022,45(7):1529-1538.
[2] 李巖,郭軍軍,余正濤,等.基于詞映射構(gòu)建偽查詢改善低資源跨語言信息檢索研究[J].山西大學(xué)學(xué)報(自然科學(xué)版),2022,45(2):322-331.
[3] 高云梅,張淑慧.基于信息檢索與K均值聚類的化工產(chǎn)品精準(zhǔn)推薦算法研究[J].粘接,2023,50(3):132-135.
[4] 王丹,王玫.一種適用于內(nèi)部信息統(tǒng)籌與服務(wù)對像信息快速檢索仿真設(shè)計[J].粘接,2022,49(11):169-173.
[5] 劉思琦,孫曉寧.面向過程的信息搜索用戶學(xué)習(xí)交互框架研究[J].情報理論與實踐,2021,44(4):30-39.
[6] 陳翔,于池,楊光,等.基于雙重信息檢索的Bash代碼注釋生成方法[J].軟件學(xué)報,2023,34(3):1310-1329.
[7] 戎軍濤.用戶認知導(dǎo)向的動態(tài)信息檢索模型構(gòu)建[J].圖書館,2022,328(1):69-76.
[8] 黨小琴.基于本體論的數(shù)字圖書館信息檢索技術(shù)[J].科技通報,2022,38(8):110-113.
[9] 張子建,劉俊宇,梁煜,等.基于知識圖譜的智能變電站一次設(shè)備信息檢索研究[J].電氣傳動,2022,52(5):70-75.
[10] 陳樂,劉迎春.基于用戶需求挖掘的交互式信息檢索算法設(shè)計[J].計算機仿真,2022,39(5):418-422.
[11] 杜剛,張磊,馬春光,等.基于屬性基隱私信息檢索的位置隱私保護方法[J].哈爾濱工程大學(xué)學(xué)報,2021,42(5):680-686.
[12] 葉承斌,李宏亨.基于LDAP的大數(shù)據(jù)瀏覽隱式反饋信息檢索仿真[J].計算機仿真,2021,38(12):449-453.
[13] 肖筱南,趙小平.智能控制中一類隨機信號的信息檢索優(yōu)化算法[J].西安石油大學(xué)學(xué)報(自然科學(xué)版),2022,37(5):123-126.
[14] 柳利芳,馬園園.基于多視角對稱非負矩陣分解的跨模態(tài)信息檢索方法[J].山東大學(xué)學(xué)報(理學(xué)版),2022,57(7):65-72.
[15] 王海龍,柳林,林民,等.基于信息檢索及k均值聚類的音樂個性化推薦算法[J].吉林大學(xué)學(xué)報(工學(xué)版),2021,51(5):1845-1850.
收稿日期:2023-10-16;修回日期:2024-01-08
作者簡介:李彬蕙(1993-),女,碩士,工程師,研究方向:航空新材料設(shè)計應(yīng)用;E-mail:chen19851221@126.com。
引文格式:李彬蕙.基于貝葉斯網(wǎng)絡(luò)的航空化工材料信息快速檢索方法[J].粘接,2024,51(3):61-64.