張軍琿 黃希揚(yáng) 桂明宇 昝紅英 張坤麗
摘 要:構(gòu)建水利領(lǐng)域的知識(shí)圖譜可為數(shù)字孿生水利工程建設(shè)提供結(jié)構(gòu)化的知識(shí)支持。基于黃河小浪底、萬家寨水利樞紐預(yù)報(bào)調(diào)度、工程安全、業(yè)務(wù)規(guī)則數(shù)據(jù),使用實(shí)體識(shí)別和關(guān)系抽取模型構(gòu)建面向數(shù)字孿生工程的水利知識(shí)圖譜(KG4DT),并對(duì)圖譜進(jìn)行可視化展示。以水利樞紐為核心確定實(shí)體分類體系及關(guān)系分類體系,構(gòu)建KG4DT 的模式層。使用二次開發(fā)的標(biāo)注平臺(tái)對(duì)非結(jié)構(gòu)化文本進(jìn)行半自動(dòng)標(biāo)注和人工校對(duì),構(gòu)建KG4DT 的數(shù)據(jù)層。以黃河小浪底和萬家寨水利樞紐防洪、減淤、供水、發(fā)電業(yè)務(wù)為主線,結(jié)合AC 自動(dòng)機(jī)等技術(shù)設(shè)計(jì)知識(shí)檢索、預(yù)案自動(dòng)生成應(yīng)用,可為工程運(yùn)行提供智能決策支撐。
關(guān)鍵詞:水利知識(shí)圖譜;數(shù)字孿生;知識(shí)描述體系;應(yīng)用
中圖分類號(hào):TV61;TP391 文獻(xiàn)標(biāo)志碼:A doi:10.3969/ j.issn.1000-1379.2024.04.020
引用格式:張軍琿,黃希揚(yáng),桂明宇,等.面向數(shù)字孿生工程的水利知識(shí)圖譜構(gòu)建及應(yīng)用[J].人民黃河,2024,46(4):121-124,130.
水利部把智慧水利建設(shè)作為推動(dòng)新階段水利高質(zhì)量發(fā)展的六條實(shí)施路徑之一。2021 年10—11 月,水利部印發(fā)《關(guān)于大力推進(jìn)智慧水利建設(shè)的指導(dǎo)意見》和《“十四五”期間推進(jìn)智慧水利建設(shè)實(shí)施方案》等文件。隨著水利信息化的不斷發(fā)展,水利樞紐工程積累了海量的異構(gòu)數(shù)據(jù),這些數(shù)據(jù)存在內(nèi)容分散、利用效率低等問題。
知識(shí)圖譜的概念于2012 年5 月由Google 提出,知識(shí)圖譜本質(zhì)上是一種語義網(wǎng)絡(luò)(semantic network),網(wǎng)絡(luò)中的節(jié)點(diǎn)代表實(shí)體(entity)或者概念(concept),邊代表實(shí)體或概念之間的各種語義關(guān)系[1] 。采用知識(shí)圖譜可以從海量異構(gòu)數(shù)據(jù)中提取結(jié)構(gòu)化知識(shí),同時(shí)知識(shí)圖譜可與各個(gè)行業(yè)的下游應(yīng)用相結(jié)合。例如,醫(yī)學(xué)知識(shí)圖譜可以為醫(yī)療問答系統(tǒng)提供醫(yī)學(xué)知識(shí)支持,期貨知識(shí)圖譜可用于文本分析、輿情監(jiān)控和推理決策[2] 。在智慧水利建設(shè)中知識(shí)圖譜有著廣泛應(yīng)用。例如,依據(jù)水利行業(yè)業(yè)務(wù)需求和流域管理特征,采用知識(shí)圖譜可進(jìn)行空間查詢服務(wù)、智能問答等[3-6] 。然而,現(xiàn)有的水利知識(shí)圖譜存在知識(shí)涵蓋范圍較小、與實(shí)際業(yè)務(wù)聯(lián)系不緊密等問題。為此,本文構(gòu)建一種面向數(shù)字孿生工程的水利知識(shí)圖譜(KG4DT),使用實(shí)體識(shí)別和關(guān)系抽取技術(shù)從非結(jié)構(gòu)化數(shù)據(jù)中提取實(shí)體、屬性等并建立鏈接,圍繞預(yù)報(bào)調(diào)度、工程安全、庫區(qū)管理等核心業(yè)務(wù),結(jié)合小浪底和萬家寨水利樞紐(萬家寨水利樞紐是黃河中游治理開發(fā)的關(guān)鍵工程,地位極其重要,被水利部列為數(shù)字孿生水利工程建設(shè)先行先試重點(diǎn)工程。小浪底水利樞紐是黃河干流的關(guān)鍵控制性工程。)防洪、減淤、供水、發(fā)電業(yè)務(wù)主線,為數(shù)字孿生水利工程提供知識(shí)檢索、預(yù)案自動(dòng)生成等應(yīng)用。
1 KG4DT 整體框架
KG4DT 構(gòu)建和應(yīng)用整體框架見圖1,數(shù)據(jù)資源層和知識(shí)抽取層為KG4DT 構(gòu)建部分,應(yīng)用服務(wù)層為KG4DT 應(yīng)用部分。整體框架分為3 層,下層為上層提供服務(wù),其中數(shù)據(jù)資源層包含3 類原始數(shù)據(jù),原始數(shù)據(jù)經(jīng)過知識(shí)抽取層處理后,為上層應(yīng)用服務(wù)層提供結(jié)構(gòu)化的知識(shí)支持,應(yīng)用服務(wù)層為用戶提供知識(shí)檢索、預(yù)案自動(dòng)生成等應(yīng)用。
KG4DT 中原始數(shù)據(jù)為黃河小浪底、萬家寨水利樞紐相關(guān)數(shù)據(jù)。根據(jù)業(yè)務(wù)應(yīng)用的不同,將收集的數(shù)據(jù)分為3 類,分別為:1)預(yù)報(bào)調(diào)度數(shù)據(jù)。其包括防洪預(yù)報(bào)調(diào)度方案、調(diào)水調(diào)沙方案、汛末蓄水方案、超標(biāo)洪水應(yīng)急預(yù)報(bào)調(diào)度方案等相關(guān)數(shù)據(jù)。通過對(duì)水文氣象監(jiān)測(cè)數(shù)據(jù)進(jìn)行分析,結(jié)合水利工程的水文、水資源等特征,可對(duì)潛在的水災(zāi)害風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)并制定科學(xué)合理的水資源調(diào)度方案,從而保障水資源的合理利用以及減少水災(zāi)害的發(fā)生。2)工程安全數(shù)據(jù)。其包括工程風(fēng)險(xiǎn)隱患、隱患事故案例、事件處置案例、工程安全會(huì)商等相關(guān)數(shù)據(jù)。根據(jù)結(jié)構(gòu)化工程安全知識(shí)可以在出現(xiàn)工程安全隱患時(shí)快速檢索應(yīng)急預(yù)案,提高應(yīng)急處置能力。3)業(yè)務(wù)規(guī)則數(shù)據(jù)。其包括工程調(diào)度運(yùn)用規(guī)程、機(jī)電設(shè)備運(yùn)行規(guī)程、工程安全監(jiān)測(cè)資料整編規(guī)程等相關(guān)數(shù)據(jù)。規(guī)程主要是水利工程建設(shè)、管理等業(yè)務(wù)活動(dòng)中的制度性規(guī)定,確保水利工程安全、高效、可持續(xù)運(yùn)營(yíng)。
2 KG4DT 具體構(gòu)建過程與方法
KG4DT 具體構(gòu)建過程分為模式層構(gòu)建和數(shù)據(jù)層構(gòu)建,見圖2。模式層制定知識(shí)描述體系,數(shù)據(jù)層通過實(shí)體關(guān)系三元組對(duì)模式層各類知識(shí)的定義進(jìn)行表達(dá)。
2.1 模式層構(gòu)建
模式層的構(gòu)建首先需要對(duì)收集的預(yù)報(bào)調(diào)度方案、業(yè)務(wù)規(guī)則等進(jìn)行整理分析。將模式層分為3 個(gè)部分:預(yù)報(bào)調(diào)度知識(shí)描述體系、工程安全知識(shí)描述體系、業(yè)務(wù)規(guī)則知識(shí)描述體系。3 類知識(shí)描述體系中部分實(shí)體關(guān)系定義見表1,各體系的實(shí)體關(guān)系側(cè)重點(diǎn)不同,例如,雖然預(yù)報(bào)調(diào)度和工程安全的核心實(shí)體均是“水庫”,但是預(yù)報(bào)調(diào)度的重點(diǎn)是對(duì)潛在的水災(zāi)害風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)并制定科學(xué)合理的水資源調(diào)度方案,因此在預(yù)報(bào)調(diào)度知識(shí)描述體系中“水庫”應(yīng)與“水位”建立關(guān)系,根據(jù)水庫水位的變化生成防汛預(yù)案。工程安全包含水利樞紐各結(jié)構(gòu)和各系統(tǒng)的安全事件處置經(jīng)驗(yàn),因此工程安全知識(shí)描述體系側(cè)重于對(duì)水庫—位置等實(shí)體關(guān)系進(jìn)行描述。根據(jù)各體系知識(shí)種類以及應(yīng)用的不同,分別建立不同實(shí)體之間的關(guān)系,形成包含實(shí)體分類體系和關(guān)系分類體系的知識(shí)描述體系,即完成模式層的構(gòu)建。
2.2 數(shù)據(jù)層構(gòu)建
數(shù)據(jù)層的構(gòu)建需要對(duì)采集的數(shù)據(jù)進(jìn)行半自動(dòng)標(biāo)注和人工校對(duì)。在數(shù)據(jù)標(biāo)注過程中,為了確保標(biāo)注效率和標(biāo)注的一致性,借鑒醫(yī)學(xué)實(shí)體關(guān)系標(biāo)注平臺(tái)[7] ,結(jié)合水利領(lǐng)域知識(shí)進(jìn)行二次開發(fā),形成面向水利領(lǐng)域的實(shí)體關(guān)系標(biāo)注平臺(tái)。采用多輪交叉標(biāo)注方式在該平臺(tái)對(duì)知識(shí)庫中的實(shí)體及實(shí)體關(guān)系進(jìn)行標(biāo)注,采用基于規(guī)則的方法對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行實(shí)體識(shí)別,采用深度學(xué)習(xí)方法對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行實(shí)體關(guān)系的自動(dòng)抽取。本文采用Bi-LSTM-CRF 模型進(jìn)行實(shí)體識(shí)別、采用PCNN模型進(jìn)行關(guān)系抽取。Bi-LSTM-CRF 模型由雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)和條件隨機(jī)場(chǎng)(CRF)組成,該模型能夠捕獲句子的雙向信息,降低對(duì)詞向量的依賴。PCNN 模型能夠?qū)?shí)體的特征分布進(jìn)行編碼,有效提高關(guān)系抽取的準(zhǔn)確率。實(shí)體識(shí)別及關(guān)系抽取過程見圖3。
在采集的數(shù)據(jù)中,除文本數(shù)據(jù)外還存在一定數(shù)量的圖表數(shù)據(jù),這些數(shù)據(jù)包含結(jié)構(gòu)化的水利知識(shí),可為知識(shí)檢索應(yīng)用提供支撐,須對(duì)圖表數(shù)據(jù)進(jìn)行單獨(dú)處理。將單獨(dú)的表格或圖片定義為一個(gè)實(shí)體,圖表的題目即為實(shí)體名稱。將圖表的實(shí)體名稱存入Neo4j 數(shù)據(jù)庫,再將原始圖表的基礎(chǔ)信息存入MySQL 數(shù)據(jù)庫,兩者之間通過唯一的實(shí)體名稱相關(guān)聯(lián),在知識(shí)檢索應(yīng)用中通過對(duì)圖表題目進(jìn)行模糊匹配即可展示出對(duì)應(yīng)的圖表。
2.3 KG4DT 可視化展示
KG4DT 中共有70 類水利實(shí)體概念、108 類實(shí)體關(guān)系、12 908 個(gè)實(shí)體關(guān)系三元組,其中預(yù)報(bào)調(diào)度實(shí)體概念28 類、實(shí)體關(guān)系28 類,工程安全實(shí)體概念21 類、實(shí)體關(guān)系50 類,業(yè)務(wù)規(guī)則實(shí)體概念21 類、實(shí)體關(guān)系30 類。為了直觀反映KG4DT 中各概念之間的關(guān)系,設(shè)計(jì)KG4DT 可視化展示平臺(tái),見圖4。通過系統(tǒng)頁面的搜索框可以檢索到各類水利實(shí)體,并以查詢的實(shí)體為中心,鏈接與其相關(guān)的各類實(shí)體。
3 KG4DT 具體應(yīng)用
數(shù)字孿生水利工程通過與物理工程的同步仿真運(yùn)行以及對(duì)各種軟硬件設(shè)備的實(shí)時(shí)監(jiān)控,可提高水利樞紐綜合監(jiān)管能力。通過對(duì)小浪底和萬家寨水利樞紐防洪、減淤、供水、發(fā)電業(yè)務(wù)主線的分析,結(jié)合工程管理實(shí)際業(yè)務(wù)需求,設(shè)計(jì)知識(shí)檢索、預(yù)案自動(dòng)生成等應(yīng)用。
3.1 知識(shí)檢索
水利樞紐工作人員通過知識(shí)檢索功能可以快速查詢預(yù)報(bào)調(diào)度方案、工程安全和業(yè)務(wù)規(guī)則等水利知識(shí),以提高工作效率、促進(jìn)知識(shí)分享、快速?zèng)Q策和規(guī)劃。知識(shí)檢索界面見圖5。
知識(shí)檢索功能的實(shí)現(xiàn)基于AC 自動(dòng)機(jī)( Aho -Corasick automaton)和Neo4j 數(shù)據(jù)庫。AC 自動(dòng)機(jī)是一種高效的字符串多模式匹配算法,其核心思想是將KMP 算法的失配指針應(yīng)用于Trie 樹中,實(shí)現(xiàn)對(duì)所有模式串的單次文本串掃描,并輸出匹配結(jié)果。例如:給定一個(gè)有限模式集{水庫回水長(zhǎng)度,小浪底水庫排沙,小浪底水利樞紐,庫容峰值}和待檢索問題“小浪底水利樞紐的水庫回水長(zhǎng)度是多少?”,首先為模式集創(chuàng)建AC 自動(dòng)機(jī)(見圖6),然后對(duì)AC 自動(dòng)機(jī)上所有的節(jié)點(diǎn)構(gòu)造失配指針,失配指針表見表2。在匹配階段,AC自動(dòng)機(jī)會(huì)從待檢索問題的第一個(gè)字符開始匹配,如果當(dāng)前字符可以轉(zhuǎn)移到下一個(gè)節(jié)點(diǎn),則繼續(xù)匹配下一個(gè)字符。如果匹配失敗,AC 自動(dòng)機(jī)就會(huì)查找失配指針表,跳轉(zhuǎn)到下一個(gè)可能匹配的位置。如果到達(dá)某個(gè)節(jié)點(diǎn)時(shí),這個(gè)節(jié)點(diǎn)表示一個(gè)模式串的結(jié)尾,則說明匹配成功,可以記錄下這個(gè)模式串的位置和長(zhǎng)度。最終AC自動(dòng)機(jī)檢索出頭實(shí)體“小浪底水利樞紐”和關(guān)系“水庫回水長(zhǎng)度”,根據(jù)檢索出的頭實(shí)體在Neo4j 數(shù)據(jù)庫中進(jìn)行條件查詢并返回查詢結(jié)果。
3.2 預(yù)案自動(dòng)生成
預(yù)案自動(dòng)生成功能具有重要的實(shí)際意義,針對(duì)實(shí)時(shí)監(jiān)測(cè)和預(yù)測(cè)的水庫水雨情和工情數(shù)據(jù),采用基于規(guī)則的方法將數(shù)據(jù)與KG4DT 中的匹配內(nèi)容進(jìn)行對(duì)比,做出邏輯判斷后生成防汛預(yù)案。以小浪底水利樞紐為例,預(yù)報(bào)預(yù)警匹配規(guī)則見表3,把小浪底水利樞紐、西霞院工程防汛預(yù)警劃分為Ⅰ、Ⅱ、Ⅲ、Ⅳ共4 個(gè)等級(jí)。
預(yù)案生成過程分為兩步:第一步為判別響應(yīng)等級(jí),第二步為自動(dòng)生成預(yù)案。判別響應(yīng)等級(jí)時(shí)應(yīng)依據(jù)調(diào)度方案期內(nèi)各水文站的最高水位和流量,若同時(shí)有多個(gè)水位、流量達(dá)到不同等級(jí),則取最高等級(jí)。預(yù)案自動(dòng)生成案例見圖7,采集的實(shí)測(cè)和預(yù)測(cè)入庫流量、出庫流量、水位數(shù)據(jù)以圖表形式可視化展示,將這些數(shù)據(jù)與預(yù)報(bào)預(yù)警匹配規(guī)則匹配后,自動(dòng)判別對(duì)應(yīng)的響應(yīng)等級(jí)。生成的預(yù)案包括4 個(gè)部分,分別為水情形勢(shì)、工程安全研判、樞紐運(yùn)用方案和安全舉措。例如,根據(jù)“2021 年秋汛洪水100508-按調(diào)令出庫”調(diào)度方案,在調(diào)度時(shí)間范圍內(nèi)小浪底水庫預(yù)測(cè)最高水位為273.82 m、預(yù)測(cè)最大出庫流量為4 012 m3 / s,潼關(guān)水文站預(yù)測(cè)最大流量為8 200 m3 / s,系統(tǒng)自動(dòng)預(yù)判啟動(dòng)Ⅲ級(jí)應(yīng)急響應(yīng)。預(yù)案中水情形勢(shì)展示內(nèi)容為小浪底、西霞院、三門峽水庫水位和潼關(guān)、花園口、利津水文站流量;工程安全研判內(nèi)容為水庫預(yù)警、水文站預(yù)警和工程監(jiān)測(cè)指標(biāo)預(yù)警信息;樞紐運(yùn)用方案內(nèi)容為機(jī)組、孔洞的運(yùn)用條件和運(yùn)行狀態(tài);安全舉措中應(yīng)急響應(yīng)內(nèi)容為“小浪底管理中心防汛領(lǐng)導(dǎo)小組全體人員在6 h 內(nèi)抵達(dá)樞紐管理區(qū),統(tǒng)籌部署防汛工作。開發(fā)公司防汛指揮部全體人員及防汛工作人員在6 h 內(nèi)抵達(dá)樞紐管理區(qū),按照防汛預(yù)案開展巡查監(jiān)測(cè)及通信后勤保障工作,做好搶險(xiǎn)準(zhǔn)備。投資公司防汛指揮部分管旅游公司的副總指揮、防辦、旅游公司負(fù)責(zé)人及防汛相關(guān)工作人員在6 h內(nèi)抵達(dá)樞紐管理區(qū),按照預(yù)案開展防汛工作”,還包括公司職責(zé)、搶險(xiǎn)隊(duì)伍、物資保障等。用戶可分別對(duì)以上預(yù)案內(nèi)容進(jìn)行篩選查閱,以獲得細(xì)粒度預(yù)案信息。
4 結(jié)束語
本文描述了面向數(shù)字孿生工程的水利知識(shí)圖譜構(gòu)建以及應(yīng)用過程。首先在模式層構(gòu)建中整合3 類水利文本,然后在分析水利文本結(jié)構(gòu)的基礎(chǔ)上,經(jīng)水利領(lǐng)域?qū)<抑笇?dǎo)設(shè)計(jì)圖譜描述體系,在數(shù)據(jù)層中通過多輪迭代的方式標(biāo)注文本,同時(shí)使用深度學(xué)習(xí)方法進(jìn)行實(shí)體關(guān)系自動(dòng)抽取,對(duì)人工和自動(dòng)標(biāo)注的三元組進(jìn)行校對(duì)。最后結(jié)合小浪底、萬家寨水利樞紐實(shí)際業(yè)務(wù)場(chǎng)景設(shè)計(jì)了知識(shí)檢索、預(yù)案生成等應(yīng)用。本文構(gòu)建的KG4DT 可以讓決策者更加快捷方便地辨識(shí)調(diào)度相關(guān)信息,通過任何一個(gè)實(shí)體搜索獲得其完整的知識(shí)體系,為工程安全、防洪調(diào)度提供數(shù)據(jù)查詢分析。
參考文獻(xiàn):
[1] 王萌,王昊奮,李博涵,等.新一代知識(shí)圖譜關(guān)鍵技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2022,59(9):1947-1965.
[2] 李雯昕.期貨領(lǐng)域知識(shí)圖譜的構(gòu)建研究[D].鄭州:鄭州大學(xué),2022:20-28.
[3] 曾曉玲,張弓.基于黃河資源整合共享的知識(shí)圖譜研究和應(yīng)用[J].人民黃河,2021,43(增刊2):282-284.
[4] 劉建華,岳銘睿.黃河流域生態(tài)保護(hù)和高質(zhì)量發(fā)展研究知識(shí)圖譜分析[J].人民黃河,2021,43(7):7-12,23.
[5] 高鳳寧,高祥濤,曹帥,等.面向智能搜索應(yīng)用的水利知識(shí)圖譜構(gòu)建[J].江蘇水利,2021(10):59-64.
[6] 馮鈞,徐新,陸佳民.水利信息知識(shí)圖譜的構(gòu)建與應(yīng)用[J].計(jì)算機(jī)與現(xiàn)代化,2019(9):35-40.
[7] 張坤麗,趙旭,關(guān)同峰,等.面向醫(yī)療文本的實(shí)體及關(guān)系標(biāo)注平臺(tái)的構(gòu)建及應(yīng)用[J].中文信息學(xué)報(bào),2020,34(6):36-44.
【責(zé)任編輯 栗 銘】
基金項(xiàng)目:河南省科技攻關(guān)項(xiàng)目(232102211033,232102211039)