国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

長江流域取水許可知識圖譜問答系統(tǒng)

2024-07-04 22:09:25曾德晶張軍曹衛(wèi)華管黨根許婧黎育朋
人民長江 2024年6期
關(guān)鍵詞:許可圖譜實體

曾德晶 張軍 曹衛(wèi)華 管黨根 許婧 黎育朋

收稿日期:2023-09-20;接受日期:2024-01-26

基金項目:湖北省自然科學(xué)基金創(chuàng)新群體項目(2020CFA031)

作者簡介:曾德晶,男,工程師,碩士,研究方向為水資源優(yōu)化配置、水利信息化。E-mail:dejingzeng@niccwrc.cn

Editorial Office of Yangtze River. This is an open access article under the CC BY-NC-ND 4.0 license.

文章編號:1001-4179(2024) 06-0234-06

引用本文:曾德晶,張軍,曹衛(wèi)華,等.長江流域取水許可知識圖譜問答系統(tǒng)

[J].人民長江,2024,55(6):234-239.

摘要:隨著水資源取水許可領(lǐng)域管理要求的不斷提高,傳統(tǒng)水資源取水許可信息管理系統(tǒng)難以滿足復(fù)雜的信息檢索需求,制約了水資源精細(xì)化管理水平的提升。為了打破系統(tǒng)間信息孤島,提升取水許可信息檢索效率,建立了長江流域取水許可知識圖譜,基于大規(guī)模預(yù)訓(xùn)練語言模型提出了包含實體提及識別、實體鏈接、關(guān)系匹配等功能的知識圖譜問答流水線方法,結(jié)合取水許可領(lǐng)域數(shù)據(jù)特點采用BM25算法進(jìn)行候選實體排序,構(gòu)建了長江流域取水許可知識圖譜問答系統(tǒng),并基于BS架構(gòu)開發(fā)了Web客戶端。實驗表明:該系統(tǒng)在測試集上達(dá)到了90.37%的準(zhǔn)確率,可支撐長江流域取水許可領(lǐng)域檢索需求。

關(guān)? 鍵? 詞:取水許可; 知識圖譜; 預(yù)訓(xùn)練語言模型; 問答系統(tǒng); 水資源; 長江流域

中圖法分類號: TV213.4;TP391.1

文獻(xiàn)標(biāo)志碼: A

DOI:10.16232/j.cnki.1001-4179.2024.06.032

0? 引 言

隨著社會經(jīng)濟(jì)發(fā)展,各行業(yè)對水資源需求不斷增長,為加強(qiáng)水資源管理和保護(hù),國家出臺了《取水許可和水資源費(fèi)征收管理條例》規(guī)范取水行為。為提升水資源調(diào)配與管理信息化水平,各級水行政主管部門圍繞取水許可證管理、取水量監(jiān)測預(yù)警、最小下泄流量和生態(tài)流量監(jiān)管等業(yè)務(wù)建立了不同的信息管理系統(tǒng)。在水資源日常管理中,信息檢索是一個高頻需求,但由于業(yè)務(wù)系統(tǒng)眾多,管理人員在檢索信息時需要在不同業(yè)務(wù)系統(tǒng)間來回切換,且查詢內(nèi)容受業(yè)務(wù)系統(tǒng)的信息展示形式限制,信息檢索效率較低。

知識圖譜通過“實體-關(guān)系-實體”的三元組形式存儲知識,實現(xiàn)了實體間關(guān)系網(wǎng)的構(gòu)建,采用圖檢索算法,破解了傳統(tǒng)關(guān)系型數(shù)據(jù)庫查詢時大量自連接操作導(dǎo)致的性能瓶頸。知識圖譜在水利行業(yè)已經(jīng)取得了諸多應(yīng)用,黃艷等[1]利用知識圖譜將文字性的調(diào)度規(guī)程數(shù)字化、邏輯化,便于防洪調(diào)度模型調(diào)用;王晨雨等[2]將知識圖譜應(yīng)用到全國取用水平臺,提出了一套統(tǒng)一的取用水管理數(shù)據(jù)庫表結(jié)構(gòu)標(biāo)準(zhǔn),構(gòu)建了取用水管控一張圖;劉雪梅等[3]構(gòu)建了水利工程應(yīng)急方案知識圖譜,為應(yīng)急搶險方案智能生成提供支撐;馮鈞等[4]提出一種基于知識圖譜的數(shù)字孿生流域知識體系架構(gòu),通過構(gòu)建水利管理對象關(guān)系圖譜形成流域全景式耦合網(wǎng)絡(luò)。目前,利用知識圖譜將水利行業(yè)大量難以結(jié)構(gòu)化的知識結(jié)構(gòu)化[5]以驅(qū)動業(yè)務(wù)模型的應(yīng)用已經(jīng)取得了長足的發(fā)展。但由于構(gòu)建專業(yè)領(lǐng)域知識圖譜需要大量業(yè)務(wù)數(shù)據(jù),知識圖譜應(yīng)用需要與自然語言處理技術(shù)深度融合,涉及大量交叉學(xué)科知識,目前水利行業(yè)尚無系統(tǒng)深入研究。如何進(jìn)一步提升知識圖譜構(gòu)建及應(yīng)用效率,充分發(fā)揮其在數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)檢索方面的優(yōu)勢,解決水資源取水許可領(lǐng)域數(shù)據(jù)匯集、統(tǒng)一搜索問題,仍有待進(jìn)一步探索。

為此,本文通過構(gòu)建長江流域取水許可知識圖譜,將分散在各個業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)統(tǒng)一匯集到圖數(shù)據(jù)庫中,采用少量水資源領(lǐng)域語料對百度預(yù)訓(xùn)練語言模型ERNIE進(jìn)行微調(diào),將微調(diào)后的模型用于實體提及識別及候選答案排序,結(jié)合BM25算法進(jìn)行實體鏈接,建立一套水資源取水許可領(lǐng)域知識圖譜問答流水線方法,通過問答系統(tǒng)實現(xiàn)取水許可信息“統(tǒng)一搜索,統(tǒng)一展示”,提升取水許可管理效率。在水利行業(yè)“數(shù)字孿生流域”建設(shè)大背景下,流域取水許可知識圖譜作為數(shù)字孿生平臺數(shù)據(jù)底板的重要組成部分,可為數(shù)據(jù)匯集、數(shù)據(jù)治理、數(shù)據(jù)挖掘等業(yè)務(wù)提供支撐。

1? 知識圖譜問答理論

2012年,谷歌在語義網(wǎng)和本體論的基礎(chǔ)上,提出了知識圖譜(Knowledge Graph,KG)的概念,其通過節(jié)點與有向邊的形式對互聯(lián)網(wǎng)中復(fù)雜的數(shù)據(jù)進(jìn)行統(tǒng)一表征,在數(shù)據(jù)挖掘、分析、問答系統(tǒng)等領(lǐng)域得到了廣泛應(yīng)用。知識圖譜根據(jù)其覆蓋范圍可分為開放領(lǐng)域知識圖譜與垂直領(lǐng)域知識圖譜。在開放領(lǐng)域,著名的英文知識圖譜項目有麻省理工學(xué)院發(fā)起的ConceptNet[6] 、基于維基百科發(fā)展而來的DBpedia[7]、谷歌的Freebase[8]、德國馬普研究所研制的YAGO[9]等;知名中文知識圖譜項目有復(fù)旦大學(xué)的CN-DBpedia[10]、中國中文信息學(xué)會語言與知識計算專業(yè)委員會發(fā)起的OpenKG[11]、搜狗“知立方”等。在垂直領(lǐng)域,知名知識圖譜項目有如NCBI建立的疾病基因知識圖譜CinVar[12]、IMDB構(gòu)建的電影領(lǐng)域知識圖譜[13]、中國中醫(yī)科學(xué)院構(gòu)建的中醫(yī)藥領(lǐng)域知識圖譜[14]等。

知識圖譜問答(Knowledge Based Question Answering,KBQA)是以知識圖譜為數(shù)據(jù)源,通過識別問題中的實體與關(guān)系,查詢知識圖譜返回精確答案的一類問答系統(tǒng)。知識圖譜問答系統(tǒng)需要識別提問中的實體與關(guān)系,將其鏈接到知識圖譜上檢索答案,曹明宇等[15]構(gòu)建了原發(fā)性肝癌知識圖譜,采用TFIDF與Word2Vec詞向量匹配問題模板,根據(jù)模板語義與實體檢索圖譜;杜澤宇等[16]采用CRF識別實體,結(jié)合模板匹配生成SPARQL查詢語句檢索的方式構(gòu)建電商領(lǐng)域知識圖譜問答系統(tǒng),但基于模板匹配的方法其檢索準(zhǔn)確率受模板數(shù)量與種類限制,難以囊括繁雜的提問方式。2017年,谷歌機(jī)器翻譯團(tuán)隊借鑒圖像處理領(lǐng)域的注意力機(jī)制構(gòu)建了transformer模型[17],在機(jī)器翻譯任務(wù)中取得了很好的效果。隨后谷歌基于transformer結(jié)構(gòu)提出了著名的預(yù)訓(xùn)練語言模型BERT(Bidirectional Encoder Representation from Transformers)[18],在多項NLP下游任務(wù)中取得了state-of-the-art結(jié)果,標(biāo)志著NLP進(jìn)入大規(guī)模預(yù)訓(xùn)練語言模型時代。隨后,基于Bert的改進(jìn)模型XLnet[19]、RoBERTa[20]、ERNIE[21]等相繼出現(xiàn),不斷刷新NLP任務(wù)榜單。大規(guī)模預(yù)訓(xùn)練語言模型通過大量語料的訓(xùn)練已經(jīng)具備下游任務(wù)的許多知識,結(jié)合特定任務(wù)采用少量語料進(jìn)行微調(diào)(fine-tuning)即可取得不錯的效果。隨著預(yù)訓(xùn)練語言模型的快速發(fā)展,學(xué)者們嘗試將其引入知識圖譜問答領(lǐng)域,Zhang等[22]通過注意力機(jī)制來根據(jù)候選答案動態(tài)生成問題的向量表示;王鑫雷等[23]采用ERNIE進(jìn)行中文知識圖譜問答系統(tǒng)實體提及識別及關(guān)系匹配。預(yù)訓(xùn)練模型提高了知識圖譜問答系統(tǒng)結(jié)果匹配效率和準(zhǔn)確率,但對于水資源取水許可領(lǐng)域提問及圖譜中存在大量同名、簡稱、縮寫的場景,由于語料匱乏,實體鏈接的精度仍無法滿足業(yè)務(wù)應(yīng)用需求。如何根據(jù)取水許可領(lǐng)域數(shù)據(jù)特點,設(shè)計合適的知識圖譜schema,打造準(zhǔn)確率高、可解釋性強(qiáng)的專業(yè)知識圖譜問答系統(tǒng),是通過知識圖譜解決取水許可領(lǐng)域信息檢索問題的關(guān)鍵。

2? 長江流域取水許可知識圖譜問答系統(tǒng)

2.1? 長江流域取水許可知識圖譜構(gòu)建

長江流域覆蓋19個省、市、自治區(qū),現(xiàn)保有取水許可證約10萬個,水資源取水許可領(lǐng)域知識圖譜涉及實體眾多,關(guān)系復(fù)雜,數(shù)據(jù)量龐大,且對數(shù)據(jù)準(zhǔn)確率要求較高。本文采用自上而下的方式進(jìn)行長江流域取水許可領(lǐng)域知識圖譜構(gòu)建,囊括取水許可證、取水許可項目、取水權(quán)人、取水口、監(jiān)測點等實體,通過ETL工具,將各個系統(tǒng)的數(shù)據(jù)進(jìn)行清洗、實體對齊后導(dǎo)入Neo4j圖數(shù)據(jù)庫進(jìn)行存儲,知識圖譜schema如圖1所示。

2.2? 知識圖譜問答系統(tǒng)模型與方法

長江流域取水許可領(lǐng)域知識圖譜問答系統(tǒng)主要由實體提及識別、實體鏈接、候選答案排序3個模塊構(gòu)成。系統(tǒng)結(jié)構(gòu)如圖2所示。

實體提及識別與候選答案排序采用百度自主研發(fā)的ERNIE 1.0預(yù)訓(xùn)練語言模型,ERNIE 是百度基于BERT改進(jìn)的預(yù)訓(xùn)練模型,ERNIE與BERT網(wǎng)絡(luò)結(jié)構(gòu)和預(yù)訓(xùn)練任務(wù)基本一致,均是基于多層transformer結(jié)構(gòu)采用完形填空和上下句判斷任務(wù)進(jìn)行預(yù)訓(xùn)練。區(qū)別在于,BERT在預(yù)訓(xùn)練階段是基于字粒度進(jìn)行mask,ERNIE將mask粒度擴(kuò)展到詞/實體粒度,如針對“三

峽大壩位于湖北宜昌。”這句話,BERT的mask方式為“[m]峽大壩位于湖北宜昌?!?,ERNIE的mask方式為“[m][m]大壩位于湖北宜昌?!?,因此ERNIE可以更多地學(xué)習(xí)到句子中mask信息里蘊(yùn)含的知識,增強(qiáng)了模型的語義表示能力。

2.2.1? 實體提及識別

實體提及識別屬于NLP中的命名體識別任務(wù),在問答系統(tǒng)中即基于預(yù)訓(xùn)練模型提取提問中的實體,如針對提問“城南水廠年取水量?”,需要模型提取出“城南水廠”這個實體。在構(gòu)建微調(diào)語料時,首先對提問采用BIO(B表示實體開頭、I表示實體中間詞、O表示無關(guān)字)標(biāo)注法進(jìn)行序列標(biāo)注,“城南水廠年取水量”對應(yīng)的標(biāo)注下標(biāo)為“BIIIOOOO”。訓(xùn)練時,將下標(biāo)轉(zhuǎn)化為對應(yīng)的字典id,與提問拼接后通過ernie tokenizer轉(zhuǎn)化為輸入句子的向量表示(Token Embeddings)、區(qū)分不同句子的向量(Segment Embeddings)和標(biāo)識詞位置信息的向量(Position Ebeddings),構(gòu)建ERNIE的輸入張量。輸入首先通過多層雙向交互式transformer結(jié)構(gòu)組成的ERNIE網(wǎng)絡(luò),學(xué)習(xí)句子中的標(biāo)注信息,然后依次通過relu激活函數(shù)、dropout層和線性分類層前向傳播,最后通過字典轉(zhuǎn)化后即可得到預(yù)測標(biāo)注結(jié)果。實體提及識別模型結(jié)構(gòu)如圖3所示。

2.2.2? 候選實體鏈接

實體鏈接的作用是將識別出的實體指向知識圖譜中實體,通常需要無歧義的指向知識庫中的唯一實體,但水資源取水許可領(lǐng)域存在大量同名、簡稱、縮寫以及加上區(qū)劃前綴的實體,如“白沙洲、琴斷口水廠”既是取水許可證的名稱又是取水許可項目的名稱;“赤壁市三國酒業(yè)有限公司取水項目”“三國酒業(yè)有限公司取水項目”和“三國酒業(yè)取水項目”為同一取水許可證實體,直接通過名稱難以準(zhǔn)確鏈接到水資源取水許可領(lǐng)域知識圖譜。

為了克服實體別名問題,通常采用構(gòu)建同義詞表或通過網(wǎng)絡(luò)檢索引入外部信息進(jìn)行實體消歧義[24-25],將各種不規(guī)則實體映射到規(guī)則實體上。構(gòu)建同義詞表需要大量完整的實體別名數(shù)據(jù),長江流域水資源取水許可領(lǐng)域涉及省市眾多,語言習(xí)慣差異較大,難以構(gòu)建準(zhǔn)確的同義詞表,且由于數(shù)據(jù)安全等原因,無法通過互聯(lián)網(wǎng)檢索獲取別名實體。本文根據(jù)實體語義,結(jié)合圖譜信息,通過BM25文本匹配算法結(jié)合圖譜查詢篩選候選實體。BM25算法通過將文本query分詞為q1,q2,…,qn,將qi與待匹配文本Q的相似度累加之后計算query與Q的相似度:S(Q,query)=niwir(qi,Q)(1)

式中:S表示query與Q的相似度;r(qi,Q)表示qi與Q的相似度;wi表示qi在Q中的權(quán)重。

本文采用TF-IDF算法計算wi:wi=lnN+0.5ni+0.5(2)

式中:N表示候選實體總的詞數(shù);ni表示qi出現(xiàn)的頻次。

r(qi,Q)=fi(k1+1)fi+K·fqi(k2+1)fqi+k2(3)

式中:fi表示qi在Q中出現(xiàn)的頻率;fqi表示qi在query中出現(xiàn)的頻率;k1,k2為調(diào)節(jié)因子,K為候選實體長度考慮因子。

K=k1·1-b+b·ldl—d(4)

式中:b為調(diào)節(jié)因子;ld表示候選實體長度;l—d為候選實體平均長度。

在進(jìn)行實體鏈接時,首先將識別出的實體通過分詞工具進(jìn)行分詞,如“赤壁市三國酒業(yè)有限公司取水項目”分為“赤壁市”“三國”“酒業(yè)”“有限公司”“取水”“項目”,忽略“有限公司”“取水”“項目”等取水許可領(lǐng)域常見高頻詞,以“赤壁市”“三國”“酒業(yè)”為關(guān)鍵詞,通過Neo4j圖數(shù)據(jù)庫查詢語言Cypher查詢圖譜獲取候選實體。通過BM25算法計算識別出的實體與候選實體的相似度并進(jìn)行排序,保留相似度較大的實體作為實體鏈接的候選實體。

2.2.3? 關(guān)系匹配

關(guān)系匹配是將候選實體、關(guān)系headi,relationi與提問中實體、關(guān)系headq,relationq進(jìn)行匹配,篩選答案三元組heada,relationa,taila的過程。本文將關(guān)系匹配問題轉(zhuǎn)化為文本相似度計算問題,基于ERNIE構(gòu)建候選實體、關(guān)系與提問的相似度匹配模型,將相似度最高的候選實體、關(guān)系對應(yīng)的尾實體作為答案返回。

在提問中往往會含有如“我想知道”“是什么”“呢”“?”等為了保持語句通順的停用詞,其包含語義信息較少,但會影響模型的訓(xùn)練速度與準(zhǔn)確率,本文將提問中的停用詞過濾掉,構(gòu)建待匹配問句queryA,將候選實體與關(guān)系拼接組成待匹配關(guān)系queryk,則答案answer為

answer=tailk where Score(queryA,queryk)=maxScore(queryA,queryi)i=1,2,…,n(5)

式中:tailk為相似度最高的候選實體、關(guān)系對應(yīng)的尾實體;Score表示模型[CLS]輸出的相似度。

在圖譜中同一頭實體的同一關(guān)系對應(yīng)的尾實體可能會有多個,此時上式中的k不是單個值,而是一個數(shù)組,即k=k1,k2,…,kt,t∈n,此時需要把k對應(yīng)的尾實體組合起來作為問題的答案。

如針對問題“我想知道三國酒業(yè)有限公司取水項目的年取水量?”,識別并鏈接到知識圖譜中的取水許可證實體“赤壁市三國酒業(yè)有限公司取水項目”,該實體具有“位于”“發(fā)證日期”“發(fā)證機(jī)關(guān)”“發(fā)證時間”“年取水量”等關(guān)系,分別計算去掉停用詞的問句“三國酒業(yè)有限公司取水項目的年取水量”,和鏈接實體與關(guān)系組成的待匹配問句“赤壁市三國酒業(yè)有限公司取水項目位于”“赤壁市三國酒業(yè)有限公司取水項目發(fā)證日期”等的文本相似度,取相似度最高的匹配關(guān)系“年取水量”對應(yīng)尾實體為問題的答案。

文本相似度匹配模型如圖4所示。

2.3? 實驗與結(jié)果分析

為驗證本文所提方法的有效性,將數(shù)據(jù)集分為實體提及識別微調(diào)數(shù)據(jù)集、文本相似度計算微調(diào)數(shù)據(jù)集、問答系統(tǒng)測試數(shù)據(jù)集。其中實體提及識別和文本相似度ERNIE模型采用NLPCC2018比賽公開數(shù)據(jù)集加入少量取水許可領(lǐng)域自建數(shù)據(jù)集進(jìn)行微調(diào),并采用BERT模型與ERNIE模型進(jìn)行對比,結(jié)果如表1和圖5~6所示。

由圖表可知,對比實體提及識別和文本相似度模塊分別采用Bert和Ernie模型微調(diào)時的F1值變化趨勢,在模型微調(diào)初始階段,Ernie F1值稍高于Bert,微調(diào)訓(xùn)練后Ernie 和Bert模型針對兩類任務(wù)均具有較好的表現(xiàn),F(xiàn)1值差距在0.5%之內(nèi),針對微調(diào)訓(xùn)練語料較少場景,使用Bert模型會有更好的表現(xiàn)。

為驗證問答系統(tǒng)在實際應(yīng)用場景下的回答準(zhǔn)確率,本文從各個業(yè)務(wù)系統(tǒng)的查詢模塊日志中獲取用戶查詢的取水權(quán)人、取水許可項目、取水許可證等實體對象,去重后人工構(gòu)造口語化查詢語句810條,實驗準(zhǔn)確率為90.37%。

基于本文提出的流水線方法,開發(fā)了基于BS架構(gòu)的Web問答系統(tǒng)客戶端,在搜索欄輸入查詢問題,可直接返回準(zhǔn)確答案。搜索界面如圖7所示。

3? 結(jié) 論

本文建立了長江流域取水許可知識圖譜,提出了一套適用于取水許可領(lǐng)域的知識圖譜問答流水線方法,并基于ERNIE預(yù)訓(xùn)練模型構(gòu)建了基于長江流域取水許可領(lǐng)域問答模型,通過對ERNIE和BERT兩種主流預(yù)訓(xùn)練模型的對比,得出以下結(jié)論:(1) 基于預(yù)訓(xùn)練模型的實體提及識別、實體鏈接、文本相似度流水線方法知識圖譜問答模型具有較高的準(zhǔn)確率,可滿足水資源取水許可管理業(yè)務(wù)日常檢索需求。

(2) 針對水資源取水領(lǐng)域的實體提及識別和文本相似度任務(wù),ERNIE與BERT精度差距較小,在微調(diào)語料較少的中文任務(wù)中可優(yōu)先采用ERNIE模型。

本文提出的流水線方法仍較為復(fù)雜,隨著以Chat-gpt為代表的生成式大語言模型的發(fā)展,以知識圖譜作為數(shù)據(jù)支撐,采用大語言模型進(jìn)行端到端的問答模型將簡化問答系統(tǒng)構(gòu)建流程,并進(jìn)一步提高復(fù)雜問題的回答準(zhǔn)確率,應(yīng)用方向從知識檢索擴(kuò)展到方案推薦、智慧決策等,可為知識圖譜問答模型帶來新的變革。

參考文獻(xiàn):[1]? 黃艷,張振東,李琪,等.智慧長江建設(shè)關(guān)鍵技術(shù)難點與解決方案的思考與探索[J].水利學(xué)報,2023,54(10):1141-1150.

[2]? 王晨雨,劉慶濤,沈紅霞.知識圖譜技術(shù)在全國取用水平臺的應(yīng)用[J].水利信息化,2023(4):7-13,27.

[3]? 劉雪梅,盧漢康,李海瑞,等.知識驅(qū)動的水利工程應(yīng)急方案智能生成方法:以南水北調(diào)中線工程為例[J].水利學(xué)報,2023,54(6):666-676.

[4]? 馮鈞,朱躍龍,王云峰,等.面向數(shù)字孿生流域的知識平臺構(gòu)建關(guān)鍵技術(shù)[J].人民長江,2023,54(3):229-235.

[5]? 覃煬揚(yáng),郭俊,劉懿,等.數(shù)字孿生流域知識圖譜構(gòu)建及其應(yīng)用[J].水利水電快報,2023,44(11):115-120.

[6]? SPEER R,HAVASI C.Representing general relational knowledge in conceptNet 5[C]∥International Conference on Language Resources and Evaluation,2012:3679-3686.

[7]? AUER S,BIZER C,KOBILAROV G,et al.Dbpedia:a nucleus for a web of open data[C]∥International Semantic Web Conference.Berlin,Heidelberg:Springer Berlin Heidelberg,2007:722-735.

[8]? BOLLACKER K,EVANS C,PARITOSH P,et al.Freebase:a collaboratively created graph database for structuring human knowledge[C]∥Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data,2008:1247-1250.

[9]? SUCHANEK F M,KASNECI G,WEIKUM G.Yago:a large ontology from wikipedia and wordnet[J].Journal of Web Semantics,2008,6(3):203-217.

[10]XU B,LIANG J,XIE C,et al.CN-DBpedia2:an extraction and verification framework for enriching Chinese encyclopedia knowledge base[J].Data Intelligence,2019,1(3):271-288.

[11]CHEN H,HU N,QI G,et al.Openkg chain:a blockchain infrastructure for open knowledge graphs[J].Data Intelligence,2021,3(2):205-227.

[12]MOY F J,HARAKI K,MOBILIO D,et al.MS/NMR:a structure-based approach for discovering protein ligands and for drug design by coupling size exclusion chromatography,mass spectrometry,and nuclear magnetic resonance spectroscopy[J].Analytical Chemistry,2001,73(3):571-581.

[13]陸曉華,張宇,錢進(jìn).基于圖數(shù)據(jù)庫的電影知識圖譜應(yīng)用研究[J].現(xiàn)代計算機(jī)(專業(yè)版),2016(7):76-83.

[14]賈李蓉,劉靜,于彤,等.中醫(yī)藥知識圖譜構(gòu)建[J].醫(yī)學(xué)信息學(xué)雜志,2015,36(8):51-53,59.

[15]曹明宇,李青青,楊志豪,等.基于知識圖譜的原發(fā)性肝癌知識問答系統(tǒng)[J].中文信息學(xué)報,2019,33(6):88-93.

[16]杜澤宇,楊燕,賀樑.基于中文知識圖譜的電商領(lǐng)域問答系統(tǒng)[J].計算機(jī)應(yīng)用與軟件,2017,34(5):153-159.

[17]VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]∥Advances in Neural Information Processing Systems,2017:5998-6008.

[18]DEVLIN J,CHANG M W,LEE K,et al.Bert:pre-training of deep bidirectional transformers for language understanding[J].arXiv Preprint arXiv,2018:1810.04805.

[19]YANG Z,DAI Z,YANG Y,et al.Xlnet:generalized autoregressive pretraining for language understanding[C]∥Advances in Neural Information Processing Systems,2019:5753-5763.

[20]LIU Y,OTT M,GOYAL N,et al.Roberta:a robustly optimized bert pretraining approach[J].arXiv Preprint arXiv,2019:1907.11692.

[21]ZHANG Z,HAN X,LIU Z,et al.ERNIE:enhanced language representation with informative entities[J].arXiv Preprint arXiv,2019:1905.07129.

[22]ZHANG Y,LIU K,HE S,et al.Question answering over knowledge base with neural attention combining global knowledge information[J].arXiv Preprint arXiv,2016:1606.00979.

[23]王鑫雷,李帥馳,楊志豪,等.基于預(yù)訓(xùn)練語言模型的中文知識圖譜問答系統(tǒng)[J].山西大學(xué)學(xué)報(自然科學(xué)版),2020,43(4):955-962.

[24]懷寶興,寶騰飛,祝恒書,等.一種基于概率主題模型的命名實體鏈接方法[J].軟件學(xué)報,2014,25(9):2076-2087.

[25]譚詠梅,楊雪.結(jié)合實體鏈接與實體聚類的命名實體消歧[J].北京郵電大學(xué)學(xué)報,2014,37(5):36-40.

(編輯:謝玲嫻)

Knowledge graph Q & A system of water intake permission based on pre-trained language model in Changjiang River Basin

ZENG Dejing1,2,3,ZHANG Jun1,2,3,CAO Weihua4,5,6,GUAN Danggen1,2,3,XU Jin1,2,3,LI Yupeng4,5,6

(1.Network and Information Center,Changjiang Water Resources Commission,Wuhan 430010,China;

2.Smart Yangtze River Innovation Team of Changjiang Water Resources Commission,Wuhan 430010,China;

3.Technology Innovation Center of Digital Enablement for River Basin Management,Changjiang Water Resources Commission,Wuhan 430010,China;

4.School of Automation,China University of Geosciences,Wuhan 430074,China;

5.Hubei Key Laboratory of Advanced Control and Intelligent Automation for Complex Systems,Wuhan 430074,China;

6.Engineering Research Center of Intelligent Technology for Geo-Exploration of Ministry of Education,Wuhan 430074,China)

Abstract:

With the continuous increase of management requirements in the field of water intake permission,the traditional information management system of water intake permission is difficult to meet the complex information retrieval needs,which restricts the improvement of meticulous management in water resources.A knowledge graph of water intake permission in the Changjiang River Basin is established to break the information silo between systems and improve the efficiency of information retrieval in water intake permission,and a knowledge graph Q & A including entity mention recognition,entity link,relational matching and other functions is proposed based on a large-scale pre-trained language model.According to the characteristics of data in water intake permission domain,BM25 algorithm is used to sort candidate entities to construct a knowledge base question answering system in the Changjiang River Basin,and a Web client is developed based on BS framework.The experiment shows that the system achieves an accuracy rate of 90.37% on the test set,which can support the retrieval needs in the field of water intake permission in the Changjiang River Basin.

Key words:

water intake permission; knowledge graph; pre-trained language model; question answering system; water resources; Changjiang River Basin

猜你喜歡
許可圖譜實體
版權(quán)許可聲明
版權(quán)許可聲明
版權(quán)許可聲明
繪一張成長圖譜
本期作者介紹
前海自貿(mào)區(qū):金融服務(wù)實體
中國外匯(2019年18期)2019-11-25 01:41:54
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
振興實體經(jīng)濟(jì)地方如何“釘釘子”
兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
双牌县| 昆山市| 溆浦县| 饶平县| 潮州市| 尚义县| 金阳县| 都昌县| 青海省| 宁国市| 五华县| 台南市| 临沭县| 梓潼县| 南投县| 鹤岗市| 长葛市| 许昌市| 汝南县| 扎兰屯市| 宜宾县| 军事| 鄯善县| 隆林| 理塘县| 贵阳市| 湖口县| 静乐县| 蒙山县| 苗栗市| 涟水县| 佛冈县| 平利县| 凤城市| 瑞金市| 中西区| 雷州市| 潼关县| 玉田县| 四平市| 突泉县|