国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于歷史文化知識(shí)圖譜的問答模型研究

2024-01-22 01:11:04陳賽飛揚(yáng)李澤宇王小雪
關(guān)鍵詞:圖譜語義領(lǐng)域

陳賽飛揚(yáng),殷 鋒,李澤宇,王小雪

(西南民族大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,四川 成都 610041)

隨著人工智能技術(shù)的不斷進(jìn)步和應(yīng)用,知識(shí)獲取方式正在發(fā)生革命性的變化.傳統(tǒng)的搜索引擎已經(jīng)不再是唯一的知識(shí)來源,新的知識(shí)檢索方式逐漸嶄露頭角,其中通過問答方式獲取相關(guān)知識(shí)成為一種備受關(guān)注的趨勢(shì).歷史文獻(xiàn)資源中蘊(yùn)含著巨大的價(jià)值,通過將知識(shí)問答技術(shù)引入歷史文化知識(shí)問答領(lǐng)域,在一定程度上彌補(bǔ)了該領(lǐng)域的空白,幫助我們深入挖掘潛在的歷史意義和學(xué)術(shù)價(jià)值.

在歷史文化領(lǐng)域,基于知識(shí)圖譜的問答系統(tǒng)近年來開始涌現(xiàn).陳定甲等[1]基于Vue框架構(gòu)建了輕量化的歷史文化知識(shí)圖譜問答系統(tǒng),幫助人們更高效地檢索信息,但使用的知識(shí)匹配推理技術(shù),在處理復(fù)雜問題時(shí),難以有效識(shí)別問題的語法構(gòu)造.Li等[2]針對(duì)以上問題,研究出了一種以BERT-BiLSTM-CRF網(wǎng)絡(luò)為基礎(chǔ)的命名實(shí)體識(shí)別方法,用于挖掘歷史文化文本的上下文語義信息.鄧祥旭等[3]在此基礎(chǔ)上引入了自注意力機(jī)制,相較于BERT-BiLSTM-CRF模型,獲得了更好的分類結(jié)果.

雖然在歷史文化領(lǐng)域的知識(shí)圖譜問答系統(tǒng)研究取得了一些進(jìn)展,但總體而言仍面臨挑戰(zhàn).如文獻(xiàn)[4]指出,現(xiàn)有方法主要依賴于數(shù)據(jù),仍需要大量手動(dòng)標(biāo)注來明確問題與答案之間的關(guān)系.這在特定領(lǐng)域如歷史文化領(lǐng)域中導(dǎo)致了標(biāo)注數(shù)據(jù)匱乏的問題,甚至完全沒有標(biāo)注數(shù)據(jù),從而使問答模型的訓(xùn)練變得困難.

1 經(jīng)典ERNIE的優(yōu)勢(shì)和局限分析

截至目前,主流的問答系統(tǒng)主要有三種構(gòu)建方法,基于知識(shí)庫的問答系統(tǒng)(Knowledge Base Question Answering,KBQA)[5]、開放域問答系統(tǒng)(Open-Domain Question Answering,ODQA)[6]、社區(qū)問答系統(tǒng)(community based question answering,CQA)[7].基于知識(shí)庫的問答系統(tǒng)(KBQA)就其構(gòu)建方法而言又可分為兩類.一是基于信息檢索[8]的方法,通過實(shí)體鏈接獲得主題實(shí)體,學(xué)習(xí)如何將問題和潛在答案進(jìn)行向量化表示,最后篩選答案.二是基于語義解析[9]的方法,該方法將問題轉(zhuǎn)化為一種語義表示形式,隨后用于檢索相關(guān)答案.

近年來,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,利用深度學(xué)習(xí)技術(shù)對(duì)傳統(tǒng)KBQA方法進(jìn)行優(yōu)化成為研究熱點(diǎn).其中谷歌在2018年提出基于transformer的預(yù)訓(xùn)練語言表示模型BERT[10],該模型因使用動(dòng)態(tài)詞向量在預(yù)訓(xùn)練過程中對(duì)文本的上下文表示作了充分計(jì)算,從而在問答理解任務(wù)時(shí)取得了較好成績(jī);因此被廣泛應(yīng)用于各領(lǐng)域問答系統(tǒng)中.如曾攀等[11]構(gòu)建了蜜蜂領(lǐng)域知識(shí)圖譜,并通過BERT進(jìn)行問句意圖分析.王志明等[12]提出了基于BERT的意圖識(shí)別模型和基于BERT-BiLSTM-CRF的槽位填充模型來改進(jìn)傳統(tǒng)醫(yī)療問答系統(tǒng),使其對(duì)用戶的問句文本理解更加深入.近年來,構(gòu)建在BERT模型基礎(chǔ)上的一系列優(yōu)化模型不斷涌現(xiàn),如Facebook的RoBERTa模型、百度的ERNIE(Enhanced Representation from Knowledge Integration)模型等.文獻(xiàn)[13]對(duì)比了目前出現(xiàn)的各種BERT優(yōu)化模型,發(fā)現(xiàn)百度的ERNIE相較于其他模型在中文問答任務(wù)中效果最佳.

ERNIE[14]模型是基于BERT構(gòu)建的,相對(duì)于BERT,ERNIE改進(jìn)了預(yù)訓(xùn)練語言模型的掩碼策略,以便更全面地提取語義知識(shí).與BERT不同,ERNIE將訓(xùn)練數(shù)據(jù)中的短語和實(shí)體作為一個(gè)整體單元來進(jìn)行統(tǒng)一的掩蔽.這種方法的好處在于在學(xué)習(xí)過程中不會(huì)忽略整體的語料信息.此外,基于大量中文文本訓(xùn)練并結(jié)合圖譜信息的ERNIE模型,能夠在中文中有效地捕捉多樣的語義模式.

但與文獻(xiàn)[4]提到的問題相似,ERNIE在獲取和理解歷史文化領(lǐng)域文本信息的語義特征,以及捕捉該領(lǐng)域語言表征的能力仍存在一定的局限性.

2 經(jīng)典ERNIE模型的改進(jìn)

2.1 改進(jìn)思路

Liu等[15]提出了一種知識(shí)支持的語言表示模型(K-BERT),將知識(shí)圖譜與詞向量相結(jié)合,提高了特定領(lǐng)域識(shí)別任務(wù)的性能.這為構(gòu)建歷史文化領(lǐng)域的知識(shí)圖譜問答系統(tǒng)提供了有益的思路,有助于克服標(biāo)注成本高昂和高質(zhì)量數(shù)據(jù)匱乏等問題.

總體而言,借鑒先前研究成果和改進(jìn)方法,針對(duì)上述問題,本次研究使用帶有知識(shí)圖譜的K-ERNIE代替ERNIE(Enhanced Representation through Knowledge Integration),增加句子的上下文信息有助于融合句子內(nèi)容,提升特征提取能力;再融入長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM),以更深入地挖掘語義信息.這個(gè)整合增強(qiáng)了模型的語義理解能力,使其能夠更好地處理豐富的語境信息.

2.2 K-ERNIE-LSTM模型的提出

K-ERNIE-LSTM的模型包含五個(gè)關(guān)鍵組成部分:知識(shí)模塊、嵌入層、視圖處理、掩碼變換器和LSTM層.模型架構(gòu)如圖1所示,對(duì)于輸入的句子,知識(shí)模塊首要步驟是從知識(shí)圖譜中提取相關(guān)的三元組,將原始句子轉(zhuǎn)換為充滿知識(shí)的句子樹.接著,這個(gè)句子樹會(huì)同時(shí)送入嵌入層和視圖層,進(jìn)一步轉(zhuǎn)化為標(biāo)記級(jí)嵌入表示和可見矩陣.此模型能夠根據(jù)任務(wù)需求選擇不同知識(shí)圖譜,在進(jìn)行嵌入層操作之前引入領(lǐng)域?qū)I(yè)知識(shí),解決了多元化詞向量編碼空間不一致和語句偏離核心語義的問題.

圖1 K-ERNIE-LSTM的模型結(jié)構(gòu)

1)知識(shí)層(Knowledge layer)

知識(shí)層是該模型的核心,用于整合外部知識(shí)源,其主要任務(wù)是從這些知識(shí)源中提取與文本相關(guān)的領(lǐng)域知識(shí),并將其融合到模型中,以增強(qiáng)文本的語義表示.通過知識(shí)注入使模型能夠更好地理解和處理特定領(lǐng)域的文本,因?yàn)樗祟I(lǐng)域?qū)I(yè)術(shù)語、關(guān)系和實(shí)體等信息.

圖2 句子樹結(jié)構(gòu)

2)嵌入層(Embedding layer)

嵌入層在K-ERNIE中的作用是將句子樹轉(zhuǎn)換為嵌入表示,以供Mask-Transformer處理.與ERNIE相似,K-ERNIE的嵌入表示包含了三個(gè)重要組件:標(biāo)簽嵌入、位置嵌入和區(qū)段嵌入,不同之處在于K-ERNIE的輸入是句子樹而非標(biāo)記序列.

標(biāo)簽嵌入與ERNIE相似,但在嵌入之前需要對(duì)句子樹的標(biāo)記進(jìn)行重新排列.位置嵌入用于恢復(fù)結(jié)構(gòu)信息,確保重新排列后的句子能被正確理解.區(qū)段嵌入用于標(biāo)識(shí)多個(gè)句子的邊界,以便在合并多個(gè)句子時(shí)保持語義分離.這些嵌入層共同構(gòu)成K-ERNIE的基礎(chǔ),為后續(xù)處理提供了豐富的文本表示.

3)視圖層(Seeing layer)

(1)

4)掩碼變換器(Mask-Transformer)

(2)

(3)

(4)

5)LSTM層(Long Short-Term Memory)

LSTM[16]保留了大部分循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的特性,并成功地解決了梯度反向傳播中的梯度消失問題.對(duì)于經(jīng)常需要跨越長(zhǎng)距離依賴的歷史文化類型的文本數(shù)據(jù),通過LSTM層可以捕獲長(zhǎng)期的上下文依賴關(guān)系,更好地處理長(zhǎng)文本序列.

最后模型將文本標(biāo)簽特征向量映射到實(shí)際問答標(biāo)簽,基于上一層的輸出,再進(jìn)行降維和softmax函數(shù)歸一化,計(jì)算標(biāo)簽的近似概率y,如式(5)~式(6)所示.

(5)

(6)

3 K-ERNIE-LSTM模型效能及分析

3.1 數(shù)據(jù)收集與知識(shí)圖譜構(gòu)建

3.1.1 歷史文化領(lǐng)域知識(shí)圖譜構(gòu)建

數(shù)據(jù)集是命名實(shí)體識(shí)別的關(guān)鍵部分,它決定了在數(shù)據(jù)集上訓(xùn)練的模型是否適用于實(shí)際問題.我們主要選擇兩個(gè)知識(shí)圖譜進(jìn)行對(duì)比,首先是一個(gè)涵蓋了中文領(lǐng)域廣泛知識(shí)的通用化結(jié)構(gòu)化百科知識(shí)圖譜CN-DBpedia[17],該知識(shí)圖譜以中文為主要語言.此外由于還沒有針對(duì)歷史文化這一特定領(lǐng)域的公共數(shù)據(jù)集,我們創(chuàng)建了一個(gè)自定義的命名實(shí)體識(shí)別數(shù)據(jù)集.數(shù)據(jù)獲取的來源主要有兩部分,首先關(guān)注了現(xiàn)實(shí)中的中國(guó)歷史文化相關(guān)的書籍以及網(wǎng)絡(luò)上的歷史文化相關(guān)網(wǎng)頁;然后通過百度百科爬取其中的歷史文化百科條目.對(duì)于紙質(zhì)書籍等關(guān)系型數(shù)據(jù),主要通過人工收集整理的方式來構(gòu)建語料庫;對(duì)于網(wǎng)站中的半結(jié)構(gòu)數(shù)據(jù),通過爬取的方式來獲取其中的三元組;對(duì)于txt文本數(shù)據(jù)這種非結(jié)構(gòu)化數(shù)據(jù),選取合適的自然語言處理技術(shù)進(jìn)行知識(shí)抽取.具體獲取的數(shù)據(jù)條數(shù)和數(shù)據(jù)格式如表1所示.

表1 數(shù)據(jù)獲取詳情

整理后的實(shí)體關(guān)系三元組存儲(chǔ)在Neo4j數(shù)據(jù)庫中,可通過查詢語句獲取相關(guān)數(shù)據(jù).

3.1.2 問答語句數(shù)據(jù)采集

選取知乎歷史文化版塊中相關(guān)問答,通過Spacy爬取后作為原始數(shù)據(jù),并對(duì)用戶的自然問句進(jìn)行文本分類.如表2所示將問句分為8種類別,每一種類別使用不同的標(biāo)簽標(biāo)注,通過問題模板和屬性標(biāo)注庫逆向生成K-ERNIE-LSTM模型的數(shù)據(jù)集,共18 681條數(shù)據(jù).

表2 問句標(biāo)注示例

3.2 評(píng)價(jià)指標(biāo)

本文通過精確率(P)、召回率(R)、和F1值來檢驗(yàn)和評(píng)測(cè)模型效果,具體計(jì)算公式如式(7)~式(9)所示.

(7)

(8)

(9)

其中:Tp為正樣本中被正確預(yù)測(cè)的數(shù)量,Fp為負(fù)樣本中被錯(cuò)誤預(yù)測(cè)為正樣本的數(shù)量,Fn為正樣本中被錯(cuò)誤預(yù)測(cè)為負(fù)樣本的數(shù)量.

3.3 實(shí)驗(yàn)參數(shù)

為了保證整個(gè)實(shí)驗(yàn)的順利進(jìn)行,采用了以下實(shí)驗(yàn)環(huán)境配置,如表3所示.

表3 實(shí)驗(yàn)環(huán)境

除此之外為了更好地反映基于BERT優(yōu)化后的模型效果,根據(jù)Google BERT的基本版本[18],將K-ERNIE-LSTM與對(duì)比模型配置為相同的參數(shù)設(shè)置.最大輸入文本128,學(xué)習(xí)率為0.000 02,dropout設(shè)置為0.5,掩碼變換器設(shè)置為12層.

3.4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

為了驗(yàn)證模型的效能,本節(jié)主要考慮從以下兩方面設(shè)計(jì)對(duì)比實(shí)驗(yàn).

1)使用公開知識(shí)圖譜與自建歷史文化領(lǐng)域知識(shí)圖譜分別對(duì)ERNIE模型進(jìn)行嵌入,對(duì)比通用知識(shí)圖譜嵌入與特定領(lǐng)域知識(shí)圖譜嵌入對(duì)模型效能的影響.

2)與其他預(yù)訓(xùn)練模型(BERT)相比,本文所使用的ERNIE模型是否表現(xiàn)出更優(yōu)的性能.

3.4.1 不同知識(shí)圖譜嵌入對(duì)比實(shí)驗(yàn)

本節(jié)主要選擇常用的大規(guī)模通用知識(shí)圖譜CN-DBpedia與自建知識(shí)圖譜進(jìn)行對(duì)比實(shí)驗(yàn),圖譜嵌入處理及模型實(shí)驗(yàn)流程如圖3所示.

圖3 圖譜嵌入處理及模型搭建流程圖

三種嵌入方式的實(shí)驗(yàn)結(jié)果如圖4所示,從左到右分別為不使用知識(shí)圖譜嵌入、使用CN-DBpedia知識(shí)圖譜嵌入,以及自建歷史文化領(lǐng)域知識(shí)圖譜嵌入后模型對(duì)用戶問句的識(shí)別效果.

圖4 不同嵌入方式的識(shí)別任務(wù)結(jié)果

圖4可以看出,不嵌入知識(shí)圖譜的模型準(zhǔn)確率與F1值明顯低于知識(shí)圖譜嵌入后的K-ERNIE模型,說明了知識(shí)支持的K-ERNIE-LSTM模型在特定領(lǐng)域的識(shí)別任務(wù)中效果較好.而且使用特定垂直領(lǐng)域的知識(shí)圖譜,具有更好的提升效果.因此,根據(jù)任務(wù)類型選擇合適的知識(shí)圖譜非常重要.

3.4.2 K-ERNIE-LSTM模型對(duì)比實(shí)驗(yàn)

上組實(shí)驗(yàn)分析了不同的知識(shí)圖譜嵌入策略對(duì)模型效能的影響.本節(jié)實(shí)驗(yàn)主要分析不同的預(yù)訓(xùn)練模型,在都基于歷史文化領(lǐng)域知識(shí)圖譜的嵌入下,其性能差異.對(duì)比模型有:K-BERT、K-ERNIE、結(jié)合LSTM網(wǎng)絡(luò)的K-BERT-LSTM、K-ERNIE-LSTM四個(gè)模型.實(shí)驗(yàn)結(jié)果如表4所示.

表4 不同模型的實(shí)驗(yàn)結(jié)果

從表4可以看出,得益于ERNIE模型能夠更好理解中文語義表示,對(duì)于歷史文化領(lǐng)域的問句識(shí)別任務(wù),K-ERNIE模型表現(xiàn)要優(yōu)于K-BERT模型.在結(jié)合LSTM模型后,兩個(gè)模型性能均有所提高,且K-ERNIE-LSTM模型的表現(xiàn)仍優(yōu)于K-BERT-LSTM模型.本文提出模型相較于K-BERT模型約有2個(gè)百分點(diǎn)的性能提升,證明了K-ERNIE-LSTM模型的有效性.

在上述研究中,我們進(jìn)行了詳盡的消融和對(duì)比實(shí)驗(yàn),涉及了兩種不同的數(shù)據(jù)集和四種不同的模型,實(shí)驗(yàn)結(jié)果可以得到以下結(jié)論:K-ERNIE-LSTM模型在準(zhǔn)確率、召回率和F1得分三個(gè)性能指標(biāo)上均有一定的提升.

4 結(jié)論

總的來說,針對(duì)歷史文化領(lǐng)域的問題回答,存在準(zhǔn)確性不足和深層語義匹配的挑戰(zhàn),提出了一種知識(shí)圖譜嵌入的K-ERNIE-LSTM方法,與傳統(tǒng)的算法相比,能有效識(shí)別用戶的語義信息,其精確率、召回率和F1值有一定的提高.其真正優(yōu)勢(shì)在于特定領(lǐng)域中,使用相應(yīng)的知識(shí)圖譜,不僅提高了對(duì)注入知識(shí)的利用效率,還降低了大規(guī)模預(yù)訓(xùn)練的成本.本文所采用的方法在應(yīng)用于小型的數(shù)據(jù)集時(shí)進(jìn)行了測(cè)試,這導(dǎo)致了模型的一些限制.在未來的工作計(jì)劃中,將擴(kuò)大數(shù)據(jù)規(guī)模,以提高模型的泛用性,并進(jìn)一步研究模型在長(zhǎng)文本分析任務(wù)中的表現(xiàn).

猜你喜歡
圖譜語義領(lǐng)域
繪一張成長(zhǎng)圖譜
語言與語義
領(lǐng)域·對(duì)峙
青年生活(2019年23期)2019-09-10 12:55:43
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
主動(dòng)對(duì)接你思維的知識(shí)圖譜
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
認(rèn)知范疇模糊與語義模糊
肯定與質(zhì)疑:“慕課”在基礎(chǔ)教育領(lǐng)域的應(yīng)用
3D 打印:先進(jìn)制造領(lǐng)域的必爭(zhēng)之地
杭州科技(2013年5期)2013-03-11 16:40:59
法库县| 安龙县| 望都县| 阿拉善盟| 隆德县| 永靖县| 凤山县| 乌兰察布市| 南江县| 阿拉善盟| 浦县| 华宁县| 晋城| 婺源县| 南江县| 乌鲁木齐市| 太和县| 瑞金市| 余江县| 铁岭县| 唐海县| 梨树县| 永年县| 同仁县| 米林县| 宜州市| 金溪县| 容城县| 新宁县| 陵川县| 潮州市| 抚顺市| 眉山市| 牡丹江市| 镇巴县| 静乐县| 长岛县| 芦山县| 重庆市| 泸溪县| 通城县|