基于知識(shí)圖譜的問(wèn)答系統(tǒng)設(shè)計(jì)

2023-11-30 22:03:40秦麗娟

無(wú)線互聯(lián)科技 2023年18期

基金項(xiàng)目：2019年度江蘇省高校哲學(xué)社會(huì)科學(xué)研究專題項(xiàng)目；項(xiàng)目編號(hào)：2019SJB154。

作者簡(jiǎn)介：秦麗娟（1983— ），女，江蘇南京人，講師，碩士；研究方向：教育信息化。

摘要：隨著網(wǎng)絡(luò)數(shù)據(jù)的爆發(fā)式增長(zhǎng)，知識(shí)泛濫和知識(shí)過(guò)載問(wèn)題日益凸顯。傳統(tǒng)的問(wèn)答系統(tǒng)通常采用簡(jiǎn)單的關(guān)鍵詞匹配模式，往往無(wú)法準(zhǔn)確理解用戶的真實(shí)意圖，難以提供準(zhǔn)確的答案。為解決這一問(wèn)題，文章設(shè)計(jì)了一種基于知識(shí)圖譜的智能問(wèn)答系統(tǒng)。首先，通過(guò)本體層構(gòu)建、數(shù)據(jù)爬取、數(shù)據(jù)存儲(chǔ)等步驟構(gòu)建知識(shí)圖譜。其次，分別采用BERT+BiLSTM+CR模型和BERT+TextCNN模型進(jìn)行命名實(shí)體識(shí)別和用戶意圖識(shí)別。最后，使用Flask封裝后臺(tái)API，以便提供更加靈活和個(gè)性化的服務(wù)。

關(guān)鍵詞：知識(shí)圖譜；問(wèn)答系統(tǒng)；用戶意圖

中圖分類號(hào)：TP391.3? 文獻(xiàn)標(biāo)志碼：A

0? 引言

Web3.0時(shí)代充斥著巨量信息，導(dǎo)致知識(shí)泛濫和知識(shí)過(guò)載等問(wèn)題［1］。傳統(tǒng)的問(wèn)答系統(tǒng)通常采取簡(jiǎn)單的關(guān)鍵詞匹配模式，然后羅列一大堆數(shù)據(jù)供用戶查看，用戶往往很難辨別這些數(shù)據(jù)的準(zhǔn)確性［2］。近年來(lái)，知識(shí)圖譜的理論研究取得了迅猛的發(fā)展，特別是在知識(shí)圖譜中的信息抽取環(huán)節(jié)方面，為構(gòu)建問(wèn)答系統(tǒng)的初期特征抽取任務(wù)提供了極大的幫助［3］。這種方法不僅顯著減少了人工干預(yù)的需求，還提高了問(wèn)答系統(tǒng)的準(zhǔn)確率和效率。OpenAI的ChatGPT引起了人工智能界的廣泛關(guān)注，給問(wèn)答系統(tǒng)和搜索引擎帶來(lái)了一種全新的形態(tài)，即基于深度學(xué)習(xí)的形態(tài)。與傳統(tǒng)方法相比，這些方法通過(guò)深度學(xué)習(xí)技術(shù)來(lái)提高問(wèn)答系統(tǒng)的準(zhǔn)確性、召回率和效率，并能從復(fù)雜的知識(shí)結(jié)構(gòu)中高度概括和挖掘所需信息，使得問(wèn)答平臺(tái)能更有效地獲取知識(shí)，為各個(gè)領(lǐng)域的發(fā)展提供服務(wù)。本文旨在探討如何利用Web3.0時(shí)代豐富的數(shù)據(jù)資源和現(xiàn)代人工智能技術(shù)，構(gòu)建一種基于知識(shí)圖譜的智能問(wèn)答系統(tǒng)模型。

1? 相關(guān)技術(shù)

1.1? BERT模型

BERT（Bidirectional Encoder Representations from Transformers）模型是由Google于2018年提出的。它的主要目的是利用大量的未標(biāo)注數(shù)據(jù)來(lái)學(xué)習(xí)一種通用的語(yǔ)言表示方法。與其他的基于深度學(xué)習(xí)的自然語(yǔ)言處理技術(shù)相比，BERT具有許多優(yōu)點(diǎn)。首先，它可以適應(yīng)各種類型的任務(wù)，因?yàn)樗挠?xùn)練方法可以學(xué)習(xí)到語(yǔ)言的各種特征，從而在不同的應(yīng)用場(chǎng)景中都可以得到良好的效果。其次，BERT也易于微調(diào)，這使得它在面對(duì)特定任務(wù)時(shí)可以快速適應(yīng)并進(jìn)行優(yōu)化。此外，BERT可以充分利用大規(guī)模的未標(biāo)注數(shù)據(jù)，讓模型學(xué)習(xí)到更多的語(yǔ)言特征，并在后續(xù)的微調(diào)過(guò)程中更好地適應(yīng)任務(wù)。因此，BERT在自然語(yǔ)言處理領(lǐng)域受到了廣泛的關(guān)注，被認(rèn)為是最強(qiáng)的預(yù)訓(xùn)練語(yǔ)言模型之一。

1.2? DBNet網(wǎng)絡(luò)

DBNet在圖像分割任務(wù)中具有較高的準(zhǔn)確性和魯棒性，被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域。系統(tǒng)使用DBNet網(wǎng)絡(luò)進(jìn)行文本檢測(cè)任務(wù)。DBNet網(wǎng)絡(luò)結(jié)構(gòu)主要由3個(gè)模塊構(gòu)成，分別是FPN、FCN和DB操作。FPN結(jié)構(gòu)為了獲取多尺度的特征，分為自底向上的卷積操作與自頂向下的上采樣。首先，根據(jù)卷積公式獲取原圖大小比例的1/2、1/4、1/8、1/16、1/32的特征圖；其次，自頂向下采樣2次，之后同樣進(jìn)行自底向上的操作；最后，對(duì)每層輸出結(jié)果進(jìn)行采樣，變成1/4大小的特征圖。FCN模塊是將特征圖經(jīng)過(guò)卷積核轉(zhuǎn)置卷積獲取概率圖P和閾值圖T、Z最后對(duì)2張圖進(jìn)行DB（可微二值化）方法得到二值圖。

1.3? 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)

LSTM（Long Short-Term Memory）是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)，由Hochreiter等人提出。它將記憶單元添加到隱藏層的神經(jīng)單元中，由此來(lái)控制時(shí)間序列中的記憶信息。LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Networks，RNN）的一個(gè)變種。RNN的內(nèi)部狀態(tài)可以表現(xiàn)動(dòng)態(tài)時(shí)序行為，也稱為記憶信息。與RNN不同，LSTM改變了RNN的記憶單元，使其包括了一個(gè)“處理器”cell，它可以決定要保留哪些信息。一個(gè)cell由輸入門、遺忘門和輸出門組成。信息在進(jìn)入LSTM網(wǎng)絡(luò)后，cell會(huì)根據(jù)規(guī)則判斷該信息是否有用，只有符合算法要求的信息才會(huì)被保留，而不符合要求的信息將通過(guò)遺忘門被丟棄。

2? 總體設(shè)計(jì)方案

系統(tǒng)主要分為3個(gè)主要任務(wù)，即知識(shí)圖譜的構(gòu)建工作、問(wèn)答系統(tǒng)相關(guān)技術(shù)模型的設(shè)計(jì)以及問(wèn)答系統(tǒng)的設(shè)計(jì)，具體如圖1所示。

問(wèn)答系統(tǒng)相關(guān)技術(shù)模型的設(shè)計(jì)訓(xùn)練主要分為命名實(shí)體識(shí)別和用戶提問(wèn)意圖識(shí)別。問(wèn)答系統(tǒng)整體使用Flask封裝后臺(tái)API，用戶的需求為輸入，然后判斷為文本還是圖片，如果是圖片則使用DBnet識(shí)別圖片內(nèi)容，如果是文本則通過(guò)NLP的BERT+BiLSTM+CRF構(gòu)建提問(wèn)實(shí)體，之后用CNN進(jìn)行分類來(lái)識(shí)別意圖，最后構(gòu)建查詢語(yǔ)句，將數(shù)據(jù)返回給用戶。

3? 知識(shí)圖譜的構(gòu)建

3.1? 基本流程

知識(shí)圖譜的構(gòu)建相關(guān)流程，如圖2所示。首先，通過(guò)爬蟲(chóng)行采集結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)；其次，通過(guò)中間數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)；再次，進(jìn)行知識(shí)抽取，將數(shù)據(jù)轉(zhuǎn)為知識(shí)圖譜的結(jié)構(gòu)化數(shù)據(jù)；最后，存儲(chǔ)進(jìn)Node4J數(shù)據(jù)庫(kù)。

3.2? 本體層構(gòu)建

在知識(shí)圖譜中，本體層是一種用于描述實(shí)體、屬性、概念以及它們之間關(guān)系的結(jié)構(gòu)化資源模型。本體層可以看做是整個(gè)知識(shí)圖譜中最核心的一層，通過(guò)對(duì)相關(guān)實(shí)體和概念的分類、定義和關(guān)聯(lián)規(guī)范，能夠?yàn)橄聦訑?shù)據(jù)集成提供更加明確的語(yǔ)義表示和分層約束。在已經(jīng)建立好本體層之后，只要將需要被存儲(chǔ)/表達(dá)的實(shí)體映射到本體層上，就可以很方便地繼承/獲取其相關(guān)屬性信息或者推理出新的事實(shí)或知識(shí)。將知識(shí)隱式編碼到本體層的方式，可以使得知識(shí)圖譜更加具有可理解性、自解釋性和可維護(hù)性，并且便于進(jìn)行知識(shí)推理、查詢和分析。

3.3? 數(shù)據(jù)爬取和預(yù)處理

系統(tǒng)主要通過(guò)request、Selenium和XPath相結(jié)合來(lái)爬取網(wǎng)站。具體爬取過(guò)程為：首先，進(jìn)入網(wǎng)站找到相應(yīng)數(shù)據(jù)對(duì)應(yīng)的URL地址，分析URL地址之間跳轉(zhuǎn)的關(guān)系；其次，在網(wǎng)站中定位所需要的元素；最后，編寫爬蟲(chóng)代碼依次爬取每個(gè)URL的數(shù)據(jù)。網(wǎng)頁(yè)中存在著部分缺失值，需要對(duì)提取到的數(shù)據(jù)進(jìn)行清洗和預(yù)處理，去除無(wú)用的標(biāo)簽、特殊字符或者HTML實(shí)體，使數(shù)據(jù)更加規(guī)范和易于處理。

3.4? 數(shù)據(jù)存儲(chǔ)

數(shù)據(jù)預(yù)先只存儲(chǔ)在本地磁盤中，不易于系統(tǒng)后臺(tái)進(jìn)行查詢工作，需要將其導(dǎo)入數(shù)據(jù)庫(kù)，知識(shí)圖譜主要具有實(shí)體、關(guān)系、屬性3個(gè)主要元素，而圖數(shù)據(jù)庫(kù)的點(diǎn)、邊、點(diǎn)的相應(yīng)值正好與其一一對(duì)應(yīng)。圖數(shù)據(jù)庫(kù)具有天然的優(yōu)勢(shì)存儲(chǔ)知識(shí)圖譜，且其和結(jié)構(gòu)化數(shù)據(jù)庫(kù)一樣提供了類SQL的查詢語(yǔ)言，因此將數(shù)據(jù)存儲(chǔ)進(jìn)圖數(shù)據(jù)庫(kù)。Noe4J是一個(gè)開(kāi)源的數(shù)據(jù)庫(kù)，易于使用，所以選擇其作為后臺(tái)知識(shí)庫(kù)。

4? 問(wèn)答系統(tǒng)相關(guān)技術(shù)模型設(shè)計(jì)

4.1? 基于BERT-BiLSTM-CRF模型的命名實(shí)體識(shí)別

實(shí)體抽取即從非結(jié)構(gòu)化文本中識(shí)別出實(shí)體信息，最早期采取字典和規(guī)則的方法，但過(guò)分依賴專家人工，費(fèi)時(shí)費(fèi)力，難以適應(yīng)數(shù)據(jù)改變，后來(lái)被最大熵模型，支持向量機(jī)，條件隨機(jī)場(chǎng)的機(jī)器學(xué)習(xí)方法所替代。近年來(lái)，深度學(xué)習(xí)也不斷走入NLP的視野，CNN、RNN都開(kāi)始被用于實(shí)體識(shí)別。基于RNN在解決長(zhǎng)距離依賴問(wèn)題的過(guò)程中出現(xiàn)的梯度消失和梯度爆炸，專家們引入了門控機(jī)制，創(chuàng)造了LSTM的新模型來(lái)解決長(zhǎng)期依賴問(wèn)題，由此也衍生出了BiLSTM來(lái)解決雙向的語(yǔ)義依賴問(wèn)題。系統(tǒng)使用BERT-BiLSTM-CRF模型，該模型是一種結(jié)合了BERT、BiLSTM和CRF的序列標(biāo)注模型，用于解決命名實(shí)體識(shí)別（NER）任務(wù)。該模型的核心思想是利用BERT模型的語(yǔ)義表示能力、BiLSTM模型的上下文信息捕捉能力和CRF模型的標(biāo)簽約束能力，從而提升NER任務(wù)的性能。

首先，系統(tǒng)選擇使用BERT動(dòng)態(tài)語(yǔ)言模型作為詞嵌入層。BERT模型包含多層雙向Transformer語(yǔ)言模型，并大量使用Attention機(jī)制，在編碼過(guò)程中考慮每個(gè)詞的上下文信息。與CNN和RNN不同，BERT模型只包含前饋神經(jīng)網(wǎng)絡(luò)和自注意力機(jī)制，通過(guò)Transformer網(wǎng)絡(luò)的Encoder部分解決了RNN長(zhǎng)距離依賴問(wèn)題。BERT的輸入向量包括3部分：詞分隔、句子分隔和位置分隔。

其次，經(jīng)過(guò)BERT詞嵌入層后，這些向量將會(huì)進(jìn)入特征提取層，去除掉那些無(wú)關(guān)緊要的特征，獲取能夠典型代表這一向量的特征，同時(shí)也減少了向量的維度，方便后續(xù)的處理。系統(tǒng)采用BiLSTM作為特征層。LSTM根據(jù)前文描述，解決了RNN可能出現(xiàn)的梯度消失、梯度爆炸等問(wèn)題，且由于中文文本前后文的關(guān)系性，系統(tǒng)使用兩層LSTM進(jìn)行雙向提取，最后將結(jié)果連接到CRF標(biāo)注層。

最后，特征提取完成后，需要獲取每一個(gè)字符的BIO標(biāo)注。前文講述的CRF是一種基于概率圖模型的序列標(biāo)注方法，且CRF利用了輸出的全局概率分布來(lái)建模，同時(shí)將原本單獨(dú)考慮的每個(gè)標(biāo)注之間的相互作用融合在一起，具有極強(qiáng)的建模能力，所以選擇CRF作為特征分類層。CRF將會(huì)最終輸出類似B-DIEASE、I-DIEASE、O等標(biāo)注類型，用于后續(xù)直接讀取獲得識(shí)別出來(lái)的實(shí)體。

4.2? 基于BERT+TextCNN模型的用戶意圖識(shí)別

識(shí)別出實(shí)體后，還需要判斷用戶對(duì)于實(shí)體需要具體哪一屬性或者關(guān)系的識(shí)別。由于定義了本體層，意圖識(shí)別可以轉(zhuǎn)化為機(jī)器學(xué)習(xí)的分類和NLP方向的情感識(shí)別問(wèn)題，KNN、SVM、樸素貝葉斯是最常見(jiàn)的機(jī)器學(xué)習(xí)方法。隨著技術(shù)的發(fā)展出現(xiàn)了TextCNN、RNN等模型處理此類任務(wù)。BERT作為預(yù)處理語(yǔ)言模型，在NLP領(lǐng)域受到廣泛的關(guān)注，相較于LSTM，Transformer可以更好地處理長(zhǎng)距離依賴，并且其本身就是基于注意力機(jī)制，因此系統(tǒng)采用BERT+CNN進(jìn)行意圖抽取的任務(wù)。BERT+TextCNN模型從特征提取層、特征分類層和數(shù)據(jù)增強(qiáng)層面綜合應(yīng)用了BERT和TextCNN的特點(diǎn)，能夠充分利用語(yǔ)義表示和卷積神經(jīng)網(wǎng)絡(luò)特征提取的優(yōu)勢(shì)，同時(shí)通過(guò)數(shù)據(jù)增強(qiáng)來(lái)提升模型的魯棒性和泛化能力。

首先，利用BERT模型作為特征提取器，學(xué)習(xí)文本的語(yǔ)義表示。BERT模型通過(guò)無(wú)監(jiān)督預(yù)訓(xùn)練，在大規(guī)模語(yǔ)料上學(xué)習(xí)到了豐富的上下文相關(guān)的詞向量表示，能夠捕捉詞語(yǔ)和句子之間的語(yǔ)義關(guān)系。這些語(yǔ)義表示作為輸入，提供了豐富的語(yǔ)義信息，用于后續(xù)的特征提取和分類。

其次，利用TextCNN模型進(jìn)行特征提取和分類。TextCNN模型通過(guò)卷積和池化操作提取文本的局部和整體特征。卷積操作利用不同尺寸的濾波器對(duì)文本進(jìn)行卷積，捕捉不同長(zhǎng)度的局部特征。池化操作則提取出每個(gè)特征維度上的最重要特征。這樣TextCNN模型能夠有效地提取文本的特征，將其輸入到分類器中進(jìn)行分類。

最后，采用各種數(shù)據(jù)增強(qiáng)技術(shù)來(lái)提升模型的魯棒性和泛化能力。例如，可以使用數(shù)據(jù)增強(qiáng)方法如隨機(jī)替換、隨機(jī)插入、隨機(jī)刪除等，對(duì)輸入文本進(jìn)行擾動(dòng)，生成新的訓(xùn)練樣本。這樣可以增加模型對(duì)不同變體的文本的適應(yīng)能力，提升模型的泛化能力。

5? 系統(tǒng)架構(gòu)

系統(tǒng)參考MVC架構(gòu)分為3個(gè)部分：前端顯示層、邏輯處理層和數(shù)據(jù)訪問(wèn)層。前端顯示層向最終用戶提供易于使用的界面，使用了BootStrap和Jquery框架來(lái)簡(jiǎn)化前端界面的開(kāi)發(fā)。邏輯處理層主要響應(yīng)前臺(tái)發(fā)送的異步請(qǐng)求，然后返回相應(yīng)的數(shù)據(jù)供前端顯示給終端用戶。其主要工作是調(diào)用模型獲取模型的結(jié)果，再進(jìn)入數(shù)據(jù)訪問(wèn)層獲取數(shù)據(jù)。Flask可以更容易地實(shí)現(xiàn)一個(gè)輕量、靈活、易擴(kuò)展的 Web 應(yīng)用，并且能夠快速進(jìn)行迭代和部署，所以系統(tǒng)選擇Flask將后臺(tái)封裝。數(shù)據(jù)訪問(wèn)層通過(guò)第三方的PYNEO包來(lái)對(duì)Neo4J數(shù)據(jù)庫(kù)進(jìn)行訪問(wèn)，其使用方式與JDBC類似，用戶只需要編寫數(shù)據(jù)庫(kù)連接的參數(shù)和相應(yīng)的CQL語(yǔ)句即可完成查詢。

6? 結(jié)語(yǔ)

筆者通過(guò)介紹知識(shí)圖譜和問(wèn)答系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)過(guò)程，展示了如何利用現(xiàn)代技術(shù)手段構(gòu)建高效的知識(shí)管理和問(wèn)答系統(tǒng)。通過(guò)這些技術(shù)手段，可以更好地管理和利用知識(shí)資源，提高用戶獲取信息的效率和準(zhǔn)確性。在未來(lái)的工作中，筆者將進(jìn)一步優(yōu)化和改進(jìn)該系統(tǒng)，如增強(qiáng)知識(shí)圖譜的構(gòu)建效率和準(zhǔn)確性，提高問(wèn)答系統(tǒng)的智能水平和服務(wù)質(zhì)量。此外，筆者還將探索更多的應(yīng)用場(chǎng)景，如智能客服、智能推薦等，以更好地發(fā)揮新技術(shù)的實(shí)際價(jià)值。

參考文獻(xiàn)

［1］杜睿山，張軼楠，田楓，等.基于知識(shí)圖譜的智能問(wèn)答系統(tǒng)研究［J］.計(jì)算機(jī)技術(shù)與發(fā)展，2021（11）：189-194.

［2］王天彬，黃瑞陽(yáng)，張建朋，等.融合機(jī)器閱讀理解的知識(shí)圖譜問(wèn)答系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)［J］.信息工程大學(xué)學(xué)報(bào)，2021（6）：709-715.

［3］趙浩宇，陳登建，曾楨，等.基于知識(shí)圖譜的中國(guó)近代史知識(shí)問(wèn)答系統(tǒng)構(gòu)建研究［J］.數(shù)字圖書館論壇，2022（6）：31-38.

［4］盧經(jīng)緯，郭超，戴星原，等.問(wèn)答ChatGPT之后：超大預(yù)訓(xùn)練模型的機(jī)遇和挑戰(zhàn)［J］.自動(dòng)化學(xué)報(bào)，2023（4）：705-717.

（編輯? 姚? 鑫）

Design of knowledge graph based Q&A system design

Qin? Lijuan

（Jiangsu Second Normal University， Nanjing 210013， China）

Abstract： With the explosive growth of online data， the problem of knowledge flooding and knowledge overload is increasingly prominent. Traditional Q&A systems usually use a simple keyword matching model， which often fails to accurately understand the real intention of users and makes it difficult to provide accurate answers. To solve this problem， the article designs an intelligent Q&A system based on knowledge graphs. Firstly， the knowledge graph is constructed through the steps of ontology layer construction， data crawling and data storage. Secondly， BERT+BiLSTM+CR model and BERT+TextCNN model are used for named entity recognition and user intention recognition， respectively. Finally， the backend API is wrapped using Flask in order to provide more flexible and personalized services.

Key words： knowledge graph; Q&A system; user intention

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于知識(shí)圖譜的問(wèn)答系統(tǒng)設(shè)計(jì)