国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于信息匹配方法的中文知識庫問答系統(tǒng)

2022-03-16 03:36宋井寬唐向紅
關(guān)鍵詞:知識庫分詞詞典

彭 懷,宋井寬,唐向紅

(1.貴州大學(xué),貴州 貴陽 550025;2.電子科技大學(xué),四川 成都 610054)

0 引 言

知識庫問答任務(wù)是自然語言處理學(xué)術(shù)界和工業(yè)界的熱門研究方向。知識庫是知識表現(xiàn)和存儲的載體,目前知識庫主要通過三元組表示(頭實(shí)體1,關(guān)系,尾實(shí)體)實(shí)體與實(shí)體之間可能存在的語義關(guān)系,例如:博爾赫斯是阿根廷人,可以表示為:(博爾赫斯,出生地,阿根廷)。知識庫問答任務(wù)是識別自然語言處理問題中所包含的實(shí)體、實(shí)體關(guān)系、實(shí)體類型、實(shí)體組合后,通過知識庫查詢語言到知識庫中查詢答案。

目前在英文數(shù)據(jù)集上主要有兩類知識庫問答方法,第一種是語義解析方法,該方法是直接通過編寫規(guī)則庫、輔助詞典、人工推理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)手段從問句中識別實(shí)體、實(shí)體關(guān)系、實(shí)體組合。Wang等人使用序列標(biāo)注模型識別問題中的實(shí)體,使用序列到序列模型預(yù)測問題中的關(guān)系序列,并使用答案驗(yàn)證機(jī)制和循環(huán)訓(xùn)練方式提升模型的性能,在英文多關(guān)系問題數(shù)據(jù)集WebQuestion上達(dá)到了先進(jìn)水平。Hu等人提出了一種狀態(tài)轉(zhuǎn)移的框架,設(shè)計(jì)了四種狀態(tài)轉(zhuǎn)移動(dòng)作和限制條件,結(jié)合多通道卷積神經(jīng)網(wǎng)絡(luò)等多種方法,在英文復(fù)雜問題數(shù)據(jù)集ComplexQuestion上達(dá)到了最先進(jìn)水平?;谡Z義解析的方法通常使用分類模型進(jìn)行關(guān)系的預(yù)測,面臨著未登錄關(guān)系的問題,即訓(xùn)練集未出現(xiàn)的關(guān)系難以被預(yù)測出來。在中文數(shù)據(jù)上通常包含幾千種以上的關(guān)系,語義解析方法在關(guān)系數(shù)量非常大的情況下效果往往都不太好,使得語義解析方法在應(yīng)用于中文知識庫問答(Chinese knowledge based question answering,CKBQA)上受到了極大限制。第二種是信息檢索的方法,首先通過實(shí)體識別技術(shù)、實(shí)體詞典等其他方式識別問句中的候選實(shí)體集合,之后根據(jù)預(yù)定義的邏輯形式,從知識庫中查詢候選實(shí)體在知識庫中的所有一跳或多跳關(guān)系,從而得到候選查詢路徑集合。最后通過計(jì)算候選查詢路徑與問句的相似度獲得匹配度最高的候選查詢路徑,到知識庫中查詢答案。Yu等人提出了一種增強(qiáng)關(guān)系匹配的方法,使用二層BILSTM與候選關(guān)系進(jìn)行多層次的匹配,并使用關(guān)系匹配對實(shí)體鏈接結(jié)果進(jìn)行重排序,在英文多關(guān)系問題數(shù)據(jù)集上取得了最先進(jìn)水平。目前在中文領(lǐng)域知識庫問答方法主要是基于信息檢索和向量建模兩種方法進(jìn)行改進(jìn)。如Lai等人使用卷積神經(jīng)網(wǎng)絡(luò)識別問句中語義特征,并通過答案和問句匹配度確定結(jié)果;周博通等人提出一種方式,首先進(jìn)行命名實(shí)體識別,之后通過基于注意力機(jī)制的雙向LSTM進(jìn)行屬性映射,最后基于前兩步的結(jié)果從知識庫中選擇答案;張芳容等提出一種融合人工規(guī)則的關(guān)系抽取方法,提高了關(guān)系識別準(zhǔn)確率;段江麗等提出基于依賴結(jié)構(gòu)的語義關(guān)系識別方法,通過依賴結(jié)構(gòu)從問句中挖掘有價(jià)值的語義信息。

在CKBQA任務(wù)上,Yang等人提出了一種聯(lián)合抽取實(shí)體的關(guān)系的流水線方法,在CCKS2018 COQA任務(wù)上取得了第二名的成績。參考流水線方法,針對CKBQA任務(wù),該文提出一種信息匹配的方法:先進(jìn)行實(shí)體和屬性值識別,再進(jìn)行實(shí)體鏈接,進(jìn)而從知識庫中抽取候選查詢路徑,使用文本匹配模型選擇與問題最相似的候選路徑,最后使用實(shí)體拼接技術(shù)探索多實(shí)體情況的可能結(jié)果。該方法在CCKS2019 CKBQA測試集上的F值達(dá)到了75.6%。

1 相關(guān)工作

1.1 整體流程

該文使用的信息匹配方法的主要流程:多種輔助詞典構(gòu)建、實(shí)體與實(shí)體屬性值識別、 實(shí)體鏈接與篩選、候選查詢路徑生成與文本匹配、實(shí)體拼接與答案檢索。模型流程:(1)通過CCKS官方提供的數(shù)據(jù)和搜狗詞典文件構(gòu)造實(shí)體分詞詞典、實(shí)體鏈接詞典、實(shí)體詞頻詞典、實(shí)體屬性詞典輔助后續(xù)流程工作;(2)使用命名實(shí)體識別技術(shù)識別出問句中的實(shí)體、使用知識庫實(shí)體詞表識別問句中的實(shí)體,將前面識別出的實(shí)體放入候選實(shí)體列表,之后通過屬性識別得到最終的候選實(shí)體列表;(3)通過分析實(shí)體、知識庫實(shí)體的特點(diǎn)構(gòu)建特征值,使用機(jī)器學(xué)習(xí)的方式訓(xùn)練模型將實(shí)體鏈接到知識庫中的實(shí)體,從而獲得候選實(shí)體列表。該文使用邏輯回歸算法訓(xùn)練實(shí)體鏈接模型;(4) 通過知識庫查詢語句查詢候選實(shí)體在知識庫中的一度,二度關(guān)系獲取候選查詢路徑列表,之后通過訓(xùn)練好的文本匹配模型預(yù)測候選路徑和問句的匹配度獲得前

N

個(gè)候選查詢路徑;(5)使用實(shí)體拼接方式生成多實(shí)體候選查詢路徑,最后通過候選查詢路徑和問句的字符重合度得到重合度最高的候選查詢路徑,查詢知識庫獲得答案。流程如圖1 所示。

圖1 問答流程

1.2 技術(shù)介紹

BERT是谷歌在2018年提出的一個(gè)自然語言處理預(yù)訓(xùn)練模型,在很多NLP任務(wù)中都取得了很好的效果,例如:命名實(shí)體識別、閱讀理解、文本匹配、文本分類等。BERT內(nèi)部是使用雙向Transformer網(wǎng)絡(luò),是真正意義上第一個(gè)可以雙向提取特征的模型,如圖2所示。Transformer是谷歌在2017年提出的一種網(wǎng)絡(luò)結(jié)構(gòu),每個(gè)Transformer模塊由編碼器和解碼器構(gòu)成,它是基于自注意力機(jī)制的,與RNN不同的是,它采用并行結(jié)構(gòu)可以加快計(jì)算,其輸入由詞向量、位置向量、注意力權(quán)重向量構(gòu)成。因此,它既有CNN可以并行計(jì)算的優(yōu)點(diǎn),同時(shí)也可以捕獲詞在句子中的位置信息,還可以通過自注意機(jī)制調(diào)整詞對句子結(jié)果的權(quán)重。

圖2 BERT核心結(jié)構(gòu)

LSTM模型是對循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型的改進(jìn),也是深度學(xué)習(xí)方法的卓越代表之一。RNN模型在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型上,為神經(jīng)網(wǎng)絡(luò)中各層的隱層單元增加時(shí)間序列特征,之后通過隱藏層權(quán)重將上一個(gè)時(shí)間點(diǎn)的神經(jīng)單元的值傳遞至當(dāng)前的神經(jīng)單元,從而使神經(jīng)網(wǎng)絡(luò)具備了記憶功能。LSTM模型是在RNN模型的基礎(chǔ)上進(jìn)行了改進(jìn),RNN模型存在時(shí)間序列比較長的時(shí)候,當(dāng)前神經(jīng)元很難捕獲之前較遠(yuǎn)的時(shí)間序列信息。為解決RNN的缺陷,LSTM在RNN每層中增加了記憶單元,同時(shí)LSTM還增加了門控機(jī)制,在隱藏層中各單元傳送信息是通過幾個(gè)可控門來控制每層信息輸入、遺忘、傳遞的比例。從而使RNN模型同時(shí)具備長期存儲信息和控制信息輸入輸出的功能。

2 模型和方法

2.1 輔助詞典構(gòu)建

該方法在流程中需要多個(gè)詞典用于分詞、計(jì)算詞頻等,均來自于PKUBase知識庫或外部資源,詞典介紹如下:

(1)實(shí)體鏈接詞典:此詞典是問句中的實(shí)體到知識庫實(shí)體的映射,由CCKS2019 CKBQA主辦方提供;

(2)分詞詞典:分詞詞典參照Yang等人的方法,通過實(shí)體鏈接詞典中的所有實(shí)體,以及知識庫中所有實(shí)體的主干成分構(gòu)建。例如<紅樓夢_(中國古典長篇小說四大名著之一)>這個(gè)實(shí)體,只保留下劃線之前的部分“紅樓夢”;

(3)詞頻詞典:該詞典用于計(jì)算實(shí)體和屬性值的詞頻特征,使用搜狗開源的中文詞頻詞典構(gòu)建;

(4)屬性詞典:該詞典用于識別屬性值的模糊匹配,使用知識庫中所有屬性值,構(gòu)建字到詞的映射。

2.2 實(shí)體識別和屬性值識別

2.2.1 實(shí)體識別

該文采用詞典分詞和神經(jīng)網(wǎng)絡(luò)模型結(jié)合進(jìn)行實(shí)體識別。首先將分詞詞典導(dǎo)入分詞工具,對自然語言問題進(jìn)行分詞,如果問句中的分詞在詞表中就將分詞加入候選實(shí)體中,中文分詞可能會存在一定錯(cuò)誤,并且還存在嵌套實(shí)體問題,這種情況下只會保留最長的實(shí)體,比如問句“華為的董事長是誰?”,正確的分詞結(jié)果應(yīng)當(dāng)為“華為|的|董事長|是|誰|?”,但詞典中存在”華為的董事長”這種更長的實(shí)體,所以實(shí)際的分詞結(jié)果為“華為的董事長|是|誰|?”,進(jìn)而得到錯(cuò)誤的實(shí)體。針對這樣的問題,該文基于預(yù)訓(xùn)練語言模型BERT,將訓(xùn)練集的標(biāo)注實(shí)體還原為問句實(shí)體,訓(xùn)練一個(gè)命名實(shí)體識別模型,之后通過模型識別問句中的實(shí)體,將識別出的實(shí)體加入候選實(shí)體列表中。實(shí)體識別模型具體流程:(1)對問句進(jìn)行實(shí)體和非實(shí)體標(biāo)注,目前標(biāo)注主要有IO、BIO、BIEO、BIOES這幾種方式,通過測試BIO標(biāo)注在數(shù)據(jù)集中效果最好,因此,該文采用BIO標(biāo)注。B表示實(shí)體的頭部位置,I表示實(shí)體非頭部位置,O表示問句中非實(shí)體部分。(2)使用BERT-LSTM-CRF模型進(jìn)行命名實(shí)體識別,可分為特征提取和實(shí)體標(biāo)注兩部分。在特征提取部分中,長度為

m

的輸入問句被分割成詞的序列{

w

,

w

,…,

w

}送入BERT網(wǎng)絡(luò)中,經(jīng)分詞及詞嵌后得到

m

個(gè)詞向量。將詞向量經(jīng)過

N

層的Transformer模塊進(jìn)行上下特征提取后,得到一個(gè)[句子長度,隱藏層大小]的特征矩陣,即完成了問句的特征提取。實(shí)體識別部分該文采用BiLSTM-CRF模型,首先將特征矩陣作為輸入放入BI-LSTM層,通過雙向LSTM層進(jìn)行前后向語義特征提取,之后輸出帶語義信息的特征向量,此時(shí)特征向量隱藏層包含前向和后向LSTM層信息。將特征向量依次經(jīng)過dropout層、全連接層、線性層之后獲得的特征向量作為CRF層的輸入。該文采用BIO標(biāo)注,實(shí)體識別本質(zhì)上是一個(gè)三分類問題,B、I、O代表詞的三種類型。在CRF中,是通過維比特算法算出每個(gè)詞的最大概率,從而識別詞的類型。CRF還可約束詞的類型,例如B后面只能接I、不能接O。

2.2.2 屬性值識別

問題中包含的屬性值規(guī)范性較低,可能是很長的字序列,也可能沒辦法直接與知識庫實(shí)體進(jìn)行對應(yīng),僅通過分詞詞典會忽略一些實(shí)體。因此針對大部分實(shí)體的屬性值,使用特殊方式進(jìn)行識別:

(1)特殊數(shù)字、別名、簡稱、書名等,構(gòu)建規(guī)則庫,判斷匹配結(jié)果是否在知識庫的屬性值中,在則加入候選屬性值;

(2)時(shí)間屬性:構(gòu)建正則表達(dá)式,將其還原為知識庫中規(guī)范的時(shí)間表達(dá),如“2009年6月”還原為“2009.06”,加入候選屬性值;

(3)模糊匹配屬性:得到問題中每個(gè)字對應(yīng)的所有屬性值,統(tǒng)計(jì)每個(gè)屬性值的次數(shù),選擇top3的屬性加入候選屬性值。

2.3 實(shí)體鏈接及篩選

對于2.2部分得到候選實(shí)體列表中的每個(gè)實(shí)體進(jìn)行過濾,先判斷實(shí)體詞性是否是名詞,刪除掉所有非名詞的實(shí)體。之后通過構(gòu)建好的實(shí)體鏈接詞典,將問句中實(shí)體可以連接的知識庫實(shí)體加入到候選實(shí)體中。平均每個(gè)問題初步得到的候選實(shí)體數(shù)量為12.6,多余的候選實(shí)體會引入干擾,同時(shí)增加后續(xù)步驟的時(shí)間成本。因此,參考Yang等人的方法,根據(jù)實(shí)體特點(diǎn)為每個(gè)實(shí)體計(jì)算一些特征。

(1)問句中實(shí)體的長度:實(shí)體的長度,例如:華為,長度為2;

(2)問句中實(shí)體的詞頻:實(shí)體在搜狗詞典中詞頻數(shù);

(3)實(shí)體在問句中的位置:問句實(shí)體離句首的位置距離;

(4)知識庫實(shí)體兩跳內(nèi)關(guān)系和問句中詞的重疊數(shù)量;

(5)知識庫實(shí)體在實(shí)體鏈接詞典中的排序,序列越小,實(shí)體鏈接概率越高。

構(gòu)建實(shí)體鏈接數(shù)據(jù)集,實(shí)體鏈接分類器該文使用支撐向量機(jī)模型進(jìn)行訓(xùn)練,實(shí)體特征包括問句中實(shí)體的長度

X

、問句中實(shí)體的詞頻、實(shí)體在問句中的位置、知識庫實(shí)體兩跳內(nèi)關(guān)系和問句中詞的重疊數(shù)量、知識庫實(shí)體在實(shí)體鏈接詞典中的排序,

Y

為0、1,0代表問句中實(shí)體沒有正確鏈接到知識庫實(shí)體,1代表問句中實(shí)體正確鏈接到知識庫實(shí)體。通過實(shí)體鏈接分類器得到分?jǐn)?shù)排名前

N

個(gè)候選知識庫實(shí)體。

2.4 候選查詢路徑生成及文本匹配

在CCKS2019中文知識庫問答任務(wù)中提供的數(shù)據(jù)集,大部分的問題都是單實(shí)體單關(guān)系,單實(shí)體雙關(guān)系這種情況,更復(fù)雜的情況也可以由簡單問題拼接得到。該文采用查詢候選實(shí)體在知識庫中單跳路徑和兩跳路徑結(jié)果作為候選查詢路徑,查詢形式為(實(shí)體,關(guān)系)或者(實(shí)體,關(guān)系1,關(guān)系2)。 用文本匹配模型(如ESIM)進(jìn)行用戶問句和候選查詢路徑相似度匹配,但是此模型非常依賴大量標(biāo)注好的數(shù)據(jù)集,導(dǎo)致在一些小樣本的數(shù)據(jù)集上效果很不理想。因此,該文使用BERT預(yù)訓(xùn)練模型來降低對大量標(biāo)注數(shù)據(jù)的依賴,經(jīng)過測試,在少量數(shù)據(jù)集上使用BERT模型進(jìn)行文本匹配的效果要遠(yuǎn)遠(yuǎn)好于ESIM模型。BERT模型使用mask機(jī)制對上下文單詞進(jìn)行預(yù)測、句子對分類等無需人工標(biāo)注的監(jiān)督學(xué)習(xí)任務(wù),學(xué)習(xí)到詞級別、句子級別的信息。將預(yù)訓(xùn)練語言模型遷移到下游自然語言處理任務(wù),作用類似于擴(kuò)大了語料,增加了模型的性能和泛化能力。目前典型的預(yù)訓(xùn)練模型有EMLO、BERT、ROBERTA、ALBERT、ELECTRA。

該文基于預(yù)訓(xùn)練的BERT模型,使用訓(xùn)練集進(jìn)行文本匹配的微調(diào),在驗(yàn)證集和測試集上,使用該模型計(jì)算問題和候選查詢路徑的相似度。在訓(xùn)練中,文本匹配模型是基于符合自然語言語義問題數(shù)據(jù)集訓(xùn)練的,但是生成的候選查詢路徑是不符合問題語義的。針對這種情況,該文對候選路徑進(jìn)行一些特殊處理,例如:(周杰倫,血型)改為“周杰倫的血型?”,在訓(xùn)練集上使用一些多負(fù)例的手段,通過增加負(fù)例的數(shù)量提升模型的泛化能力,訓(xùn)練集中一個(gè)正例數(shù)據(jù)對應(yīng)4個(gè)負(fù)例數(shù)據(jù)。使用訓(xùn)練好的文本匹配模型對問句和改進(jìn)后的候選路徑進(jìn)行打分。

2.5 實(shí)體拼接及答案檢索

上述2.4節(jié)描述的方法只適用于單實(shí)體的情況,實(shí)際上,仍然有一部分問題包含兩個(gè)及以上的主語實(shí)體,例如“北京大學(xué)出了哪些哲學(xué)家”。因此,該文采用實(shí)體拼接的方式,探索每個(gè)問題作為雙實(shí)體問題的候選答案。對于每個(gè)問題,首先對2.4節(jié)打分后的候選查詢路徑進(jìn)行排序,選取前10個(gè)單關(guān)系查詢路徑,之后到知識庫中對這些查詢路徑進(jìn)行檢索,通過查詢結(jié)果判斷這些單關(guān)系路徑是否可以拼接為多關(guān)系查詢路徑,將可以拼接后的多關(guān)系路徑加入候選查詢路徑集合,最后,將2.4節(jié)獲得的候選查詢路徑和本節(jié)得到拼接后的查詢路徑,同問句進(jìn)行重疊字的計(jì)算,選擇字?jǐn)?shù)最多的作為查詢答案路徑。

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)運(yùn)行環(huán)境:操作系統(tǒng)ubuntu18.04,顯卡NVIDIA TITAN Xp 12 GB顯存,Python版本3.6.10、pytorch版本1.2.0、pytorch-transformers版本1.2.0、scikit-learn 版本0.20.3、torchtext版本0.6.0、torchvision版本0.4.0。

模型配置:預(yù)訓(xùn)練模型使用BERT基礎(chǔ)版,不區(qū)分大小,隱藏層維度大小為512,隱藏層有12層,隱藏層激活函數(shù)使用gelu,詞表大小30 522。LSTM模型輸入維度為300,輸出維度為300。GRU模型輸入維度為300,輸出維度為300。

該文使用由北京大學(xué)和恒生電子公司共同發(fā)布的中文開放領(lǐng)域知識庫問答數(shù)據(jù)集。該任務(wù)中問題的標(biāo)注SQL語句均來自于PKUBase知識庫(http://pkubase.gstore-pku.com/)。數(shù)據(jù)集的數(shù)據(jù)統(tǒng)計(jì)如表1所示。

表1 語料集數(shù)據(jù)統(tǒng)計(jì)

3.2 命名實(shí)體識別結(jié)果

對于實(shí)體識別和屬性環(huán)節(jié),該文在測試上針對不同實(shí)體識別模型進(jìn)行消融實(shí)驗(yàn),并且記錄了保留不同數(shù)量的候選實(shí)體的召回率,實(shí)驗(yàn)結(jié)果如表2所示,其中f1@n表示在保留前

n

個(gè)候選實(shí)體情況下所有問題標(biāo)注實(shí)體的f1值。

表2 測試集上實(shí)體識別結(jié)果

結(jié)果表明:(1)LSTM、GRU、CRF模型對候選實(shí)體的篩選均有促進(jìn)作用;(2)BERT預(yù)訓(xùn)練模型在命名實(shí)體識別任務(wù)上相對于其他模型有著巨大優(yōu)勢。

3.3 實(shí)體鏈接結(jié)果

對于實(shí)體鏈接環(huán)節(jié),在測試集上針對5種特征進(jìn)行了消融實(shí)驗(yàn),并且記錄了保留不同數(shù)量的候選實(shí)體的召回率。實(shí)驗(yàn)結(jié)果如表3所示,Recall@n表示在保留前

n

個(gè)候選實(shí)體情況下所有問題標(biāo)注實(shí)體的召回率。

表3 測試集上實(shí)體鏈接結(jié)果

結(jié)果表明:(1)選擇的問句實(shí)體特征和知識庫實(shí)體的特征對實(shí)體鏈接準(zhǔn)確度有很大影響;(2)從實(shí)驗(yàn)結(jié)果來看,僅保留前5的候選實(shí)體就可以達(dá)到接近全部數(shù)量的結(jié)果,同時(shí)選擇僅保留前五的實(shí)體還可以降低訓(xùn)練時(shí)間、數(shù)據(jù)噪音。

3.4 知識庫問答結(jié)果

進(jìn)一步,在測試集上計(jì)算了文本匹配環(huán)節(jié)使用不同數(shù)量負(fù)例及不同檢索方案的F值。該文對比了三種方案的性能:(1)直接選擇文本匹配后相似度最高的查詢路徑;(2)對所有問題使用橋接獲得可能的多實(shí)體情況查詢路徑,對于可以獲得多實(shí)體查詢路徑的問題,直接覆蓋方案一的路徑;(3)對文本匹配排名前3的路徑和多實(shí)體路徑和問題重新進(jìn)行重疊字?jǐn)?shù)的匹配,選擇字面上最相近的作為最終查詢路徑。

從表4的實(shí)驗(yàn)結(jié)果及分析可以得到:在文本匹配環(huán)節(jié)上,合適數(shù)量的負(fù)例可以獲得更好的學(xué)習(xí)文本相似性,本任務(wù)上3個(gè)負(fù)例效果最佳;實(shí)體拼接可以考慮多實(shí)體的情況,但會引入一些錯(cuò)誤,即一些實(shí)際為單實(shí)體的問題得到了多實(shí)體情況的查詢路徑,而重疊字?jǐn)?shù)匹配可以有效緩解該問題。

表4 測試集上知識庫問答結(jié)果

4 結(jié)束語

該文提出了一種信息匹配的模型,依次對問題進(jìn)行實(shí)體及屬性識別、實(shí)體鏈接及篩選、文本匹配和答案檢索等,驗(yàn)證了預(yù)訓(xùn)練語言模型在知識庫問答上的性能,在CCKS2019 CKBQA測試集上的F值達(dá)到了75.6%。模型優(yōu)點(diǎn):(1)使用預(yù)訓(xùn)練模型和知識庫分詞技術(shù)大大提升了問句主題詞的識別準(zhǔn)確率;(2)使用文本匹配技術(shù)將問句與實(shí)體在知識庫中的查詢路徑進(jìn)行匹配,避免存在未登錄關(guān)系的問題;(3)使用實(shí)體拼接探索多實(shí)體多關(guān)系問題。模型缺陷:(1)基于機(jī)器學(xué)習(xí)的實(shí)體鏈接技術(shù)比較依賴問句實(shí)體、知識庫實(shí)體特征;(2)產(chǎn)生了過多的候選查詢路徑,影響了模型運(yùn)行效率。因此,筆者認(rèn)為未來可以使用深度學(xué)習(xí)技術(shù)進(jìn)行實(shí)體鏈接,減少特征依賴,提升準(zhǔn)確率;在問句中增加實(shí)體類型、實(shí)體數(shù)量信息以進(jìn)一步提升多實(shí)體多關(guān)系問題的準(zhǔn)確率。

猜你喜歡
知識庫分詞詞典
分詞在英語教學(xué)中的妙用
“大力士”紙片人
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
“函數(shù)及圖象”錯(cuò)解詞典
《宋元語言詞典》釋義商兌
漫畫詞典
我國聯(lián)合虛擬參考咨詢系統(tǒng)知識庫現(xiàn)狀研究*
——基于與QuestionPoint的對比
基于Lucene搜索引擎的研究
位置與方向測試題
吉安市| 东平县| 富川| 德庆县| 姜堰市| 买车| 丹江口市| 耒阳市| 温宿县| 泰来县| 汽车| 邵武市| 贡嘎县| 北票市| 成都市| 玛沁县| 铜山县| 大洼县| 内江市| 新邵县| 竹溪县| 洛宁县| 遂平县| 南部县| 莲花县| 格尔木市| 大渡口区| 星子县| 博湖县| 揭西县| 裕民县| 同江市| 天全县| 五台县| 甘洛县| 屯门区| 怀柔区| 肇源县| 寿阳县| 丰原市| 隆林|