問答系統(tǒng)命名實(shí)體識(shí)別改進(jìn)方法研究

2020-10-23 06:37:38鮑靜益于佳卉劉小峰

數(shù)據(jù)采集與處理 2020年5期

鮑靜益，于佳卉，徐寧，3，姚瀟，3，劉小峰，3

（1.常州工學(xué)院電氣信息工程學(xué)院，常州，213022；2.河海大學(xué)物聯(lián)網(wǎng)工程學(xué)院，常州，213022；3.江蘇省特種機(jī)器人與智能技術(shù)重點(diǎn)實(shí)驗(yàn)室，常州，213022）

引言

問答系統(tǒng)起源于圖靈測試，若計(jì)算機(jī)能使用自然語言回答問題，則認(rèn)為該計(jì)算機(jī)具有人工智能[1]。作為自然語言處理領(lǐng)域的主要研究方向之一，問答系統(tǒng)被應(yīng)用在多個(gè)領(lǐng)域。如MIT 大學(xué)的Boris Katz與其同伴研究出世界上第一個(gè)基于web 的問答系統(tǒng)——Start 系統(tǒng)，可完成查天氣、設(shè)鬧鐘和搜信息等一系列生活服務(wù)[2]；日常生活中人們經(jīng)常用到的蘋果語音助手siri 也是問答系統(tǒng)的一種典型應(yīng)用[3]。

一套完整的問答系統(tǒng)一般包含4 項(xiàng)基本任務(wù)，即詞性標(biāo)注、句子情感分析、分類任務(wù)以及命名實(shí)體識(shí)別(Named entity recognition, NER)。NER 中的傳統(tǒng)方法主要有兩類，一類基于規(guī)則和模板[4]，即人工根據(jù)知識(shí)集或者詞典搭建模板，選用一些關(guān)鍵字或者位置詞作為特征，利用字符串匹配的方法將關(guān)鍵詞和模板進(jìn)行匹配；另一類是基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法，主要包括條件隨機(jī)場(Conditional random fields, CRF)[6]、隱馬爾可夫模型(Hidden Markov model, HMM)[7]、支持向量機(jī)(Support vector machine,SVM)[8]、最大熵(Maximum entropy, ME)[9]4 種方法。CRF 方法提供了一個(gè)靈活提取特征參數(shù)的框架，但該方法所需訓(xùn)練時(shí)間比較長；HMM 模型訓(xùn)練時(shí)雖然所需時(shí)間較少、識(shí)別速度較快，但準(zhǔn)確率不高；SVM 模型用于NER 中時(shí)，準(zhǔn)確率通常比HMM 要高，但一般僅用于分類子任務(wù)而不是完整的NER，作用域有限；ME 模型準(zhǔn)確率一般來說比HMM 高，但其訓(xùn)練的時(shí)間復(fù)雜度較高，且需要進(jìn)行歸一化計(jì)算，損失值較大。

近年來，隨著神經(jīng)網(wǎng)絡(luò)領(lǐng)域研究的蓬勃發(fā)展，傳統(tǒng)NER 方法用的越來越少，而基于神經(jīng)網(wǎng)絡(luò)的方法開始占據(jù)主要地位，被有效地應(yīng)用在自然語言處理的各個(gè)領(lǐng)域。例如Zhang 等[10]提出了一種格子結(jié)構(gòu)的長短時(shí)記憶網(wǎng)絡(luò)（Lattice long short-term memory, Lattice LSTM）模型，能夠不受分詞效果的影響，也不破壞原句的語義。神經(jīng)網(wǎng)絡(luò)方法的優(yōu)點(diǎn)在于：對(duì)數(shù)據(jù)集的依賴程度沒有前兩種傳統(tǒng)方法大。但神經(jīng)網(wǎng)絡(luò)中的模型種類較多，因此模型受自身定義的參數(shù)影響比較大。除此之外，該方法還有個(gè)弊端，即進(jìn)行標(biāo)簽預(yù)測時(shí)，每次的預(yù)測過程是一個(gè)互相獨(dú)立的分類，對(duì)于已預(yù)測好的標(biāo)簽，無法直接進(jìn)行利用。另一方面，完成NER 之后，識(shí)別出的實(shí)體需要與知識(shí)庫中存在的實(shí)體進(jìn)行相似度計(jì)算，以便找到相似度最高的一類特征，從而實(shí)現(xiàn)在知識(shí)圖譜中搜索答案的目的。傳統(tǒng)的計(jì)算相似度方法，如余弦相似度、編輯距離和馬氏距離等，由于未考慮中文語言之間的相關(guān)性，故而計(jì)算所得的相似度評(píng)分一般偏低。

針對(duì)上述問題，本文首先提出了雙向格子結(jié)構(gòu)的長短時(shí)記憶網(wǎng)絡(luò)（Lattice bi-directional LSTM,Lattice Bi-LSTM）模型，在原模型的基礎(chǔ)上，添加了一層長短時(shí)記憶網(wǎng)絡(luò)，使原模型中的LSTM 層從單向變?yōu)殡p向，使得LSTM 在處理信息時(shí)，能夠同時(shí)進(jìn)行前向傳播和后向傳播，從而在處理某些長句時(shí)，同時(shí)獲取過去和未來兩個(gè)狀態(tài)的信息并對(duì)其進(jìn)行綜合性考慮，使其輸出信息更具完整性和魯棒性；其次，本文提出一種基于周期性核函數(shù)的相似度計(jì)算新方法，該方法充分考慮了長句之間的周期性重復(fù)詞語出現(xiàn)的頻率特征，對(duì)兩個(gè)待評(píng)判的實(shí)體進(jìn)行核函數(shù)向量計(jì)算，以實(shí)現(xiàn)對(duì)時(shí)間軸關(guān)系上的非線性耦合性特征的有效建模。

1 經(jīng)典方法

1.1 經(jīng)典命名實(shí)體識(shí)別模型

最常用的NER 中的經(jīng)典模型有基于字向量的模型和基于詞向量的模型。這兩種模型具有一定的限制性，前者對(duì)句子處理不當(dāng)，后者對(duì)分詞結(jié)果具有依賴性。

基于字向量的模型結(jié)構(gòu)如圖1 所示?？梢钥闯觯撃Ｐ褪菍?duì)“寧波市長江小學(xué)”單字分開，變成“寧/波/市/長/江/小/學(xué)”進(jìn)行處理。假設(shè)圖1 中的模型有a個(gè)字序列通過，分別為c1,c2,…,ca，其中第i個(gè)字ci輸入時(shí)，被表示為輸入向量表示權(quán)重矩陣，是在處理字的embedding 層進(jìn)行表示出來的。在基于字符向量模型中，用到的是一個(gè)雙向LSTM，因此需要對(duì)每一個(gè)輸入向量所對(duì)應(yīng)的隱藏狀態(tài)進(jìn)行拼接，即x1,x2,…,xa等分別對(duì)應(yīng)了一個(gè)和一個(gè) 反方向的隱含層狀態(tài)輸入的第i個(gè)字的總隱藏層狀態(tài)輸出就可以表，即總隱藏層狀態(tài)需要將兩個(gè)方向的隱藏層狀態(tài)進(jìn)行拼接后表示。

圖1 基于字向量的處理模型Fig.1 Processing model based on character vector

基于詞向量的模型結(jié)構(gòu)如圖2 所示，該模型是對(duì)“寧波市長江小學(xué)”中的詞語進(jìn)行處理拆分，變成“寧波/市/長江/小學(xué)”進(jìn)行處理。其原理如下，假設(shè)圖2 中的模型有n個(gè)詞語序列通過，分別為w1,w2,…,wn，其中第j個(gè)詞wj輸入時(shí)，被表示為輸入向量xjw=ew(wj)，其中ew表示處理詞語的embedding 層定義的權(quán)重矩陣。其隱藏層狀態(tài)是否進(jìn)行拼接取決于是否使用雙向的長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)，一般采用單向的話可以直接得出其隱藏層狀態(tài)hwj。

本文對(duì)比系統(tǒng)，即文獻(xiàn)[10]提出的經(jīng)典NER 模型的基本思想是在基于字向量模型的基礎(chǔ)上，對(duì)該模型增加一個(gè)柵格結(jié)構(gòu)，該結(jié)構(gòu)包含所有從詞典里學(xué)到的詞，其示意圖如圖3 所示?？梢钥闯?，除了本身拆分的字之外，使用的柵格結(jié)構(gòu)可得到整個(gè)句子中所有詞典里學(xué)到的詞，比如圖3 中的“寧波”“市長”“長江”“小學(xué)”“寧波市”“長江小學(xué)”，如果原句按照字向量進(jìn)行劃分，還可以組成“寧波/市長/江小學(xué)”的格式，但由于設(shè)定了柵格，柵格中不包括“江小學(xué)”這個(gè)詞，就避免了原句劃分所造成的歧義問題。

圖2 基于詞向量的處理模型Fig.2 Processing model based on word vector

1.2 經(jīng)典相似度計(jì)算方法

最常用的文本相似度的計(jì)算方法有4 種，分別是編輯距離、馬氏距離、余弦相似度和皮爾遜相關(guān)系數(shù)，前兩種是通過計(jì)算文本之間的距離進(jìn)行比較，距離越大，相似度越??；后兩種直接計(jì)算相似度，數(shù)值越大，則相似度越大。

（1）編輯距離（Edit distance，ED），亦被稱作Levenshtein distance。編輯距離實(shí)際上是一個(gè)計(jì)算序列間相似度的度量標(biāo)準(zhǔn)，通常用在檢查英語單詞拼寫正誤上，是指在兩個(gè)字符串＜A，B＞之間，從A 到B所需要進(jìn)行的最少的編輯操作次數(shù)。其可進(jìn)行的操作有且僅有3 種，分別是：插入（Insert）、修改（Delete）和替換（Replace）。

以單詞“kitchen”和“situate”為例，要把“kitchen”轉(zhuǎn)化為“situate”需要進(jìn)行的編輯操作有：（1）kitchen變?yōu)閟itchen（把“k”換成“s”）；（2）sitchen 變成sit（把“chen”刪除掉）；（3）sit 變成situate（把“sit”插入字符“uate”）。因此，將“kitchen”變成“situate”需要3 步編輯操作，則這兩單詞的編輯距離就是3。

（2）Mahalanobis distance 方法簡稱馬氏距離。馬氏距離一般用來表示某個(gè)點(diǎn)和某個(gè)分布間的關(guān)系，可用來計(jì)算兩不同樣本數(shù)據(jù)集之間的相似性，并對(duì)于不同量綱也有所考慮，即顧慮兩個(gè)不同維度之間向量的相關(guān)性。

假設(shè)有M 個(gè)樣本向量，分別為x1,x2,…,xM，其均值用μ 表示，其協(xié)方差矩陣用S 表示，則樣本向量x到均值μ 的馬氏距離計(jì)算公式為

馬氏距離可被看成特殊的歐氏距離，與其不同的是，馬氏距離的計(jì)算必須建立在協(xié)方差矩陣存在的基礎(chǔ)上，這就要求總體樣本的數(shù)目必須比樣本的維數(shù)要大，且總體的樣本數(shù)對(duì)其影響較大；其次，由于協(xié)方差矩陣不太穩(wěn)定，導(dǎo)致有時(shí)馬氏距離無法正確計(jì)算得出，而且易對(duì)產(chǎn)生細(xì)微變化的變量進(jìn)行夸大，導(dǎo)致影響整個(gè)計(jì)算過程。

（3）基于余弦相似度(Cosine similarity)的計(jì)算方法是指通過計(jì)算得出兩向量間夾角的余弦值，從而計(jì)算其相似度的方法，又被稱為余弦相似性。其向量間的夾角越小，余弦值就越大，則證明兩個(gè)向量越相似。在計(jì)算相關(guān)文本及字符串的相似度之前，必須把兩個(gè)文本數(shù)據(jù)或者字符串統(tǒng)一變成向量的形式，一般通過word2vec 等方法進(jìn)行處理。

若存在兩個(gè)二維向量C，D，向量C 為( x1,y1)，向量D 為( x2,y2)，則其夾角θ 的余弦值計(jì)算公式為

（4）基于皮爾遜相關(guān)系數(shù)（Pearson correlation）的方法可看做是余弦相似度的一個(gè)特例，取值范圍是[-1,1]。

該方法是用來表示向量間相關(guān)性的強(qiáng)弱程度的，通過將其中心化，即減去向量的平均值后，再計(jì)算余弦相似度。該方法的計(jì)算是通過對(duì)分布中樣本點(diǎn)的標(biāo)準(zhǔn)分?jǐn)?shù)進(jìn)行均值估計(jì)，使用p(X,Y) 用來表示皮爾遜相關(guān)系數(shù)，公式為

式中：Xi,Yi分別代表兩個(gè)樣本；分別代表兩個(gè)樣本的平均值；σX,σY分別代表兩個(gè)樣本的標(biāo)準(zhǔn)差；分別代表兩個(gè)樣本的標(biāo)準(zhǔn)分?jǐn)?shù)。

2 改進(jìn)方法

2.1 Lattice Bi-LSTM 模型

文獻(xiàn)[10]中提出的模型是在字向量的基礎(chǔ)上同時(shí)考慮字粒度和詞粒度，進(jìn)而來處理輸入的數(shù)據(jù)，但是該模型只能單向的對(duì)句子進(jìn)行處理，無法考慮整個(gè)句子的含義，對(duì)于某些需要同時(shí)考慮前后文關(guān)系的問題，無法給出正確答案。針對(duì)這個(gè)問題，本文對(duì)模型進(jìn)行改進(jìn)，采用了雙向的長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)，使得LSTM 在處置信息時(shí)，能夠同時(shí)進(jìn)行前向傳播和后向傳播，使得在處理某些長句時(shí)，同時(shí)獲取過去和未來兩個(gè)狀態(tài)的信息并對(duì)其進(jìn)行通盤考慮，從而輸出更具完整性和更具準(zhǔn)確性的信息，對(duì)于應(yīng)該正確輸出的信息更具魯棒性。應(yīng)用于NER 領(lǐng)域時(shí)，其效果則體現(xiàn)在對(duì)于實(shí)體的標(biāo)簽預(yù)測更具準(zhǔn)確性和穩(wěn)定性，從而對(duì)于命名實(shí)體的識(shí)別將具有更好的效果，其模型圖如圖4 所示。

圖4 雙向格子結(jié)構(gòu)的長短時(shí)記憶示意模型圖Fig.4 Structure of Lattice Bi-LSTM

該模型在處理字和詞時(shí)的內(nèi)部結(jié)構(gòu)略有不同，處理單個(gè)字符時(shí)的模型如圖5 所示。假設(shè)需要處理一個(gè)字符序列c1,c2,c3,…,ca，通過可以得到每個(gè)字符的字符向量xjc，即輸入向量。字符部分的計(jì)算公式為

式中：表示前上一個(gè)字LSTM cell 的隱藏層狀態(tài)輸出；ci表示兩個(gè)方向的輸出，hci為結(jié)合兩個(gè)方向的最后的輸出，此處的隱藏狀態(tài)是對(duì)于兩個(gè)方向的考慮，即為本文提出雙向模型的部分體現(xiàn)表示從前一個(gè)字和該字相關(guān)的詞傳過來的細(xì)胞狀態(tài)分別表示這個(gè)LSTM 單元中的輸入門、輸出門和遺忘門；σ,tanh 分別表示激活函數(shù)sigmoid 函數(shù)和tanh 函數(shù)；⊙表示矩陣點(diǎn)積。

處理詞的模型如圖6 所示，將序列S和單詞查找樹進(jìn)行匹配，可得到這個(gè)序列的詞集合，表示為wbd,e，則其計(jì)算公式為

圖5 基于字向量的處理模型內(nèi)部結(jié)構(gòu)圖Fig.5 Internal structure diagram of processing model based on character vector

式中：wdb,e表示從b開始到e結(jié)束的詞的子序列；hcb表示第b個(gè)字的LSTM cell 的輸出；iwb,e,fwb,w分別表示這個(gè)詞的網(wǎng)絡(luò)單元中的輸入門和遺忘門；c?wb,e相當(dāng)于一個(gè)中間信息狀態(tài)，承載著經(jīng)過變化后的細(xì)胞狀態(tài)信息。

從圖6 中可以看出，處理詞的長短時(shí)記憶網(wǎng)絡(luò)單元沒有輸出門，這是由于處理詞的LSTM 單元中的細(xì)胞狀態(tài)，都傳給了這個(gè)詞最后一個(gè)字的字的LSTM 單元。除此之外，字符LSTM單元的輸入不僅來自于上一個(gè)字符的隱藏狀態(tài)和字符向量，還包括前面多個(gè)詞的LSTM 單元輸出的細(xì)胞狀態(tài)。因此該模型的相關(guān)狀態(tài)及其權(quán)重的計(jì)算公式為

圖6 基于詞向量的處理模型內(nèi)部結(jié)構(gòu)圖Fig.6 Internal structure diagram of processing model based on word vector

式中：cwb,j為上一個(gè)詞的細(xì)胞狀態(tài)，αcb,j為其狀態(tài)的權(quán)重。

以句子“寧波市長江小學(xué)”為例，其中c“c7學(xué)”的細(xì)胞狀態(tài)，輸入量包含x（c7學(xué)）、cc6,（7小學(xué)）、cc4,（7長江小學(xué)）的信息，所以有

對(duì)于本文提出的模型，一般需要在之后添加CRF 層進(jìn)行標(biāo)簽預(yù)測，對(duì)輸入數(shù)據(jù)進(jìn)行標(biāo)注處理后，完成命名實(shí)體識(shí)別的識(shí)別任務(wù)，其具體流程如圖7 所示。

圖7 模型應(yīng)用流程圖Fig.7 Model application flow chart

2.2 基于核函數(shù)的相似度計(jì)算方法

使用核函數(shù)的原因如下：（1）不受非線性變換函數(shù)的形式影響；（2）改變核函數(shù)的不同形式和不同參數(shù)，能實(shí)現(xiàn)不同種類的核函數(shù)，實(shí)現(xiàn)不同的功能；（3）核函數(shù)還可以與其他算法結(jié)合，形成復(fù)合方法，實(shí)現(xiàn)更多功能；（4）解決了“維度災(zāi)難”的問題，對(duì)于高維度的輸入能夠高效處理，從而使得在使用核函數(shù)的方法時(shí)減少了計(jì)算量。

本文嘗試?yán)脦追N不同的核函數(shù)來計(jì)算文本的相似度，分別是高斯核函數(shù)、馬頓核函數(shù)、γ 指數(shù)的核函數(shù)以及最終選用的周期核函數(shù)，下面將依次對(duì)這幾類核函數(shù)進(jìn)行介紹。高斯核函數(shù)沿徑向?qū)ΨQ，一般是指從輸入樣本到樣本中心的徑向距離，又被稱為徑向基函數(shù)（Radial basis function, RBF），通過該函數(shù)可以將輸入數(shù)據(jù)映射到無窮維，其表達(dá)式為

徑向基核函數(shù)有以下優(yōu)點(diǎn)：（1）對(duì)于非線性函數(shù)能夠?qū)⑵溆成涞教卣骺臻g；（2）參數(shù)較少，訓(xùn)練時(shí)較簡單，能節(jié)省訓(xùn)練時(shí)間；（3）計(jì)算更簡單，能夠減少計(jì)算量。

馬頓核函數(shù)（Matérn kernel function）的內(nèi)核是固定的，相當(dāng)于徑向基核函數(shù)的泛化表示，其原理公式為

式中：r = ‖ x1- x2‖；l、v 為該核函數(shù)的超參數(shù)，v 決定函數(shù)的可導(dǎo)性與平滑程度，并且當(dāng)v →∞時(shí)，這個(gè)Matérn 核函數(shù)就變成了使用l 作為超參數(shù)的徑向基核函數(shù)；Kv為修正后的貝塞爾函數(shù)，表示Matérn核函數(shù)由指數(shù)函數(shù)與多項(xiàng)式函數(shù)的乘積組合而成。

γ 指數(shù)的核函數(shù)的基本公式為

當(dāng)該γ 指數(shù)核函數(shù)的指數(shù)取1 時(shí)，則式（24）變?yōu)?/p>

此時(shí)，式（25）就是前述的Matérn 核函數(shù)中超參數(shù)v=0.5 時(shí)的形式，這時(shí)運(yùn)行的過程被稱作Ornstein-Uhlenbeck 過程，即是一個(gè)連續(xù)但不平滑的隨機(jī)過程。

本文用到了一種周期性的隨機(jī)函數(shù)，該函數(shù)由MacKay[11]提出，其公式為

3 實(shí)驗(yàn)結(jié)果分析

3.1 NER 實(shí)驗(yàn)結(jié)果分析

本文數(shù)據(jù)集主要采用weiboNER、resumeNER、CMNER。weiboNER 是從新浪微博上進(jìn)行采集的，包含多類信息；resumeNER 是新浪經(jīng)濟(jì)類的數(shù)據(jù)，包含中國上市公司高管的簡歷；CMNER 是CCKS2017 的中文醫(yī)學(xué)命名實(shí)體識(shí)別數(shù)據(jù)集，包括多類實(shí)體，比如身體部位、癥狀體征、檢查和疾病名等。

本文主要通過4 項(xiàng)指標(biāo)來測試模型的有效性，分別是準(zhǔn)確率（Accuracy, acc）、精確率（Precision,pre）、召回率（Recall, rec）和F1-Measure。準(zhǔn)確率是指在所有測試的數(shù)據(jù)集中，正確識(shí)別出的語料除以所有語料總數(shù)之值；精確率是指在所有正確識(shí)別出的語料中，實(shí)際正確識(shí)別的語料除以所有正確識(shí)別的語料的數(shù)值；回歸率是指在所有識(shí)別為正確的語料中，實(shí)際能夠識(shí)別出正確語料的比例；F1由精確率和召回率得到，計(jì)算公式為F1= 2*P*R/( P + R )，P 代表精確率，R 代表召回率。

不同模型在數(shù)據(jù)集resumeNER 上的最佳表現(xiàn)如表1 所示。訓(xùn)練模型主要包括4 類，分別是LSTM+bigram、LSTM+unigram、本文模型（雙向格子LSTM）+bigram 和本文模型（雙向格子LSTM）+unigram，其中，bigram 和unigram 代表兩種分詞方式，分別是二元分詞（將句子每兩個(gè)字切分一次）和一元分詞（將句子每一個(gè)字切分一次）。從表1 可以看出，應(yīng)用該模型在該數(shù)據(jù)集上采用兩種分詞方式的表現(xiàn)均比使用LSTM 的效果好，對(duì)于分別使用unigram 和bigram 分詞方式時(shí)，與LSTM 相比，應(yīng)用該模型F1分?jǐn)?shù)分別提升了0.27% 和2.60%，其余4 類指標(biāo)均得到了有效提升，并且可以看出，此時(shí)采用bigram 分詞方式時(shí)效果最好?？傊?，該模型在resumeNER 數(shù)據(jù)集上的效果比LSTM 模型好。

表1 不同模型在resumeNER 數(shù)據(jù)集上的最佳表現(xiàn)Table 1 The best performance of different models on the resumeNER dataset

不同模型在數(shù)據(jù)集weiboNER 上的最佳表現(xiàn)如表2 所示。從表2 可以看出，應(yīng)用該模型在該數(shù)據(jù)集上采用兩種分詞方式的表現(xiàn)均比使用LSTM 的效果好，對(duì)于分別使用unigram 和bigram 分詞方式時(shí)，與LSTM 相比，應(yīng)用該模型F1分?jǐn)?shù)分別提升了8.6% 和4.7%，其余3 類指標(biāo)也得到了有效提升，acc，pre 和rec 最高分別提升了0.4%、6.1%、10.7%?？梢钥闯?，該模型在weiboNER 數(shù)據(jù)集上的效果十分突出。

表2 不同模型在數(shù)據(jù)集weiboNER 上的表現(xiàn)Table 2 The best performance of different models on the weiboNER dataset

不同模型在數(shù)據(jù)集CMNER 上的最佳表現(xiàn)如表3 所示?？梢钥闯?，在該數(shù)據(jù)集上的效果沒有前兩個(gè)數(shù)據(jù)集明顯，分別使用bigram 和unigram 分詞方式時(shí)，與經(jīng)典模型相比，其精確率和F1得分都略有下降，但準(zhǔn)確率和召回率均為使用該模型時(shí)最高，分別提升了0.02% 和0.50%。該模型在CMNER 數(shù)據(jù)集效果不太明顯，僅有兩項(xiàng)指標(biāo)效果有所提升，可能是因?yàn)樵摂?shù)據(jù)集中的實(shí)體多為類似“胸部正位DR片”等檢查項(xiàng)目類的實(shí)體，名稱比較復(fù)雜，難以辨認(rèn)，導(dǎo)致建立的格子詞典的作用沒有發(fā)揮出來，因此格子結(jié)構(gòu)沒有取得更優(yōu)異的效果。

表3 不同模型在數(shù)據(jù)集CMNER 上的表現(xiàn)Table 3 The best performance of different models on the CMNER dataset

3.2 相似度計(jì)算實(shí)驗(yàn)結(jié)果分析

首先，采用語義相同的兩句話進(jìn)行測試，分別是“嗓子疼怎么辦”和“嗓子疼咋辦”，分別使用基于高斯核函數(shù)、基于指數(shù)核函數(shù)和周期性隨機(jī)函數(shù)的方法來計(jì)算文本的相似度，并與其他經(jīng)典方法進(jìn)行對(duì)比。此時(shí)的高斯核函數(shù)中的超參數(shù)σ2= 1,指數(shù)核函數(shù)中的超參數(shù)γ= 1,l= 1，相當(dāng)于馬頓核函數(shù)中的超參數(shù)v= 0.5,γ= 1,l= 1。其相似度（距離）對(duì)比圖如圖8 所示。

從圖8 中可以看出，在計(jì)算兩個(gè)結(jié)構(gòu)相似語義相同的句子時(shí)，本文中使用的兩種核函數(shù)（徑向基核函數(shù)和周期核函數(shù)）所得的相似度值均較大，均大于經(jīng)典方法計(jì)算出的相似度值，且均突破了0.75，其中本文用到的周期核函數(shù)效果最為顯著，其相似度計(jì)算為1.0，是經(jīng)典方法余弦相似度的兩倍，說明其計(jì)算相似度值的準(zhǔn)確率提高了一半，能夠完美得出計(jì)算的兩個(gè)句子語義相同的結(jié)論，應(yīng)用在問答系統(tǒng)中時(shí)，相比其他方法，能夠更好地得出用戶提出問題的真正意圖，從而更好地輸出答案。

圖9 為幾種方法的相似度對(duì)比圖，從圖中可以看出，在計(jì)算這兩個(gè)長句的相似度時(shí)，皮爾遜系數(shù)、徑向基核函數(shù)和指數(shù)函數(shù)計(jì)算的相似度均不理想，均未達(dá)到0.1，不能得出長句相似的結(jié)論。然而，本文采用的周期核函數(shù)所得相似度為0.891 4，遠(yuǎn)大于余弦相似度的0.517 1，能夠完美得出這兩長句語義相似的結(jié)論，因此能夠得出同樣的答案。

3.3 綜合效果評(píng)測

上述兩小節(jié)分別對(duì)兩個(gè)創(chuàng)新環(huán)節(jié)進(jìn)行了單獨(dú)測試，本小節(jié)將創(chuàng)新工作合并形成一套完整的系統(tǒng)，對(duì)整體性能進(jìn)行評(píng)估。分別以例句“我好像得了塵螨過敏性哮喘，有啥法子啊”和“最近一直在打噴嚏，懷疑是塵螨過敏性哮喘，應(yīng)該咋辦”進(jìn)行實(shí)際效果展示，其結(jié)果如表4 所示。對(duì)于前者，采用經(jīng)典方法時(shí)，系統(tǒng)無法識(shí)別出“有啥法子啊”與“怎么辦”的相似度，因此無法給出“塵螨過敏性哮喘”的治療方法，只給出了幾種疾病的治愈率，采用本文方法時(shí)，則給出了一系列關(guān)于該疾病的治療方法，效果顯著；對(duì)于后者，由其結(jié)果對(duì)比可知，采用基于核函數(shù)的方法可得出該句與前句語義相似，從而得出相同的答案，能夠正確處理用戶的詢問信息。

對(duì)于經(jīng)典方法與本文方法詢問不同問題類型，其得到的結(jié)果如表5 所示?？梢钥闯?，經(jīng)典方法有時(shí)在回答某些問題，比如疾病的治療方法、檢查類型和種類時(shí)，其回答結(jié)果分別是治愈周期、某疾病的概率和治愈周期，并非問題的正確結(jié)果，而本文的核函數(shù)方法則可以回答出問題本該得出的結(jié)果，效果顯著，能夠正確回答出問題。

圖8 結(jié)構(gòu)近似句子相似度對(duì)比圖Fig.8 Comparison of sentence similarity of similar structure

圖9 長句相似度對(duì)比圖Fig.9 Comparison of long sentence’s similarity

表4 應(yīng)用于問答系統(tǒng)的實(shí)際效果Table 4 Practical effect of application in Q & A system

表5 不同方法結(jié)果判定Table 5 Result judgment of different methods

4 結(jié)束語

本文針對(duì)問答系統(tǒng)中命名實(shí)體識(shí)別技術(shù)處理句子不完善的問題，提出了一種雙向格子結(jié)構(gòu)的長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)（Lattice Bi-LSTM）模型，解決了NER 中基于字向量模型所存在的對(duì)句子處理不當(dāng)?shù)膯栴}，同時(shí)解決了基于詞向量模型所具有的對(duì)分詞效果依賴嚴(yán)重的問題；由于采用的是雙向結(jié)構(gòu)，與單向相比，能夠更好地理解句子的含義，輸出結(jié)果更具魯棒性，并且能夠增進(jìn)對(duì)上下文內(nèi)容的理解。通過在數(shù)據(jù)集上的測試，也表明該方法具有比單向結(jié)構(gòu)更好的效果，能夠?qū)渥舆M(jìn)行更好的處理。

問答系統(tǒng)在進(jìn)行命名實(shí)體識(shí)別后，需要對(duì)識(shí)別出的實(shí)體與知識(shí)庫中的實(shí)體進(jìn)行相似度計(jì)算，本文提出一種將周期性核函數(shù)用于相似度計(jì)算的方法，并與其他經(jīng)典方法進(jìn)行了對(duì)比。結(jié)果顯示，對(duì)于相同語義和相似語義的句子計(jì)算出的相似度比其他方法高，能夠更好地識(shí)別出兩個(gè)實(shí)體之間的相似度，使提出的問題能更準(zhǔn)確地鏈接到知識(shí)庫中的答案，從而提高了問答系統(tǒng)回答問題的準(zhǔn)確率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡