国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

問答系統(tǒng)命名實(shí)體識(shí)別改進(jìn)方法研究

2020-10-23 06:37:38鮑靜益于佳卉劉小峰
數(shù)據(jù)采集與處理 2020年5期
關(guān)鍵詞:分詞實(shí)體向量

鮑靜益,于佳卉,徐 寧,3,姚 瀟,3,劉小峰,3

(1.常州工學(xué)院電氣信息工程學(xué)院,常州,213022;2.河海大學(xué)物聯(lián)網(wǎng)工程學(xué)院,常州,213022;3.江蘇省特種機(jī)器人與智能技術(shù)重點(diǎn)實(shí)驗(yàn)室,常州,213022)

引 言

問答系統(tǒng)起源于圖靈測試,若計(jì)算機(jī)能使用自然語言回答問題,則認(rèn)為該計(jì)算機(jī)具有人工智能[1]。作為自然語言處理領(lǐng)域的主要研究方向之一,問答系統(tǒng)被應(yīng)用在多個(gè)領(lǐng)域。如MIT 大學(xué)的Boris Katz與其同伴研究出世界上第一個(gè)基于web 的問答系統(tǒng)——Start 系統(tǒng),可完成查天氣、設(shè)鬧鐘和搜信息等一系列生活服務(wù)[2];日常生活中人們經(jīng)常用到的蘋果語音助手siri 也是問答系統(tǒng)的一種典型應(yīng)用[3]。

一套完整的問答系統(tǒng)一般包含4 項(xiàng)基本任務(wù),即詞性標(biāo)注、句子情感分析、分類任務(wù)以及命名實(shí)體識(shí)別(Named entity recognition, NER)。NER 中的傳統(tǒng)方法主要有兩類,一類基于規(guī)則和模板[4],即人工根據(jù)知識(shí)集或者詞典搭建模板,選用一些關(guān)鍵字或者位置詞作為特征,利用字符串匹配的方法將關(guān)鍵詞和模板進(jìn)行匹配;另一類是基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,主要包括條件隨機(jī)場(Conditional random fields, CRF)[6]、隱馬爾可夫模型(Hidden Markov model, HMM)[7]、支持向量機(jī)(Support vector machine,SVM)[8]、最大熵(Maximum entropy, ME)[9]4 種方法。CRF 方法提供了一個(gè)靈活提取特征參數(shù)的框架,但該方法所需訓(xùn)練時(shí)間比較長;HMM 模型訓(xùn)練時(shí)雖然所需時(shí)間較少、識(shí)別速度較快,但準(zhǔn)確率不高;SVM 模型用于NER 中時(shí),準(zhǔn)確率通常比HMM 要高,但一般僅用于分類子任務(wù)而不是完整的NER,作用域有限;ME 模型準(zhǔn)確率一般來說比HMM 高,但其訓(xùn)練的時(shí)間復(fù)雜度較高,且需要進(jìn)行歸一化計(jì)算,損失值較大。

近年來,隨著神經(jīng)網(wǎng)絡(luò)領(lǐng)域研究的蓬勃發(fā)展,傳統(tǒng)NER 方法用的越來越少,而基于神經(jīng)網(wǎng)絡(luò)的方法開始占據(jù)主要地位,被有效地應(yīng)用在自然語言處理的各個(gè)領(lǐng)域。例如Zhang 等[10]提出了一種格子結(jié)構(gòu)的長短時(shí)記憶網(wǎng)絡(luò)(Lattice long short-term memory, Lattice LSTM)模型,能夠不受分詞效果的影響,也不破壞原句的語義。神經(jīng)網(wǎng)絡(luò)方法的優(yōu)點(diǎn)在于:對(duì)數(shù)據(jù)集的依賴程度沒有前兩種傳統(tǒng)方法大。但神經(jīng)網(wǎng)絡(luò)中的模型種類較多,因此模型受自身定義的參數(shù)影響比較大。除此之外,該方法還有個(gè)弊端,即進(jìn)行標(biāo)簽預(yù)測時(shí),每次的預(yù)測過程是一個(gè)互相獨(dú)立的分類,對(duì)于已預(yù)測好的標(biāo)簽,無法直接進(jìn)行利用。另一方面,完成NER 之后,識(shí)別出的實(shí)體需要與知識(shí)庫中存在的實(shí)體進(jìn)行相似度計(jì)算,以便找到相似度最高的一類特征,從而實(shí)現(xiàn)在知識(shí)圖譜中搜索答案的目的。傳統(tǒng)的計(jì)算相似度方法,如余弦相似度、編輯距離和馬氏距離等,由于未考慮中文語言之間的相關(guān)性,故而計(jì)算所得的相似度評(píng)分一般偏低。

針對(duì)上述問題,本文首先提出了雙向格子結(jié)構(gòu)的長短時(shí)記憶網(wǎng)絡(luò)(Lattice bi-directional LSTM,Lattice Bi-LSTM)模型,在原模型的基礎(chǔ)上,添加了一層長短時(shí)記憶網(wǎng)絡(luò),使原模型中的LSTM 層從單向變?yōu)殡p向,使得LSTM 在處理信息時(shí),能夠同時(shí)進(jìn)行前向傳播和后向傳播,從而在處理某些長句時(shí),同時(shí)獲取過去和未來兩個(gè)狀態(tài)的信息并對(duì)其進(jìn)行綜合性考慮,使其輸出信息更具完整性和魯棒性;其次,本文提出一種基于周期性核函數(shù)的相似度計(jì)算新方法,該方法充分考慮了長句之間的周期性重復(fù)詞語出現(xiàn)的頻率特征,對(duì)兩個(gè)待評(píng)判的實(shí)體進(jìn)行核函數(shù)向量計(jì)算,以實(shí)現(xiàn)對(duì)時(shí)間軸關(guān)系上的非線性耦合性特征的有效建模。

1 經(jīng)典方法

1.1 經(jīng)典命名實(shí)體識(shí)別模型

最常用的NER 中的經(jīng)典模型有基于字向量的模型和基于詞向量的模型。這兩種模型具有一定的限制性,前者對(duì)句子處理不當(dāng),后者對(duì)分詞結(jié)果具有依賴性。

基于字向量的模型結(jié)構(gòu)如圖1 所示??梢钥闯觯撃P褪菍?duì)“寧波市長江小學(xué)”單字分開,變成“寧/波/市/長/江/小/學(xué)”進(jìn)行處理。假設(shè)圖1 中的模型有a個(gè)字序列通過,分別為c1,c2,…,ca,其中第i個(gè)字ci輸入時(shí),被表示為輸入向量表示權(quán)重矩陣,是在處理字的embedding 層進(jìn)行表示出來的。在基于字符向量模型中,用到的是一個(gè)雙向LSTM,因此需要對(duì)每一個(gè)輸入向量所對(duì)應(yīng)的隱藏狀態(tài)進(jìn)行拼接,即x1,x2,…,xa等分別對(duì)應(yīng)了一個(gè)和 一 個(gè) 反 方 向 的 隱 含 層 狀 態(tài)輸入的第i個(gè)字的總隱藏層狀態(tài)輸出就可以表,即總隱藏層狀態(tài)需要將兩個(gè)方向的隱藏層狀態(tài)進(jìn)行拼接后表示。

圖1 基于字向量的處理模型Fig.1 Processing model based on character vector

基于詞向量的模型結(jié)構(gòu)如圖2 所示,該模型是對(duì)“寧波市長江小學(xué)”中的詞語進(jìn)行處理拆分,變成“寧波/市/長江/小學(xué)”進(jìn)行處理。其原理如下,假設(shè)圖2 中的模型有n個(gè)詞語序列通過,分別為w1,w2,…,wn,其中第j個(gè)詞wj輸入時(shí),被表示為輸入向量xjw=ew(wj),其中ew表示處理詞語的embedding 層定義的權(quán)重矩陣。其隱藏層狀態(tài)是否進(jìn)行拼接取決于是否使用雙向的長短時(shí)記憶神經(jīng)網(wǎng)絡(luò),一般采用單向的話可以直接得出其隱藏層狀態(tài)hwj。

本文對(duì)比系統(tǒng),即文獻(xiàn)[10]提出的經(jīng)典NER 模型的基本思想是在基于字向量模型的基礎(chǔ)上,對(duì)該模型增加一個(gè)柵格結(jié)構(gòu),該結(jié)構(gòu)包含所有從詞典里學(xué)到的詞,其示意圖如圖3 所示??梢钥闯?,除了本身拆分的字之外,使用的柵格結(jié)構(gòu)可得到整個(gè)句子中所有詞典里學(xué)到的詞,比如圖3 中的“寧波”“市長”“長江”“小學(xué)”“寧波市”“長江小學(xué)”,如果原句按照字向量進(jìn)行劃分,還可以組成“寧波/市長/江小學(xué)”的格式,但由于設(shè)定了柵格,柵格中不包括“江小學(xué)”這個(gè)詞,就避免了原句劃分所造成的歧義問題。

圖2 基于詞向量的處理模型Fig.2 Processing model based on word vector

1.2 經(jīng)典相似度計(jì)算方法

最常用的文本相似度的計(jì)算方法有4 種,分別是編輯距離、馬氏距離、余弦相似度和皮爾遜相關(guān)系數(shù),前兩種是通過計(jì)算文本之間的距離進(jìn)行比較,距離越大,相似度越??;后兩種直接計(jì)算相似度,數(shù)值越大,則相似度越大。

(1)編輯距離(Edit distance,ED),亦被稱作Levenshtein distance。編輯距離實(shí)際上是一個(gè)計(jì)算序列間相似度的度量標(biāo)準(zhǔn),通常用在檢查英語單詞拼寫正誤上,是指在兩個(gè)字符串<A,B>之間,從A 到B所需要進(jìn)行的最少的編輯操作次數(shù)。其可進(jìn)行的操作有且僅有3 種,分別是:插入(Insert)、修改(Delete)和替換(Replace)。

以單詞“kitchen”和“situate”為例,要把“kitchen”轉(zhuǎn)化為“situate”需要進(jìn)行的編輯操作有:(1)kitchen變?yōu)閟itchen(把“k”換成“s”);(2)sitchen 變成sit(把“chen”刪除掉);(3)sit 變成situate(把“sit”插入字符“uate”)。因此,將“kitchen”變成“situate”需要3 步編輯操作,則這兩單詞的編輯距離就是3。

(2)Mahalanobis distance 方法簡稱馬氏距離。馬氏距離一般用來表示某個(gè)點(diǎn)和某個(gè)分布間的關(guān)系,可用來計(jì)算兩不同樣本數(shù)據(jù)集之間的相似性,并對(duì)于不同量綱也有所考慮,即顧慮兩個(gè)不同維度之間向量的相關(guān)性。

假設(shè)有M 個(gè)樣本向量,分別為x1,x2,…,xM,其均值用μ 表示,其協(xié)方差矩陣用S 表示,則樣本向量x到均值μ 的馬氏距離計(jì)算公式為

馬氏距離可被看成特殊的歐氏距離,與其不同的是,馬氏距離的計(jì)算必須建立在協(xié)方差矩陣存在的基礎(chǔ)上,這就要求總體樣本的數(shù)目必須比樣本的維數(shù)要大,且總體的樣本數(shù)對(duì)其影響較大;其次,由于協(xié)方差矩陣不太穩(wěn)定,導(dǎo)致有時(shí)馬氏距離無法正確計(jì)算得出,而且易對(duì)產(chǎn)生細(xì)微變化的變量進(jìn)行夸大,導(dǎo)致影響整個(gè)計(jì)算過程。

(3)基于余弦相似度(Cosine similarity)的計(jì)算方法是指通過計(jì)算得出兩向量間夾角的余弦值,從而計(jì)算其相似度的方法,又被稱為余弦相似性。其向量間的夾角越小,余弦值就越大,則證明兩個(gè)向量越相似。在計(jì)算相關(guān)文本及字符串的相似度之前,必須把兩個(gè)文本數(shù)據(jù)或者字符串統(tǒng)一變成向量的形式,一般通過word2vec 等方法進(jìn)行處理。

若存在兩個(gè)二維向量C,D,向量C 為( x1,y1),向量D 為( x2,y2),則其夾角θ 的余弦值計(jì)算公式為

(4)基于皮爾遜相關(guān)系數(shù)(Pearson correlation)的方法可看做是余弦相似度的一個(gè)特例,取值范圍是[-1,1]。

該方法是用來表示向量間相關(guān)性的強(qiáng)弱程度的,通過將其中心化,即減去向量的平均值后,再計(jì)算余弦相似度。該方法的計(jì)算是通過對(duì)分布中樣本點(diǎn)的標(biāo)準(zhǔn)分?jǐn)?shù)進(jìn)行均值估計(jì),使用p(X,Y) 用來表示皮爾遜相關(guān)系數(shù),公式為

式中:Xi,Yi分別代表兩個(gè)樣本;分別代表兩個(gè)樣本的平均值;σX,σY分別代表兩個(gè)樣本的標(biāo)準(zhǔn)差;分別代表兩個(gè)樣本的標(biāo)準(zhǔn)分?jǐn)?shù)。

2 改進(jìn)方法

2.1 Lattice Bi-LSTM 模型

文獻(xiàn)[10]中提出的模型是在字向量的基礎(chǔ)上同時(shí)考慮字粒度和詞粒度,進(jìn)而來處理輸入的數(shù)據(jù),但是該模型只能單向的對(duì)句子進(jìn)行處理,無法考慮整個(gè)句子的含義,對(duì)于某些需要同時(shí)考慮前后文關(guān)系的問題,無法給出正確答案。針對(duì)這個(gè)問題,本文對(duì)模型進(jìn)行改進(jìn),采用了雙向的長短時(shí)記憶神經(jīng)網(wǎng)絡(luò),使得LSTM 在處置信息時(shí),能夠同時(shí)進(jìn)行前向傳播和后向傳播,使得在處理某些長句時(shí),同時(shí)獲取過去和未來兩個(gè)狀態(tài)的信息并對(duì)其進(jìn)行通盤考慮,從而輸出更具完整性和更具準(zhǔn)確性的信息,對(duì)于應(yīng)該正確輸出的信息更具魯棒性。應(yīng)用于NER 領(lǐng)域時(shí),其效果則體現(xiàn)在對(duì)于實(shí)體的標(biāo)簽預(yù)測更具準(zhǔn)確性和穩(wěn)定性,從而對(duì)于命名實(shí)體的識(shí)別將具有更好的效果,其模型圖如圖4 所示。

圖4 雙向格子結(jié)構(gòu)的長短時(shí)記憶示意模型圖Fig.4 Structure of Lattice Bi-LSTM

該模型在處理字和詞時(shí)的內(nèi)部結(jié)構(gòu)略有不同,處理單個(gè)字符時(shí)的模型如圖5 所示。假設(shè)需要處理一個(gè)字符序列c1,c2,c3,…,ca,通過可以得到每個(gè)字符的字符向量xjc,即輸入向量。字符部分的計(jì)算公式為

式中:表示前上一個(gè)字LSTM cell 的隱藏層狀態(tài)輸出;ci表示兩個(gè)方向的輸出,hci為結(jié)合兩個(gè)方向的最后的輸出,此處的隱藏狀態(tài)是對(duì)于兩個(gè)方向的考慮,即為本文提出雙向模型的部分體現(xiàn)表示從前一個(gè)字和該字相關(guān)的詞傳過來的細(xì)胞狀態(tài)分別表示這個(gè)LSTM 單元中的輸入門、輸出門和遺忘門;σ,tanh 分別表示激活函數(shù)sigmoid 函數(shù)和tanh 函數(shù);⊙表示矩陣點(diǎn)積。

處理詞的模型如圖6 所示,將序列S和單詞查找樹進(jìn)行匹配,可得到這個(gè)序列的詞集合,表示為wbd,e,則其計(jì)算公式為

圖5 基于字向量的處理模型內(nèi)部結(jié)構(gòu)圖Fig.5 Internal structure diagram of processing model based on character vector

式中:wdb,e表示從b開始到e結(jié)束的詞的子序列;hcb表示第b個(gè)字的LSTM cell 的輸出;iwb,e,fwb,w分別表示這個(gè)詞的網(wǎng)絡(luò)單元中的輸入門和遺忘門;c?wb,e相當(dāng)于一個(gè)中間信息狀態(tài),承載著經(jīng)過變化后的細(xì)胞狀態(tài)信息。

從圖6 中可以看出,處理詞的長短時(shí)記憶網(wǎng)絡(luò)單元沒有輸出門,這是由于處理詞的LSTM 單元中的細(xì)胞狀態(tài),都傳給了這個(gè)詞最后一個(gè)字的字的LSTM 單元。除此之外,字符LSTM單元的輸入不僅來自于上一個(gè)字符的隱藏狀態(tài)和字符向量,還包括前面多個(gè)詞的LSTM 單元輸出的細(xì)胞狀態(tài)。因此該模型的相關(guān)狀態(tài)及其權(quán)重的計(jì)算公式為

圖6 基于詞向量的處理模型內(nèi)部結(jié)構(gòu)圖Fig.6 Internal structure diagram of processing model based on word vector

式中:cwb,j為上一個(gè)詞的細(xì)胞狀態(tài),αcb,j為其狀態(tài)的權(quán)重。

以句子“寧波市長江小學(xué)”為例,其中c“c7學(xué)”的細(xì)胞狀態(tài),輸入量包含x(c7學(xué))、cc6,(7小學(xué))、cc4,(7長江小學(xué))的信息,所以有

對(duì)于本文提出的模型,一般需要在之后添加CRF 層進(jìn)行標(biāo)簽預(yù)測,對(duì)輸入數(shù)據(jù)進(jìn)行標(biāo)注處理后,完成命名實(shí)體識(shí)別的識(shí)別任務(wù),其具體流程如圖7 所示。

圖7 模型應(yīng)用流程圖Fig.7 Model application flow chart

2.2 基于核函數(shù)的相似度計(jì)算方法

使用核函數(shù)的原因如下:(1)不受非線性變換函數(shù)的形式影響;(2)改變核函數(shù)的不同形式和不同參數(shù),能實(shí)現(xiàn)不同種類的核函數(shù),實(shí)現(xiàn)不同的功能;(3)核函數(shù)還可以與其他算法結(jié)合,形成復(fù)合方法,實(shí)現(xiàn)更多功能;(4)解決了“維度災(zāi)難”的問題,對(duì)于高維度的輸入能夠高效處理,從而使得在使用核函數(shù)的方法時(shí)減少了計(jì)算量。

本文嘗試?yán)脦追N不同的核函數(shù)來計(jì)算文本的相似度,分別是高斯核函數(shù)、馬頓核函數(shù)、γ 指數(shù)的核函數(shù)以及最終選用的周期核函數(shù),下面將依次對(duì)這幾類核函數(shù)進(jìn)行介紹。高斯核函數(shù)沿徑向?qū)ΨQ,一般是指從輸入樣本到樣本中心的徑向距離,又被稱為徑向基函數(shù)(Radial basis function, RBF),通過該函數(shù)可以將輸入數(shù)據(jù)映射到無窮維,其表達(dá)式為

徑向基核函數(shù)有以下優(yōu)點(diǎn):(1)對(duì)于非線性函數(shù)能夠?qū)⑵溆成涞教卣骺臻g;(2)參數(shù)較少,訓(xùn)練時(shí)較簡單,能節(jié)省訓(xùn)練時(shí)間;(3)計(jì)算更簡單,能夠減少計(jì)算量。

馬頓核函數(shù)(Matérn kernel function)的內(nèi)核是固定的,相當(dāng)于徑向基核函數(shù)的泛化表示,其原理公式為

式中:r = ‖ x1- x2‖;l、v 為該核函數(shù)的超參數(shù),v 決定函數(shù)的可導(dǎo)性與平滑程度,并且當(dāng)v →∞時(shí),這個(gè)Matérn 核函數(shù)就變成了使用l 作為超參數(shù)的徑向基核函數(shù);Kv為修正后的貝塞爾函數(shù),表示Matérn核函數(shù)由指數(shù)函數(shù)與多項(xiàng)式函數(shù)的乘積組合而成。

γ 指數(shù)的核函數(shù)的基本公式為

當(dāng)該γ 指數(shù)核函數(shù)的指數(shù)取1 時(shí),則式(24)變?yōu)?/p>

此時(shí),式(25)就是前述的Matérn 核函數(shù)中超參數(shù)v=0.5 時(shí)的形式,這時(shí)運(yùn)行的過程被稱作Ornstein-Uhlenbeck 過程,即是一個(gè)連續(xù)但不平滑的隨機(jī)過程。

本文用到了一種周期性的隨機(jī)函數(shù),該函數(shù)由MacKay[11]提出,其公式為

3 實(shí)驗(yàn)結(jié)果分析

3.1 NER 實(shí)驗(yàn)結(jié)果分析

本文數(shù)據(jù)集主要采用weiboNER、resumeNER、CMNER。weiboNER 是從新浪微博上進(jìn)行采集的,包含多類信息;resumeNER 是新浪經(jīng)濟(jì)類的數(shù)據(jù),包含中國上市公司高管的簡歷;CMNER 是CCKS2017 的中文醫(yī)學(xué)命名實(shí)體識(shí)別數(shù)據(jù)集,包括多類實(shí)體,比如身體部位、癥狀體征、檢查和疾病名等。

本文主要通過4 項(xiàng)指標(biāo)來測試模型的有效性,分別是準(zhǔn)確率(Accuracy, acc)、精確率(Precision,pre)、召回率(Recall, rec)和F1-Measure。準(zhǔn)確率是指在所有測試的數(shù)據(jù)集中,正確識(shí)別出的語料除以所有語料總數(shù)之值;精確率是指在所有正確識(shí)別出的語料中,實(shí)際正確識(shí)別的語料除以所有正確識(shí)別的語料的數(shù)值;回歸率是指在所有識(shí)別為正確的語料中,實(shí)際能夠識(shí)別出正確語料的比例;F1由精確率和召回率得到,計(jì)算公式為F1= 2*P*R/( P + R ),P 代表精確率,R 代表召回率。

不同模型在數(shù)據(jù)集resumeNER 上的最佳表現(xiàn)如表1 所示。 訓(xùn)練模型主要包括4 類,分別是LSTM+bigram、LSTM+unigram、本文模型(雙向格子LSTM)+bigram 和本文模型(雙向格子LSTM)+unigram,其中,bigram 和unigram 代表兩種分詞方式,分別是二元分詞(將句子每兩個(gè)字切分一次)和一元分詞(將句子每一個(gè)字切分一次)。從表1 可以看出,應(yīng)用該模型在該數(shù)據(jù)集上采用兩種分詞方式的表現(xiàn)均比使用LSTM 的效果好,對(duì)于分別使用unigram 和bigram 分詞方式時(shí),與LSTM 相比,應(yīng)用該模型F1分?jǐn)?shù)分別提升了0.27% 和2.60%,其余4 類指標(biāo)均得到了有效提升,并且可以看出,此時(shí)采用bigram 分詞方式時(shí)效果最好??傊?,該模型在resumeNER 數(shù)據(jù)集上的效果比LSTM 模型好。

表1 不同模型在resumeNER 數(shù)據(jù)集上的最佳表現(xiàn)Table 1 The best performance of different models on the resumeNER dataset

不同模型在數(shù)據(jù)集weiboNER 上的最佳表現(xiàn)如表2 所示。從表2 可以看出,應(yīng)用該模型在該數(shù)據(jù)集上采用兩種分詞方式的表現(xiàn)均比使用LSTM 的效果好,對(duì)于分別使用unigram 和bigram 分詞方式時(shí),與LSTM 相比,應(yīng)用該模型F1分?jǐn)?shù)分別提升了8.6% 和4.7%,其余3 類指標(biāo)也得到了有效提升,acc,pre 和rec 最高分別提升了0.4%、6.1%、10.7%??梢钥闯?,該模型在weiboNER 數(shù)據(jù)集上的效果十分突出。

表2 不同模型在數(shù)據(jù)集weiboNER 上的表現(xiàn)Table 2 The best performance of different models on the weiboNER dataset

不同模型在數(shù)據(jù)集CMNER 上的最佳表現(xiàn)如表3 所示??梢钥闯?,在該數(shù)據(jù)集上的效果沒有前兩個(gè)數(shù)據(jù)集明顯,分別使用bigram 和unigram 分詞方式時(shí),與經(jīng)典模型相比,其精確率和F1得分都略有下降,但準(zhǔn)確率和召回率均為使用該模型時(shí)最高,分別提升了0.02% 和0.50%。該模型在CMNER 數(shù)據(jù)集效果不太明顯,僅有兩項(xiàng)指標(biāo)效果有所提升,可能是因?yàn)樵摂?shù)據(jù)集中的實(shí)體多為類似“胸部正位DR片”等檢查項(xiàng)目類的實(shí)體,名稱比較復(fù)雜,難以辨認(rèn),導(dǎo)致建立的格子詞典的作用沒有發(fā)揮出來,因此格子結(jié)構(gòu)沒有取得更優(yōu)異的效果。

表3 不同模型在數(shù)據(jù)集CMNER 上的表現(xiàn)Table 3 The best performance of different models on the CMNER dataset

3.2 相似度計(jì)算實(shí)驗(yàn)結(jié)果分析

首先,采用語義相同的兩句話進(jìn)行測試,分別是“嗓子疼怎么辦”和“嗓子疼咋辦”,分別使用基于高斯核函數(shù)、基于指數(shù)核函數(shù)和周期性隨機(jī)函數(shù)的方法來計(jì)算文本的相似度,并與其他經(jīng)典方法進(jìn)行對(duì)比。此時(shí)的高斯核函數(shù)中的超參數(shù)σ2= 1,指數(shù)核函數(shù)中的超參數(shù)γ= 1,l= 1,相當(dāng)于馬頓核函數(shù)中的超參數(shù)v= 0.5,γ= 1,l= 1。其相似度(距離)對(duì)比圖如圖8 所示。

從圖8 中可以看出,在計(jì)算兩個(gè)結(jié)構(gòu)相似語義相同的句子時(shí),本文中使用的兩種核函數(shù)(徑向基核函數(shù)和周期核函數(shù))所得的相似度值均較大,均大于經(jīng)典方法計(jì)算出的相似度值,且均突破了0.75,其中本文用到的周期核函數(shù)效果最為顯著,其相似度計(jì)算為1.0,是經(jīng)典方法余弦相似度的兩倍,說明其計(jì)算相似度值的準(zhǔn)確率提高了一半,能夠完美得出計(jì)算的兩個(gè)句子語義相同的結(jié)論,應(yīng)用在問答系統(tǒng)中時(shí),相比其他方法,能夠更好地得出用戶提出問題的真正意圖,從而更好地輸出答案。

圖9 為幾種方法的相似度對(duì)比圖,從圖中可以看出,在計(jì)算這兩個(gè)長句的相似度時(shí),皮爾遜系數(shù)、徑向基核函數(shù)和指數(shù)函數(shù)計(jì)算的相似度均不理想,均未達(dá)到0.1,不能得出長句相似的結(jié)論。然而,本文采用的周期核函數(shù)所得相似度為0.891 4,遠(yuǎn)大于余弦相似度的0.517 1,能夠完美得出這兩長句語義相似的結(jié)論,因此能夠得出同樣的答案。

3.3 綜合效果評(píng)測

上述兩小節(jié)分別對(duì)兩個(gè)創(chuàng)新環(huán)節(jié)進(jìn)行了單獨(dú)測試,本小節(jié)將創(chuàng)新工作合并形成一套完整的系統(tǒng),對(duì)整體性能進(jìn)行評(píng)估。分別以例句“我好像得了塵螨過敏性哮喘,有啥法子啊”和“最近一直在打噴嚏,懷疑是塵螨過敏性哮喘,應(yīng)該咋辦”進(jìn)行實(shí)際效果展示,其結(jié)果如表4 所示。對(duì)于前者,采用經(jīng)典方法時(shí),系統(tǒng)無法識(shí)別出“有啥法子啊”與“怎么辦”的相似度,因此無法給出“塵螨過敏性哮喘”的治療方法,只給出了幾種疾病的治愈率,采用本文方法時(shí),則給出了一系列關(guān)于該疾病的治療方法,效果顯著;對(duì)于后者,由其結(jié)果對(duì)比可知,采用基于核函數(shù)的方法可得出該句與前句語義相似,從而得出相同的答案,能夠正確處理用戶的詢問信息。

對(duì)于經(jīng)典方法與本文方法詢問不同問題類型,其得到的結(jié)果如表5 所示??梢钥闯?,經(jīng)典方法有時(shí)在回答某些問題,比如疾病的治療方法、檢查類型和種類時(shí),其回答結(jié)果分別是治愈周期、某疾病的概率和治愈周期,并非問題的正確結(jié)果,而本文的核函數(shù)方法則可以回答出問題本該得出的結(jié)果,效果顯著,能夠正確回答出問題。

圖8 結(jié)構(gòu)近似句子相似度對(duì)比圖Fig.8 Comparison of sentence similarity of similar structure

圖9 長句相似度對(duì)比圖Fig.9 Comparison of long sentence’s similarity

表4 應(yīng)用于問答系統(tǒng)的實(shí)際效果Table 4 Practical effect of application in Q & A system

表5 不同方法結(jié)果判定Table 5 Result judgment of different methods

4 結(jié)束語

本文針對(duì)問答系統(tǒng)中命名實(shí)體識(shí)別技術(shù)處理句子不完善的問題,提出了一種雙向格子結(jié)構(gòu)的長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Lattice Bi-LSTM)模型,解決了NER 中基于字向量模型所存在的對(duì)句子處理不當(dāng)?shù)膯栴},同時(shí)解決了基于詞向量模型所具有的對(duì)分詞效果依賴嚴(yán)重的問題;由于采用的是雙向結(jié)構(gòu),與單向相比,能夠更好地理解句子的含義,輸出結(jié)果更具魯棒性,并且能夠增進(jìn)對(duì)上下文內(nèi)容的理解。通過在數(shù)據(jù)集上的測試,也表明該方法具有比單向結(jié)構(gòu)更好的效果,能夠?qū)渥舆M(jìn)行更好的處理。

問答系統(tǒng)在進(jìn)行命名實(shí)體識(shí)別后,需要對(duì)識(shí)別出的實(shí)體與知識(shí)庫中的實(shí)體進(jìn)行相似度計(jì)算,本文提出一種將周期性核函數(shù)用于相似度計(jì)算的方法,并與其他經(jīng)典方法進(jìn)行了對(duì)比。結(jié)果顯示,對(duì)于相同語義和相似語義的句子計(jì)算出的相似度比其他方法高,能夠更好地識(shí)別出兩個(gè)實(shí)體之間的相似度,使提出的問題能更準(zhǔn)確地鏈接到知識(shí)庫中的答案,從而提高了問答系統(tǒng)回答問題的準(zhǔn)確率。

猜你喜歡
分詞實(shí)體向量
向量的分解
聚焦“向量與三角”創(chuàng)新題
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
中國外匯(2019年18期)2019-11-25 01:41:54
結(jié)巴分詞在詞云中的應(yīng)用
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
值得重視的分詞的特殊用法
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
鄂托克前旗| 镇巴县| 修武县| 龙山县| 南昌县| 巴楚县| 重庆市| 星座| 林甸县| 田林县| 广平县| 长丰县| 牟定县| 敦煌市| 彰化县| 朝阳市| 淮滨县| 大悟县| 舞阳县| 平度市| 永泰县| 临漳县| 焦作市| 故城县| 体育| 贺州市| 北票市| 清涧县| 漳浦县| 迭部县| 新郑市| 静海县| 海南省| 陵川县| 商河县| 甘洛县| 兴海县| 军事| 和静县| 南宁市| 乐至县|