国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于位置特征和句法依存樹的可度量數(shù)量信息抽取模型①

2022-11-07 09:08聶文杰黃邦銳郝天永
關(guān)鍵詞:句法度量語句

聶文杰,莫 迪,黃邦銳,劉 海,郝天永

1(華南師范大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510631)

2(華南師范大學(xué) 人工智能學(xué)院,佛山 528225)

隨著電子病歷的快速普及與發(fā)展,從電子病歷中抽取所需關(guān)鍵信息逐漸成為醫(yī)學(xué)信息學(xué)領(lǐng)域研究者關(guān)注的熱點(diǎn)問題,目前許多研究者關(guān)注于從非結(jié)構(gòu)化電子病歷文本中抽取醫(yī)學(xué)概念[1]、醫(yī)學(xué)屬性值[2]、時間表達(dá)式[3]、藥物不良反應(yīng)事件[4]與藥物間相互作用[5].對電子病歷中的可度量數(shù)量信息的抽取卻較為匱乏.可度量數(shù)量信息廣泛存在于各類非結(jié)構(gòu)化文本中[6],例如在臨床試驗(yàn)鈉排標(biāo)準(zhǔn)文本中的占比超過40%[7].低精度的可度量數(shù)量信息抽取會導(dǎo)致藥物劑量分析與臨床試驗(yàn)資格標(biāo)準(zhǔn)認(rèn)定等研究的瓶頸[6].

可度量數(shù)量信息作為一種量化數(shù)據(jù),由實(shí)體與相關(guān)數(shù)量屬性組成[8].以語句“心率達(dá)120 次/分鐘”為例,其中“心率”為實(shí)體,“120”為數(shù)值,“次/分鐘”為單位,數(shù)值與單位的組合“120 次/分鐘”為數(shù)量.圖1 顯示了非結(jié)構(gòu)化電子病歷文本包含的可度量數(shù)量信息,其中下劃線表示實(shí)體,粗體表示數(shù)值,斜體表示單位,其中實(shí)體與數(shù)值、單位之間的相對位置并不固定,以“體溫36.0 攝氏度”與“3 600 mL 血漿”為例,其中“體溫36.0攝氏度”中的實(shí)體在數(shù)值與單位之前,而“3 600 mL 血漿”中的實(shí)體在數(shù)值與單位之后.另外如實(shí)體“5%葡萄糖注射液”所示,部分?jǐn)?shù)值信息為實(shí)體的一部分,而非單獨(dú)的數(shù)值.現(xiàn)有信息抽取技術(shù)尚未對可度量數(shù)量信息中的位置信息進(jìn)行深入的研究,并且難以區(qū)分單獨(dú)的數(shù)值與作為實(shí)體一部分的數(shù)值.

圖1 非結(jié)構(gòu)化電子病歷文本中包含的可度量數(shù)量信息

現(xiàn)有可度量數(shù)量信息抽取相關(guān)研究主要利用基于規(guī)則與傳統(tǒng)機(jī)器學(xué)習(xí)模型的方法,然而基于規(guī)則的方法需要花費(fèi)大量時間與精力設(shè)計(jì)規(guī)則,且泛用性往往較弱,無法很好地遷移至其他語料或領(lǐng)域.而傳統(tǒng)機(jī)器學(xué)習(xí)模型需要做大量的特征工程,所生成的特征質(zhì)量很大程度地影響著模型的最終性能.因此可以自動抽取特征的深度學(xué)習(xí)模型引起了研究者的關(guān)注,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)被引入用來抽取信息,同時為了進(jìn)一步提升模型性能,諸如位置特征等外部特征被融入到深度學(xué)習(xí)模型當(dāng)中.然而無論是Vaswani 等[9]根據(jù)sin 函數(shù)與cos 函數(shù)生成的位置編碼還是Wang 等[10]介紹的位置向量,都沒有對所需信息與無關(guān)信息進(jìn)行特殊處理.此外當(dāng)前大多研究將整個序列作為模型的輸入,而Zhang 等[11]已經(jīng)證明對原輸入序列進(jìn)行適當(dāng)刪減有助于提升模型性能.

本文首先通過相對位置特征來區(qū)分實(shí)體與數(shù)量信息與非實(shí)體與非數(shù)量信息,并將其融入注意力(attention)機(jī)制中,對通過雙向門控循環(huán)單元(bi-direction gated recurrent unit,BiGRU)獲得的上下文特征進(jìn)行更新,以此識別實(shí)體與數(shù)量信息.并通過將輸入語句轉(zhuǎn)換為句法依存樹的同時進(jìn)行重構(gòu),在充分提取輸入語句語義信息的同時排除無關(guān)信息的干擾,并結(jié)合圖注意力網(wǎng)絡(luò)(graph attention networks,GAT)進(jìn)一步抽取特征,對實(shí)體與數(shù)量進(jìn)行正確關(guān)聯(lián),實(shí)現(xiàn)可度量數(shù)量信息關(guān)聯(lián),最終完成可度量數(shù)量信息的抽取.綜上所述,本文的主要貢獻(xiàn)如下:

(1)通過將相對位置特征與注意力機(jī)制融合,提出新的RPA-GRU (relative position attention-BiGRU)模型,識別實(shí)體與數(shù)量信息.

(2)通過對輸入語句生成的句法依存樹重構(gòu),提出新的GATM (graph attention networks for measurable quantitative information)模型,關(guān)聯(lián)可度量數(shù)量信息.

(3)實(shí)驗(yàn)結(jié)果表明所提出的RPA-GRU 與GATM模型相比基線模型獲得了最佳性能,驗(yàn)證了其有效性.

1 相關(guān)工作

對于可度量數(shù)量信息抽取的相關(guān)研究,早期為基于規(guī)則的方法,如肖洪等[12]通過對量詞進(jìn)行總結(jié)得到125 種模式,在利用有限自動機(jī)抽取量詞的同時構(gòu)建正則表達(dá)式與模板從年鑒文本當(dāng)中抽取數(shù)值知識元.Turchin 等[13]利用正則表達(dá)式從臨床筆記當(dāng)中抽取血壓值,并通過領(lǐng)域知識校驗(yàn)抽取結(jié)果.Hao 等[7]引入領(lǐng)域知識與UMLS 元詞典等外部知識設(shè)計(jì)啟發(fā)式規(guī)則從1 型糖尿病數(shù)據(jù)集與2 型糖尿病數(shù)據(jù)集中抽取可度量數(shù)量信息.Liu 等[8]對醫(yī)學(xué)文本當(dāng)中的關(guān)鍵語義角色進(jìn)行標(biāo)記,自動學(xué)習(xí)模式抽取可度量數(shù)量信息以減少人工.隨著傳統(tǒng)機(jī)器學(xué)習(xí)的發(fā)展,如條件隨機(jī)場(conditional random field,CRF)被引入,或單獨(dú)使用或與規(guī)則進(jìn)行結(jié)合.張桂平等[14]在構(gòu)建模板的基礎(chǔ)上利用CRF 對模板進(jìn)行補(bǔ)充,從而對數(shù)值信息進(jìn)行抽取.隨著能夠自動抽取特征的深度學(xué)習(xí)模型的發(fā)展,如雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term conditional random field,BiLSTM)模型被研究者所關(guān)注,王竣平等[15]通過建立數(shù)值信息知識庫與模板,抽取屬性值與單位,并利用BiLSTM-CRF 模型對工業(yè)領(lǐng)域中的數(shù)值信息進(jìn)行抽取.Liu 等[16]設(shè)計(jì)了包含相對位置特征、絕對位置特征與詞典特征等多種外部特征,并將其向量化后進(jìn)行連接送入BiLSTM-CRF 模型進(jìn)行建模,從而識別電子醫(yī)療病歷中的實(shí)體與數(shù)量信息,而后將實(shí)體數(shù)、數(shù)量數(shù)、相對位置與絕對距離作為外部特征輸入隨機(jī)森林(random forest)模型,對實(shí)體與數(shù)量信息進(jìn)行關(guān)聯(lián).但以上研究都未對輸入信息進(jìn)行取舍與重要性區(qū)分.

此外,其他研究者針對可度量數(shù)量信息的部分信息如實(shí)體進(jìn)行抽取,商金秋等[17]利用正向最大匹配算法與決策樹模型從電子病歷當(dāng)中抽取患者發(fā)熱相關(guān)癥狀及其具體表現(xiàn)并將其進(jìn)行可視化,以輔助醫(yī)生治療.Hundman 等[18]開發(fā)了一個名為Marve 的系統(tǒng),首先利用CRF 識別數(shù)值與單位,然后基于規(guī)則識別實(shí)體.Berrahou 等[19]則是利用J48 決策樹、支持向量機(jī)(support vector machines)、樸素貝葉斯(naive Bayes)、判別性多義樸素貝葉斯(discriminative multinominal naive Bayes)等多個分類器對科學(xué)文檔中的單位進(jìn)行抽取.Zhang 等[20]通過將字符信息與分詞信息融入BiLSTM-CRF 模型,提升了臨床實(shí)體識別的性能.Xu 等[21]將文檔級注意力與BiLSTM 模型結(jié)合,從2010 i2b2/VA 數(shù)據(jù)集當(dāng)中識別臨床命名實(shí)體,相比無注意力機(jī)制的BiLSTM 模型提高了1.01%的F1 值,證明了注意力機(jī)制的有效性.此外,為了進(jìn)一步抽取實(shí)體,Zhang 等[22]在通用領(lǐng)域上提出了Lattice-LSTM,通過在字符級抽取特征避免分詞錯誤,并引入當(dāng)前字符在外部詞典中的匹配詞來同時考慮字符信息與詞信息.另外,Zhang 等[11]將句法依存樹中的最短依賴路徑(short dependency paths,SDP)與RNN 相結(jié)合,排除無關(guān)信息.Lin 等[5]則是將圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)拓展到知識圖譜,以此預(yù)測藥物之間的反應(yīng)(drug-drug interaction,DDI).Song 等[23]則是將句法依存樹拓展為森林,實(shí)現(xiàn)醫(yī)學(xué)關(guān)系抽取.上述部分研究雖利用了注意力機(jī)制與剪枝方法進(jìn)行重要性的區(qū)分,卻并未抽取完整的可度量數(shù)量信息.

2 可度量數(shù)量信息識別與關(guān)聯(lián)模型

2.1 可度量數(shù)量信息識別模型

可度量數(shù)量信息識別是將輸入語句中的每個字符分別標(biāo)記為實(shí)體、數(shù)值、單位與其他,符合序列標(biāo)記任務(wù)的定義.因此本文將可度量數(shù)量信息識別任務(wù)轉(zhuǎn)換為一個標(biāo)準(zhǔn)的序列標(biāo)記任務(wù).首先將輸入語句編碼為X={x1,x2,x3,···,xm},其中xm∈Rde表示語句X的第m個字符,de表示輸入向量的維度.語句的輸出標(biāo)簽為Y={y1,y2,y3,···,ym},其中ym表示第m個字符所對應(yīng)的標(biāo)簽.識別任務(wù)的目標(biāo)是尋找一個函數(shù)fθ:XY,將輸入語句的所有字符映射為對應(yīng)的標(biāo)簽.對此本文提出RPA-GRU 模型,具體模型結(jié)構(gòu)如圖2.模型首先為輸入序列生成對應(yīng)的向量表示并利用BiGRU 模型抽取上下文特征,然后將相對位置向量融入注意力機(jī)制對上下文特征進(jìn)行更新,以此區(qū)分實(shí)體與數(shù)量信息與非實(shí)體和非數(shù)量信息,最后送入CRF.

圖2 RPA-GRU 模型的網(wǎng)絡(luò)結(jié)構(gòu)

(1)相對位置特征及向量

為了將實(shí)體與數(shù)值信息與非實(shí)體和非數(shù)值信息進(jìn)行區(qū)分,本文對Liu 等[16]提出的相對位置特征進(jìn)行拓展.具體而言,對于實(shí)體與數(shù)量信息,以距離最近的實(shí)體為中心按照距離分配不同的相對位置特征,對于非實(shí)體與非數(shù)量信息的相對位置特征而言,為了防止與實(shí)體和數(shù)量信息的相對位置特征之間的干擾,統(tǒng)一設(shè)置為語句最大長度+1 之和的負(fù)數(shù),抽取過程如算法1,示例為表1.

表1 相對位置特征示例

1)For do xiy i=1,···,m 2)If in xi 3)If in entity r fi←4)0 5)Else 6)distance= 與最近的entity 之間的距離xi xi 7)If 在距離最近的entity 左邊r fi←8)-1×distance 9)Else r fi←10) distance 11)End If 12)End If 13)Else r fi←14)-1×(max_len+1)15)End If 16)End For

本文對相對位置特征進(jìn)行隨機(jī)初始化,并在訓(xùn)練期間進(jìn)行更新.從而為輸入語句X={x1,x2,···,xm}生成對應(yīng)的相對位置向量

(2)相對位置特征融入注意力機(jī)制

本文通過將輸入語句中的每個字符對應(yīng)的字符向量與分詞向量進(jìn)行拼接得到e=[ech:eseg]作為BiGRU模型的輸入,其中ech與eseg分別為字符向量與分詞向量,[:]表示拼接操作.字符向量由Word2Vec[24]進(jìn)行初始化,分詞向量與相對位置向量類似,隨機(jī)初始化后于訓(xùn)練期間更新.將e送入BiGRU 模型得到上下文特征H=[h1,h2,···,hm],從而引入字符與分詞信息,然后將相對位置向量融入注意力機(jī)制[25]中,為不同部分分配不同重要性,進(jìn)一步捕獲信息.計(jì)算方式如式(1):

其中,αx為注意力權(quán)重,計(jì)算方式如式(2):

其中,s為得分函數(shù),計(jì)算方式如式(3):

通過融入相對位置向量的注意力機(jī)制,得到更新后的上下文特征最后將H′送入標(biāo)準(zhǔn)CRF 得到最終結(jié)果.

2.2 可度量數(shù)量信息關(guān)聯(lián)模型

對于需要抽取可度量數(shù)量信息的語句而言,如果單條語句中只有一個可度量數(shù)量信息,那么直接將實(shí)體與數(shù)量進(jìn)行關(guān)聯(lián)即可,然而如圖1,單條語句中可能存在多個可度量數(shù)量信息,因此需要將語句中的實(shí)體與相應(yīng)的數(shù)量進(jìn)行正確關(guān)聯(lián).又由于實(shí)體與數(shù)量之間僅存在有關(guān)聯(lián)與無關(guān)聯(lián)兩種關(guān)系,因此本文將關(guān)聯(lián)任務(wù)視作二分類問題.對此本文提出GATM 模型,對實(shí)體與數(shù)量進(jìn)行關(guān)聯(lián),具體模型結(jié)構(gòu)如圖3.模型首先將輸入語句轉(zhuǎn)換為詞向量并生成對應(yīng)的句法依存樹,對句法依存樹進(jìn)行重構(gòu)后轉(zhuǎn)換為鄰接矩陣,然后將詞向量送入BiLSTM 獲取上下文特征,將上下文特征與鄰接矩陣送入圖注意力網(wǎng)絡(luò)進(jìn)一步抽取特征,最后送入Softmax 得到最終結(jié)果.

圖3 GATM 模型的網(wǎng)絡(luò)結(jié)構(gòu)

(1)句法依存樹生成與重構(gòu)

給定輸入語句X={x1,x2,···,xl},其中l(wèi)表示當(dāng)前輸入語句長度.以輸入語句“今予輸血蛋白100 mL”為例,生成的完整句法依存樹示例如圖4(a).可以看到當(dāng)前句法依存樹根節(jié)點(diǎn)為“輸”,“tmod”表示時間修飾語,“dobj”表示直接賓語,“range”表示數(shù)量詞間接賓語,“nummod”表示數(shù)詞修飾語.句法依存樹描述了各個詞語之間的語法聯(lián)系,包含著豐富的語義信息,另外對句法依存樹進(jìn)行適當(dāng)修剪有助于模型性能的提升.Xu 等[26]提出基于SDP 的LSTM 模型,通過去除無關(guān)信息僅保留兩個實(shí)體之間的關(guān)鍵路徑提升模型的F1 值.Wang等[10]在基于單向SDP 的基礎(chǔ)上提出了雙向SDP (bidirectional SDP)進(jìn)一步抽取信息.另外,由于本文關(guān)心的重點(diǎn)是可度量數(shù)量信息但句法依存樹通常不以可度量數(shù)量信息為根.因此本文對句法依存樹進(jìn)行以可度量數(shù)量信息中的實(shí)體為根的重構(gòu),在重構(gòu)的同時對句法依存樹進(jìn)行剪枝,防止無關(guān)信息干擾.重構(gòu)后的句法依存樹如圖4(b),重構(gòu)后的句法依存樹被轉(zhuǎn)換為鄰接矩陣A,Aij=Aji=1表示詞i與詞j在句法依存樹中存在依賴關(guān)系.重構(gòu)過程如算法2.

圖4 句法依存樹示例

算法2.重構(gòu)句法依存樹輸入: 包含可度量數(shù)量信息的語句,可度量數(shù)量信息中的實(shí)體ent,數(shù)量quantity,原始句法依存樹 與直接依賴關(guān)系sen={w1,w2,···,wl}T r輸出: 重構(gòu)后以實(shí)體為中心的句法依存樹TT 1)將ent 作為 的根節(jié)點(diǎn)i=1,···,l 2)For do wiTr 3)If 與ent 或quantity 在 中存在直接依賴關(guān)系Twir 4)向 中添加 與ent 或quantity 的直接依賴關(guān)系5)End If 6)End For

同時為了利用BiLSTM 模型抽取上下文特征,本文利用Word2Vec[24]將輸入語句X={x1,x2,···,xl}中的每個詞xi轉(zhuǎn)換為相應(yīng)的詞向量wi,從而得到輸入語句所對應(yīng)的詞向量序列W={w1,w2,···,wl},并送入BiLSTM 模型進(jìn)行抽取得到相應(yīng)的上下文特征H={h1,h2,···,hl}.

(2)圖注意力網(wǎng)絡(luò)

GAT 由Velickovic 等[27]提出,其結(jié)合了注意力機(jī)制與圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN),利用注意力機(jī)制為不同節(jié)點(diǎn)分配不同重要性.本文將上下文特征H與鄰接矩陣A輸入GAT,得到更新后上下文特征H′={h′1,h′2,···,h′l}.然后將H′通過一個線性層,作為Softmax層輸入,得到預(yù)測向量y,計(jì)算公式如式(4):

其中,y為當(dāng)前輸入屬于每個類別的概率,并利用argmax函數(shù)將其中最大概率的類別作為最終輸出.交叉熵函數(shù)作為GATM 模型的損失函數(shù),計(jì)算方式如式(5):

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

實(shí)驗(yàn)數(shù)據(jù)來自某三甲醫(yī)院燒傷科的1 359 份電子病歷,最初由兩名相關(guān)研究人員利用標(biāo)注工具Colabeler對每個句子中的可度量數(shù)量信息進(jìn)行標(biāo)注,對于兩名研究人員標(biāo)注不一致的數(shù)據(jù),由一名醫(yī)學(xué)信息學(xué)的博士進(jìn)行最終的標(biāo)注判定,并通過Kappa 檢驗(yàn),得到最終的實(shí)驗(yàn)數(shù)據(jù)集.識別數(shù)據(jù)集格式為BIOES 標(biāo)注模式,其中B 為Begin 的縮寫,表示該字符處于開始位置,I 為Inside 的縮寫,表示該字符處于中間位置,E 為End 的縮寫,表示該字符處于結(jié)束位置,S 為Single 的縮寫,表示該字符單獨(dú)構(gòu)成實(shí)體、數(shù)值或單位,O 為Other 的縮寫,表示非實(shí)體、非數(shù)值與非單位.數(shù)據(jù)集具體示例如表2,其中Entity、Num 和Unit 分別表示實(shí)體、數(shù)值與單位,“<e></e>”標(biāo)識當(dāng)前實(shí)體,“<q></q>”標(biāo)識當(dāng)前數(shù)量.“Entity-Quantity(e,q)”為正例,表示當(dāng)前實(shí)體與當(dāng)前數(shù)量之間有關(guān)聯(lián),“Other”為負(fù)例,表示當(dāng)前實(shí)體與當(dāng)前數(shù)量之間無關(guān)聯(lián).

表2 數(shù)據(jù)集具體示例

最終標(biāo)注好的數(shù)據(jù)被隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集與測試集,數(shù)據(jù)集詳細(xì)統(tǒng)計(jì)信息如表3 所示.

表3 數(shù)據(jù)集詳細(xì)統(tǒng)計(jì)信息

3.2 評價指標(biāo)

對于識別與關(guān)聯(lián)任務(wù),本文采用精確率(Precision),召回率(Recall)與F1 值作為評價指標(biāo),具體計(jì)算方式如式(6)-式(8).

其中,TP表示將正類預(yù)測為正類的數(shù)量,FP表示將負(fù)類預(yù)測為正類的數(shù)量,FN表示將正類預(yù)測為負(fù)類的數(shù)量.

3.3 基線模型

為了驗(yàn)證RPA-GRU 在識別任務(wù)上的有效性,本文使用以下基線進(jìn)行性能比較.

Extended BiLSTM-CRF: Liu 等[16]將絕對位置特征、相對位置特征與詞典特征向量化后進(jìn)行連接送入Bi-LSTM-CRF 模型,提升模型F1 值.

Lattice-LSTM: Zhang 等[22]利用外部詞典匹配句子中的字符,從而獲得包含字符的詞語,生成包含字符與詞的格,從而增強(qiáng)基于字符的模型.

WC-LSTM: Liu 等[28]分別利用最長單詞優(yōu)先(longest word first,LWF)、最短單詞優(yōu)先(shortest word first,SWF)、均值(average)與自注意力(self-attention,SA)4 種方法在輸入的字符向量中融入詞匯信息.

LR-CNN: Gui 等[29]在卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)的基礎(chǔ)上利用Rethinking 機(jī)制合并詞匯信息,對匹配語句的字符與潛在單詞進(jìn)行建模.

Soft-Lexicon: Ma 等[30]通過將每個字符所對應(yīng)的全部詞進(jìn)行合并后進(jìn)行加權(quán)求和,得到詞向量并與字符向量進(jìn)行拼接,引入詞匯信息.

另外,為了驗(yàn)證GATM 模型在關(guān)聯(lián)任務(wù)上的效果,與以下基線進(jìn)行比較.

AGGCN: Guo 等[31]將完整的句法依存樹送入GCN 當(dāng)中,并通過注意力機(jī)制實(shí)現(xiàn)軟剪枝,此外其在AGGCN 模型的基礎(chǔ)上,利用LSTM 模型捕獲上下文特征從而提出C-AGGCN 模型.

Att-BiLSTM: Zhou 等[32]將注意力機(jī)制引入BiLSTM模型當(dāng)中,探究注意力機(jī)制對模型的提升.

PA-LSTM: Zhang 等[33]在LSTM 模型的基礎(chǔ)上引入位置注意力來考慮實(shí)體的全局位置信息.

3.4 實(shí)驗(yàn)參數(shù)

為防止RPA-GRU 與GATM 模型產(chǎn)生過擬合,本文在訓(xùn)練過程中引入正則化,另外將Adam[34]與AdaGrad[35]分別作為RPA-GRU 與GATM 模型的優(yōu)化器,其余參數(shù)設(shè)置如表4.

表4 模型的實(shí)驗(yàn)參數(shù)設(shè)置

3.5 實(shí)驗(yàn)結(jié)果

模型在識別任務(wù)上的實(shí)驗(yàn)結(jié)果如表5,結(jié)果表明RPA-GRU 模型取得了98.56%的精確率,96.61%的召回率,97.58%的F1 值,在3 個指標(biāo)上均超越了其他基線模型.具體而言,與之前將外部特征向量化后并連接送入BiLSTM 模型的Extended Bi-LSTM-CRF 模型相比,RPA-GRU 模型取得的F1 值高3.31%,證明比起簡單的特征拼接,本文將相對位置注意力融入注意力機(jī)制更新上下文特征取得的效果更優(yōu).與之前通過外部詞典來引入詞信息的模型Lattice-LSTM、WC-LSTM(LWF/SWF/Average)、WC-LSTM (SA)、LR-CNN、Soft-Lexicon 對比,RPA-GRU 模型取得的F1 值分別高2.30%、2.30%、2.17%、3.10%、2.62%,證明本文所提出的模型即使不依賴外部詞典獲取詞信息也能獲得更好的性能.

表5 識別任務(wù)實(shí)驗(yàn)結(jié)果對比(%)

模型在識別任務(wù)上的混淆矩陣如圖5 所示.由于混淆矩陣中的實(shí)際標(biāo)簽Other 被預(yù)測為Other 的數(shù)量對模型性能沒有影響,因此為簡化矩陣,將其數(shù)量置為0.從混淆矩陣中可以看到,對于Entity、Num 和Unit而言,大部分相關(guān)信息都已被成功抽取,且彼此之間很少發(fā)生混淆,得到了不錯的效果,然而無論是Entity、Num 還是Unit 都會與其他信息之間發(fā)生一定的混淆,如“D-二聚體”等實(shí)體還是難以進(jìn)行準(zhǔn)確抽取,導(dǎo)致模型性能受到些許影響.

圖5 識別任務(wù)混淆矩陣

模型在關(guān)聯(lián)任務(wù)上的實(shí)驗(yàn)結(jié)果如表6 所示,結(jié)果表明GATM 模型取得了96.26%的精確率,99.52%的召回率與97.86%的F1 值,在3 個指標(biāo)上均超越了其他基線模型.具體而言,與之前利用注意力機(jī)制的軟剪枝方法(如AGGCN 與C-AGGCN)相比,GATM 模型高3.52%與2.60%的F1 值,證明本文針對句法依存樹的重構(gòu)策略更優(yōu).與僅引入注意力機(jī)制的模型如(Att-BiLSTM、PA-LSTM)相比,GATM 模型高3.42%與1.74%的F1 值,表明GATM 模型通過引入句法依存樹中的句法信息,有效提升了模型性能.

表6 關(guān)聯(lián)任務(wù)實(shí)驗(yàn)對比(%)

模型在關(guān)聯(lián)任務(wù)上的混淆矩陣如圖6 所示.從混淆矩陣中可以看到,得到的最終結(jié)果較為理想,未發(fā)生大規(guī)模的混淆情況,進(jìn)一步驗(yàn)證了模型的有效性.

圖6 關(guān)聯(lián)任務(wù)混淆矩陣

隨著迭代次數(shù)的不斷增加,RPA-GRU 模型與GATM模型的準(zhǔn)確率與損失函數(shù)曲線分別如圖7 與圖8 所示.可以看到,兩個模型的準(zhǔn)確率逐步上升,而損失函數(shù)的值逐步減少,最終都趨于穩(wěn)定.

圖7 準(zhǔn)確率變化曲線

圖8 損失函數(shù)變化曲線

為了分析不同訓(xùn)練集大小對RPA-GRU 模型與GATM 模型性能的影響,本文通過隨機(jī)抽取的方法設(shè)置6 個不同規(guī)模大小的訓(xùn)練集,數(shù)據(jù)集大小分別原始數(shù)據(jù)集的0.10、0.15、0.25、0.50、0.75、1.00.圖9 顯示了在不同訓(xùn)練集大小上訓(xùn)練得到模型的F1 值,從圖中可以看到當(dāng)訓(xùn)練集大小占比小于0.25 時,隨著訓(xùn)練集大小的增加,RPA-GRU 模型與GATM 模型的性能均有著顯著的提升,當(dāng)訓(xùn)練集大小超過0.25 時,RPAGRU 模型逐漸穩(wěn)定,GATM 模型則是在訓(xùn)練集大小達(dá)到0.75 時逐漸穩(wěn)定.

圖9 不同訓(xùn)練集大小的模型性能

4 結(jié)論與展望

本文通過對可度量數(shù)量信息進(jìn)行識別與關(guān)聯(lián)完成對于可度量數(shù)量信息的抽取,分別提出了RPA-GRU模型與GATM 模型,其中RPA-GRU 模型將相對位置特征融入注意力機(jī)制,對上下文特征進(jìn)行更新,有效地提高了模型的性能,達(dá)到了97.58%的F1 值.GATM模型則是以可度量數(shù)量信息中的實(shí)體為中心重構(gòu)句法依存樹并排除無關(guān)信息干擾,最終取得了97.86%的F1 值.與其他基線模型對比兩個模型均取得了最優(yōu)性能,證明了其有效性.此外,本文還對模型的穩(wěn)定性進(jìn)行了探究,結(jié)果證明RPA-GRU 模型與GATM 模型在對應(yīng)的任務(wù)中具有穩(wěn)定的性能.

猜你喜歡
句法度量語句
鮑文慧《度量空間之一》
柬語母語者漢語書面語句法復(fù)雜度研究
不欣賞自己的人,難以快樂
突出知識本質(zhì) 關(guān)注知識結(jié)構(gòu)提升思維能力
句法二題
《空間句法在中國》段進(jìn)、比爾?希列爾等(著)
三參數(shù)射影平坦芬斯勒度量的構(gòu)造
詩詞聯(lián)句句法梳理
基本算法語句
我喜歡