摘 "要: 關(guān)系抽取任務可以從非結(jié)構(gòu)化文本中抽取出實體對的關(guān)系信息,是信息抽取的核心任務。遠程監(jiān)督可以通過自動構(gòu)建訓練數(shù)據(jù)的方式降低人工的成本和壓力,但原始語料本身存在數(shù)據(jù)不平衡的現(xiàn)象,導致長尾分布問題。針對這一問題,基于多示例學習的思想,提出一種基于約束圖的遠程監(jiān)督長尾關(guān)系抽取方法。首先根據(jù)知識圖譜本體結(jié)構(gòu)構(gòu)建約束圖,利用圖卷積神經(jīng)網(wǎng)絡對其進行編碼;其次利用分段膨脹卷積神經(jīng)網(wǎng)絡和實體注意力機制對句子進行編碼;最后結(jié)合上述編碼信息進行分類預測。在公開數(shù)據(jù)集NYT10上,相較于主流最優(yōu)模型在Hits@10、Hits@15和Hits@20上分別提高了約0.6%、1.5%和2.6%,證明了實體類型和關(guān)系之間的約束信息對遠程監(jiān)督長尾關(guān)系抽取的重要性。
關(guān)鍵詞: 關(guān)系抽??; 遠程監(jiān)督; 長尾分布; 約束圖; 深度學習; 知識圖譜; 注意力機制; 膨脹卷積
中圖分類號: TN911?34; TP391.1 " " " " " " " " "文獻標識碼: A " " " " " " " " " " 文章編號: 1004?373X(2024)21?0091?06
Distantly?supervised long?tailed relation extraction based on constraint graph
ZHANG Wanli1, TONG An2, LI Wenqiao2
(1. Unit 93209 of PLA, Beijing 100085, China; 2. Computer School, Beijing Information Science and Technology University, Beijing 100101, China)
Abstract: In the relation extraction task, the relationship information of entity pairs can be extracted from unstructured text. The relation extraction task is the core task of information extraction. Remote supervision can reduce labor costs and pressure by constructing training data automatically. However, the data imbalance occurs to the original corpus itself, which leads to the long?tailed distribution. In view of this, a distantly?supervised long?tailed relation extraction method on the basis of constraint graph is proposed based on the idea of multiple instance learning. A constraint graph is constructed based on the ontology structure of the knowledge graph, and then the constraint graph is encoded by a graph convolutional network (GCN). The sentences are encoded with segmented dilation CNN and entity attention mechanism. Classification prediction are implemented based on the above coded information. On the public dataset NYT10, the Hits@10, Hits@15 and Hits@20 of the proposed model are improved by approximately 0.6%, 1.5% and 2.6%, respectively, in comparison with those of the mainstream optimal models. It is proved that the constraint information between entity types and relations is important for distantly?supervised long?tailed relation extraction.
Keywords: relation extraction; distantly?supervision; long?tailed distribution; constraint graph; deep learning; knowledge graph; attention mechanism; dilation convolution
0 "引 "言
關(guān)系抽?。≧elation Extraction, RE)旨在從無規(guī)則的文本數(shù)據(jù)中提取出結(jié)構(gòu)化知識三元組,通過lt;實體1,關(guān)系,實體2gt;的三元組形式存儲展示,可以為知識圖譜構(gòu)建等下游任務做準備。長尾關(guān)系是指在遠程監(jiān)督關(guān)系抽取數(shù)據(jù)集中示例樣本數(shù)較少的關(guān)系類別。這類關(guān)系大多較為特殊或過于專業(yè)化,導致包含這些關(guān)系的原始語料數(shù)量較少,使得數(shù)據(jù)集中該關(guān)系的示例難以較為全面的表達全部特征。
基于深度學習的遠程監(jiān)督關(guān)系抽取方法可以利用大規(guī)模的知識庫進行訓練,從而可以快速擴展到新的關(guān)系類型和領域。深度學習模型具有很強的表征能力和自適應能力,可以有效地提取實體和關(guān)系之間的語義信息,從而提高遠程監(jiān)督關(guān)系抽取的準確性。文獻[1]提出遠程監(jiān)督的思想來解決有監(jiān)督關(guān)系抽取數(shù)據(jù)集嚴重缺乏的問題,利用關(guān)系信息較為完善的知識圖譜對語料集快速進行標注,并對構(gòu)建的數(shù)據(jù)集進行關(guān)系分類。文獻[2]通過構(gòu)建大規(guī)模的關(guān)系抽取系統(tǒng)以覆蓋語言變化的實際范圍,學習基于語法的關(guān)系抽取規(guī)則,使用高效的依賴解析器快速學習實體關(guān)系規(guī)則特征,并基于學習到的規(guī)則信息進行關(guān)系抽取,雖最終模型效果較好,但過高的時間和經(jīng)濟成本背離了遠程監(jiān)督關(guān)系抽取任務的初衷。文獻[3]為充分利用知識圖譜中的有用知識,提出一種新的基于雙向知識蒸餾的關(guān)系抽取模型,使用兩個神經(jīng)網(wǎng)絡分別在文本語料庫和知識圖譜領域進行學習,通過協(xié)同使用不同信息源,緩解遠程監(jiān)督關(guān)系提取任務中的噪聲標簽問題。文獻[4]利用示例數(shù)據(jù)較為豐富的頭部關(guān)系知識來提高尾部關(guān)系抽取的性能,從知識圖嵌入中利用類別標簽之間的隱式關(guān)系知識,并使用圖卷積網(wǎng)絡學習顯式關(guān)系知識,通過從粗到細的知識感知注意力機制將關(guān)系知識整合到關(guān)系提取模型中。文獻[5]提出一種基于動態(tài)關(guān)系抽取神經(jīng)網(wǎng)絡的關(guān)系抽取模型,采用一種新穎的動態(tài)參數(shù)生成器,動態(tài)設計有利于不同實體類型下關(guān)鍵詞變化引起的潛在風格轉(zhuǎn)變,同時融合可以跨不同關(guān)系類進行訓練的實體類型信息,進行長尾關(guān)系抽取。文獻[6]為將小樣本學習應用于遠程監(jiān)督關(guān)系抽取領域,基于Wikipedia構(gòu)建了小樣本關(guān)系抽取數(shù)據(jù)集FewRel,并采用最新最先進的小樣本學習方法進行關(guān)系分類。文獻[7]認為FewRel數(shù)據(jù)集的語料均來自同一個領域,不符合實際的需求,因此在文學、金融和醫(yī)學等領域進行少量學習,并提出了關(guān)系抽取數(shù)據(jù)集FewRel2.0。文獻[8]認為在基于文本的小樣本學習場景中,并不是所有的實例對關(guān)系原型的貢獻都相等,通過使用上下文注意力機制,為實例分配權(quán)重以突出實例在關(guān)系原型下的重要性,來緩解原型偏離問題。文獻[9]提出的一種基于句子級別注意力的關(guān)系抽取模型,使用卷積神經(jīng)網(wǎng)絡嵌入句子的語義,通過在多個實例上構(gòu)建句子級別的注意力來降低噪聲實例的權(quán)重。文獻[10]提出一種基于解釋學習的方法,能夠利用無標簽數(shù)據(jù)有效地學習關(guān)系抽取規(guī)則。Jat等人提出協(xié)作關(guān)系增強注意力模型[11],以同時處理錯誤標記和長尾關(guān)系,在關(guān)系增強注意力網(wǎng)絡的基礎上,在層次結(jié)構(gòu)中引入關(guān)系間共享的合作關(guān)系特征,以促進關(guān)系增強過程,并平衡長尾關(guān)系的訓練數(shù)據(jù)。文獻[12]提出一種從未標注文本中學習關(guān)系原型的通用方法,通過從具有充足訓練數(shù)據(jù)的關(guān)系類型中遷移知識來促進長尾關(guān)系抽取。文獻[13]提出一種基于路徑搜索的長尾關(guān)系抽取模型,它將關(guān)系抽取視作在關(guān)系層次樹上的路徑搜索任務。
然而,上述方法致力于更好地利用數(shù)據(jù)集本身或使用其他外部知識來提高模型泛化能力,沒有結(jié)合實體類型與關(guān)系的約束信息。因此,本文創(chuàng)新性地使用約束圖來補充實體類型與關(guān)系的約束信息。首先,利用圖卷積神經(jīng)網(wǎng)絡(Graph Convolutional Network, GCN)的鄰居聚合機制來促進不同關(guān)系節(jié)點之間的信息傳播;其次,使用PDCNN對句子進行編碼,分段卷積操作可以更好地捕捉實體的上下文信息和特征,膨脹卷積網(wǎng)絡可以捕捉到更多的句子特征;然后,引入實體注意力機制,獲得句子的特征表示;最后,將PDCNN和實體注意力模塊的句子編碼相加,融合約束圖信息,對句子進行分類預測,提高長尾關(guān)系抽取的準確率。
1 "基于約束圖的長尾關(guān)系抽取模型
1.1 "約束圖
約束圖是一種新型關(guān)系依賴結(jié)構(gòu)[14],它借助關(guān)系與實體類型的約束信息來顯式地建模關(guān)系依賴路徑。約束圖示例如圖1所示,每個有向邊均是由關(guān)系節(jié)點到實體類型節(jié)點或是從實體類型的節(jié)點到關(guān)系節(jié)點。約束圖的構(gòu)建依托于知識圖譜本體結(jié)構(gòu),舍棄本體結(jié)構(gòu)中的屬性等無關(guān)信息,只保留實體類型和關(guān)系。約束圖中每一條邊均表示在知識圖譜中,該邊代表的關(guān)系至少有一條示例數(shù)據(jù)。約束圖不包含實體關(guān)系的示例數(shù)據(jù),只包含實體類型和關(guān)系之間的約束關(guān)系,使得圖形結(jié)構(gòu)較為簡單,容易對其進行建模,且建模結(jié)果的向量表示更小。
1.2 "模型架構(gòu)
搜索實體類型與關(guān)系之間的約束信息和句子中單詞蘊含的潛在信息對于提高模型在長尾關(guān)系抽取任務上的表現(xiàn)十分重要。本節(jié)將對基于約束圖的遠程監(jiān)督長尾關(guān)系抽取方法做詳細的介紹,提出了模型的整體框架如圖2所示。
1) 圖編碼器:圖編碼器負責從約束圖中抽取出關(guān)系和實體類型的向量表示。給定一個約束圖[G={ν,ε}],圖編碼器首先將其中的每個節(jié)點轉(zhuǎn)換為嵌入向量形式,然后使用圖卷積神經(jīng)網(wǎng)絡[15](GCN)提取出約束圖中每個關(guān)系節(jié)點和實體類型節(jié)點的向量表示。
2) 句子編碼器:將“詞嵌入?位置嵌入?詞性嵌入”進行拼接得到句子的嵌入表示,經(jīng)過膨脹卷積和分段卷積等操作,獲得更合理的句子向量表示。
3) 實體注意力模塊:輸入與句子編碼器相同,利用額外實體信息有助于縮小關(guān)系的可能性,通過生成不同實體對關(guān)系的注意力分數(shù),采用分段池化方法對注意力加權(quán)詞嵌入進行池化,生成句子向量表示。
4) 分類層:將句子編碼器和實體注意力模塊所生成的句子向量表示相加,并融合約束圖中的約束信息,以句子包為整體,進行關(guān)系預測。
1.3 "圖編碼器
約束圖[G]由邊集[ν]和節(jié)點集[ε]組成,節(jié)點之間通過有向的箭頭相連。首先為每個節(jié)點根據(jù)與邊集的相連情況構(gòu)建鄰接矩陣[A∈Rn×nn=ν],構(gòu)建過程如式(1)所示:
[Aij=1, " " νi,νj∈ε0, " " "otherwise] (1)
式中:[νi]和[νj]是邊集中的兩條邊,隨機為其初始化一個維度為[dv]的嵌入向量[ν(0)i]。約束圖的簡單嵌入包含一個嵌入矩陣[V(0)={ν(0)1,ν(0)2,…,ν(0)n}]和一個鄰接矩陣[A]。
將約束圖嵌入表示作為GCN的輸入,獲得其在第[k]層中對于第[i]個節(jié)點的向量表示,如式(2)所示:
[νki=ρj=1nAijWkνk-1j+bk] (2)
式中:[W(k)]表示第[k]層的權(quán)重矩陣;[b(k)]為第[k]層的偏置向量;[ρ(?)]表示非線性函數(shù)tanh。GCN的輸出結(jié)果是一個矩陣[V(2)∈Rn×dh],每行均為一個節(jié)點的抽象表示,其中[dh]為句子向量的維度。
約束圖的矩陣包括實體節(jié)點和關(guān)系節(jié)點的抽象表示,按照節(jié)點類型的不同,對[V(2)]進行分割,得到關(guān)系表示[R∈Rnr×dh]和實體類型表示[T∈Rnt×dh]。
最后,將關(guān)系[ri]的向量表示[Ri]和兩個實體類型的向量表示[Te1ri]和[Te2ri]進行拼接,得到最終的向量表示,如式(3)所示:
[Ci=Ri;Te1ri;Te2ri∈R3dh] (3)
1.4 nbsp;句子編碼器
句子編碼器利用分段膨脹卷積神經(jīng)網(wǎng)絡[16]對句子進行編碼。模型輸入為由“詞嵌入?位置嵌入?詞性嵌入”進行拼接得到的句子表示。首先根據(jù)兩個實體的位置,將句子分割為三部分,對每一部分的句子詞嵌入[xi]進行膨脹卷積操作,再對齊進行最大池化操作,降低向量維度,通過tanh函數(shù)得到句子最終的特征抽取向量表示[Xi]。
模型將句子按實體位置劃分為三個部分,即頭實體前、頭尾實體之間和尾實體后,并針對每一部分分別采用膨脹卷積的方式來提取語義信息。膨脹卷積核尺寸[K]的計算方法如式(4)如示:
[K=k+k-1×rate-1] (4)
式中:[k]表示默認的膨脹卷積核大?。籟rate]表示空洞大小。句子詞嵌入[xi]經(jīng)過膨脹卷積處理以后,向量矩陣融合了更多的特征信息,矩陣大小如式(5)所示:
[Wout=Win+2×padding-Kstride-1] (5)
式中:[Wout]表示膨脹卷積后輸出的詞向量矩陣大小;[Win]表示詞嵌入[xi]的矩陣大小;[padding]表示補齊操作中補充0的個數(shù);[stride]表示卷積核每次移動的步長。
由于分段卷積操作對句子進行了分割,導致需要對[dc1]、[dc2]、[dc3]三個部分分別進行最大值池化,降低整個句子的向量維度,如公式(6)所示:
[q1i=max1≤j≤d1?cijq2i=maxl1+1≤j≤d2?cijq3i=maxl2+1≤j≤d3?cij] (6)
式中,[1≤i≤m],[m]為卷積核個數(shù)。經(jīng)過池化操作后,三個向量的維度依然保持一致,根據(jù)分段卷積神經(jīng)網(wǎng)絡的思想,將其進行拼接,得到句子整體的向量表示結(jié)果,然后使用tanh函數(shù)進行非線性變換,得到最終的句子特征抽取向量表示,如公式(7)所示:
[Xi=ρq1:m∈R3dh] (7)
式中:[q1:m]表示從[q1]~[qm]的拼接向量;[Xi]為句子最終的高維特征向量表示。
最后,將句子的向量表示[Xi]和兩個實體類型表示[Te1si]和[Te2si]進行拼接,得到本模塊的最終輸出,如式(8)所示:
[Gi=Xi;Te1si;Te2si∈R3dh] (8)
1.5 "實體注意力模塊
在遠程監(jiān)督關(guān)系抽取任務中,實體附近的單詞蘊含著一定的信息,這種額外的信息限定了關(guān)系的可能性,對遠程監(jiān)督關(guān)系抽取任務具有極大的幫助。實體注意力(Entity Attention, EA)模型[17]是一種用于處理關(guān)系抽取任務的深度學習模型,它旨在對文本中的實體進行建模和理解,從而提高文本理解和信息提取的準確性。
給定一個句子集[Sq={s1,s2,…,sn}]和實體對[ej, j∈[1,2]]。一個句子有[k]個單詞[xi,i∈[1,k]],其中,每個[xi∈R1×d]是一個詞嵌入,[{eemb1,eemb2}]是兩個實體的嵌入表示。第[j]個單詞相對于第[k]個實體的實體特定注意力[ei, j]的計算如式(9)所示:
[ei, j=xi,eembj×Ak×rk, " i∈1,k, j∈1,2] (9)
式中:[[xi,eembj]]是單詞和實體的拼接表示;[Ak]和[rk]是學習參數(shù)。雙線性算子[Ak]決定關(guān)系向量[rk]的詞嵌入和實體嵌入的相關(guān)性。直觀來說,對于給定的關(guān)系,應該更加關(guān)注與實體相關(guān)的詞語。[ei, j]使用Softmax函數(shù)進行歸一化,生成給定單詞的注意力分數(shù)[ai, j]如式(10)所示:
[ai, j=expei, jl=1Mei,l] (10)
式中[ai, j]與每個詞的詞嵌入進行元素積后得到加權(quán)的詞嵌入[ci, j]。最后采用分段池化方法對注意力加權(quán)詞嵌入進行池化,生成句子嵌入表示[Sea]。
1.6 "分類層
句子編碼器和實體注意力模型分別得到了句子的向量表示[Gi]和[Sea],將兩個向量表示直接進行相加,同時融合PDCNN和EA模型的向量特征表示,得到最終的句子向量表示如式(11)所示:
[Qi=Gi+Sea] (11)
圖編碼器將實體類型和關(guān)系的約束關(guān)系編碼成向量表示,需要將關(guān)系[r]的約束表示[Cr]與句子的向量表示[Qi]相融合,獲得關(guān)系[r]在句中的嵌入表示[ei]。模型以包為整體進行輸入,計算包中第[i]條句子對關(guān)系[r]的注意力分數(shù),如式(12)所示:
[αi=expeij=1Bexpej] (12)
獲取到包內(nèi)所有句子對關(guān)系[r]的注意力分數(shù)以后,與句子向量表示相乘,得到該句子的示例表示,然后對包內(nèi)所有句子進行加權(quán)和,如式(13)所示:
[z=i=1BαiQi] (13)
計算句子包對關(guān)系分類結(jié)果的向量表示,如式(14)所示:
[oi=Wizi+bi] (14)
式中:[Wi]表示關(guān)系類別對于句子示例表示的權(quán)重矩陣;[bi]表示偏移量。通過Softmax函數(shù)計算每個關(guān)系的條件概率,如式(15)所示:
[PiM,θ=expoik=1nrexpok] (15)
式中:[i∈(1,2,…,nr)],[nr]表示關(guān)系數(shù)量;[M]表示所有句子的集合。
為了訓練出多個關(guān)系類別抽取的最佳模型,本文模型研究的目標函數(shù)選用交叉熵損失函數(shù),其具體定義如式(16)所示:
[Jθ=-i=1klogiM,θ] (16)
式中[θ]是訓練得到的參數(shù),通過反向傳播算法計算得到的參數(shù)梯度會被用來更新優(yōu)化參數(shù)。在所有預測關(guān)系中,利用argmax函數(shù)計算概率最高的關(guān)系作為最終的預測結(jié)果,如式(17)所示:
[ri=argmax PiM,θ] (17)
2 "實驗與分析
2.1 "數(shù)據(jù)集
本文研究使用的數(shù)據(jù)集為遠程監(jiān)督關(guān)系抽取領域最常用的數(shù)據(jù)集,該數(shù)據(jù)集由Riedel等人于2010年提出。其文本來源于《紐約時報》所標注的語料,包含超過170萬篇新聞文章和400萬個實體之間的關(guān)系,涵蓋了不同類型的實體,包括人、組織、地點、工作、電影等。其中,涉及到的關(guān)系包括常見的家庭成員、就職、成立、出生地等,以及一些特殊關(guān)系,如“被任命為”的關(guān)系。表1展示了該數(shù)據(jù)集的數(shù)量統(tǒng)計情況。
2.2 "實驗設置
該實驗的訓練與測試均在Ubuntu 18.04的操作系統(tǒng)上運行,使用的CPU為Intel[?] Xeon[?] Platinum 8358P CPU@2.60 GHz,GPU為NVIDIA GeForce RTX 3090,Python版本為3.8,并基于PyTorch 1.11.0版本的深度學習框架,CUDA版本為11.6。
在圖編碼器階段,采用預訓練模型Word2Vec[18]對詞嵌入進行初始化。如果實體名由多個詞組成,則這些詞將被組合成一個詞進行處理。在網(wǎng)絡的其余部分中,所有嵌入矩陣和權(quán)重矩陣都采用Xavier初始化方法[19],偏置向量默認初始化為0。
詞向量的訓練在句子編碼器階段進行,采用Word2Vec模型的Skip Gram+負采樣方法。為避免過擬合,模型在分類層之前均使用了Dropout策略[20]。經(jīng)過多次實驗驗證后,模型的最終超參數(shù)設置如表2所示。
2.3 "實驗結(jié)果分析
2.3.1 "模型對比實驗
為了驗證基于約束圖與實體注意力的長尾關(guān)系抽取(CGEA)模型在長尾關(guān)系抽取領域的效果,選擇了9種遠程監(jiān)督關(guān)系抽取模型與本文所提出的CGEA模型進行對比實驗。本文將上述模型針對NYT10數(shù)據(jù)集進行復現(xiàn),并與CGEA模型進行對比。關(guān)系抽取模型的Hits@[k]指標對比結(jié)果如表3所示。
CGRE和CGEA均使用了實體類型與關(guān)系之間的約束作為句子的外部知識,相較于關(guān)系層次樹,在Hits@[k]上明顯領先于其他模型。句子包中由實體類型與關(guān)系類型不匹配的問題引發(fā)了一定的噪聲問題,約束信息不僅去除了這部分噪聲對抽取結(jié)果的不利影響,而且熱門關(guān)系在向量表示層面上的知識遷移可以幫助完善長尾關(guān)系的向量表示。實驗證明了約束圖對于長尾關(guān)系抽取問題具有一定的幫助作用。但本文的CGEA模型通過結(jié)合使用PDCNN和EA模型,將PDCNN作為預訓練模型為EA提供更準確的特征表示和上下文信息,可以獲得更全面和準確的關(guān)系抽取結(jié)果。NYT10數(shù)據(jù)示例如圖3所示。
如圖3所示,在NYT10數(shù)據(jù)集中的一條數(shù)據(jù)除了頭實體以及尾實體,正確關(guān)系為PLACE_OF_DEATH,CGEA采用雙重卷積核結(jié)構(gòu),對輸入特征進行卷積后,通過偏置項的引入以及Sigmoid函數(shù)的非線性轉(zhuǎn)換,使得輸出特征圖具有更高的稀疏性和更高的對比度,這種結(jié)構(gòu)優(yōu)化有助于提升模型的性能,使句子特征提取更加合理,最終正確識別出關(guān)系為PLACE_OF_DEATH。而CGRE則因為句子編碼器僅由PCNN構(gòu)成,僅根據(jù)句子結(jié)構(gòu)和關(guān)鍵詞的位置提取關(guān)系,對句子的信息提取效果不佳,導致關(guān)系錯誤提取為CAUSE_OF_DEATH。
2.3.2 "消融實驗
為進一步驗證CGEA模型中不同部件對長尾關(guān)系抽取任務的貢獻和影響,本文針對基準模型——CGRE進行了消融實驗,分別探究了使用PDCNN的影響和實體注意力機制對模型效果的影響。CGRE模型首次在遠程監(jiān)督關(guān)系抽取領域提出約束圖的概念,并用GCN對約束圖進行編碼,使用PCNN對句子進行編碼,最后使用約束感知注意力模塊對圖編碼器和句子編碼器的結(jié)果進行結(jié)合,得到最終的關(guān)系抽取結(jié)果。CGRE+PDCNN是指把CGRE的句子編碼器從PCNN替換為PDCNN。CGRE+EA是指在CGRE的基礎上融合實體注意力機制。關(guān)系抽取模型的Hits@[k]指標對比結(jié)果如表4所示。
CGEA模型相比CGRE、CGRE+PDCNN和CGRE+EA模型在Hits@[k]指標上均有提升,表明了PDCNN模塊和EA模塊均對長尾關(guān)系抽取任務有著積極的幫助。DCNN模型在膨脹卷積操作的影響下,為句子保留了更多的特征信息,而實體注意力模型則可以通過賦予影響關(guān)鍵單詞更高的權(quán)重來獲得更合理的句子向量表示,從而提升關(guān)系抽取任務整體的性能。
綜上所述,CGEA模型相較于其他遠程監(jiān)督長尾關(guān)系抽取模型更能保證模型預測的準確性,符合實際應用的要求。
3 "結(jié) "語
針對遠程監(jiān)督導致的長尾分布問題,本文提出一種基于約束圖的遠程監(jiān)督長尾關(guān)系抽取模型,該模型充分利用了不同關(guān)系和實體類型之間的約束關(guān)系和句子中單詞蘊含的潛在信息。此方法在NYT10數(shù)據(jù)集上取得了較優(yōu)的效果,證明了約束圖對于彌補長尾關(guān)系數(shù)據(jù)匱乏的現(xiàn)狀有一定的幫助,在一定程度上提高了關(guān)系抽取的準確率。后續(xù)工作可以考慮利用知識圖譜實體的相關(guān)屬性信息進一步增強實體表示效果,以提高模型的魯棒性。
參考文獻
[1] MINTZ M, BILLS S, SNOW R, et al. Distant supervision for relation extraction without labeled data [C]// Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. [S.l.]: ACL, 2009: 1003?1011.
[2] KRAUSE S, LI H, USZKOREIT H, et al. Large?scale learning of relation?extraction rules with distant supervision from the web [C]// Proceedings of the 11th International Semantic Web Conference. Heidelberg: Springer, 2012: 263?278.
[3] LEI K, CHEN D Y, LI Y L, et al. Cooperative denoising for distantly supervised relation extraction [C]// Proceedings of the 27th International Conference on Computational Linguistics. [S.l.]: ACL, 2018: 426?436.
[4] ZHANG N Y, DENG S M, SUN Z L, et al. Long?tail relation extraction via knowledge graph embeddings and graph convolution networks [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). [S.l.]: ACL, 2019: 3016?3025.
[5] GOU Y J, LEI Y J, LIU L Q, et al. DNNRE: A dynamic neural network for distant supervised relation extraction [EB/OL]. [2023?03?04]. http://arxiv.org/abs/1911.06489.
[6] HAN X, ZHU H, YU P F, et al. FewRel: A large?scale supervised few?shot relation classification dataset with state?of?the?art evaluation [C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. [S.l.]: ACL, 2018: 4803?4809.
[7] GAO T Y, HAN X, ZHU H, et al. FewRel 2.0: Towards more challenging few?shot relation classification [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. [S.l.]: ACL, 2019: 6249?6254.
[8] HUI B, LIU L, CHEN J, et al. Few?shot relation classification by context attention?based prototypical networks with BERT [J]. EURASIP journal on wireless communications and networking, 2020(1): 118.
[9] LIN Y K, SHEN S Q, LIU Z Y, et al. Neural relation extraction with selective attention over instances [C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). [S.l.]: ACL, 2016: 2124?2133.
[10] GUI Y C, LIU Q, ZHU M, et al. Exploring long tail data in distantly supervised relation extraction [C]// Processing of the National Language Understanding and Intelligent Applications. Heidelberg: Springer, 2016: 514?522.
[11] JAT S, KHANDELWAL S, TALUKDAR P P. Improving distantly supervised relation extraction using word and entity based attention [EB/OL]. [2018?04?19]. https://arxiv.org/abs/1804.06987.
[12] CAO Y, KUANG J, GAO M, et al. Learning relation prototype from unlabeled texts for long?tail relation extraction [J]. IEEE transactions on knowledge and data engineering, 2023, 35(2): 1761?1774.
[13] WANG J. RH?Net: Improving neural relation extraction via reinforcement learning and hierarchical relational searching [EB/OL]. [2020?10?27]. https://arxiv.org/abs/2010.14255.
[14] 梁天銘.遠程監(jiān)督長尾關(guān)系抽取研究[D].哈爾濱:哈爾濱工業(yè)大學,2021.
[15] KIPF T N, WELLING M. Semi?supervised classification with graph convolutional networks [EB/OL]. [2019?06?25]. https://openreview.net/forum?id=SJU4ayYgl.
[16] 金軸,李成軍,劉旭波.基于深度學習的軍事領域?qū)嶓w關(guān)系抽取研究[J].航天電子對抗,2022,38(5):32?36.
[17] SHEN Y T, HUANG X J. Attention?based convolutional neural network for semantic relation extraction [C]// Proceedings of the Conference on International Conference on Computational Linguistics. [S.l.]: ACL, 2016: 2526?2536.
[18] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. [S.l.: s.n.], 2013: 3111?3119.
[19] GLOROT X, BENGIO Y. Understanding the difficulty of training deep feedforward neural networks [J]. Journal of machine learning research, 2010, 9: 249?256.
[20] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: A simple way to prevent neural networks from overfitting [J]. Journal of machine learning research, 2014, 15(1): 1929?1958.
作者簡介:張萬里(1977—),男,河南上蔡人,副研究員,主要研究領域為信息處理。
佟 "安(1998—),男,河北保定人,碩士研究生,主要研究領域為知識圖譜。
李文橋(1999—),女,甘肅武威人,碩士研究生,主要研究領域為圖像處理。