許浩亮 李雁群 何云琪 錢(qián)龍華
蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 蘇州 215006; ? 通信作者, E-mail: qianlonghua@suda.edu.cn
信息抽取的目的是從無(wú)結(jié)構(gòu)的自由文本中抽取實(shí)體及其相互關(guān)系, 并轉(zhuǎn)化為結(jié)構(gòu)化表達(dá)形式, 從而為知識(shí)庫(kù)的構(gòu)造提供數(shù)據(jù)基礎(chǔ)[1-2]。命名實(shí)體間語(yǔ)義關(guān)系抽取(簡(jiǎn)稱(chēng)關(guān)系抽取)指從文本中提取實(shí)體間的語(yǔ)義關(guān)系。關(guān)系抽取研究對(duì)自然語(yǔ)言處理(如問(wèn)答系統(tǒng)、文檔摘要、知識(shí)庫(kù)、本體庫(kù)等)具有重要的意義。
近十幾年來(lái), 得益于基準(zhǔn)語(yǔ)料庫(kù)(如 ACE[3],SemEval[4])的出現(xiàn), 關(guān)系抽取的研究取得長(zhǎng)足的進(jìn)步。無(wú)論是傳統(tǒng)的機(jī)器學(xué)習(xí)方法[5-6], 還是近年來(lái)流行的深度學(xué)習(xí)方法[7-10], 關(guān)系抽取研究都成為機(jī)器學(xué)習(xí)算法的試金石。但是, 目前語(yǔ)料庫(kù)中定義的實(shí)體大部分是單一層次的簡(jiǎn)單實(shí)體(如 ACE), 抽取的關(guān)系也限于簡(jiǎn)單實(shí)體之間。雖然有一些生物醫(yī)學(xué)領(lǐng)域的嵌套實(shí)體語(yǔ)料庫(kù)[11], 但是沒(méi)有定義這些嵌套實(shí)體內(nèi)部的語(yǔ)義關(guān)系。另一方面, 由于嵌套實(shí)體含豐富的實(shí)體信息及實(shí)體間相互關(guān)系, 提取這些嵌套實(shí)體之間的語(yǔ)義關(guān)系有助于豐富知識(shí)庫(kù)的內(nèi)容。
針對(duì)上述情況, 本文在《人民日?qǐng)?bào)》中文實(shí)體語(yǔ)料庫(kù)的基礎(chǔ)上, 通過(guò)自動(dòng)生成和手工標(biāo)注, 構(gòu)建一個(gè)中文嵌套實(shí)體語(yǔ)料庫(kù), 并進(jìn)一步標(biāo)注嵌套實(shí)體內(nèi)部的語(yǔ)義關(guān)系, 然后在該語(yǔ)料上分別使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法, 進(jìn)行嵌套實(shí)體關(guān)系抽取實(shí)驗(yàn)。
目前, 關(guān)系抽取研究中常用的語(yǔ)料庫(kù)有 ACE 語(yǔ)料庫(kù)和 SemEval 2010 語(yǔ)料庫(kù)。ACE 2005 語(yǔ)料庫(kù)標(biāo)注了實(shí)體及其相互間語(yǔ)義關(guān)系, 實(shí)體類(lèi)型分為 7 類(lèi)(如PER, ORG, GPE 等), 語(yǔ)義關(guān)系則有 6 個(gè)大類(lèi)(如PART-WHOLE, ORG-AFF, GEN-AFF.等), 并可細(xì)化為 18 個(gè)小類(lèi)。該語(yǔ)料標(biāo)注的是單一層次的簡(jiǎn)單實(shí)體, 語(yǔ)義關(guān)系也是發(fā)生在簡(jiǎn)單實(shí)體之間。SemEval 2010 標(biāo)注的都是句子中的名詞對(duì), 而非實(shí)體對(duì)之間的語(yǔ)義關(guān)系, 共有 10 類(lèi), 其中有 1 個(gè)類(lèi)型不區(qū)分關(guān)系論元的先后。
目前, 沒(méi)有被廣泛認(rèn)可的中文嵌套命名實(shí)體語(yǔ)料庫(kù)。中文命名實(shí)體語(yǔ)料有來(lái)源廣泛的 MSRA 語(yǔ)料、新聞?lì)I(lǐng)域的 1998年 1 月份《人民日?qǐng)?bào)》語(yǔ)料。由于《人民日?qǐng)?bào)》語(yǔ)料中包含部分嵌套命名實(shí)體的標(biāo)注信息, 所以中文嵌套實(shí)體識(shí)別研究大都基于《人民日?qǐng)?bào)》語(yǔ)料。但是, 這些實(shí)體標(biāo)注信息并不完整, 存在漏標(biāo)現(xiàn)象, 更沒(méi)有標(biāo)注嵌套實(shí)體之間的語(yǔ)義關(guān)系, 如“[中共中央/nt 臺(tái)灣/ns 工作/vn 辦公室/n]nt”轉(zhuǎn)換為嵌套結(jié)構(gòu)“[[中共中央]nt [臺(tái)灣]ns 工作辦公室]nt”①嵌套實(shí)體的類(lèi)型標(biāo)注采用《人民日?qǐng)?bào)》語(yǔ)料的格式, 即 nr 表示人名, ns表示地名, nt表示組織名。, 漏標(biāo)“[中共]nt”這個(gè)實(shí)體。
傳統(tǒng)的關(guān)系抽取方法可以分為基于特征向量的方法和基于核函數(shù)的方法, 前者包括最大熵模型(MaxEnt)[5]和支持向量機(jī)(SVM)[6], 后者有基于依存路徑[12]和基于句法樹(shù)[13-15]的兩種方法。近年來(lái), 神經(jīng)網(wǎng)絡(luò)模型在語(yǔ)義關(guān)系抽取研究中廣泛應(yīng)用, 如卷積神經(jīng)網(wǎng)絡(luò)(CNN)[7-8]模型、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型(Bi-LSTM)[9]以及 CNN 和 LSTM 相混合的模型[10],這些模型能較好地捕獲關(guān)系實(shí)例表達(dá)的語(yǔ)義信息。
根據(jù)命名實(shí)體中是否包含其他實(shí)體, 可以將命名實(shí)體分為簡(jiǎn)單命名實(shí)體和嵌套命名實(shí)體。簡(jiǎn)單實(shí)體指內(nèi)部不包含其他實(shí)體的實(shí)體, 其實(shí)體層次是單一的, 如“[北京]ns”表示一個(gè)地名實(shí)體。嵌套實(shí)體指實(shí)體內(nèi)部嵌套一個(gè)或多個(gè)命名實(shí)體, 這種嵌套可以是多層次的, 嵌套實(shí)體主要存在于地名和機(jī)構(gòu)名實(shí)體中。嵌套在里面的實(shí)體稱(chēng)為內(nèi)部實(shí)體, 最外層的實(shí)體稱(chēng)為外部實(shí)體, 如外部實(shí)體“[[[中共]nt [北京]ns 市委]nt 宣傳部]nt”包含“[中共]nt”、“[北京]ns”和“[中共北京市委]nt”等3個(gè)內(nèi)部實(shí)體。
嵌套實(shí)體關(guān)系指實(shí)體內(nèi)部嵌套實(shí)體之間的語(yǔ)義關(guān)系, 如嵌套命名實(shí)體“[[[中共]nt [北京]ns 市委]nt 宣傳部]nt”中, 就包含著多個(gè)語(yǔ)義關(guān)系, 即“[中共北京市委宣傳部]nt”隸屬于“[中共北京市委]nt”, 而后者又隸屬于“[中共]nt”, 且位于“[北京]ns”。從這個(gè)例子可以看出, 結(jié)構(gòu)復(fù)雜的嵌套實(shí)體中蘊(yùn)含豐富的語(yǔ)義關(guān)系。
《人民日?qǐng)?bào)》語(yǔ)料含有部分嵌套實(shí)體的標(biāo)注信息, 為了減少標(biāo)注工作量, 本文將其作為構(gòu)建嵌套命名實(shí)體關(guān)系語(yǔ)料庫(kù)的基礎(chǔ), 并采用半自動(dòng)的方式進(jìn)行標(biāo)注, 具體過(guò)程包含兩個(gè)步驟。
1)嵌套命名實(shí)體的標(biāo)注。首先自動(dòng)提取語(yǔ)料中已經(jīng)標(biāo)注的部分嵌套實(shí)體信息, 然后人工標(biāo)注漏掉的嵌套實(shí)體。為了減少重復(fù)工作, 標(biāo)注對(duì)象是實(shí)體而不是一個(gè)實(shí)體的多個(gè)引用。如嵌套實(shí)體“[中共/j 北京/ns 市委/n 宣傳部/n]nt”經(jīng)提取后變成兩層嵌套實(shí)體“[中共 [北京]ns 市委宣傳部]nt”, 但是這其中還漏掉部分實(shí)體, 因此還需要人工調(diào)整為完整的嵌套實(shí)體“[[[中共]nt [北京]ns 市委]nt 宣傳部]nt”。
2)嵌套實(shí)體關(guān)系的標(biāo)注。在上述《人民日?qǐng)?bào)》嵌套命名實(shí)體語(yǔ)料庫(kù)的基礎(chǔ)上, 人工標(biāo)注嵌套命名實(shí)體之間的語(yǔ)義關(guān)系。語(yǔ)義關(guān)系類(lèi)型參考 ACE RDC 2005 中文語(yǔ)料的關(guān)系類(lèi)型體系, 只不過(guò)關(guān)系類(lèi)型數(shù)量要少得多。例如嵌套實(shí)體“[[[中共]nt [北京]ns 市委]nt 宣傳部]nt”中, “中共”和“中共北京市委”存在語(yǔ)義關(guān)系“Part-Whole.Subsidiary”, 即屬于部分整體關(guān)系(“Part-Whole”)中的隸屬子關(guān)系“Subsidiary”。
為了衡量語(yǔ)料庫(kù)標(biāo)注的一致性, 我們安排兩名志愿者同時(shí)進(jìn)行標(biāo)注。標(biāo)注分兩個(gè)階段進(jìn)行, 第一階段, 兩名志愿者經(jīng)過(guò)初步培訓(xùn)后對(duì)語(yǔ)料庫(kù)進(jìn)行標(biāo)注; 然后比較他們之間的差異, 重新調(diào)整標(biāo)注要求,再進(jìn)行第二階段的標(biāo)注調(diào)整, 調(diào)整結(jié)束后計(jì)算最終一致性。采用常規(guī)的P,R和 F1 指數(shù)來(lái)評(píng)估語(yǔ)料庫(kù)標(biāo)注的一致性, 其中,P為準(zhǔn)備率,R為召回率, F1 為兩者的調(diào)和平均。
對(duì)于嵌套實(shí)體標(biāo)注而言, 第一階段標(biāo)注的一致性結(jié)果P,R和 F1 分別為 92.5%, 93.4%和 93.0%, 兩名志愿者的差異主要體現(xiàn)在對(duì)地名的嵌套結(jié)構(gòu)理解不一致; 第二階段標(biāo)注的一致性結(jié)果P,R和 F1 分別為 99.2%, 99.3%和 99.3%。對(duì)于嵌套實(shí)體關(guān)系標(biāo)注而言, 第二階段標(biāo)注的P,R和 F1 值分別為 97.7%,97.3%和97.5%。
2.4.1 嵌套命名實(shí)體統(tǒng)計(jì)
表1 和 2 分別列出標(biāo)注后的《人民日?qǐng)?bào)》語(yǔ)料中外部實(shí)體和內(nèi)部實(shí)體的統(tǒng)計(jì)情況, 其中外部實(shí)體可進(jìn)一步分為無(wú)嵌套結(jié)構(gòu)和有嵌套結(jié)構(gòu)。內(nèi)部實(shí)體約占所有實(shí)體的 14%。
從表 1 和 2 可以看出: 1)無(wú)嵌套結(jié)構(gòu)的外部實(shí)體中, 大部分是地名(約 47%)和人名(約 43%), 少量的組織名(約 10%), 如“[中國(guó)]ns”、“[鄧小平]nr”和“[聯(lián)合國(guó)]nt”; 2)有嵌套結(jié)構(gòu)的外部實(shí)體中, 絕大部分是組織名(約 90%), 少量的地名(約 10%), 如“[[上海市]ns 紅十字會(huì)]nt”的外部實(shí)體“[上海市紅十字會(huì)]nt”; 3)內(nèi)部實(shí)體中, 大部分是地名(約 75%), 小部分是組織名(約 24%), 還有極少數(shù)人名(約 1%),如“[[上海市]ns 紅十字會(huì)]nt”中的“[上海市]ns”。
表1 《人民日?qǐng)?bào)》語(yǔ)料外部實(shí)體統(tǒng)計(jì)Table 1 Nested entity statistics of the People’s Daily corpus
表2 《人民日?qǐng)?bào)》語(yǔ)料內(nèi)部嵌套實(shí)體統(tǒng)計(jì)Table 2 Internally nested entity statistics of the People’s Daily corpus
2.4.2 嵌套實(shí)體關(guān)系統(tǒng)計(jì)
統(tǒng)計(jì)《人民日?qǐng)?bào)》語(yǔ)料上嵌套實(shí)體關(guān)系類(lèi)型的數(shù)量分布情況, 結(jié)果見(jiàn)表 3。與 ACE 2005 語(yǔ)料不同, 嵌套實(shí)體關(guān)系類(lèi)型只有 4 類(lèi)。從表 3 可以看出:1)嵌套實(shí)體中已含豐富的語(yǔ)義關(guān)系, 具有實(shí)體關(guān)系的正例超過(guò) 3/4 (76%); 2)嵌套實(shí)體關(guān)系主要類(lèi)型為 Sub 和 Loc, 各占約 45% 和 42%, 只有少部分的Geo (約13%)和極少部分的Fou (約1%)。
本文采用兩種方法來(lái)抽取嵌套實(shí)體關(guān)系: 基于SVM 的傳統(tǒng)機(jī)器學(xué)習(xí)方法以及基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法。
本文使用如下 4 組特征: 1)實(shí)體字符串, 即兩個(gè)實(shí)體本身的字符串; 2)實(shí)體類(lèi)型, 即兩個(gè)實(shí)體的命名實(shí)體類(lèi)型; 3)實(shí)體所在層數(shù)及其他組合特征,即實(shí)體所在嵌套層數(shù)以及兩個(gè)實(shí)體之間的位置關(guān)系; 4)實(shí)體的后綴, 即實(shí)體結(jié)尾的字或詞。每組中各個(gè)特征的具體說(shuō)明如表4所示。
3.2.1 語(yǔ)料預(yù)處理
首先在外部實(shí)體中插入“[”和“]”來(lái)表示內(nèi)部實(shí)體的邊界及其嵌套層次關(guān)系, 如將“上海醫(yī)科大學(xué)附屬中山醫(yī)院”處理成“[[[上海]醫(yī)科大學(xué)]附屬[中山]醫(yī)院]”, 然后對(duì)整個(gè)外部實(shí)體以“[”和“]”作為分隔符分割成單詞序列。例如, 上述實(shí)體經(jīng)分割后,變成“[0[1[2上海3]4醫(yī)科大學(xué)5]6附屬7[8中山9]10醫(yī)院11]12”, 其中單詞的下標(biāo)表示它的序號(hào)。
表3 《人民日?qǐng)?bào)》語(yǔ)料嵌套實(shí)體關(guān)系統(tǒng)計(jì)Table 3 Nested entity relationships statistics of the People’s Daily corpus
表4 特征選擇Table 4 Feature selection
3.2.2 CNN模型
本文采用經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)[16]進(jìn)行嵌套命名實(shí)體關(guān)系抽取實(shí)驗(yàn)。該網(wǎng)絡(luò)主要包括輸入層、向量表示層、卷積層、池化層和輸出層等。輸入層包含預(yù)處理后的單詞序列和兩個(gè)實(shí)體的類(lèi)型; 向量表示層將單詞、單詞與兩個(gè)實(shí)體間的相對(duì)位置和兩個(gè)實(shí)體的類(lèi)型分別轉(zhuǎn)換成向量表示, 然后將它們串接起來(lái), 構(gòu)成實(shí)例向量; 在實(shí)例向量中, 應(yīng)用 4 個(gè)寬窗口卷積操作得到特征圖; 池化層對(duì)特征圖進(jìn)行最大池化得到池化向量; 最后, 池化向量經(jīng)隨機(jī)丟棄后輸入到輸出層中的全連接層和 Softmax 層, 從而獲得關(guān)系類(lèi)別標(biāo)簽。
3.2.3 模型參數(shù)設(shè)置
根據(jù)以往卷積神經(jīng)網(wǎng)絡(luò)上的關(guān)系抽取研究[17-18]以及參數(shù)調(diào)整過(guò)程, 本文實(shí)驗(yàn)中 CNN 模型的參數(shù)設(shè)置如表5所示。
本文采用常規(guī)的P,R和 F1 指數(shù)來(lái)評(píng)估嵌套實(shí)體關(guān)系抽取的性能。采用十折交叉驗(yàn)證方法, 即將《人民日?qǐng)?bào)》嵌套實(shí)體關(guān)系語(yǔ)料劃分為 10 份, 其中1 份作為測(cè)試集, 另外 9 份作為訓(xùn)練集, 總體性能取10次結(jié)果的平均值。
表5 CNN模型參數(shù)設(shè)置Table 5 Parameter Settings of CNN Model
將 SVM 模型的特征分為 6 組, 基本特征 eName1,eName2, eType1, eType2 構(gòu)成基準(zhǔn)系統(tǒng)(baseline);依次加入特征 dLayer, Adjacent, HavingOneEn, Last-Char1 以及 LastChar2, LastTwoChar1 和 LastTwoChar2等, 構(gòu)成另外5組特征組合。
表6 列出人工標(biāo)注實(shí)體下《人民日?qǐng)?bào)》嵌套語(yǔ)料上各個(gè)特征對(duì)關(guān)系抽取性能的貢獻(xiàn), 其中每一列的最高性能用粗體表示。從表 6 可以看出以下三點(diǎn)。
1)命名實(shí)體的最后單字特征(LastChar1 和 Last-Char2)對(duì)性能的貢獻(xiàn)最大, F1 值提高約 7%, 最后雙字特征(LastTwoChar1 和 LastTwoChar2)對(duì) F1 值提高約 2%, 說(shuō)明實(shí)體的后綴能很好地表示實(shí)體的性質(zhì)及其相互關(guān)系。
2)兩實(shí)體層差特征(dLayer)次之, F1 值提高約3%, 通常直接嵌套(即層差為 1)的兩個(gè)實(shí)體之間存在關(guān)系的可能性較大, 因而該特征主要提高準(zhǔn)確率。另外, 實(shí)體鄰近特征(Adjacent)與 dLayer 特征存在冗余, 因此F1值略微提高(約0.5%)。
表6 SVM模型上多種特征累加的性能Table 6 Performance of multiple cumulative features on SVM model
3)實(shí)體間隔特征(HavingOneEn)也使 F1 值提高約 3%, 即當(dāng)兩個(gè)實(shí)體之間存在另一個(gè)實(shí)體時(shí), 這兩個(gè)實(shí)體之間通常不存在關(guān)系, 故準(zhǔn)確率明顯提高。
綜上所述, 所有的特征累加起來(lái)的實(shí)體關(guān)系抽取性能最好, F1 值超過(guò) 95%, 因此后續(xù) SVM 模型的實(shí)驗(yàn)都采用所有特征的累加。
表7 列出人工標(biāo)注實(shí)體下 SVM 模型實(shí)體關(guān)系抽取的各個(gè)關(guān)系類(lèi)別的性能, 可以看出: 1)實(shí)體關(guān)系數(shù)量越大, 抽取的性能越高, Sub 類(lèi)型性能最高(96.53%), Fou 類(lèi)型性能最低(39.60%); 2)雖然 Geo類(lèi)型的數(shù)量是 Loc 類(lèi)型的 1/3, 但是 F1 降低不到 2%,說(shuō)明 Geo 類(lèi)型容易識(shí)別, 因?yàn)樗硎镜氖莾蓚€(gè)地名之間的部分整體關(guān)系, 表達(dá)模式較單一, 而 Geo 類(lèi)型表達(dá)組織名與地名的位置關(guān)系, 略微復(fù)雜。
表8 比較采用嵌套實(shí)體自動(dòng)識(shí)別下的關(guān)系抽取中各個(gè)關(guān)系類(lèi)型的性能。本文采用由內(nèi)而外的層次模型方法[19]來(lái)識(shí)別嵌套命名實(shí)體, 即用多個(gè) CRF模型, 由內(nèi)到外地識(shí)別不同嵌套層次的實(shí)體。實(shí)驗(yàn)表明, 該方法的嵌套命名實(shí)體識(shí)別總體性能P,R和F1 為 94.2%, 84.6%和 89.1%, 但內(nèi)部實(shí)體的識(shí)別性能P,R和F1 卻只有76.4%, 84.6%和80.3%。
從表 8 可以看出: 1)與表 7 中人工標(biāo)注實(shí)體上的關(guān)系抽取性能相比, 自動(dòng)識(shí)別實(shí)體下關(guān)系抽取F1 降低幅度非常大(約 22%), 說(shuō)明嵌套實(shí)體識(shí)別性能是制約嵌套關(guān)系抽取性能的主要因素; 2)與表 7 中人工標(biāo)注實(shí)體上的關(guān)系抽取性能類(lèi)似, 關(guān)系類(lèi)別數(shù)量越多, 對(duì)應(yīng)關(guān)系抽取的性能就越高, 但由于實(shí)體自動(dòng)識(shí)別錯(cuò)誤的拖累, Geo 類(lèi)型的 F1 性能下降約37%。
對(duì)其中一個(gè)測(cè)試集的關(guān)系抽取錯(cuò)誤樣例進(jìn)行分析, 發(fā)現(xiàn)嵌套實(shí)體識(shí)別的結(jié)果嚴(yán)重地影響后續(xù)實(shí)體關(guān)系的抽取。原因有兩方面: 1)嵌套實(shí)體識(shí)別產(chǎn)生的假負(fù)例導(dǎo)致關(guān)系抽取的假負(fù)例較多(占所有正例的 62%), 如在實(shí)體關(guān)系“(中紀(jì)委, 中紀(jì)委監(jiān)察部,Sub)”中, “中紀(jì)委”和“中紀(jì)委監(jiān)察部”這兩個(gè)實(shí)體都沒(méi)識(shí)別出來(lái); 2)在識(shí)別出的嵌套實(shí)體關(guān)系中, 33%是假正例, 如實(shí)體關(guān)系“(湖北省, 科委湖, Geo)”中的“科委湖”是假實(shí)體, 因此該實(shí)體關(guān)系也是假正例。
表9 列出 CNN 模型在人工標(biāo)注實(shí)體下各個(gè)關(guān)系類(lèi)別的性能, 可以看出以下兩點(diǎn)。
表7 人工標(biāo)注實(shí)體下SVM模型嵌套關(guān)系抽取性能Table 7 Performance of nested relation extraction of SVM model under manually annotated entities
表8 自動(dòng)識(shí)別實(shí)體下SVM模型嵌套關(guān)系抽取性能Table 8 Performance of nested relation extraction on SVM model under automatic recognition entities
表9 人工標(biāo)注實(shí)體下CNN模型嵌套關(guān)系抽取性能Table 9 Performance of nested relation extraction of CNN model under manually annotated entities
1)與表 7 相比, CNN模型的嵌套實(shí)體關(guān)系抽取F1 值比 SVM 模型降低約 2.5%。這主要是由于嵌套實(shí)體關(guān)系抽取中結(jié)構(gòu)化特征起重要作用, 而 CNN中沒(méi)有 SVM 中的顯式結(jié)構(gòu)特征。例如, 在嵌套實(shí)體“[[[上海]醫(yī)科大學(xué)]附屬[中山]醫(yī)院]”中, CNN 模型能夠?qū)W到局部特征, 但不能獲取全局結(jié)構(gòu)特征。
2)與表 7 不同, 除數(shù)量特別少的 Fou 類(lèi)別外,另外 3 個(gè)類(lèi)別雖然數(shù)量相差較大, 但是性能相差不大(1%左右)。這說(shuō)明 CNN 只需要較少的訓(xùn)練數(shù)據(jù),就可以挖掘出隱含的語(yǔ)義特征, 從而生成魯棒性較好的模型。
雖然 CNN 模型的嵌套實(shí)體關(guān)系抽取性能比SVM 模型 F1 降低約 2.5%, 但是, SVM 模型需要通過(guò)大量人工提取的特征來(lái)提高性能, 而 CNN 模型的特征不需要人工提取特征, 能夠更好地刻畫(huà)數(shù)據(jù)的內(nèi)在信息。因此, 對(duì)于嵌套命名實(shí)體關(guān)系抽取,CNN 模型具有一定的潛力。
中文嵌套實(shí)體關(guān)系語(yǔ)料庫(kù)的構(gòu)建為嵌套實(shí)體識(shí)別和關(guān)系抽取提供了一個(gè)基準(zhǔn)平臺(tái), 有助于信息抽取領(lǐng)域進(jìn)一步的研究。本文在已有的中文命名實(shí)體語(yǔ)料的基礎(chǔ)上, 人工標(biāo)注中文嵌套實(shí)體關(guān)系語(yǔ)料,并利用 SVM 模型和深度學(xué)習(xí)模型, 抽取中文嵌套實(shí)體之間的語(yǔ)義關(guān)系。實(shí)驗(yàn)表明, 中文嵌套命名實(shí)體關(guān)系抽取在人工標(biāo)注實(shí)體上取得很好的性能, 但是在自動(dòng)識(shí)別實(shí)體上的性能卻不盡如人意, 這主要是由中文嵌套命名實(shí)體識(shí)別性能不高導(dǎo)致。另外,CNN 模型的性能雖然比 SVM 模型略低, 但是對(duì)于嵌套命名實(shí)體關(guān)系抽取也很有效。
今后的工作包括兩個(gè)方面: 1)考慮使用深度學(xué)習(xí)模型來(lái)提高嵌套命名實(shí)體識(shí)別的性能; 2)考慮嵌套命名實(shí)體識(shí)別及其關(guān)系抽取的聯(lián)合模型, 從而同時(shí)提高兩者的性能。