鄭麗敏 齊珊珊 田立軍 楊 璐
(1.中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院, 北京 100083; 2.食品質(zhì)量與安全北京實(shí)驗(yàn)室, 北京 100083)
食品安全事件頻發(fā),注水肉、過(guò)期奶粉等事件嚴(yán)重影響了民眾的生活,造成了嚴(yán)重的后果[1]。網(wǎng)絡(luò)上各種新聞文本的數(shù)量迅猛增長(zhǎng),如何快速、準(zhǔn)確地獲取食品安全事件新聞文本,并理清其中的關(guān)系脈絡(luò)是一項(xiàng)耗時(shí)、耗力的工作。食品安全事件新聞文本的分析梳理對(duì)于消費(fèi)者和管理者均具有重要意義:消費(fèi)者能夠從雜亂冗余的大量數(shù)據(jù)中快速獲取事件的主要信息,對(duì)事件的發(fā)展走向有系統(tǒng)的認(rèn)知,提前做出正確的預(yù)防或應(yīng)對(duì),減輕事件帶來(lái)的傷害;管理者利用梳理出來(lái)的信息快速?zèng)Q策,及時(shí)發(fā)布并通知、提醒各部門或消費(fèi)者采取相應(yīng)措施等。實(shí)體關(guān)系抽取能夠從半結(jié)構(gòu)化和非結(jié)構(gòu)化的信息源中抽取出實(shí)體及實(shí)體之間的語(yǔ)義關(guān)系,在數(shù)據(jù)挖掘、問(wèn)答系統(tǒng)、知識(shí)圖譜構(gòu)建等研究中均扮演著重要角色,是實(shí)現(xiàn)分析梳理的基礎(chǔ),受到越來(lái)越多研究者的關(guān)注[2-4]。
實(shí)體關(guān)系抽取方法有半監(jiān)督式、遠(yuǎn)程監(jiān)督式和無(wú)監(jiān)督式3種[3]。其中,半監(jiān)督式的實(shí)體關(guān)系抽取需要選取少量的種子,種子的品質(zhì)會(huì)直接影響抽取效果,且受人的主觀影響明顯[5];遠(yuǎn)程監(jiān)督式的實(shí)體關(guān)系抽取需要大規(guī)模知識(shí)庫(kù)的支撐,但適用于各領(lǐng)域的大規(guī)模知識(shí)庫(kù)很難找到,所以該方法并不適用于眾多領(lǐng)域[3,6-7];無(wú)監(jiān)督式的實(shí)體關(guān)系抽取無(wú)需任何人工標(biāo)注數(shù)據(jù)、預(yù)定義關(guān)系類型等,適用于開放領(lǐng)域的關(guān)系抽取[8-9]。目前,英文的實(shí)體關(guān)系抽取研究已經(jīng)達(dá)到較高的水平,由最初的開放式信息抽取系統(tǒng)TextRunner[10]發(fā)展到O-CRF[11]、ReVerb系統(tǒng)[12]、Ollie系統(tǒng)[13]等,性能不斷提高。中文實(shí)體關(guān)系抽取卻發(fā)展緩慢,主要是由于中文語(yǔ)法具有復(fù)雜多變、無(wú)標(biāo)準(zhǔn)句式、實(shí)體參數(shù)位置不固定等特點(diǎn),導(dǎo)致中文文本的實(shí)體關(guān)系抽取難度遠(yuǎn)遠(yuǎn)高于英文文本。文獻(xiàn)[14]提出第一個(gè)開放領(lǐng)域?qū)嶓w關(guān)系抽取系統(tǒng)ZORE,在語(yǔ)義層面進(jìn)行研究,具有有效性,但隨著召回率的提高,準(zhǔn)確率下降趨勢(shì)過(guò)于明顯。文獻(xiàn)[15]提出用于知識(shí)獲取的中文開放信息抽取的CORE系統(tǒng),證明了從中文語(yǔ)料庫(kù)中抽取關(guān)系而不向IE系統(tǒng)輸入任何預(yù)定義詞匯和關(guān)系的可行性,但并未在大規(guī)模的新聞文本數(shù)據(jù)集上進(jìn)行充分的實(shí)驗(yàn)。之后針對(duì)不同的數(shù)據(jù)類型,在ZORE、CORE的基礎(chǔ)上出現(xiàn)了GCORE[16]、C-COERE[17]等系統(tǒng),性能得到了優(yōu)化。
但是這些方法對(duì)所有的文本采取相同的處理方式,未充分考慮食品安全事件新聞文本的以下特性:發(fā)生主題、涉事食品、食品種類、涉事企業(yè)、企業(yè)負(fù)責(zé)人、涉事人員、發(fā)生時(shí)間、發(fā)生地點(diǎn)、發(fā)生原因、發(fā)生規(guī)模、導(dǎo)致結(jié)果、產(chǎn)生影響及危害等,無(wú)法對(duì)網(wǎng)絡(luò)上食品安全事件新聞及時(shí)預(yù)警,在一定程度上降低了事件時(shí)效性。針對(duì)這一問(wèn)題,本文提出一種基于依存分析的食品安全事件新聞文本的實(shí)體關(guān)系抽取方法FSE_ERE,充分考慮中文新聞文本的語(yǔ)言特性,利用LTP工具[18]對(duì)句子進(jìn)行分詞、詞性標(biāo)注、命名實(shí)體識(shí)別處理后,對(duì)各個(gè)語(yǔ)言單位內(nèi)成分之間的依存關(guān)系進(jìn)行分析,揭示句子的句法結(jié)構(gòu)。再結(jié)合這些知識(shí)和構(gòu)建的實(shí)體關(guān)系抽取模型抽取出其中包含的實(shí)體關(guān)系三元組,實(shí)現(xiàn)中文新聞文本中實(shí)體和關(guān)系的自動(dòng)抽取,無(wú)需任何人工干預(yù)。質(zhì)量高且類別明確的文本能有效提高抽取模型和依存分析結(jié)果的匹配度,從而提高抽取性能。因此在實(shí)體關(guān)系抽取過(guò)程中引入半監(jiān)督的PU學(xué)習(xí)分類方法,創(chuàng)造性地將文本相似度結(jié)合到PU學(xué)習(xí)分類方法中,通過(guò)改進(jìn)的特征選取與加權(quán)處理方法提高分類的精度,以節(jié)省時(shí)間和人力。
FSE_ERE方法主要包含兩部分內(nèi)容:①為了獲取更多高質(zhì)量的文本數(shù)據(jù),在大規(guī)模的新聞文本中利用基于PU學(xué)習(xí)的分類模型提取食品安全事件新聞文本。②在提取的文本的基礎(chǔ)上,利用基于依存分析的模型進(jìn)行實(shí)體關(guān)系抽取工作。
分類問(wèn)題是機(jī)器學(xué)習(xí)的一個(gè)重要組成部分,目前大多數(shù)分類方法是根據(jù)已知樣本的某些特征后判定新樣本的類別[19-20]。文本分類一般要經(jīng)過(guò)文本預(yù)處理、特征選擇、分類器訓(xùn)練和性能評(píng)估4個(gè)步驟[21-22]。本文主要解決的問(wèn)題是在眾多互聯(lián)網(wǎng)文本中,在只含有積極樣例的情況下,快速地挑選出高質(zhì)量的食品安全事件類文本,以便進(jìn)行實(shí)體關(guān)系抽取工作。本文中出現(xiàn)的積極樣例是食品安全事件新聞文本,消極樣例是非食品安全事件的其他各個(gè)類別的新聞文本,未標(biāo)記樣例是大規(guī)模的網(wǎng)絡(luò)新聞文本。
1.1.1關(guān)鍵特征
在文本預(yù)處理過(guò)程中,分詞和去停用詞是主要步驟。由于目前的自然語(yǔ)言處理工具仍存在一定的缺陷,無(wú)法全面、準(zhǔn)確地識(shí)別出文本中存在的領(lǐng)域?qū)S忻~,尤其是食品安全事件領(lǐng)域中特有的食品名稱、發(fā)生原因(即引起食品安全事件發(fā)生的具體因素)等。例如,“毒雞蛋”是食品安全領(lǐng)域中出現(xiàn)的一種問(wèn)題食品的名稱,分詞工具通常會(huì)將其分詞為“毒”和“雞蛋”兩部分。但是“雞蛋”只是普通食品的名稱,并不能作為食品安全事件的問(wèn)題食品,這就造成食品安全事件的主體食品判定的錯(cuò)誤,影響事件的分析研究。因此,領(lǐng)域詞典在分詞、詞性標(biāo)注、命名實(shí)體識(shí)別過(guò)程中發(fā)揮著重要作用,能夠輔助自然語(yǔ)言處理工具更全面地、更準(zhǔn)確地識(shí)別出文本中的重要信息,還能夠幫助選取重要特征,提高分類精度。
通過(guò)對(duì)食品安全事件統(tǒng)計(jì)分析和對(duì)中文新聞文本表達(dá)特點(diǎn)進(jìn)行研究,發(fā)現(xiàn)與其他類型的新聞相比,不論食品安全事件新聞文本的完整程度如何,通常會(huì)包含以下特性:涉事食品、發(fā)生原因、涉事企業(yè)和發(fā)生地點(diǎn)4項(xiàng),因此將這4項(xiàng)作為關(guān)鍵特征。為了保證它們的正確性,分別構(gòu)建了關(guān)于4項(xiàng)關(guān)鍵特征的領(lǐng)域詞典,并將這4個(gè)詞典稱為關(guān)鍵特征詞典。關(guān)鍵特征詞典中的詞匯是從國(guó)家藥品監(jiān)督管理局、食品伙伴網(wǎng)等網(wǎng)站的相關(guān)模塊中爬取的專有名詞,共273 709個(gè),各個(gè)特征項(xiàng)對(duì)應(yīng)的領(lǐng)域詞典中包含詞的個(gè)數(shù)統(tǒng)計(jì)結(jié)果如表1所示。其中發(fā)生原因包括食品添加劑、真菌毒素、污染物、農(nóng)獸藥方面的專有詞匯;發(fā)生地點(diǎn)包括省級(jí)行政區(qū)、地級(jí)市、縣級(jí)市和縣。
表1 各個(gè)特征項(xiàng)的領(lǐng)域詞典中包含的詞個(gè)數(shù)Tab.1 Number of words in domain dictionary of each feature item
預(yù)處理時(shí),對(duì)文本進(jìn)行清洗,包括去除鏈接、空格、無(wú)意義字符,并利用分詞工具對(duì)文本進(jìn)行分詞操作后,在分詞系統(tǒng)中引入上述關(guān)鍵特征詞典,能夠明顯提高分詞的準(zhǔn)確率。此外,在得到每個(gè)文本的分詞結(jié)果后,還需要進(jìn)行去停用詞處理,因?yàn)檫@些停用詞雖然詞頻高但是對(duì)文本分類貢獻(xiàn)小。則文檔集所有剩余的分詞結(jié)果構(gòu)成了一個(gè)詞典向量。該詞典向量與關(guān)鍵特征詞典中存在一些相同的詞匯,為了避免特征重復(fù),刪除詞典向量中這部分重復(fù)的詞匯。
1.1.2特征模板生成
TF-IDF算法是一種目前最為常用且非常有效的特征提取方法,根據(jù)計(jì)算的特征權(quán)重評(píng)估每個(gè)特征對(duì)文本的重要程度。本文采用TF-IDF方法計(jì)算所有特征詞在每篇文檔中的特征權(quán)重,但傳統(tǒng)的TF-IDF沒(méi)有考慮特征詞在類間分布狀況的影響。所以本文在TF-IDF中引入特征選擇效果較好的卡方統(tǒng)計(jì)量(Chi-square, CHI)方法進(jìn)行修正。
CHI用于表示特征詞與類別之間的相關(guān)程度,CHI越高則表示相關(guān)程度越高,對(duì)應(yīng)的特征詞不僅更能代表某個(gè)類別,還具有更高的權(quán)重。CHI計(jì)算公式為[22-23]
(1)
式中VCHI——卡方統(tǒng)計(jì)量(CHI)
tj——第j個(gè)一般特征詞
Ci——第i個(gè)類別
|X|——數(shù)據(jù)集中的文檔總數(shù)目
其中A、B、C和D的含義如表2所示。
表2 特征與類別關(guān)系Tab.2 Relationship between features and categories
此外,文本關(guān)鍵特征也能夠明顯區(qū)分類別間的差異,對(duì)分類產(chǎn)生較好的影響。所以將涉事食品、發(fā)生原因、涉事企業(yè)、發(fā)生地點(diǎn)4項(xiàng)關(guān)鍵特征補(bǔ)充到選取的特征詞后面,生成特征模板。雖然關(guān)鍵特征對(duì)應(yīng)的詞匯集合與類別相關(guān)性最大,但是它們?cè)谖臋n中出現(xiàn)的次數(shù)并不多,導(dǎo)致了其權(quán)重低。所以在改進(jìn)的關(guān)鍵特征權(quán)重計(jì)算方法的基礎(chǔ)上還引入了關(guān)鍵特征因子λ,以實(shí)現(xiàn)加權(quán)處理。λ是經(jīng)過(guò)大量實(shí)驗(yàn)后得出的一個(gè)經(jīng)驗(yàn)系數(shù),本文取值為3。
計(jì)算關(guān)鍵特征的權(quán)重時(shí),應(yīng)統(tǒng)計(jì)關(guān)鍵特征pg對(duì)應(yīng)的關(guān)鍵特征詞典中的詞匯在文檔xi中的頻率,并計(jì)算關(guān)鍵特征的逆文檔頻率(Inverse document frequency, IDF),最后計(jì)算出關(guān)鍵特征在文檔xi中的權(quán)重。計(jì)算公式為
D(wpg)=λ(pg)TpgIpg
(2)
式中wpg——關(guān)鍵特征的權(quán)重
D(wpg)——關(guān)鍵特征在文檔xi中的權(quán)重
Tpg——關(guān)鍵特征的TF值
Ipg——關(guān)鍵特征的IDF值
Tpg的主要思想是:關(guān)鍵特征pg是一類特征的集合,如果pg在文本中出現(xiàn)的不同詞匯數(shù)多且頻次高,說(shuō)明這篇文檔描述了很多關(guān)于pg的內(nèi)容,與pg相關(guān)程度高,則可以認(rèn)為文檔屬于pg相關(guān)的類別。Ipg的主要思想是:據(jù)統(tǒng)計(jì)分析,關(guān)鍵特征pg涉及的某些詞匯在大多數(shù)文檔中出現(xiàn)頻率都比較低,但這些特征詞對(duì)文本分類的作用卻十分明顯,它們對(duì)分類貢獻(xiàn)率高卻容易被忽略掉,所以Ipg被用于表示關(guān)鍵特征pg對(duì)于整個(gè)文檔集的重要程度,即當(dāng)包含pg的文檔數(shù)目越少時(shí),pg對(duì)文本分類貢獻(xiàn)率會(huì)越高。Tpg和Ipg的計(jì)算方法分別為
(3)
(4)
式中Dpg——pg對(duì)應(yīng)的關(guān)鍵特征詞典中的詞匯
n(Dpg,xi)——Dpg在文檔xi中出現(xiàn)的頻次
nk,xi——文檔xi中詞匯k出現(xiàn)的次數(shù)
N(pg)——包含關(guān)鍵特征pg的文檔數(shù)目
在式(4)中,分母項(xiàng)加1是對(duì)其進(jìn)行了平滑處理,防止該詞語(yǔ)不在語(yǔ)料庫(kù)中時(shí)導(dǎo)致的除數(shù)為零現(xiàn)象發(fā)生。
最后,由于大多數(shù)文檔長(zhǎng)度不一樣,TF-IDF算法會(huì)出現(xiàn)偏向于長(zhǎng)文本的情況,所以需要對(duì)TF-IDF算法的計(jì)算結(jié)果作統(tǒng)一的歸一化處理。同時(shí)將特征詞的CHI進(jìn)行對(duì)數(shù)化處理,以解決權(quán)重不均衡問(wèn)題。綜上所述,本文改進(jìn)后生成的特征模板中,一般特征權(quán)重計(jì)算公式為
(5)
關(guān)鍵特征的權(quán)重計(jì)算公式為
(6)
式中m1——一般特征詞的數(shù)目
m2——關(guān)鍵特征的數(shù)目
Ftj——第j個(gè)一般特征詞的詞頻
Etj——第j個(gè)一般特征詞的逆文檔頻率指數(shù)
利用向量空間模型(Vector space model, VSM)方法對(duì)文本進(jìn)行文本向量化表示,用于文本分類器的訓(xùn)練。對(duì)于一篇食品安全事件新聞文檔xi,其向量表示為
xi=(w1,w2,…,wi,…,wm1,…,wj,…,wm1+m2)
(1≤i≤m1≤j≤m1+m2)
(7)
式中wi——第i個(gè)特征對(duì)應(yīng)的特征權(quán)重
wj——第j個(gè)特征對(duì)應(yīng)的特征權(quán)重
1.1.3尋找消極樣例和建立分類器
提出的PU學(xué)習(xí)分類模型采用兩步法實(shí)現(xiàn)。
(1)尋找消極樣例
第1步是在未標(biāo)記樣例中尋找一部分與積極樣例極其不同的樣例(反差大的樣例)作為消極樣例,詳細(xì)流程如圖1所示。首先將一部分積極樣例放入未標(biāo)記樣例中,然后對(duì)未標(biāo)記樣例集合進(jìn)行聚類。未標(biāo)記樣例集合經(jīng)聚類后形成大小不同的簇。去除包含間諜樣例的簇(認(rèn)為簇中不含有消極樣例),并對(duì)剩余簇內(nèi)的文本進(jìn)行相似度計(jì)算,刪除相似度高的文本。因?yàn)閷?duì)于大規(guī)模的網(wǎng)絡(luò)食品安全事件新聞文本,同一篇新聞?dòng)泻艽蟾怕试诙鄠€(gè)網(wǎng)站上被發(fā)布,或者即使不同新聞對(duì)同一事件的表述不完全一致但相似度也很高,這樣的新聞則對(duì)于信息挖掘、關(guān)系抽取意義不大,因此這種多余的相似文本應(yīng)該被去除。最后計(jì)算各個(gè)簇與積極樣例集合之間的距離,選出差異最大的簇,將該簇中的文本標(biāo)記為消極樣例。
圖1 第1步的過(guò)程演示Fig.1 Process demonstration of the first step
圖1中,采用K-means算法進(jìn)行聚類,由于傳統(tǒng)的K-means算法假設(shè)每個(gè)樣本對(duì)最終聚類結(jié)果的貢獻(xiàn)程度一樣,未考慮關(guān)鍵特征對(duì)于聚類過(guò)程的影響,導(dǎo)致聚類準(zhǔn)確率低。所以應(yīng)用上述特征加權(quán)處理改進(jìn)方法獲得的特征能夠有效解決這一問(wèn)題。
此外,還需要去除重復(fù)文本以提高分類效果和文本質(zhì)量,例如,對(duì)于同一事件不同描述的新聞文本,其文本相似度超過(guò)閾值時(shí)認(rèn)為不同文本描述了同一事件,只保留最近時(shí)間報(bào)道的且信息最豐富的新聞文本;對(duì)于同一涉事食品在不同地區(qū)發(fā)生的食品安全事件,根據(jù)文本的“發(fā)生地點(diǎn)”特征對(duì)應(yīng)的地點(diǎn)詞匯是否相同來(lái)判斷是否屬于同一個(gè)事件。所以刪除包含間諜樣例的簇后在剩下的各個(gè)簇中分別利用文本提取特征來(lái)計(jì)算文本相似度,得到的向量形式表示的文本之間以空間距離體現(xiàn)語(yǔ)義相似度[24]。對(duì)于向量化后的特征,采用最常用的余弦相似度計(jì)算方法,表示為
(8)
式中xj——第j個(gè)待計(jì)算文本的向量
相似度越大,說(shuō)明距離越小,文本越相似。
(2)建立分類器
第2步,根據(jù)積極樣例的集合P、消極樣例的集合N和未標(biāo)記樣例的集合U建立最終的分類器。具體過(guò)程如下:①將所有的間諜樣例S都放回到積極樣例集合P中。②給積極樣例集合P中的每個(gè)文檔xi都分配固定的類標(biāo)簽c1,即y(c1,xi)=1,且在每次迭代EM最大期望算法時(shí),標(biāo)簽不再改變。③為消極樣例集合N中的每個(gè)文檔xj都分配初始類標(biāo)簽c2,即y(c2,xj)=0,且在每次迭代EM算法時(shí),標(biāo)簽都會(huì)改變。④在未標(biāo)記樣例集合U中的每一個(gè)文檔xk都沒(méi)有被分配標(biāo)簽,但是在EM算法的第一次迭代后,將會(huì)分配給每個(gè)文檔一個(gè)概率標(biāo)簽。在隨后的迭代過(guò)程中,集合U將通過(guò)其新分配的概率類型參與EM算法,例如y(c1,xk)。⑤在集合P、N和U中重復(fù)運(yùn)行EM算法直至收斂。
當(dāng)EM算法結(jié)束時(shí),將生成最終的分類器。本文將用該分類器分類食品安全事件并進(jìn)行性能評(píng)估,用于后續(xù)的實(shí)體關(guān)系抽取工作。
基于依存分析的食品安全事件實(shí)體關(guān)系抽取的目標(biāo)是從大規(guī)模的食品安全事件新聞文本中抽取出食品安全事件中的實(shí)體及實(shí)體之間(或?qū)嶓w與屬性值之間)的語(yǔ)義關(guān)系,其中實(shí)體涉及到涉事食品、涉事公司、涉事人員等;屬性包括產(chǎn)品規(guī)格、商標(biāo)形式等。面對(duì)復(fù)雜多變的中文新聞表達(dá)形式,關(guān)系抽取模型需要具有廣泛性和強(qiáng)的魯棒性才能夠達(dá)到好的抽取效果。
(1)關(guān)系識(shí)別
動(dòng)詞及動(dòng)詞短語(yǔ)、名詞及名詞短語(yǔ)和位于它們前面或后面相鄰的說(shuō)明性修飾符均可作為關(guān)系詞或關(guān)系短語(yǔ)。關(guān)系可以位于句子中的任意位置[16,25],能夠根據(jù)模型和候選關(guān)系與句子其他成分之間的依存關(guān)系來(lái)確定元組關(guān)系。一般情況下,主語(yǔ)和謂語(yǔ)之間會(huì)通過(guò)依存關(guān)系“SBV”等來(lái)連接,謂語(yǔ)和賓語(yǔ)之間會(huì)通過(guò)依存關(guān)系“VOB”、“POB”等來(lái)連接。此外,還存在一種特殊的偏正結(jié)構(gòu),如“食藥監(jiān)局長(zhǎng)×××”一句中,“局長(zhǎng)”、“食藥監(jiān)”和“×××”均為名詞,“局長(zhǎng)”作為“食藥監(jiān)”和“×××”之間的關(guān)系,與它們之間的依存關(guān)系均為“ATT”,可抽取出實(shí)體關(guān)系三元組(食藥監(jiān),局長(zhǎng),×××)。
(2)實(shí)體和屬性識(shí)別
實(shí)體和屬性識(shí)別是為了識(shí)別出每個(gè)待處理句子中的實(shí)體對(duì)(arg1,arg2),arg1和arg2參數(shù)分別表示主語(yǔ)和賓語(yǔ),arg1為實(shí)體,arg2為與arg1之間存在關(guān)系的另一個(gè)實(shí)體或者arg1具有的某種屬性的屬性值[3]。本文應(yīng)用LTP工具分析待處理的文本,將所有句子依次進(jìn)行分詞、詞性標(biāo)注、命名實(shí)體識(shí)別和依存句法分析。還引入了涉事食品、發(fā)生原因、涉事企業(yè)和發(fā)生地點(diǎn)4個(gè)關(guān)鍵詞典輔助分詞,提高分詞準(zhǔn)確率和召回率,進(jìn)而提高整體抽取性能。其中命名實(shí)體識(shí)別能夠識(shí)別出句子中的所有可能實(shí)體,作為實(shí)體關(guān)系三元組的候選實(shí)體,依存句法分析對(duì)句子成分及各成分之間的語(yǔ)義關(guān)系進(jìn)行分析,確定三元組成分。
接下來(lái)計(jì)算任意2個(gè)候選實(shí)體之間存在的實(shí)體數(shù)量和其他詞語(yǔ)的數(shù)量。文獻(xiàn)[14,26]經(jīng)過(guò)統(tǒng)計(jì)和實(shí)驗(yàn)研究發(fā)現(xiàn),在候選實(shí)體組成實(shí)體對(duì)后,限定每個(gè)實(shí)體對(duì)之間存在的其他候選實(shí)體數(shù)目不超過(guò)4個(gè),詞匯總數(shù)目不超過(guò)5個(gè)時(shí),得到的三元組的準(zhǔn)確率達(dá)到最高。這是因?yàn)榫渥又?個(gè)實(shí)體距離越遠(yuǎn),兩者之間存在關(guān)系的可能性就越小。根據(jù)依存分析的結(jié)果,檢測(cè)關(guān)系詞或關(guān)系短語(yǔ)所依賴的實(shí)體。
基于模型的實(shí)體關(guān)系抽取,是將句子的依存分析結(jié)果和基于中文語(yǔ)法規(guī)則的模型進(jìn)行匹配完成抽取工作的。本文依據(jù)大規(guī)模新聞文本的依存分析結(jié)果中所包含的語(yǔ)義特征提出了中文關(guān)系抽取模型ORE_Models,包含ORE_Model1、ORE_Model2、ORE_Model3,具體結(jié)構(gòu)如圖2所示,圖中各參數(shù)的含義如表3所示。
表3 ORE_Models模型中參數(shù)含義Tab.3 Meaning of parameters in model ORE_Models
圖2 中文關(guān)系抽取模型ORE_ModelsFig.2 Chinese relation extraction model ORE_Models
在圖2中,關(guān)系抽取模型ORE_Model1多用于抽取以動(dòng)詞作為關(guān)系和存在介賓關(guān)系時(shí)的句子形式;關(guān)系抽取模型ORE_Model2多用于抽取主語(yǔ),或謂語(yǔ),或賓語(yǔ)中存在一個(gè)或多個(gè)并列情況的句子形式,其中pred1和arg3 2個(gè)節(jié)點(diǎn)之間由有方向的實(shí)線和虛線表示的關(guān)系所連接,但實(shí)線和虛線有且僅有一種出現(xiàn),即在一個(gè)句子中不可同時(shí)存在;關(guān)系抽取模型ORE_Model3多用于抽取存在動(dòng)補(bǔ)結(jié)構(gòu)、偏正結(jié)構(gòu)時(shí)的句子形式。每個(gè)待處理的中文句子的依存分析結(jié)果只要與模型的某一部分正確匹配且匹配成功的部分中存在可抽取的內(nèi)容,就會(huì)以實(shí)體關(guān)系三元組的形式輸出。其中節(jié)點(diǎn)及關(guān)系存在情況與可抽取出的實(shí)體關(guān)系三元組的情況如表4所示。為了便于展示,僅在表4的可抽取出的實(shí)體關(guān)系三元組中展示了實(shí)體和關(guān)系,但在實(shí)際抽取過(guò)程中還保存了與實(shí)體存在“ATT”等依存關(guān)系的實(shí)體修飾詞匯。
表4中的“-”表示2個(gè)節(jié)點(diǎn)的連接組合,共同組成三元組的主語(yǔ)或者謂語(yǔ),“/”和圖2中的“/”均表示“或者”的含義,即兩種情況均可能出現(xiàn)(但不可能同時(shí)出現(xiàn))。從表4中可以發(fā)現(xiàn)模型ORE_Models覆蓋了多種句子形式,能夠處理具有多變的語(yǔ)法表達(dá)方式的新聞文本。
表4 ORE_Models中節(jié)點(diǎn)及關(guān)系存在情況不同時(shí)的可抽取的實(shí)體關(guān)系三元組Tab.4 Extractable entity relation triples with different nodes and relations in ORE_Models
例如,句子“上海市食藥監(jiān)局查封了一批毒雞蛋”的依存分析結(jié)果如圖3所示。從圖3中可以得到候選實(shí)體有“上海市食藥監(jiān)局”(機(jī)構(gòu)名稱)、“毒雞蛋”,關(guān)系詞為“查封”,它們之間的依存關(guān)系符合模型ORE_Model1的分析,最后可抽取出實(shí)體關(guān)系三元組(上海食藥監(jiān),查封,一批毒雞蛋)。
圖3 實(shí)例1的句子依存分析結(jié)果Fig.3 Sentence dependency parsing results of example 1
再如句子“上海市食藥監(jiān)局發(fā)布最新一期食品安全抽檢信息,通報(bào)了5批次不合格的食用性農(nóng)產(chǎn)品?!钡囊来娣治鼋Y(jié)果如圖4所示。從圖4中可以得到候選實(shí)體有“上海市食藥監(jiān)局”(機(jī)構(gòu)名稱)、“信息”和“農(nóng)產(chǎn)品”;關(guān)系詞為“發(fā)布”和“通報(bào)”,且在句子中是并列關(guān)系?!吧虾J惺乘幈O(jiān)局”作為句子的主語(yǔ)分別通過(guò)“發(fā)布”和“通報(bào)”2個(gè)關(guān)系詞與作為句子賓語(yǔ)的“信息”和“農(nóng)產(chǎn)品”連接,“5批次”、“不合格”和“食用性農(nóng)產(chǎn)品”之間依次存在定中關(guān)系。實(shí)體和關(guān)系詞之間的依存關(guān)系符合模型ORE_Model1、ORE_Model2和ORE_Model3的分析,最后可抽取出實(shí)體關(guān)系三元組(上海市食藥監(jiān)局,發(fā)布,最新一期食品安全抽檢信息)、(上海市食藥監(jiān)局,通報(bào),5批次不合格的食用性農(nóng)產(chǎn)品)和(5批次,不合格,食用性農(nóng)產(chǎn)品)。
圖4 實(shí)例2的句子依存分析結(jié)果Fig.4 Sentence dependency parsing results of example 2
上述2個(gè)句子均是關(guān)于“上海市食藥監(jiān)局”相關(guān)的信息,基于實(shí)體關(guān)系抽取模型ORE_Models從不同的描述文本中抽取出了不同的實(shí)體關(guān)系三元組,這些三元組共同表述了同一主體的信息且不同三元組之間也存在關(guān)聯(lián)關(guān)系。文本中一般包含較多數(shù)量的句子,能夠抽取出大量的實(shí)體關(guān)系三元組。這些三元組高度概括了文本的主要內(nèi)容且形式精煉,梳理后能幫助快速了解文本的知識(shí)脈絡(luò),得到目標(biāo)信息。
實(shí)驗(yàn)所用的數(shù)據(jù)是利用爬蟲技術(shù)爬取的近5年全國(guó)范圍內(nèi)各大新聞門戶網(wǎng)站(包括騰訊新聞中心、搜狗新聞中心、百度新聞中心和新浪新聞中心等多個(gè)網(wǎng)站)上與食品相關(guān)的中文新聞文本,共75 214篇。這些中文新聞文本包含食品安全事件、與食品相關(guān)的非事件性新聞文本和其他領(lǐng)域的各類新聞文本,共同構(gòu)成了新聞文本語(yǔ)料庫(kù),且不同類型文本的數(shù)量統(tǒng)計(jì)結(jié)果為:食品安全事件新聞文本40 427篇,與食品相關(guān)的非事件性新聞文本31 086篇,其他領(lǐng)域的各類新聞文本3 701篇。
(1)利用分類模型對(duì)語(yǔ)料庫(kù)中的所有文本進(jìn)行分類。雖然PU學(xué)習(xí)是在含少量標(biāo)記的積極樣例和大量未標(biāo)記樣例情況下訓(xùn)練分類器,但是為了與其他分類方法進(jìn)行比較,仍需要額外做如下標(biāo)記:手動(dòng)標(biāo)注了1 000篇食品安全事件新聞文本和1 000篇非食品安全事件的其他混合類型的新聞文本,將這2 000篇已標(biāo)注的新聞文本作為數(shù)據(jù)集。隨機(jī)抽取其中的300篇食品安全事件新聞文本和300篇非食品安全事件新聞文本共600篇文本作為測(cè)試集,其余的1 400篇文本作為訓(xùn)練集來(lái)訓(xùn)練分類器。在測(cè)試過(guò)程中,更多關(guān)注的是準(zhǔn)確率,其計(jì)算公式為
(9)
式中pc——分類器的準(zhǔn)確率
Nr——正確分類的文本數(shù)量
Nclassifier——分類器分類的文本數(shù)量
(2)從分類得到的食品安全事件類別中隨機(jī)抽取1 000篇文本,用于測(cè)試模型ORE_Models在食品安全事件新聞文本上的實(shí)體關(guān)系抽取性能。由于自然語(yǔ)言處理工具的處理對(duì)象是完整的句子,所以利用正則表達(dá)式方法[22]按照“。”、“?”、“!”、“……”、“:”、“;”6種標(biāo)點(diǎn)符號(hào)將這1 000篇文本分割成獨(dú)立的句子。
(3)從分割1 000篇文本獲得的句子中隨機(jī)選擇1 000個(gè)句子作為數(shù)據(jù)集news_dataset1進(jìn)行實(shí)體關(guān)系抽取。注意,采用兩次隨機(jī)抽取,是為了在具有可操作性的數(shù)據(jù)量下降低新聞編輯者的語(yǔ)法習(xí)慣對(duì)抽取模型性能的影響,使結(jié)果具有更高的可靠性,從而更好的對(duì)食品安全事件進(jìn)行實(shí)體關(guān)系抽取,有效地解決難以快速獲取事件主要內(nèi)容、脈絡(luò)聯(lián)系不明確等問(wèn)題。
(4)再次從語(yǔ)料庫(kù)中隨機(jī)抽取1 000篇文本,這1 000篇文本中包含食品安全事件在內(nèi)的多種混合類型的新聞。采用與得到數(shù)據(jù)集news_dataset1同樣的方法得到包含1 000個(gè)句子的數(shù)據(jù)集news_dataset2,該數(shù)據(jù)集用來(lái)評(píng)估模型ORE_Models對(duì)開放領(lǐng)域混合類型的新聞文本的抽取性能,從而驗(yàn)證模型ORE_Models的可移植性,使其能夠應(yīng)用于更多的研究領(lǐng)域。
在本實(shí)驗(yàn)中,由兩名專業(yè)人員根據(jù)文獻(xiàn)[12]的標(biāo)注策略分別標(biāo)注句子中的實(shí)體關(guān)系元組,然后經(jīng)過(guò)匯總、糾正后,最終確定數(shù)據(jù)集應(yīng)該被正確抽取的結(jié)果。本文的評(píng)估側(cè)重于句子級(jí)別的抽取,實(shí)驗(yàn)后,將實(shí)驗(yàn)抽取結(jié)果與手動(dòng)標(biāo)注的結(jié)果進(jìn)行比較,并通過(guò)3個(gè)度量標(biāo)準(zhǔn)對(duì)實(shí)體關(guān)系抽取結(jié)果進(jìn)行評(píng)估,分別是準(zhǔn)確率(P)、召回率(R)和F值(F)。P、R、F的計(jì)算公式為
(10)
(11)
(12)
式中r——模型ORE_Models抽取出的正確元組的數(shù)量
a——模型ORE_Models抽取出的所有元組的數(shù)量
W——語(yǔ)料庫(kù)中實(shí)際存在的元組的數(shù)量
2.2.1食品安全事件新聞文本的分類結(jié)果
為了驗(yàn)證PU學(xué)習(xí)方法的食品安全事件新聞文本的分類結(jié)果,首先只保留訓(xùn)練集中的200個(gè)標(biāo)注的食品安全事件標(biāo)簽,其余數(shù)據(jù)的標(biāo)簽均隱藏(即相當(dāng)于未標(biāo)記數(shù)據(jù))。然后在訓(xùn)練集中訓(xùn)練分類模型。最后,將得到的分類模型在測(cè)試集中進(jìn)行測(cè)試,得到最終的分類結(jié)果。為了進(jìn)行實(shí)驗(yàn)對(duì)比,在所有數(shù)據(jù)均保留了完整標(biāo)注的相同數(shù)據(jù)集下,分別采用支持向量機(jī)(SVM)、邏輯回歸算法(Logistic regression)、隨機(jī)森林(Random forest)[27-28]3種監(jiān)督分類方法進(jìn)行訓(xùn)練,將得到的結(jié)果進(jìn)行比較分析。實(shí)驗(yàn)結(jié)果為:本文的分類器準(zhǔn)確率達(dá)到82.35%,SVM準(zhǔn)確率為75.94%,Logistic regression準(zhǔn)確率為82.88%,Random forest準(zhǔn)確率為83.49%。
上述結(jié)果顯示SVM的準(zhǔn)確率在4個(gè)分類器中是最低的,Random forest分類器的準(zhǔn)確率是最高的,但是僅比本文的分類器高出1.14個(gè)百分點(diǎn)。其次是Logistic regression分類器,比本文的分類器高出0.53個(gè)百分點(diǎn)。從這些數(shù)據(jù)中可以發(fā)現(xiàn),本文構(gòu)建的分類器準(zhǔn)確率盡管不是最高的,但是達(dá)到了與其余3種監(jiān)督方法相似的效果,相比于這3種監(jiān)督方法需要完成的大量標(biāo)注所需要的人力、時(shí)間的損耗,且在將大規(guī)模網(wǎng)絡(luò)文本全部進(jìn)行手動(dòng)標(biāo)注幾乎不可能實(shí)現(xiàn)的前提下,半監(jiān)督分類方法更能滿足大規(guī)模數(shù)據(jù)分類研究的需要,并且降低了監(jiān)督方法中由于人的主觀因素引起的誤差,因此更適合應(yīng)用于大規(guī)模網(wǎng)絡(luò)文本的食品安全事件的分類。
將本文的分類器應(yīng)用于語(yǔ)料庫(kù),共得到了37 901篇食品安全事件新聞文本。
2.2.2實(shí)體關(guān)系抽取的性能評(píng)估
從分類得到的37 901篇食品安全事件新聞文本隨機(jī)抽取1 000篇文本并分割成句子后,共得到24 015個(gè)完整句子。再按照2.1節(jié)中描述的步驟構(gòu)建數(shù)據(jù)集news_dataset1和news_dataset2。
為了評(píng)估食品安全事件新聞文本的實(shí)體關(guān)系抽取結(jié)果和混合類型新聞文本的實(shí)體關(guān)系抽取結(jié)果的質(zhì)量,得到ORE_Models抽取數(shù)據(jù)集news_dataset1和news_dataset2時(shí)的性能如表5所示。
表5 ORE_Models抽取不同數(shù)據(jù)集時(shí)的性能Tab.5 Performance of ORE_Models when extracting different datasets %
從表5可以看出,ORE_Models模型的準(zhǔn)確率相對(duì)較高,很難有更大的改進(jìn)余地,但是獲得高準(zhǔn)確率的同時(shí)犧牲了部分召回率,使得召回率沒(méi)有達(dá)到與準(zhǔn)確率接近的性能。
news_dataset1和news_dataset2數(shù)據(jù)集上的抽取性能相比,ORE_Models模型在食品安全事件新聞文本數(shù)據(jù)集news_dataset1上的準(zhǔn)確率、召回率、F值均高于混合類型新聞文本數(shù)據(jù)集news_dataset2上的值,這說(shuō)明ORE_Models更適用于食品安全事件新聞文本的實(shí)體關(guān)系抽取。但是在混合類型的新聞文本上的抽取性能也達(dá)到了較高的水平,與在食品安全事件新聞文本相比僅在準(zhǔn)確率上降低了4.25個(gè)百分點(diǎn),召回率上降低了3.41個(gè)百分點(diǎn),F(xiàn)值上降低了3.79個(gè)百分點(diǎn),與食品安全事件新聞文本的抽取效果之間的差距控制在了5個(gè)百分點(diǎn)之內(nèi),均未出現(xiàn)較大差異,表明了ORE_Models也可以應(yīng)用于開放領(lǐng)域的新聞文本抽取。
2.2.3實(shí)體關(guān)系抽取的性能對(duì)比
為了驗(yàn)證模型ORE_Models的性能能夠滿足新聞文本關(guān)系抽取的需要,設(shè)計(jì)2組對(duì)比實(shí)驗(yàn):①ZORE系統(tǒng)、CORE系統(tǒng)與ORE_Models同時(shí)處理數(shù)據(jù)集news_dataset1。②ZORE系統(tǒng)、CORE系統(tǒng)與ORE_Models同時(shí)處理數(shù)據(jù)集news_dataset2。2組實(shí)驗(yàn)的評(píng)估均對(duì)照同一標(biāo)準(zhǔn)結(jié)果進(jìn)行判定。2組實(shí)驗(yàn)結(jié)果如表6所示。
表6 ZORE系統(tǒng)、CORE系統(tǒng)抽取news_dataset1和news_dataset2的性能Tab.6 Performance of ZORE system and CORE system to extract news_dataset1 and news_dataset2 %
從表5和表6中可以看到,在數(shù)據(jù)集news_dataset1和news_dataset2上CORE系統(tǒng)的準(zhǔn)確率、召回率和F值均是最低的,其次是ZORE系統(tǒng),各個(gè)性能最好的是ORE_Models。在news_dataset1數(shù)據(jù)集上,ZORE系統(tǒng)和CORE系統(tǒng)的各個(gè)指標(biāo)均
表現(xiàn)出了類似的性能,幾乎沒(méi)有差異,這說(shuō)明這2個(gè)系統(tǒng)都未對(duì)食品安全事件進(jìn)行更加深入的抽取研究。雖然ZORE系統(tǒng)和CORE系統(tǒng)面向的是開放領(lǐng)域各類別的實(shí)體關(guān)系抽取,但是在news_dataset2數(shù)據(jù)集上,它們的性能仍低于ORE_Models,這表明ORE_Models雖然主要面向食品安全事件新聞文本,但是它同樣可以很好地處理開放領(lǐng)域的文本,體現(xiàn)了ORE_Models的有效性與可移植性。
對(duì)于抽取過(guò)程中出現(xiàn)的抽取錯(cuò)誤問(wèn)題或者未抽取出句子中存在的元組問(wèn)題,主要是由以下幾方面引起的:NLP工具在分詞、詞性標(biāo)注或者命名實(shí)體識(shí)別等過(guò)程中出現(xiàn)錯(cuò)誤,存在未覆蓋的領(lǐng)域?qū)е聼o(wú)法正確處理句子,不能與模型匹配或匹配錯(cuò)誤;新聞文本中存在復(fù)雜度很高或者口語(yǔ)化、不規(guī)范的句子,該類句子的依存解析在模型中未涉及到。
提出一種基于依存分析的食品安全事件新聞文本的實(shí)體關(guān)系抽取方法FSE_ERE,根據(jù)中文語(yǔ)法特性和句子的依存分析結(jié)果構(gòu)建了關(guān)系抽取模型,實(shí)現(xiàn)了無(wú)監(jiān)督的食品安全事件新聞文本的實(shí)體關(guān)系抽取。為了在高質(zhì)量的食品安全事件新聞文本上進(jìn)行抽取工作,引入結(jié)合文本相似度算法和改進(jìn)的特征加權(quán)方法的PU學(xué)習(xí)半監(jiān)督分類方法,對(duì)大規(guī)模網(wǎng)絡(luò)文本進(jìn)行分類,準(zhǔn)確率達(dá)到82.35%。FSE_ERE方法能夠從大規(guī)模的網(wǎng)絡(luò)文本中準(zhǔn)確得到食品安全事件類別的新聞文本,且無(wú)需標(biāo)記大量數(shù)據(jù)的類別;同時(shí),實(shí)體關(guān)系抽取過(guò)程也打破了標(biāo)注語(yǔ)料庫(kù)、預(yù)先定義關(guān)系類型等限制,可快速準(zhǔn)確地抽取出文本中包含的各種信息,在食品安全事件新聞文本數(shù)據(jù)集上F值達(dá)到71.21%,在多類型混合新聞文本數(shù)據(jù)集上F值達(dá)到67.42%。FSE_ERE方法節(jié)省了大量的人力和時(shí)間,對(duì)于大規(guī)模網(wǎng)絡(luò)文本的信息統(tǒng)計(jì)分析具有重要意義,為中文的開放式實(shí)體關(guān)系抽取提供了新的思路。