陳雨婷 ,劉旭紅 ,劉秀磊
1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101
2.北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100101
近年來,我國招標(biāo)投標(biāo)(簡稱招投標(biāo))行業(yè)發(fā)展迅速。招投標(biāo)已成為企業(yè)間對接工程項(xiàng)目的常規(guī)交易方式。與此同時(shí),各大招投標(biāo)網(wǎng)站相繼出現(xiàn),Web 中積累了規(guī)模龐大的企業(yè)交易數(shù)據(jù)。但目前,招投標(biāo)信息化程度還相對滯后,如何更好地利用這些非結(jié)構(gòu)化的Web文本資源,從中快速獲取企業(yè)間的交易關(guān)系并實(shí)現(xiàn)信息結(jié)構(gòu)化管理,受到了業(yè)內(nèi)人士的廣泛關(guān)注。
隨著信息抽取技術(shù)的快速發(fā)展,相關(guān)研究開始采用基于遠(yuǎn)程監(jiān)督的實(shí)體關(guān)系抽取方法。該方法無需人工構(gòu)建語料庫,而是借助知識庫對齊文本實(shí)現(xiàn)自動標(biāo)注數(shù)據(jù),降低了信息抽取任務(wù)的成本,但引入了噪聲數(shù)據(jù)的干擾問題。此外,招投標(biāo)領(lǐng)域中缺乏較為完善的中文知識庫,導(dǎo)致面向中文資源的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取研究目前尚未能滿足該專業(yè)領(lǐng)域的特定需求。
針對上述問題,本文將選取招投標(biāo)網(wǎng)站的交易數(shù)據(jù)作為研究對象,圍繞信息抽取方法展開相關(guān)技術(shù)研究工作。
本文的主要貢獻(xiàn)如下:
(1)利用Web中非結(jié)構(gòu)化的招投標(biāo)領(lǐng)域企業(yè)歷史交易數(shù)據(jù)及企業(yè)名稱語料集構(gòu)建企業(yè)關(guān)系知識庫,實(shí)現(xiàn)自動標(biāo)注原始語料中的企業(yè)關(guān)系實(shí)例,并按本文方法實(shí)現(xiàn)企業(yè)關(guān)系實(shí)例抽取的迭代擴(kuò)充。
(2)為有效減弱遠(yuǎn)程監(jiān)督方法引入的噪聲干擾,提出結(jié)合領(lǐng)域規(guī)則的知識融合方法以優(yōu)化實(shí)體抽取質(zhì)量,在此基礎(chǔ)上,進(jìn)一步提出基于負(fù)例數(shù)據(jù)學(xué)習(xí)的降噪方法。
(3)結(jié)合招投標(biāo)領(lǐng)域語義特征,提出基于因子圖模型的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取方法,可有效判別企業(yè)間的關(guān)系,具有一定的領(lǐng)域拓展性。
將海量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)是文本信息抽取的一項(xiàng)重要任務(wù),實(shí)體關(guān)系抽取是其重要步驟之一。傳統(tǒng)的實(shí)體關(guān)系抽取方法可分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。其中,監(jiān)督學(xué)習(xí)方法的研究成果顯著。近些年,基于神經(jīng)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)實(shí)體關(guān)系抽取研究受到了廣泛關(guān)注,現(xiàn)已應(yīng)用在生物醫(yī)學(xué)、煤礦安全生產(chǎn)等諸多領(lǐng)域。但該類方法需要借助大量標(biāo)注語料,在Web數(shù)據(jù)日益增長的情況下,該類方法的應(yīng)用受到了制約。半監(jiān)督學(xué)習(xí)方法在迭代過程中易產(chǎn)生“語義漂流”問題,而無監(jiān)督學(xué)習(xí)方法在映射過程中易出現(xiàn)實(shí)例聚合錯誤等連帶問題。目前,這三類實(shí)體關(guān)系抽取方法都遇到了一定困難。
為此,Mintz 等[1]在2009 年首次提出基于遠(yuǎn)程監(jiān)督的實(shí)體關(guān)系抽取方法。該方法通過非結(jié)構(gòu)化文本與外部知識庫(Knowledge Base,KB)對齊操作,自動化構(gòu)建大量訓(xùn)練數(shù)據(jù),大大降低了模型構(gòu)建過程對人工標(biāo)注數(shù)據(jù)的依賴,提高了模型跨領(lǐng)域的可移植性。但該方法在獲取標(biāo)注數(shù)據(jù)時(shí)基于如下假設(shè):若非結(jié)構(gòu)化句子中所包含的兩個實(shí)體在知識庫中存在某種關(guān)系,則該句蘊(yùn)含這一潛在關(guān)系。由于該假設(shè)過于理想,導(dǎo)致自動標(biāo)注數(shù)據(jù)過程中可能會產(chǎn)生大量噪聲數(shù)據(jù)或忽略掉重要信息。為此,2010年Riedel等[2]提出一種相對松弛的假設(shè):若已知某實(shí)體對存在某種實(shí)體關(guān)系,則至少有一個包含該實(shí)體對的句子潛在地表達(dá)了這種實(shí)體關(guān)系。文獻(xiàn)[2]基于該假設(shè),得到了更為準(zhǔn)確的標(biāo)注數(shù)據(jù)。
在此基礎(chǔ)上,為更好地降低噪聲數(shù)據(jù)對關(guān)系抽取效果的影響,Roth等[3]提出結(jié)合主題模型和判別學(xué)習(xí)方法識別噪聲數(shù)據(jù),以優(yōu)化抽取結(jié)果的排序質(zhì)量。Fan 等[4]通過將一個由文本特征矩陣和標(biāo)簽矩陣逐項(xiàng)聯(lián)合而得的稀疏矩陣,分解為最小秩矩陣,再經(jīng)矩陣填充恢復(fù)底層低秩矩陣,以此擬合噪聲分布,進(jìn)而擬合真實(shí)分布。Ru 等[5]通過在詞向量中結(jié)合語義JacCard,對知識庫中的關(guān)系短語與句子中兩個實(shí)體之間的依賴短語進(jìn)行語義相似度測量,以過濾錯誤的標(biāo)簽。Qin 等[6]提出一種新的深度強(qiáng)化學(xué)習(xí)框架,基于RL Agent 策略自動識別數(shù)據(jù)集中的假正例,并放回負(fù)例集以減少噪聲數(shù)據(jù),同時(shí)保證了遠(yuǎn)程監(jiān)督關(guān)系抽取的性能及模型魯棒性。
上述研究主要針對英文文本進(jìn)行處理,近些年,針對中文資源的遠(yuǎn)程監(jiān)督關(guān)系抽取的技術(shù)研究也在不斷發(fā)展,但還僅以人物關(guān)系抽取方向?yàn)橹?。潘云等[7]利用互動百科中文數(shù)據(jù)構(gòu)建人物關(guān)系知識庫,以自動標(biāo)記關(guān)系抽取訓(xùn)練數(shù)據(jù),并引入標(biāo)簽傳播算法匹配部分未標(biāo)記人名對的關(guān)系。該方法未對噪聲數(shù)據(jù)進(jìn)行處理,準(zhǔn)確率在68.2%左右。黃蓓靜等[8]針對人物實(shí)體關(guān)系抽取任務(wù),利用詞向量及句子模式聚類、模式評分的方法,通過過濾原始訓(xùn)練集中的噪聲句子,實(shí)現(xiàn)數(shù)據(jù)集降噪的目的。黃楊琛等[9]提出在訓(xùn)練數(shù)據(jù)生成階段,引入多示例學(xué)習(xí)的思想,并基于TF-IDF 的關(guān)系指示詞發(fā)現(xiàn)的方法對遠(yuǎn)程監(jiān)督產(chǎn)生的數(shù)據(jù)進(jìn)行去噪處理,具有較好的可拓展性。
綜上所述,相比針對英文文本進(jìn)行關(guān)系抽取的研究,在處理中文文本上,遠(yuǎn)程監(jiān)督方法的噪音問題仍然沒有較好的解決方案,原因之一是中文表達(dá)在句式和語義上更為復(fù)雜,增加了關(guān)系抽取和降噪處理的難度。本文針對以上問題,研究面向遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注的降噪方法,提出融入語義特征的因子圖模型,并將其應(yīng)用于招投標(biāo)領(lǐng)域的企業(yè)關(guān)系抽取,最后進(jìn)行了實(shí)驗(yàn)驗(yàn)證。
通過遠(yuǎn)程監(jiān)督方法對齊領(lǐng)域關(guān)系知識庫和自然語言文本語料獲得候選關(guān)系實(shí)體對,并引入領(lǐng)域知識作為規(guī)則,將這些候選關(guān)系實(shí)體對標(biāo)記為匹配正確關(guān)系的企業(yè)對(正例)、匹配錯誤關(guān)系的企業(yè)對(負(fù)例)和未匹配上關(guān)系的企業(yè)對(未知實(shí)例),作為關(guān)系抽取模型學(xué)習(xí)的輸入,共同構(gòu)建特征模型,以提高后續(xù)分類性能。
因子圖能夠?qū)崿F(xiàn)對隨機(jī)變量之間的復(fù)雜關(guān)系進(jìn)行概率建模[10],有助于區(qū)分具有相似特征的關(guān)系實(shí)體對。目前,該模型已有效應(yīng)用于事件關(guān)聯(lián)分析[11]、用戶群組識別[12]、社區(qū)發(fā)現(xiàn)[13-14]等任務(wù)。因此,本文為準(zhǔn)確識別候選關(guān)系實(shí)體對的關(guān)系,提出結(jié)合候選關(guān)系實(shí)體對的詞法和語義特征共同構(gòu)建因子圖模型,用于實(shí)體關(guān)系分類。
結(jié)合招投標(biāo)領(lǐng)域數(shù)據(jù)的特點(diǎn),通過Web文本挖掘技術(shù)實(shí)現(xiàn)信息抽取,有效抽取招標(biāo)人、招標(biāo)代理機(jī)構(gòu)和中標(biāo)人所對應(yīng)的項(xiàng)目單位及其間發(fā)生的“委托”關(guān)系(招標(biāo)人-招標(biāo)代理機(jī)構(gòu))和“承辦”關(guān)系(招標(biāo)人-中標(biāo)人)。
通過觀察招投標(biāo)網(wǎng)頁內(nèi)容,可將招投標(biāo)網(wǎng)頁內(nèi)容分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。為保證抽取效果,需對兩種數(shù)據(jù)類型采用不同的信息抽取方法。
招標(biāo)代理機(jī)構(gòu)會幫助招標(biāo)人評定一個或多個最終中標(biāo)人,常借助二維表格公示該結(jié)果。本文利用結(jié)構(gòu)化數(shù)據(jù)的上下位關(guān)系定位實(shí)體,以獲取“承辦”關(guān)系。而招標(biāo)人和招標(biāo)代理機(jī)構(gòu)的“委托”關(guān)系普遍蘊(yùn)含在自然語言描述的非結(jié)構(gòu)化文本數(shù)據(jù)中。本文引入實(shí)體關(guān)系抽取技術(shù)獲取“委托”關(guān)系。遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取框架如圖1所示。
圖1 結(jié)合降噪處理的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取框架
處理非結(jié)構(gòu)化數(shù)據(jù)時(shí),獲取招標(biāo)人-招標(biāo)代理機(jī)構(gòu)間發(fā)生的“委托”關(guān)系的方法及思路:
(1)對招投標(biāo)網(wǎng)站中各篇文檔進(jìn)行數(shù)據(jù)清洗。
(2)對文檔進(jìn)行詞法和句法分析,包括中文分詞、詞性標(biāo)注、命名實(shí)體識別、依賴性解析等序列標(biāo)注處理。
(3)根據(jù)步驟(2)的NER 等序列標(biāo)注結(jié)果,抽取句中候選實(shí)體,并結(jié)合領(lǐng)域知識庫進(jìn)行實(shí)體鏈接,以實(shí)現(xiàn)知識融合。
(4)對各句中的候選實(shí)體進(jìn)行笛卡爾積運(yùn)算,結(jié)合限制條件,得到對應(yīng)的候選實(shí)體對集合V。實(shí)體對(A,B)∈V,其中A為招標(biāo)人,B為招標(biāo)代理機(jī)構(gòu)。
(5)根據(jù)步驟(2)和(4)的結(jié)果,提取基于候選實(shí)體對上下文的語義特征。
(6)采用遠(yuǎn)程監(jiān)督方法構(gòu)建訓(xùn)練數(shù)據(jù),即通過與招投標(biāo)領(lǐng)域知識庫對齊,為候選實(shí)體對匹配關(guān)系標(biāo)簽,并引入領(lǐng)域規(guī)則提高標(biāo)注質(zhì)量。
(7)以步驟(5)和(6)的結(jié)果作為輸入,構(gòu)建因子圖模型,統(tǒng)計(jì)推理候選實(shí)體對間具備指定關(guān)系的置信度;其間迭代使用吉布斯采樣和隨機(jī)梯度下降算法學(xué)習(xí)得到候選實(shí)體對的特征權(quán)重及邊界概率,最終抽取置信度高于規(guī)定閾值的候選實(shí)體對,即為具有“委托”關(guān)系的招標(biāo)人和招標(biāo)代理機(jī)構(gòu)。
(8)基于步驟(7)的結(jié)果,并結(jié)合由表格上下位關(guān)系抽取所得的“承辦”關(guān)系構(gòu)建企業(yè)關(guān)系網(wǎng)絡(luò)并完善知識庫,用于后續(xù)研究與分析。
上述步驟中,利用遠(yuǎn)程監(jiān)督方法構(gòu)建訓(xùn)練語料,可降低數(shù)據(jù)標(biāo)注對人工的依賴,但同時(shí)會引入噪聲數(shù)據(jù),易導(dǎo)致因子圖模型的推理和判別效果不佳。為此,本文在自動標(biāo)注關(guān)系標(biāo)簽前,引入知識融合技術(shù)優(yōu)化實(shí)體抽取質(zhì)量,以提升遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)的有效性;在自動標(biāo)注關(guān)系標(biāo)簽后,再引入領(lǐng)域知識作為規(guī)則,以提高遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)的準(zhǔn)確性,并利用由正例、負(fù)例和未知實(shí)例組成的關(guān)系抽取訓(xùn)練語料作為輸入分別學(xué)習(xí),由此降低噪聲數(shù)據(jù)對因子圖模型學(xué)習(xí)效果的影響。下面展開詳細(xì)論述。
正確抽取原始語料中所含實(shí)體,是減少遠(yuǎn)程監(jiān)督方法引入噪聲數(shù)據(jù)的重要前提。但在招投標(biāo)交易公告中,普遍存在同一主體(主要涉及招標(biāo)方、招標(biāo)代理機(jī)構(gòu)和中標(biāo)方)具有“多重指稱”的情況,會直接影響實(shí)體抽取的效果。
為提高實(shí)體抽取質(zhì)量,本文從語言學(xué)角度將“多重實(shí)體指稱項(xiàng)”問題分為:情況①單位全稱-別稱,情況②特定指稱項(xiàng),其中情況①又分為無歧義別稱、含歧義別稱兩類。
知識融合技術(shù)是解決這類問題的有效方法,實(shí)體鏈接和知識合并是知識融合的兩個重要子任務(wù)。實(shí)體鏈接(Entity Linking)[15]旨在對實(shí)體抽取結(jié)果進(jìn)行實(shí)體消歧和共指消解處理,并將處理結(jié)果鏈接到知識庫中對應(yīng)的正確實(shí)體對象。經(jīng)實(shí)體鏈接后,將知識元素加入知識庫,從而實(shí)現(xiàn)知識合并,有效剔除抽取結(jié)果中冗余和錯誤的實(shí)體。因此,本文首先通過實(shí)體消歧方法確定含歧義別稱所指代實(shí)體,再引入共指消解方法解決上述兩種情況中對應(yīng)的問題。
針對情況①,以圖2所示情況為例,招投標(biāo)領(lǐng)域知識庫中含有兩個實(shí)體概念“榆林市田浩商貿(mào)有限公司”和“上海田浩商貿(mào)有限公司”,公告標(biāo)題包含實(shí)體“榆林市田浩商貿(mào)有限公司”,但公告內(nèi)容中出現(xiàn)公司別稱“田浩商貿(mào)有限公司”,這類含有歧義的公司別稱在鏈接到知識庫后可能得到錯誤結(jié)果,降低知識融合質(zhì)量。
圖2 招投標(biāo)領(lǐng)域知識融合示例
由此,本文引入基于實(shí)體共現(xiàn)的實(shí)體消歧方法,通過從公告標(biāo)題和內(nèi)容中識別出的實(shí)體對象迭代進(jìn)行實(shí)體匹配,若兩個匹配實(shí)體存在公共字符串,則采用具有更完整命名信息的實(shí)體名稱命名兩個實(shí)體。上述實(shí)例由于公告標(biāo)題中實(shí)體命名更加完整,故通過該方法可確定公司實(shí)體“田浩商貿(mào)有限公司”實(shí)指“榆林市田浩商貿(mào)有限公司”。
針對情況②,表1 對出現(xiàn)特定指稱詞(如公司簡稱、該公司、我公司、招標(biāo)人、招標(biāo)方、null 等)的常見句式進(jìn)行了總結(jié)(②-a、b、c情況)。由此,基于情況①的處理結(jié)果,并針對當(dāng)前句S2中僅含有一個實(shí)體指稱詞的情況,提出針對特定指稱詞的共指消解算法(見算法1),將企業(yè)實(shí)體的指稱詞還原為企業(yè)全稱,即標(biāo)準(zhǔn)化命名實(shí)體。
表1 “多重指稱項(xiàng)”情況
算法1共指消解算法
輸入:S2,含有實(shí)體指稱詞的當(dāng)前句;S1,指稱詞所在句S2的上一句;comp_title,公告標(biāo)題中的實(shí)體;pron_word,S2中指稱詞;comp_b,S2中的唯一企業(yè)實(shí)體;feature_word,特征詞(如[招標(biāo)人,招標(biāo)方…]);target_word,S1中的先行詞(如A公司)
輸出:comp_a:指稱詞指向的原實(shí)體
1.初始化數(shù)據(jù):comp_a←null;
2.當(dāng)comp_title 未含有comp_b,并且S2含有唯一指稱詞pron_word時(shí),判別該篇文檔標(biāo)題comp_title中是否含有S2中的唯一企業(yè)實(shí)體comp_b;
3.如果S1含有先行詞target_word:
當(dāng)S1中含有指定特征詞feature_word 時(shí),令 omp_a←target_word,以解決示例②-a情況;
而當(dāng)S1中未含指定特征詞feature_word 時(shí),令comp_a←comp_title,以解決示例②-c情況;
4.如果S1未含有先行詞target_word,令comp_a←comp_title,以解決示例②-b情況。
綜合上述解決方案,將實(shí)體消歧和共指消解后的各命名實(shí)體鏈接到招投標(biāo)領(lǐng)域知識庫中對應(yīng)的正確實(shí)體;再通過知識合并,統(tǒng)一以公司全稱進(jìn)行命名。該方法不僅能夠降低實(shí)體抽取結(jié)果的冗余度和歧義性,保證最終獲取信息的質(zhì)量,還有助于提高候選實(shí)體對與領(lǐng)域知識庫對齊時(shí)的匹配效果,為后續(xù)實(shí)體關(guān)系抽取、噪聲處理等任務(wù)提供更為準(zhǔn)確的知識基礎(chǔ)。
本文首先利用Web 上半結(jié)構(gòu)化的招投標(biāo)領(lǐng)域企業(yè)歷史交易數(shù)據(jù)及企業(yè)名稱語料集構(gòu)建企業(yè)關(guān)系知識庫,以保證在遠(yuǎn)程監(jiān)督標(biāo)注關(guān)系數(shù)據(jù)時(shí),準(zhǔn)確獲取更多的企業(yè)關(guān)系實(shí)例。再借助上述企業(yè)關(guān)系知識庫自動對齊招投標(biāo)公告文本中具有對應(yīng)交易關(guān)系的企業(yè)實(shí)體對。此時(shí),新的關(guān)系抽取語料集中包括含有“噪聲”的關(guān)系企業(yè)對和未匹配上關(guān)系的企業(yè)對。然后根據(jù)噪聲數(shù)據(jù)情況提出降噪方法,從而得到最終訓(xùn)練語料。
根據(jù)“遠(yuǎn)程監(jiān)督”易引入多實(shí)例問題和多標(biāo)簽問題這兩類“噪聲”,結(jié)合招投標(biāo)領(lǐng)域數(shù)據(jù)情況加以分析。本節(jié)待解決問題是與外部知識庫對齊后得到的關(guān)系企業(yè)實(shí)體對并不具有指定關(guān)系,即產(chǎn)生了多實(shí)例問題。本文將該類數(shù)據(jù)記為“負(fù)例”。
招投標(biāo)企業(yè)關(guān)系知識庫中存在具有“委托”關(guān)系的實(shí)體對集,記為relation<A,B>,A表示招標(biāo)方,B表示招標(biāo)代理機(jī)構(gòu)。通過遠(yuǎn)程監(jiān)督方法獲得的新語料集中含有噪聲數(shù)據(jù),如表2 中示例b、c、d 所示。其中示例d可采用3.2 節(jié)中還原指代項(xiàng)的方法加以解決,獲得正確關(guān)系標(biāo)簽。
表2 遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取噪聲數(shù)據(jù)示例
多實(shí)例情況易產(chǎn)生由關(guān)系指向錯誤(如示例b)和關(guān)系誤判錯誤(如示例c中的非“委托”關(guān)系誤判為“委托”關(guān)系)等問題所引入的噪聲數(shù)據(jù),從而影響分類模型的判別效果。
為減少噪聲數(shù)據(jù)的影響,本文通過分析和統(tǒng)計(jì)大量招投標(biāo)公告文書的語言特征,并結(jié)合領(lǐng)域?qū)<医?jīng)驗(yàn)的引導(dǎo)與驗(yàn)證,構(gòu)建和完善領(lǐng)域知識規(guī)則。并結(jié)合實(shí)驗(yàn)的準(zhǔn)確率和召回率(實(shí)驗(yàn)結(jié)果見4.2 節(jié)),完善領(lǐng)域知識規(guī)則的構(gòu)建,以保證其合理性和完備性。
領(lǐng)域知識規(guī)則的符號含義如下:
(A,B):表示公告中含有的候選實(shí)體對。
relation(A,B):表示經(jīng)判斷候選實(shí)體對(A,B)具有“委托”關(guān)系。
before(A) 、between(A,B)、behind(B):分別表示實(shí)體A之前、實(shí)體A和實(shí)體B之間的分詞結(jié)果集合。
KeyWord={委托,…},kw∈KeyWord:表示關(guān)系詞集合。
PassiveWord={受,被,…},pw∈PassiveWord:表示被動詞集合。
comma={',',','},wd∈comma:表示中、英文逗號集合。
領(lǐng)域知識規(guī)則如下:
規(guī)則1識別示例a中“委托”關(guān)系的情況。
若pw∈before(A)、wd∈between(A,B),并且kw∈between(A,B),則滿足relation(A,B)。
規(guī)則2修正示例b中“關(guān)系指向錯誤”的情況。
若pw∈between(A,B),并且kw∈behind(B),則滿足relation(B,A) 。
規(guī)則3識別示例c中“非委托關(guān)系”的情況。
若kw?before(A) 、kw?between(A,B),并且kw?behind(B),則一定不存在relation(A,B)。
通過領(lǐng)域知識規(guī)則可有效區(qū)別出由遠(yuǎn)程監(jiān)督方法構(gòu)建的訓(xùn)練數(shù)據(jù)集中的有效標(biāo)注數(shù)據(jù)和噪聲數(shù)據(jù),有利于后續(xù)因子圖模型的構(gòu)建及推理學(xué)習(xí)。
經(jīng)遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注后,新的關(guān)系抽取語料集中還存在部分待匹配關(guān)系的企業(yè)實(shí)體對。針對該部分?jǐn)?shù)據(jù),本文借助因子圖模型進(jìn)行概率建模,解決隨機(jī)變量之間的復(fù)雜關(guān)系。面向招投標(biāo)領(lǐng)域的因子圖模型構(gòu)建主要基于兩類節(jié)點(diǎn):變量節(jié)點(diǎn)和因子節(jié)點(diǎn)。關(guān)鍵元素及公式定義如下。
定義1(變量節(jié)點(diǎn))模型中可觀測到的候選關(guān)系實(shí)體對集合V={v1,v2,…,vn},每個實(shí)體對vi作為變量節(jié)點(diǎn)。每個vi都具有關(guān)系標(biāo)簽label(vi)∈{0,1,null},其中0為負(fù)標(biāo),1為正標(biāo),null為待預(yù)測標(biāo)簽。
定義2(特征因子)模型中每個變量節(jié)點(diǎn)都具有一個或多個句內(nèi)特征項(xiàng),各特征項(xiàng)作為特征因子節(jié)點(diǎn)fi,即有特征因子節(jié)點(diǎn)集合F={f1,f2,…,fm}。
句內(nèi)特征項(xiàng)包含該句分詞后的詞語、詞性、命名實(shí)體等序列標(biāo)注特征。
當(dāng)且僅當(dāng)變量節(jié)點(diǎn)vi是特征因子節(jié)點(diǎn)fi的自變量(即實(shí)體對具有某一特征)時(shí),對應(yīng)的變量節(jié)點(diǎn)vi和特征因子節(jié)點(diǎn)fi相連,其連線作為因子圖的邊集E={e1,e2,…,en}。
定義3(關(guān)聯(lián)權(quán)重因子)模型中各邊ei具有關(guān)聯(lián)權(quán)重因子wi,構(gòu)成關(guān)聯(lián)權(quán)重因子集W={w1,w2,…},是由各特征因子經(jīng)過函數(shù)映射獲得的實(shí)數(shù)集,即wi=func(fi)。在構(gòu)建因子圖模型過程中,關(guān)聯(lián)權(quán)重因子wi經(jīng)多次迭代學(xué)習(xí)完成權(quán)值優(yōu)化,直至模型學(xué)習(xí)完成。關(guān)聯(lián)權(quán)重因子wi反映了變量節(jié)點(diǎn)間的關(guān)聯(lián)程度。
定義4(possible world模型)用以描述不確定性數(shù)據(jù)的通用模型,常記為Iσ。Iσ中包含若干個實(shí)例Ii={vi1,vi2,…,vin},每個實(shí)例發(fā)生的概率為該實(shí)例中各變量發(fā)生的概率之積,即。
為方便理解,本文中Iσ的實(shí)例Ii由各變量節(jié)點(diǎn)vi及其關(guān)系標(biāo)簽label(vi)表示為Ii:{vi→label(vi)}。
本文基于招投標(biāo)公告數(shù)據(jù)構(gòu)建因子圖模型,根據(jù)各實(shí)體對共享不同特征的情況,計(jì)算實(shí)體對具有的某種關(guān)系的邊界概率。不同的變量節(jié)點(diǎn)vi,通過共享fi而關(guān)聯(lián)。若兩個變量節(jié)點(diǎn)共享fi數(shù)量越多,則兩個變量節(jié)點(diǎn)屬于同類關(guān)系的概率就越大。因此,需要定義求解邊緣概率的相關(guān)公式。
各特征因子fi在當(dāng)前Iσ實(shí)例上的聚合值:
Iσ所有實(shí)例的聚合概率:
Iσ實(shí)例各變量和先驗(yàn)變量的關(guān)系標(biāo)簽label(vi)一致的實(shí)例集合為τe,其中關(guān)系標(biāo)簽為1 的集合label(vi)=1},關(guān)系標(biāo)簽為0的集合由此計(jì)算變量vi的關(guān)系標(biāo)簽取值為1的邊緣概率:
但由于Iσ中存在2n種實(shí)例情況,若按上述方法求解,計(jì)算復(fù)雜度很高。因此采用吉布斯采樣進(jìn)行參數(shù)估計(jì),以降低計(jì)算維度,提高算法的運(yùn)行效率,并采用隨機(jī)梯度下降進(jìn)行迭代學(xué)習(xí),直至模型收斂。算法思想見算法2。
算法2因子圖模型參數(shù)學(xué)習(xí)算法
結(jié)合本文所采用的因子圖模型構(gòu)建思路,給出一個因子圖模型的局部示例,如表3所示。假設(shè)局部任務(wù)中有4 個候選實(shí)體對(Ai,Bi),i=1,2,3,4,4 個變量節(jié)點(diǎn)構(gòu)成實(shí)例I0:{v1→ null,v2→ 0,v3→ 1,v4→ null} ,各變量節(jié)點(diǎn)vi分別具有多種序列化標(biāo)注特征fi:feature。
表3 變量節(jié)點(diǎn)-特征示例
根據(jù)表3,變量因子間共享不同的特征因子fi,i=1,2,3,4,特征經(jīng)函數(shù)映射轉(zhuǎn)化為關(guān)聯(lián)權(quán)重因子wi,統(tǒng)計(jì)特征因子的共享情況(見表4)。
表4 特征因子-特征函數(shù)示例
由此可根據(jù)表4中的示例數(shù)據(jù)構(gòu)建因子圖模型(見圖3)?,F(xiàn)已知先驗(yàn)候選關(guān)系實(shí)體對v2、v3關(guān)系標(biāo)簽分別為0、1,Iσ的實(shí)例Ii應(yīng)在和先驗(yàn)變量對應(yīng)的關(guān)系標(biāo)簽值保持一致的條件下,根據(jù)算法2 分別計(jì)算label(v1)和label(v4)取值為1的概率,進(jìn)而可依次判別v1和v4是否具有“委托”關(guān)系。
圖3 因子圖模型示例
本文借助因子圖模型良好的統(tǒng)計(jì)和推理性能,并按照上述步驟,計(jì)算獲得招標(biāo)人和招標(biāo)代理機(jī)構(gòu)之間具有“委托”關(guān)系的邊界概率,該值高于預(yù)定閾值的對應(yīng)候選實(shí)體對即具有“委托”關(guān)系。
本文實(shí)驗(yàn)使用語料來源于中國招投標(biāo)網(wǎng)、中國采購與招標(biāo)網(wǎng)2019 年首季度建筑工程類項(xiàng)目招標(biāo)信息;為提高關(guān)系抽取模型訓(xùn)練效率,進(jìn)一步篩選出由招標(biāo)代理機(jī)構(gòu)開展公開競標(biāo)的公告,共計(jì)4 000 篇。本文實(shí)驗(yàn)訓(xùn)練語料和測試語料比例為4∶1。針對抽取招標(biāo)人-招標(biāo)代理機(jī)構(gòu)間的“委托”關(guān)系,實(shí)驗(yàn)基于命名實(shí)體標(biāo)注結(jié)果和知識融合技術(shù),抽取得到實(shí)體458例,包括256家招標(biāo)方和202家招標(biāo)代理機(jī)構(gòu);實(shí)體經(jīng)笛卡爾積組成候選實(shí)體對8 284 條;結(jié)合遠(yuǎn)程監(jiān)督學(xué)習(xí)和啟發(fā)式規(guī)則為候選實(shí)體對自動標(biāo)注關(guān)系類型。
文本特征提取采用候選實(shí)體對上下文的語義特征。通過分析招投標(biāo)領(lǐng)域詞匯統(tǒng)計(jì)特征和語言學(xué)特征,以句為單位,提取句內(nèi)候選實(shí)體對(A,B)前-中-后的窗口特征,窗口特征選擇詞匯、詞性(POS)、命名實(shí)體(NER)、依存語法關(guān)系(DP)、詞匯長度(LENGTH)這5個序列標(biāo)注信息(見表5)。
表5 特征類型-特征提取結(jié)果示例
基于以上步驟,實(shí)驗(yàn)采用吉布斯采樣和隨機(jī)梯度下降方法迭代學(xué)習(xí)模型參數(shù),優(yōu)化因子圖模型,并通過多次實(shí)驗(yàn),確定關(guān)系判別的閾值α(如α=0.5)。
為驗(yàn)證本文方法的有效性,設(shè)計(jì)了不同去噪強(qiáng)度下的實(shí)驗(yàn)對比和不同關(guān)系抽取方法下的實(shí)驗(yàn)對比。
本文首先設(shè)計(jì)了3 個實(shí)驗(yàn):實(shí)驗(yàn)1 采用基于因子圖模型的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取方法抽取實(shí)體關(guān)系,并未做任何降噪處理;實(shí)驗(yàn)2 在實(shí)驗(yàn)1 的基礎(chǔ)上,采用3.2 節(jié)提出的解決公告文本中的“多重指稱項(xiàng)”問題的知識融合方法進(jìn)行降噪;實(shí)驗(yàn)3 在實(shí)驗(yàn)2 的基礎(chǔ)上,采用3.3 節(jié)基于領(lǐng)域知識和負(fù)例學(xué)習(xí)的降噪方法,以進(jìn)一步提高抽取質(zhì)量。最后,對3 次迭代優(yōu)化的實(shí)驗(yàn)結(jié)果進(jìn)行比較(如表6和圖4所示)。
表6 不同去噪強(qiáng)度下的實(shí)驗(yàn)數(shù)據(jù)
圖4 不同去噪強(qiáng)度下的實(shí)驗(yàn)結(jié)果
由圖表數(shù)據(jù)可知,實(shí)驗(yàn)2 引入知識融合方法后,識別出了實(shí)驗(yàn)1 中遺漏的314 例實(shí)體對,但抽取性能略有下降。這是由于候選實(shí)體對增多的同時(shí),遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注也產(chǎn)生大量負(fù)例未能去除。
實(shí)驗(yàn)3 的精準(zhǔn)率(P)和F1 值顯著提高,主要是由于實(shí)驗(yàn)3 通過負(fù)例學(xué)習(xí),有效判別出在實(shí)驗(yàn)2 中未能剔除的2 196例具有錯誤關(guān)系指向的實(shí)體對。
此外,為對比不同關(guān)系抽取方法的抽取效果,選擇已被廣泛應(yīng)用于信息抽取任務(wù)中的兩種判別式模型,分別是經(jīng)典算法條件隨機(jī)場(Conditional Random Field,CRF)和研究熱點(diǎn)雙向長短期記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)神經(jīng)網(wǎng)絡(luò)。與本文采用的因子圖方法進(jìn)行對比,實(shí)驗(yàn)統(tǒng)一以經(jīng)本文降噪方法處理后的遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注結(jié)果作為模型的輸入,實(shí)驗(yàn)結(jié)果如圖5所示。
圖5 不同關(guān)系抽取方法的實(shí)驗(yàn)結(jié)果
由圖5可見,本文提出的基于因子圖模型的關(guān)系抽取方法在F1值上均略高于CRF方法和Bi-LSTM方法。
上述兩組實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法具有更好的抽取性能。此外,針對招投標(biāo)網(wǎng)站每日更新擴(kuò)增的海量公告,采用本文方法可比傳統(tǒng)監(jiān)督學(xué)習(xí)方法大幅減少標(biāo)注數(shù)據(jù)的工作量,從而提高關(guān)系抽取效率。圖6示意了通過本文的關(guān)系抽取方法構(gòu)建的企業(yè)關(guān)系知識庫的局部圖譜。針對新增招投標(biāo)公告信息,可循環(huán)迭代采用本文方法更新知識庫中的知識,在一定程度上解決了招投標(biāo)領(lǐng)域中文知識庫匱乏的問題。
本文提出了一種基于因子圖模型的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取方法,并借助知識融合、負(fù)例學(xué)習(xí)及領(lǐng)域知識等方法,解決了招投標(biāo)領(lǐng)域知識庫“遠(yuǎn)程監(jiān)督”標(biāo)注數(shù)據(jù)時(shí)出現(xiàn)的“噪聲”干擾問題;借助因子圖模型良好的性能,實(shí)現(xiàn)了招投標(biāo)領(lǐng)域?qū)嶓w關(guān)系自動抽取任務(wù)。本文提出的信息抽取方法具有較好的可拓展性,可以移植于其他領(lǐng)域。
對比實(shí)驗(yàn)結(jié)果說明本文方法能夠在一定程度降低人工標(biāo)注數(shù)據(jù)的高額成本,減少冗余、歧義信息,提高招投標(biāo)領(lǐng)域?qū)嶓w關(guān)系抽取的準(zhǔn)度與精度,進(jìn)而保證了獲取重要信息的質(zhì)量和時(shí)效性。本文方法所獲關(guān)系實(shí)例可迭代擴(kuò)充現(xiàn)有招投標(biāo)領(lǐng)域知識庫,可有效協(xié)助和支持相關(guān)項(xiàng)目單位、企業(yè)制定管理決策等活動,也可以協(xié)助招標(biāo)方客觀選擇招標(biāo)代理機(jī)構(gòu),便于監(jiān)管部門及時(shí)查看招投標(biāo)參與主體的交易情況。
本文聚焦于信息抽取技術(shù),能否同步抽取多類關(guān)系及屬性等多維信息,如關(guān)系關(guān)聯(lián)抽取、事件抽取方法等是下一階段的研究重點(diǎn)。