面向招投標(biāo)領(lǐng)域的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取研究

2020-09-04 03:16:20陳雨婷劉旭紅劉秀磊

計(jì)算機(jī)工程與應(yīng)用 2020年17期

陳雨婷，劉旭紅，劉秀磊

1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室，北京 100101

2.北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院，北京 100101

1 引言

近年來，我國招標(biāo)投標(biāo)（簡稱招投標(biāo)）行業(yè)發(fā)展迅速。招投標(biāo)已成為企業(yè)間對接工程項(xiàng)目的常規(guī)交易方式。與此同時(shí)，各大招投標(biāo)網(wǎng)站相繼出現(xiàn)，Web 中積累了規(guī)模龐大的企業(yè)交易數(shù)據(jù)。但目前，招投標(biāo)信息化程度還相對滯后，如何更好地利用這些非結(jié)構(gòu)化的Web文本資源，從中快速獲取企業(yè)間的交易關(guān)系并實(shí)現(xiàn)信息結(jié)構(gòu)化管理，受到了業(yè)內(nèi)人士的廣泛關(guān)注。

隨著信息抽取技術(shù)的快速發(fā)展，相關(guān)研究開始采用基于遠(yuǎn)程監(jiān)督的實(shí)體關(guān)系抽取方法。該方法無需人工構(gòu)建語料庫，而是借助知識庫對齊文本實(shí)現(xiàn)自動標(biāo)注數(shù)據(jù)，降低了信息抽取任務(wù)的成本，但引入了噪聲數(shù)據(jù)的干擾問題。此外，招投標(biāo)領(lǐng)域中缺乏較為完善的中文知識庫，導(dǎo)致面向中文資源的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取研究目前尚未能滿足該專業(yè)領(lǐng)域的特定需求。

針對上述問題，本文將選取招投標(biāo)網(wǎng)站的交易數(shù)據(jù)作為研究對象，圍繞信息抽取方法展開相關(guān)技術(shù)研究工作。

本文的主要貢獻(xiàn)如下：

（1）利用Web中非結(jié)構(gòu)化的招投標(biāo)領(lǐng)域企業(yè)歷史交易數(shù)據(jù)及企業(yè)名稱語料集構(gòu)建企業(yè)關(guān)系知識庫，實(shí)現(xiàn)自動標(biāo)注原始語料中的企業(yè)關(guān)系實(shí)例，并按本文方法實(shí)現(xiàn)企業(yè)關(guān)系實(shí)例抽取的迭代擴(kuò)充。

（2）為有效減弱遠(yuǎn)程監(jiān)督方法引入的噪聲干擾，提出結(jié)合領(lǐng)域規(guī)則的知識融合方法以優(yōu)化實(shí)體抽取質(zhì)量，在此基礎(chǔ)上，進(jìn)一步提出基于負(fù)例數(shù)據(jù)學(xué)習(xí)的降噪方法。

（3）結(jié)合招投標(biāo)領(lǐng)域語義特征，提出基于因子圖模型的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取方法，可有效判別企業(yè)間的關(guān)系，具有一定的領(lǐng)域拓展性。

2 遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取研究現(xiàn)狀

將海量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)是文本信息抽取的一項(xiàng)重要任務(wù)，實(shí)體關(guān)系抽取是其重要步驟之一。傳統(tǒng)的實(shí)體關(guān)系抽取方法可分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。其中，監(jiān)督學(xué)習(xí)方法的研究成果顯著。近些年，基于神經(jīng)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)實(shí)體關(guān)系抽取研究受到了廣泛關(guān)注，現(xiàn)已應(yīng)用在生物醫(yī)學(xué)、煤礦安全生產(chǎn)等諸多領(lǐng)域。但該類方法需要借助大量標(biāo)注語料，在Web數(shù)據(jù)日益增長的情況下，該類方法的應(yīng)用受到了制約。半監(jiān)督學(xué)習(xí)方法在迭代過程中易產(chǎn)生“語義漂流”問題，而無監(jiān)督學(xué)習(xí)方法在映射過程中易出現(xiàn)實(shí)例聚合錯誤等連帶問題。目前，這三類實(shí)體關(guān)系抽取方法都遇到了一定困難。

為此，Mintz 等[1]在2009 年首次提出基于遠(yuǎn)程監(jiān)督的實(shí)體關(guān)系抽取方法。該方法通過非結(jié)構(gòu)化文本與外部知識庫（Knowledge Base，KB）對齊操作，自動化構(gòu)建大量訓(xùn)練數(shù)據(jù)，大大降低了模型構(gòu)建過程對人工標(biāo)注數(shù)據(jù)的依賴，提高了模型跨領(lǐng)域的可移植性。但該方法在獲取標(biāo)注數(shù)據(jù)時(shí)基于如下假設(shè)：若非結(jié)構(gòu)化句子中所包含的兩個實(shí)體在知識庫中存在某種關(guān)系，則該句蘊(yùn)含這一潛在關(guān)系。由于該假設(shè)過于理想，導(dǎo)致自動標(biāo)注數(shù)據(jù)過程中可能會產(chǎn)生大量噪聲數(shù)據(jù)或忽略掉重要信息。為此，2010年Riedel等[2]提出一種相對松弛的假設(shè)：若已知某實(shí)體對存在某種實(shí)體關(guān)系，則至少有一個包含該實(shí)體對的句子潛在地表達(dá)了這種實(shí)體關(guān)系。文獻(xiàn)[2]基于該假設(shè)，得到了更為準(zhǔn)確的標(biāo)注數(shù)據(jù)。

在此基礎(chǔ)上，為更好地降低噪聲數(shù)據(jù)對關(guān)系抽取效果的影響，Roth等[3]提出結(jié)合主題模型和判別學(xué)習(xí)方法識別噪聲數(shù)據(jù)，以優(yōu)化抽取結(jié)果的排序質(zhì)量。Fan 等[4]通過將一個由文本特征矩陣和標(biāo)簽矩陣逐項(xiàng)聯(lián)合而得的稀疏矩陣，分解為最小秩矩陣，再經(jīng)矩陣填充恢復(fù)底層低秩矩陣，以此擬合噪聲分布，進(jìn)而擬合真實(shí)分布。Ru 等[5]通過在詞向量中結(jié)合語義JacCard，對知識庫中的關(guān)系短語與句子中兩個實(shí)體之間的依賴短語進(jìn)行語義相似度測量，以過濾錯誤的標(biāo)簽。Qin 等[6]提出一種新的深度強(qiáng)化學(xué)習(xí)框架，基于RL Agent 策略自動識別數(shù)據(jù)集中的假正例，并放回負(fù)例集以減少噪聲數(shù)據(jù)，同時(shí)保證了遠(yuǎn)程監(jiān)督關(guān)系抽取的性能及模型魯棒性。

上述研究主要針對英文文本進(jìn)行處理，近些年，針對中文資源的遠(yuǎn)程監(jiān)督關(guān)系抽取的技術(shù)研究也在不斷發(fā)展，但還僅以人物關(guān)系抽取方向?yàn)橹?。潘云等[7]利用互動百科中文數(shù)據(jù)構(gòu)建人物關(guān)系知識庫，以自動標(biāo)記關(guān)系抽取訓(xùn)練數(shù)據(jù)，并引入標(biāo)簽傳播算法匹配部分未標(biāo)記人名對的關(guān)系。該方法未對噪聲數(shù)據(jù)進(jìn)行處理，準(zhǔn)確率在68.2%左右。黃蓓靜等[8]針對人物實(shí)體關(guān)系抽取任務(wù)，利用詞向量及句子模式聚類、模式評分的方法，通過過濾原始訓(xùn)練集中的噪聲句子，實(shí)現(xiàn)數(shù)據(jù)集降噪的目的。黃楊琛等[9]提出在訓(xùn)練數(shù)據(jù)生成階段，引入多示例學(xué)習(xí)的思想，并基于TF-IDF 的關(guān)系指示詞發(fā)現(xiàn)的方法對遠(yuǎn)程監(jiān)督產(chǎn)生的數(shù)據(jù)進(jìn)行去噪處理，具有較好的可拓展性。

綜上所述，相比針對英文文本進(jìn)行關(guān)系抽取的研究，在處理中文文本上，遠(yuǎn)程監(jiān)督方法的噪音問題仍然沒有較好的解決方案，原因之一是中文表達(dá)在句式和語義上更為復(fù)雜，增加了關(guān)系抽取和降噪處理的難度。本文針對以上問題，研究面向遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注的降噪方法，提出融入語義特征的因子圖模型，并將其應(yīng)用于招投標(biāo)領(lǐng)域的企業(yè)關(guān)系抽取，最后進(jìn)行了實(shí)驗(yàn)驗(yàn)證。

3 遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取及降噪研究

通過遠(yuǎn)程監(jiān)督方法對齊領(lǐng)域關(guān)系知識庫和自然語言文本語料獲得候選關(guān)系實(shí)體對，并引入領(lǐng)域知識作為規(guī)則，將這些候選關(guān)系實(shí)體對標(biāo)記為匹配正確關(guān)系的企業(yè)對（正例）、匹配錯誤關(guān)系的企業(yè)對（負(fù)例）和未匹配上關(guān)系的企業(yè)對（未知實(shí)例），作為關(guān)系抽取模型學(xué)習(xí)的輸入，共同構(gòu)建特征模型，以提高后續(xù)分類性能。

因子圖能夠?qū)崿F(xiàn)對隨機(jī)變量之間的復(fù)雜關(guān)系進(jìn)行概率建模[10]，有助于區(qū)分具有相似特征的關(guān)系實(shí)體對。目前，該模型已有效應(yīng)用于事件關(guān)聯(lián)分析[11]、用戶群組識別[12]、社區(qū)發(fā)現(xiàn)[13-14]等任務(wù)。因此，本文為準(zhǔn)確識別候選關(guān)系實(shí)體對的關(guān)系，提出結(jié)合候選關(guān)系實(shí)體對的詞法和語義特征共同構(gòu)建因子圖模型，用于實(shí)體關(guān)系分類。

3.1 招投標(biāo)領(lǐng)域的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取框架

結(jié)合招投標(biāo)領(lǐng)域數(shù)據(jù)的特點(diǎn)，通過Web文本挖掘技術(shù)實(shí)現(xiàn)信息抽取，有效抽取招標(biāo)人、招標(biāo)代理機(jī)構(gòu)和中標(biāo)人所對應(yīng)的項(xiàng)目單位及其間發(fā)生的“委托”關(guān)系（招標(biāo)人-招標(biāo)代理機(jī)構(gòu)）和“承辦”關(guān)系（招標(biāo)人-中標(biāo)人）。

通過觀察招投標(biāo)網(wǎng)頁內(nèi)容，可將招投標(biāo)網(wǎng)頁內(nèi)容分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。為保證抽取效果，需對兩種數(shù)據(jù)類型采用不同的信息抽取方法。

招標(biāo)代理機(jī)構(gòu)會幫助招標(biāo)人評定一個或多個最終中標(biāo)人，常借助二維表格公示該結(jié)果。本文利用結(jié)構(gòu)化數(shù)據(jù)的上下位關(guān)系定位實(shí)體，以獲取“承辦”關(guān)系。而招標(biāo)人和招標(biāo)代理機(jī)構(gòu)的“委托”關(guān)系普遍蘊(yùn)含在自然語言描述的非結(jié)構(gòu)化文本數(shù)據(jù)中。本文引入實(shí)體關(guān)系抽取技術(shù)獲取“委托”關(guān)系。遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取框架如圖1所示。

圖1 結(jié)合降噪處理的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取框架

處理非結(jié)構(gòu)化數(shù)據(jù)時(shí)，獲取招標(biāo)人-招標(biāo)代理機(jī)構(gòu)間發(fā)生的“委托”關(guān)系的方法及思路：

（1）對招投標(biāo)網(wǎng)站中各篇文檔進(jìn)行數(shù)據(jù)清洗。

（2）對文檔進(jìn)行詞法和句法分析，包括中文分詞、詞性標(biāo)注、命名實(shí)體識別、依賴性解析等序列標(biāo)注處理。

（3）根據(jù)步驟（2）的NER 等序列標(biāo)注結(jié)果，抽取句中候選實(shí)體，并結(jié)合領(lǐng)域知識庫進(jìn)行實(shí)體鏈接，以實(shí)現(xiàn)知識融合。

（4）對各句中的候選實(shí)體進(jìn)行笛卡爾積運(yùn)算，結(jié)合限制條件，得到對應(yīng)的候選實(shí)體對集合V。實(shí)體對(A,B)∈V，其中A為招標(biāo)人，B為招標(biāo)代理機(jī)構(gòu)。

（5）根據(jù)步驟（2）和（4）的結(jié)果，提取基于候選實(shí)體對上下文的語義特征。

（6）采用遠(yuǎn)程監(jiān)督方法構(gòu)建訓(xùn)練數(shù)據(jù)，即通過與招投標(biāo)領(lǐng)域知識庫對齊，為候選實(shí)體對匹配關(guān)系標(biāo)簽，并引入領(lǐng)域規(guī)則提高標(biāo)注質(zhì)量。

（7）以步驟（5）和（6）的結(jié)果作為輸入，構(gòu)建因子圖模型，統(tǒng)計(jì)推理候選實(shí)體對間具備指定關(guān)系的置信度；其間迭代使用吉布斯采樣和隨機(jī)梯度下降算法學(xué)習(xí)得到候選實(shí)體對的特征權(quán)重及邊界概率，最終抽取置信度高于規(guī)定閾值的候選實(shí)體對，即為具有“委托”關(guān)系的招標(biāo)人和招標(biāo)代理機(jī)構(gòu)。

（8）基于步驟（7）的結(jié)果，并結(jié)合由表格上下位關(guān)系抽取所得的“承辦”關(guān)系構(gòu)建企業(yè)關(guān)系網(wǎng)絡(luò)并完善知識庫，用于后續(xù)研究與分析。

上述步驟中，利用遠(yuǎn)程監(jiān)督方法構(gòu)建訓(xùn)練語料，可降低數(shù)據(jù)標(biāo)注對人工的依賴，但同時(shí)會引入噪聲數(shù)據(jù)，易導(dǎo)致因子圖模型的推理和判別效果不佳。為此，本文在自動標(biāo)注關(guān)系標(biāo)簽前，引入知識融合技術(shù)優(yōu)化實(shí)體抽取質(zhì)量，以提升遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)的有效性；在自動標(biāo)注關(guān)系標(biāo)簽后，再引入領(lǐng)域知識作為規(guī)則，以提高遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)的準(zhǔn)確性，并利用由正例、負(fù)例和未知實(shí)例組成的關(guān)系抽取訓(xùn)練語料作為輸入分別學(xué)習(xí)，由此降低噪聲數(shù)據(jù)對因子圖模型學(xué)習(xí)效果的影響。下面展開詳細(xì)論述。

3.2 基于知識融合優(yōu)化招投標(biāo)領(lǐng)域?qū)嶓w抽取

正確抽取原始語料中所含實(shí)體，是減少遠(yuǎn)程監(jiān)督方法引入噪聲數(shù)據(jù)的重要前提。但在招投標(biāo)交易公告中，普遍存在同一主體（主要涉及招標(biāo)方、招標(biāo)代理機(jī)構(gòu)和中標(biāo)方）具有“多重指稱”的情況，會直接影響實(shí)體抽取的效果。

為提高實(shí)體抽取質(zhì)量，本文從語言學(xué)角度將“多重實(shí)體指稱項(xiàng)”問題分為：情況①單位全稱-別稱，情況②特定指稱項(xiàng)，其中情況①又分為無歧義別稱、含歧義別稱兩類。

知識融合技術(shù)是解決這類問題的有效方法，實(shí)體鏈接和知識合并是知識融合的兩個重要子任務(wù)。實(shí)體鏈接（Entity Linking）[15]旨在對實(shí)體抽取結(jié)果進(jìn)行實(shí)體消歧和共指消解處理，并將處理結(jié)果鏈接到知識庫中對應(yīng)的正確實(shí)體對象。經(jīng)實(shí)體鏈接后，將知識元素加入知識庫，從而實(shí)現(xiàn)知識合并，有效剔除抽取結(jié)果中冗余和錯誤的實(shí)體。因此，本文首先通過實(shí)體消歧方法確定含歧義別稱所指代實(shí)體，再引入共指消解方法解決上述兩種情況中對應(yīng)的問題。

針對情況①，以圖2所示情況為例，招投標(biāo)領(lǐng)域知識庫中含有兩個實(shí)體概念“榆林市田浩商貿(mào)有限公司”和“上海田浩商貿(mào)有限公司”，公告標(biāo)題包含實(shí)體“榆林市田浩商貿(mào)有限公司”，但公告內(nèi)容中出現(xiàn)公司別稱“田浩商貿(mào)有限公司”，這類含有歧義的公司別稱在鏈接到知識庫后可能得到錯誤結(jié)果，降低知識融合質(zhì)量。

圖2 招投標(biāo)領(lǐng)域知識融合示例

由此，本文引入基于實(shí)體共現(xiàn)的實(shí)體消歧方法，通過從公告標(biāo)題和內(nèi)容中識別出的實(shí)體對象迭代進(jìn)行實(shí)體匹配，若兩個匹配實(shí)體存在公共字符串，則采用具有更完整命名信息的實(shí)體名稱命名兩個實(shí)體。上述實(shí)例由于公告標(biāo)題中實(shí)體命名更加完整，故通過該方法可確定公司實(shí)體“田浩商貿(mào)有限公司”實(shí)指“榆林市田浩商貿(mào)有限公司”。

針對情況②，表1 對出現(xiàn)特定指稱詞（如公司簡稱、該公司、我公司、招標(biāo)人、招標(biāo)方、null 等）的常見句式進(jìn)行了總結(jié)（②-a、b、c情況）。由此，基于情況①的處理結(jié)果，并針對當(dāng)前句S2中僅含有一個實(shí)體指稱詞的情況，提出針對特定指稱詞的共指消解算法（見算法1），將企業(yè)實(shí)體的指稱詞還原為企業(yè)全稱，即標(biāo)準(zhǔn)化命名實(shí)體。

表1 “多重指稱項(xiàng)”情況

算法1共指消解算法

輸入：S2，含有實(shí)體指稱詞的當(dāng)前句；S1，指稱詞所在句S2的上一句；comp_title，公告標(biāo)題中的實(shí)體；pron_word，S2中指稱詞；comp_b，S2中的唯一企業(yè)實(shí)體；feature_word，特征詞（如[招標(biāo)人，招標(biāo)方…]）；target_word，S1中的先行詞（如A公司）

輸出：comp_a：指稱詞指向的原實(shí)體

1.初始化數(shù)據(jù)：comp_a←null；

2.當(dāng)comp_title 未含有comp_b，并且S2含有唯一指稱詞pron_word時(shí)，判別該篇文檔標(biāo)題comp_title中是否含有S2中的唯一企業(yè)實(shí)體comp_b；

3.如果S1含有先行詞target_word：

當(dāng)S1中含有指定特征詞feature_word 時(shí)，令 omp_a←target_word，以解決示例②-a情況；

而當(dāng)S1中未含指定特征詞feature_word 時(shí)，令comp_a←comp_title，以解決示例②-c情況；

4.如果S1未含有先行詞target_word，令comp_a←comp_title，以解決示例②-b情況。

綜合上述解決方案，將實(shí)體消歧和共指消解后的各命名實(shí)體鏈接到招投標(biāo)領(lǐng)域知識庫中對應(yīng)的正確實(shí)體；再通過知識合并，統(tǒng)一以公司全稱進(jìn)行命名。該方法不僅能夠降低實(shí)體抽取結(jié)果的冗余度和歧義性，保證最終獲取信息的質(zhì)量，還有助于提高候選實(shí)體對與領(lǐng)域知識庫對齊時(shí)的匹配效果，為后續(xù)實(shí)體關(guān)系抽取、噪聲處理等任務(wù)提供更為準(zhǔn)確的知識基礎(chǔ)。

3.3 面向遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注的負(fù)例學(xué)習(xí)降噪方法

本文首先利用Web 上半結(jié)構(gòu)化的招投標(biāo)領(lǐng)域企業(yè)歷史交易數(shù)據(jù)及企業(yè)名稱語料集構(gòu)建企業(yè)關(guān)系知識庫，以保證在遠(yuǎn)程監(jiān)督標(biāo)注關(guān)系數(shù)據(jù)時(shí)，準(zhǔn)確獲取更多的企業(yè)關(guān)系實(shí)例。再借助上述企業(yè)關(guān)系知識庫自動對齊招投標(biāo)公告文本中具有對應(yīng)交易關(guān)系的企業(yè)實(shí)體對。此時(shí)，新的關(guān)系抽取語料集中包括含有“噪聲”的關(guān)系企業(yè)對和未匹配上關(guān)系的企業(yè)對。然后根據(jù)噪聲數(shù)據(jù)情況提出降噪方法，從而得到最終訓(xùn)練語料。

根據(jù)“遠(yuǎn)程監(jiān)督”易引入多實(shí)例問題和多標(biāo)簽問題這兩類“噪聲”，結(jié)合招投標(biāo)領(lǐng)域數(shù)據(jù)情況加以分析。本節(jié)待解決問題是與外部知識庫對齊后得到的關(guān)系企業(yè)實(shí)體對并不具有指定關(guān)系，即產(chǎn)生了多實(shí)例問題。本文將該類數(shù)據(jù)記為“負(fù)例”。

招投標(biāo)企業(yè)關(guān)系知識庫中存在具有“委托”關(guān)系的實(shí)體對集，記為relation＜A,B＞，A表示招標(biāo)方，B表示招標(biāo)代理機(jī)構(gòu)。通過遠(yuǎn)程監(jiān)督方法獲得的新語料集中含有噪聲數(shù)據(jù)，如表2 中示例b、c、d 所示。其中示例d可采用3.2 節(jié)中還原指代項(xiàng)的方法加以解決，獲得正確關(guān)系標(biāo)簽。

表2 遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取噪聲數(shù)據(jù)示例

多實(shí)例情況易產(chǎn)生由關(guān)系指向錯誤（如示例b）和關(guān)系誤判錯誤（如示例c中的非“委托”關(guān)系誤判為“委托”關(guān)系）等問題所引入的噪聲數(shù)據(jù)，從而影響分類模型的判別效果。

為減少噪聲數(shù)據(jù)的影響，本文通過分析和統(tǒng)計(jì)大量招投標(biāo)公告文書的語言特征，并結(jié)合領(lǐng)域?qū)＜医?jīng)驗(yàn)的引導(dǎo)與驗(yàn)證，構(gòu)建和完善領(lǐng)域知識規(guī)則。并結(jié)合實(shí)驗(yàn)的準(zhǔn)確率和召回率（實(shí)驗(yàn)結(jié)果見4.2 節(jié)），完善領(lǐng)域知識規(guī)則的構(gòu)建，以保證其合理性和完備性。

領(lǐng)域知識規(guī)則的符號含義如下：

(A,B)：表示公告中含有的候選實(shí)體對。

relation(A,B)：表示經(jīng)判斷候選實(shí)體對(A,B)具有“委托”關(guān)系。

before(A) 、between(A,B)、behind(B)：分別表示實(shí)體A之前、實(shí)體A和實(shí)體B之間的分詞結(jié)果集合。

KeyWord={委托,…}，kw∈KeyWord：表示關(guān)系詞集合。

PassiveWord={受,被,…}，pw∈PassiveWord：表示被動詞集合。

comma={',',','}，wd∈comma：表示中、英文逗號集合。

領(lǐng)域知識規(guī)則如下：

規(guī)則1識別示例a中“委托”關(guān)系的情況。

若pw∈before(A)、wd∈between(A,B)，并且kw∈between(A,B)，則滿足relation(A,B)。

規(guī)則2修正示例b中“關(guān)系指向錯誤”的情況。

若pw∈between(A,B)，并且kw∈behind(B)，則滿足relation(B,A) 。

規(guī)則3識別示例c中“非委托關(guān)系”的情況。

若kw?before(A) 、kw?between(A,B)，并且kw?behind(B)，則一定不存在relation(A,B)。

通過領(lǐng)域知識規(guī)則可有效區(qū)別出由遠(yuǎn)程監(jiān)督方法構(gòu)建的訓(xùn)練數(shù)據(jù)集中的有效標(biāo)注數(shù)據(jù)和噪聲數(shù)據(jù)，有利于后續(xù)因子圖模型的構(gòu)建及推理學(xué)習(xí)。

3.4 基于因子圖模型的實(shí)體關(guān)系抽取方法

經(jīng)遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注后，新的關(guān)系抽取語料集中還存在部分待匹配關(guān)系的企業(yè)實(shí)體對。針對該部分?jǐn)?shù)據(jù)，本文借助因子圖模型進(jìn)行概率建模，解決隨機(jī)變量之間的復(fù)雜關(guān)系。面向招投標(biāo)領(lǐng)域的因子圖模型構(gòu)建主要基于兩類節(jié)點(diǎn)：變量節(jié)點(diǎn)和因子節(jié)點(diǎn)。關(guān)鍵元素及公式定義如下。

定義1（變量節(jié)點(diǎn)）模型中可觀測到的候選關(guān)系實(shí)體對集合V={v1,v2,…,vn}，每個實(shí)體對vi作為變量節(jié)點(diǎn)。每個vi都具有關(guān)系標(biāo)簽label(vi)∈{0,1,null}，其中0為負(fù)標(biāo)，1為正標(biāo)，null為待預(yù)測標(biāo)簽。

定義2（特征因子）模型中每個變量節(jié)點(diǎn)都具有一個或多個句內(nèi)特征項(xiàng)，各特征項(xiàng)作為特征因子節(jié)點(diǎn)fi，即有特征因子節(jié)點(diǎn)集合F={f1,f2,…,fm}。

句內(nèi)特征項(xiàng)包含該句分詞后的詞語、詞性、命名實(shí)體等序列標(biāo)注特征。

當(dāng)且僅當(dāng)變量節(jié)點(diǎn)vi是特征因子節(jié)點(diǎn)fi的自變量（即實(shí)體對具有某一特征）時(shí)，對應(yīng)的變量節(jié)點(diǎn)vi和特征因子節(jié)點(diǎn)fi相連，其連線作為因子圖的邊集E={e1,e2,…,en}。

定義3（關(guān)聯(lián)權(quán)重因子）模型中各邊ei具有關(guān)聯(lián)權(quán)重因子wi，構(gòu)成關(guān)聯(lián)權(quán)重因子集W={w1,w2,…}，是由各特征因子經(jīng)過函數(shù)映射獲得的實(shí)數(shù)集，即wi=func(fi)。在構(gòu)建因子圖模型過程中，關(guān)聯(lián)權(quán)重因子wi經(jīng)多次迭代學(xué)習(xí)完成權(quán)值優(yōu)化，直至模型學(xué)習(xí)完成。關(guān)聯(lián)權(quán)重因子wi反映了變量節(jié)點(diǎn)間的關(guān)聯(lián)程度。

定義4（possible world模型）用以描述不確定性數(shù)據(jù)的通用模型，常記為Iσ。Iσ中包含若干個實(shí)例Ii={vi1,vi2,…,vin}，每個實(shí)例發(fā)生的概率為該實(shí)例中各變量發(fā)生的概率之積，即。

為方便理解，本文中Iσ的實(shí)例Ii由各變量節(jié)點(diǎn)vi及其關(guān)系標(biāo)簽label(vi)表示為Ii:{vi→label(vi)}。

本文基于招投標(biāo)公告數(shù)據(jù)構(gòu)建因子圖模型，根據(jù)各實(shí)體對共享不同特征的情況，計(jì)算實(shí)體對具有的某種關(guān)系的邊界概率。不同的變量節(jié)點(diǎn)vi，通過共享fi而關(guān)聯(lián)。若兩個變量節(jié)點(diǎn)共享fi數(shù)量越多，則兩個變量節(jié)點(diǎn)屬于同類關(guān)系的概率就越大。因此，需要定義求解邊緣概率的相關(guān)公式。

各特征因子fi在當(dāng)前Iσ實(shí)例上的聚合值：

Iσ所有實(shí)例的聚合概率：

Iσ實(shí)例各變量和先驗(yàn)變量的關(guān)系標(biāo)簽label(vi)一致的實(shí)例集合為τe，其中關(guān)系標(biāo)簽為1 的集合label(vi)=1}，關(guān)系標(biāo)簽為0的集合由此計(jì)算變量vi的關(guān)系標(biāo)簽取值為1的邊緣概率：

但由于Iσ中存在2n種實(shí)例情況，若按上述方法求解，計(jì)算復(fù)雜度很高。因此采用吉布斯采樣進(jìn)行參數(shù)估計(jì)，以降低計(jì)算維度，提高算法的運(yùn)行效率，并采用隨機(jī)梯度下降進(jìn)行迭代學(xué)習(xí)，直至模型收斂。算法思想見算法2。

算法2因子圖模型參數(shù)學(xué)習(xí)算法

結(jié)合本文所采用的因子圖模型構(gòu)建思路，給出一個因子圖模型的局部示例，如表3所示。假設(shè)局部任務(wù)中有4 個候選實(shí)體對(Ai,Bi),i=1,2,3,4，4 個變量節(jié)點(diǎn)構(gòu)成實(shí)例I0:{v1→ null,v2→ 0,v3→ 1,v4→ null} ，各變量節(jié)點(diǎn)vi分別具有多種序列化標(biāo)注特征fi:feature。

表3 變量節(jié)點(diǎn)-特征示例

根據(jù)表3，變量因子間共享不同的特征因子fi,i=1,2,3,4，特征經(jīng)函數(shù)映射轉(zhuǎn)化為關(guān)聯(lián)權(quán)重因子wi，統(tǒng)計(jì)特征因子的共享情況（見表4）。

表4 特征因子-特征函數(shù)示例

由此可根據(jù)表4中的示例數(shù)據(jù)構(gòu)建因子圖模型（見圖3）?，F(xiàn)已知先驗(yàn)候選關(guān)系實(shí)體對v2、v3關(guān)系標(biāo)簽分別為0、1，Iσ的實(shí)例Ii應(yīng)在和先驗(yàn)變量對應(yīng)的關(guān)系標(biāo)簽值保持一致的條件下，根據(jù)算法2 分別計(jì)算label(v1)和label(v4)取值為1的概率，進(jìn)而可依次判別v1和v4是否具有“委托”關(guān)系。

圖3 因子圖模型示例

本文借助因子圖模型良好的統(tǒng)計(jì)和推理性能，并按照上述步驟，計(jì)算獲得招標(biāo)人和招標(biāo)代理機(jī)構(gòu)之間具有“委托”關(guān)系的邊界概率，該值高于預(yù)定閾值的對應(yīng)候選實(shí)體對即具有“委托”關(guān)系。

4 實(shí)驗(yàn)結(jié)果與分析

4.1 實(shí)驗(yàn)描述

本文實(shí)驗(yàn)使用語料來源于中國招投標(biāo)網(wǎng)、中國采購與招標(biāo)網(wǎng)2019 年首季度建筑工程類項(xiàng)目招標(biāo)信息；為提高關(guān)系抽取模型訓(xùn)練效率，進(jìn)一步篩選出由招標(biāo)代理機(jī)構(gòu)開展公開競標(biāo)的公告，共計(jì)4 000 篇。本文實(shí)驗(yàn)訓(xùn)練語料和測試語料比例為4∶1。針對抽取招標(biāo)人-招標(biāo)代理機(jī)構(gòu)間的“委托”關(guān)系，實(shí)驗(yàn)基于命名實(shí)體標(biāo)注結(jié)果和知識融合技術(shù)，抽取得到實(shí)體458例，包括256家招標(biāo)方和202家招標(biāo)代理機(jī)構(gòu)；實(shí)體經(jīng)笛卡爾積組成候選實(shí)體對8 284 條；結(jié)合遠(yuǎn)程監(jiān)督學(xué)習(xí)和啟發(fā)式規(guī)則為候選實(shí)體對自動標(biāo)注關(guān)系類型。

文本特征提取采用候選實(shí)體對上下文的語義特征。通過分析招投標(biāo)領(lǐng)域詞匯統(tǒng)計(jì)特征和語言學(xué)特征，以句為單位，提取句內(nèi)候選實(shí)體對(A,B)前-中-后的窗口特征，窗口特征選擇詞匯、詞性（POS）、命名實(shí)體（NER）、依存語法關(guān)系（DP）、詞匯長度（LENGTH）這5個序列標(biāo)注信息（見表5）。

表5 特征類型-特征提取結(jié)果示例

基于以上步驟，實(shí)驗(yàn)采用吉布斯采樣和隨機(jī)梯度下降方法迭代學(xué)習(xí)模型參數(shù)，優(yōu)化因子圖模型，并通過多次實(shí)驗(yàn)，確定關(guān)系判別的閾值α（如α=0.5）。

4.2 實(shí)驗(yàn)分析

為驗(yàn)證本文方法的有效性，設(shè)計(jì)了不同去噪強(qiáng)度下的實(shí)驗(yàn)對比和不同關(guān)系抽取方法下的實(shí)驗(yàn)對比。

本文首先設(shè)計(jì)了3 個實(shí)驗(yàn)：實(shí)驗(yàn)1 采用基于因子圖模型的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取方法抽取實(shí)體關(guān)系，并未做任何降噪處理；實(shí)驗(yàn)2 在實(shí)驗(yàn)1 的基礎(chǔ)上，采用3.2 節(jié)提出的解決公告文本中的“多重指稱項(xiàng)”問題的知識融合方法進(jìn)行降噪；實(shí)驗(yàn)3 在實(shí)驗(yàn)2 的基礎(chǔ)上，采用3.3 節(jié)基于領(lǐng)域知識和負(fù)例學(xué)習(xí)的降噪方法，以進(jìn)一步提高抽取質(zhì)量。最后，對3 次迭代優(yōu)化的實(shí)驗(yàn)結(jié)果進(jìn)行比較（如表6和圖4所示）。

表6 不同去噪強(qiáng)度下的實(shí)驗(yàn)數(shù)據(jù)

圖4 不同去噪強(qiáng)度下的實(shí)驗(yàn)結(jié)果

由圖表數(shù)據(jù)可知，實(shí)驗(yàn)2 引入知識融合方法后，識別出了實(shí)驗(yàn)1 中遺漏的314 例實(shí)體對，但抽取性能略有下降。這是由于候選實(shí)體對增多的同時(shí)，遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注也產(chǎn)生大量負(fù)例未能去除。

實(shí)驗(yàn)3 的精準(zhǔn)率（P）和F1 值顯著提高，主要是由于實(shí)驗(yàn)3 通過負(fù)例學(xué)習(xí)，有效判別出在實(shí)驗(yàn)2 中未能剔除的2 196例具有錯誤關(guān)系指向的實(shí)體對。

此外，為對比不同關(guān)系抽取方法的抽取效果，選擇已被廣泛應(yīng)用于信息抽取任務(wù)中的兩種判別式模型，分別是經(jīng)典算法條件隨機(jī)場（Conditional Random Field，CRF）和研究熱點(diǎn)雙向長短期記憶（Bi-directional Long Short-Term Memory，Bi-LSTM）神經(jīng)網(wǎng)絡(luò)。與本文采用的因子圖方法進(jìn)行對比，實(shí)驗(yàn)統(tǒng)一以經(jīng)本文降噪方法處理后的遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注結(jié)果作為模型的輸入，實(shí)驗(yàn)結(jié)果如圖5所示。

圖5 不同關(guān)系抽取方法的實(shí)驗(yàn)結(jié)果

由圖5可見，本文提出的基于因子圖模型的關(guān)系抽取方法在F1值上均略高于CRF方法和Bi-LSTM方法。

上述兩組實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法具有更好的抽取性能。此外，針對招投標(biāo)網(wǎng)站每日更新擴(kuò)增的海量公告，采用本文方法可比傳統(tǒng)監(jiān)督學(xué)習(xí)方法大幅減少標(biāo)注數(shù)據(jù)的工作量，從而提高關(guān)系抽取效率。圖6示意了通過本文的關(guān)系抽取方法構(gòu)建的企業(yè)關(guān)系知識庫的局部圖譜。針對新增招投標(biāo)公告信息，可循環(huán)迭代采用本文方法更新知識庫中的知識，在一定程度上解決了招投標(biāo)領(lǐng)域中文知識庫匱乏的問題。

5 結(jié)束語

本文提出了一種基于因子圖模型的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取方法，并借助知識融合、負(fù)例學(xué)習(xí)及領(lǐng)域知識等方法，解決了招投標(biāo)領(lǐng)域知識庫“遠(yuǎn)程監(jiān)督”標(biāo)注數(shù)據(jù)時(shí)出現(xiàn)的“噪聲”干擾問題；借助因子圖模型良好的性能，實(shí)現(xiàn)了招投標(biāo)領(lǐng)域?qū)嶓w關(guān)系自動抽取任務(wù)。本文提出的信息抽取方法具有較好的可拓展性，可以移植于其他領(lǐng)域。

對比實(shí)驗(yàn)結(jié)果說明本文方法能夠在一定程度降低人工標(biāo)注數(shù)據(jù)的高額成本，減少冗余、歧義信息，提高招投標(biāo)領(lǐng)域?qū)嶓w關(guān)系抽取的準(zhǔn)度與精度，進(jìn)而保證了獲取重要信息的質(zhì)量和時(shí)效性。本文方法所獲關(guān)系實(shí)例可迭代擴(kuò)充現(xiàn)有招投標(biāo)領(lǐng)域知識庫，可有效協(xié)助和支持相關(guān)項(xiàng)目單位、企業(yè)制定管理決策等活動，也可以協(xié)助招標(biāo)方客觀選擇招標(biāo)代理機(jī)構(gòu)，便于監(jiān)管部門及時(shí)查看招投標(biāo)參與主體的交易情況。

本文聚焦于信息抽取技術(shù)，能否同步抽取多類關(guān)系及屬性等多維信息，如關(guān)系關(guān)聯(lián)抽取、事件抽取方法等是下一階段的研究重點(diǎn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡