国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向特定領域文本的重疊關系語料庫構建方法

2022-10-24 01:20廖湘琳張宏軍
計算機技術與發(fā)展 2022年10期
關鍵詞:特征詞三元組語料

劉 凱,廖湘琳,張宏軍

(陸軍工程大學 指揮控制工程學院,江蘇 南京 210000)

0 引 言

現(xiàn)如今,信息抽取領域中,以給定關系模式(schema),通過有監(jiān)督學習方式對深度學習模型進行訓練,進而完成對文本數(shù)據(jù)信息抽取的過程已被廣泛應用,且在重疊關系三元組抽取上有明顯效果[1-2]。該文對爬取得到的新聞網絡文本進行分析,發(fā)現(xiàn)特定領域實體間存在重要的重疊關系,但是受標注語料匱乏問題的制約,信息抽取領域在這方面的研究較少,無法滿足國內外研究者們的需求。所以,為了更高效準確地抽取文本中的重疊關系,該文構建重疊關系標注語料庫,為信息抽取模型訓練提供豐富數(shù)據(jù),為當前國內信息抽取語料庫構建和完善提供借鑒和參考。

如何完善地構建實體關系模式,如何高效準確地構建特定領域實體重疊關系抽取標注語料庫是該文的研究重點。目前網頁新聞和網絡博客等開放領域是大部分語料庫的主要數(shù)據(jù)來源,如公開的中英文關系抽取語料庫DuIE1.0[3],其關系類型主要包含常見的人物關系,CMeIE[4]為醫(yī)學領域關系語料庫, FewRel[5]關系數(shù)據(jù)集包含多領域的關系類型。該文借助遠程監(jiān)督知識,依據(jù)命名實體識別、依存句法分析和觸發(fā)詞詞典,基于自定義schema對網絡文本中的重疊關系進行語料標注,構建關系抽取語料庫。其主要描述作戰(zhàn)力量編成部署信息。

1 相關工作

語料庫構建工作,過程復雜,形式多樣。針對通用語料庫的構建工作已經取得很多成果。比如周惠巍等人[6]依據(jù)詞性和句子結構等信息構建中文模糊限制信息語料庫,為事件信息抽取提供資源支持。蔣貽順[7]構建觸發(fā)詞詞典,通過規(guī)則匹配實現(xiàn)人物關系三元組抽取。針對特定領域的研究,目前更多的研究集中在地理實體關系[8-9]、醫(yī)學領域[10-11]和軍事領域。茍繼承[12]利用遠程監(jiān)督方法,基于規(guī)則匹配的方式獲得實體關系信息,構建實體關系知識庫。蔣序平等人[13]通過定義事件模板,構造觸發(fā)詞詞典,形成人工標注種子數(shù)據(jù)集,經過模型訓練迭代生成針對軍事想定文本事件抽取的語料庫。馮鸞鸞等人[14]制定了一系列標注規(guī)范,對收集到的海量互聯(lián)網文本進行術語語料標注,并且構建出面向國防科技領域的技術和術語語料庫。上述方法需要人工構建規(guī)則,增加人工標注負擔。該文巧妙融合上述研究方法,根據(jù)自定義實體關系schema對收集到的特定領域新聞網絡文本進行自動回標。該方法避免了大量的人工標注工作,構建出的語料庫規(guī)模較大,質量較高,有較大實用價值。

2 語料庫構建方法

面向特定領域文本的重疊關系抽取語料庫構建流程如圖1所示。

圖1 語料庫構建流程

2.1 語料來源

該文將語料限定在特定領域內,為了發(fā)現(xiàn)網絡文本中重疊關系信息,建立一個通用的、實體覆蓋面更廣的關系類型模式。通過網絡爬蟲抓取來自新浪網、光明網、國防科技信息網、武器百科大全網站等超過1 000個網頁,獲得原始數(shù)據(jù)約10萬條,占用空間資源26.3 M。數(shù)據(jù)樣例如下所示:(1)近日,北京武警放出了使用QMK171瞄準鏡的95-1式的照片,意味著QMK171瞄準鏡已經大量入役。(2)日前,美國通用動力公司在美國首都華盛頓舉行的美國陸軍協(xié)會年會博覽會上展示了其最新的RM277型全自動輕機槍的信息,將采用美軍最新研發(fā)的6.8毫米彈藥,等等。

新聞類語料來源于網頁。通過觀察網頁源代碼中的HTML標簽和文字分布特點,利用python的爬蟲庫BeautifulSoup解析網頁源代碼,對網頁中正文較集中的內容塊進行文本提取。

正文提取完成后,為方便后續(xù)實體關系的抽取,將語料數(shù)據(jù)進行分句處理。中文語句的一句話通常由句號“?!?、問號“?”、感嘆號“!”、省略號“……”等符號結尾,利用這些符號作為句子分割條件,得到分句后的無標注文本數(shù)據(jù)集D,作為語料庫構建的數(shù)據(jù)來源。

2.2 關系模式構建

ACE評測會議于2005年公布了官方標注的關系抽取語料庫,包括中文、英文、阿拉伯文的標注語料,其定義了表中的6類大類關系和18類小類關系的關系類型。COAE會議于2016年針對中文領域關系抽取推出包含10種關系類型的中文關系抽取訓練集。

但是上面兩個數(shù)據(jù)集的關系體系與特定領域的關系具有一定差異,無法成為構筑特定領域關系體系的基礎。通過專家知識和對特定領域文本的分析,根據(jù)上述關系分類,對實體關系的篩選,過濾與領域無關的大量內容,經過整理,該文最終預定義了5種命名實體,分別是組織(ORG)、武器(WEAP)、地點(LOC)、行動(ACT)、人員(PER);7種實體關系類別,分別是人員和組織的隸屬關系、組織與組織的編成關系、組織與行動的執(zhí)行關系、組織與地點的部署關系、行動與地點的目標關系、組織與武器的配置關系。關系schema如下:

{"object_type": "ORG", " predicate ": "編成", "subject_type": "ORG"}

{"object_type": "ACT", " predicate ": "執(zhí)行", "subject_type": "ORG"}

{"object_type": "LOC", " predicate ": "部署", "subject_type": "ORG"}

{"object_type": "LOC", " predicate ":"布置", "subject_type": "WEAP"}

{"object_type": "LOC", " predicate ": "目標", "subject_type": "ACT"}

{"object_type": "WEAP", " predicate ":"配置", "subject_type": "ORG"}

{"object_type": "ORG", " predicate ": "隸屬", "subject_type": "PER"}

通過分析語料文本,存在如圖2中三種重疊關系,以此為基準進行下一步研究。

圖2 重疊關系示例圖

2.3 基于自定義關系schema的重疊關系語料標注

2.3.1 實體集構建

根據(jù)2.2節(jié)中確定的五種實體進行以下分析:首先利用命名實體識別方法和自制的領域專業(yè)詞典,將2.1節(jié)構建的訓練語料輸入BiLSTM+CRF命名實體識別模型[15]進行實體識別,然后通過啟發(fā)式規(guī)則,比如去掉單字符名詞、保留專有名詞等進行人工篩選,最后獲得備選實體集N,為后續(xù)啟發(fā)式實體關系對齊和關系數(shù)據(jù)去噪做準備。備選實體集N部分實體如表1所示。

表1 備選實體集N部分實體示例

命名實體識別所用標注數(shù)據(jù)集由多人進行手動標注并打分評估進行融合所得。

2.3.2 觸發(fā)詞詞典構建

觸發(fā)詞詞典構建過程為:首先進行特征詞抽取(運用LTP工具抽取動詞、名詞),然后根據(jù)schema聚類成觸發(fā)詞詞典,最后根據(jù)實體對進行啟發(fā)式關系過濾。

(1)特征詞抽取。

通過觀察語料庫發(fā)現(xiàn),絕大多數(shù)產生關系的實體對都可以由其上下文中一般動詞或者一般名詞觸發(fā)和描述(統(tǒng)稱為特征詞),而且這些特征詞均與待處理的實體對在依存句法分析樹中產生有限的幾類關系。

特征詞抽取過程是為了抽取語料庫中與特定實體對類型下的實例共現(xiàn),且依存句法分析后具有特定語義關系的動詞或名詞。然后采用啟發(fā)式過濾規(guī)則,進行特征詞集過濾篩選[16]。

詞性分析和依存句法分析中,使用哈工大語言技術平臺(Language Technology Platform,LTP)的處理模塊。LTP處理中文文本具有良好的性能。首先對語料庫進行詞性標注,抽取出動詞或動名詞。LTP定義了15個依存句法標簽,包括主謂關系(SBV)、動賓關系(VOB)、間賓關系(IOB)、并列關系(COO)等。

具體步驟如下所示:

①根據(jù)2.2節(jié)中構建的schema,得到特定實體對類型的槽(socket)。對每個實體n∈N,在語料D中檢索包含實體的所有句子,保留那些同時包含實體ni和另一個與其形成特定實體對類型的實體nj的句子Sent,由此形成七種關系句子集m(m=1,2,…,7)。

②對m中包含的所有句子進行詞性標注,抽取所有動詞和名詞,按照如下啟發(fā)式規(guī)則進行統(tǒng)計過濾,得到候選特征詞集Rm。

Rule1:根據(jù)依存句法分析后,動詞或名詞必須滿足與實體對中任一實體存在主謂賓結構SBV-VOB、從屬關系結構ATT-ATT、動補介賓關系結構CMP-POB。

③對于每一個w∈R,統(tǒng)計其在第(1)步得到的句子Sent集中出現(xiàn)的頻率PS(wk),去掉頻率小于常數(shù)θ的特征詞。

④根據(jù)候選特征詞wk在D中和特定實體對類型句子集Sent中的分布信息,采用以下公式計算其與實體對類型的相關度Rel(wk)[16],其中PS(wk)和PD(wk)分別表示wk在特定實體對類型句子集和語料庫D中的頻率。

Rel(wk)=PS(wk)/PD(wk)

⑤根據(jù)相關度對候選特征詞進行排序,根據(jù)排序位置取靠前的Top-K個作為特征詞,獲得篩選后候選特征詞集R。

(2)Schema聚類與觸發(fā)詞詞典構建。

一系列具有相同含義和用法的特征詞可以體現(xiàn)同一種關系,因此根據(jù)2.2節(jié)Schema中確定的七種關系詞對上述包含七種關系類型的候選特征詞集R進行對應聚類,構建觸發(fā)詞詞典W,如表2所示。

表2 觸發(fā)詞詞典部分觸發(fā)詞示例

2.3.3 語料回標

借助實體識別和觸發(fā)詞規(guī)則,基于自定義關系schema的語料標注方法假設:如果訓練語料的某一句話包含的實體集中的實體對在觸發(fā)詞詞典中有對應的觸發(fā)詞,就認為這句話描述了觸發(fā)詞所表示的schema中的關系類型?;诖思僭O進行語料自動回標,有助于減少人工標注的工作量。

標注算法流程:首先,根據(jù)命名實體識別結果,獲得實體和實體類型列表,然后順序掃描根據(jù)領域詞典進行結巴分詞后的語料文本,依次匹配實體集中的實體,先進行頭實體subject匹配,查找到一個實體后轉為該文本片段尾實體Object匹配,然后根據(jù)schema槽中的實體對類型進行判斷,兩者是否相關,若相關,則提取關系信息,查找觸發(fā)詞詞典,對關系類型標注和保存,否則繼續(xù)進行實體匹配,此過程在句子集內循環(huán),直到遍歷完成單個句子中所有關系。此方法簡單有效,標注效率高。算法如下所示:

算法1:重疊關系語料回標算法。

輸入:實體集N,觸發(fā)詞詞典W,待匹配語料D,schema;

輸出:標注文本s。

① forD中的每一句話sdo:

② for 實體集N中的每一個實體和類型type do:

③ 頭實體[subject,s_type]匹配

④ if subject=匹配成功 then

⑤ for 實體集N中除subject外的每一個實體和類型type do:

⑥ 尾實體[object,o_type]匹配

⑦ if object=匹配成功 then

⑧ if schema[s_type,o_type] and 對應關系r←W[w] then

⑨ 標注文本←文本串s+關系r+subject+object

3 實驗分析

為了保證語料庫的專業(yè)性和可靠性,首先探討本語料庫數(shù)據(jù)源的可用性,然后進行標注質量評價并使用基礎模型驗證語料庫的質量。

3.1 數(shù)據(jù)源可用性分析

對約10萬條原始數(shù)據(jù)進行隨機抽取,以評價新聞網站作為構建特定領域重疊關系抽取語料庫的可用性。(1)從原始數(shù)據(jù)中隨機抽取1 000條語句;(2)根據(jù)語句中包含的實體類型將其劃分到文中的實體分類體系中;(3)統(tǒng)計每個實體類型下語句的信息量,結果如表3所示。

表3 數(shù)據(jù)源可用性統(tǒng)計

由表3可以看到:(1)從原始數(shù)據(jù)中隨機抽取的1 000條新聞語句中最多有89.5%被成功劃分到該文提出的實體分類體系中,但是不同句子中,實體數(shù)量分布不均勻;(2)包含關系三元組的語句數(shù)約占抽取的句子總數(shù)的64.3%,平均每個句子中含有6個關系三元組,涵蓋了自定義的7種實體關系??梢娡ㄟ^新聞等網站爬取的原始語料蘊含了豐富的實體關系三元組,為構建實體關系語料庫提供了充足的數(shù)據(jù)資源。

3.2 標注質量評價

基于數(shù)據(jù)可用性分析結果,從實體集N中分別為實體分類的5個實體類型選取50個實體,共計250個;然后對基于該方法構建的重疊關系語料庫和實體識別篩選語料進行統(tǒng)計分析。特定領域的重疊關系語料庫成功標注18 750個句子,占實體識別篩選語料的51.3%。此語料庫中的知識形式為{“text”: “文本”, “spo_list”: “{subject,predicate,object}”},其中subject表示主語(頭實體),object是賓語(尾實體),predicate是謂詞(關系的抽象表示)。為了方便查詢,依然采用json格式保存三元組信息,標注示例如:{"text": "海軍軍事學術研究所研究員里奇博士說:“這次建造輕型航母的決定是‘一石二鳥’,這將成為體現(xiàn)‘有效性的韓國海軍核心戰(zhàn)斗力’”。", "spo_list": [{"predicate": "編成", "object_type":"ORG", "subject_type": "ORG", "object": "海軍軍事學術研究所","subject": "韓國海軍"}, {"predicate": "配置", "object_type":"WEAP", "subject_type": "ORG", "object": "輕型航母","subject": "韓國海軍"},{"predicate": "隸屬", "object_type":"ORG", "subject_type": "PER", "object": "海軍軍事學術研究所","subject": "里奇"},{"predicate": "隸屬", "object_type":"ORG", "subject_type": "PER", "object": "韓國海軍","subject": "里奇"}}。

表4為數(shù)據(jù)統(tǒng)計信息。其中成功率表示成功匹配包含該實體的三元組的句子數(shù)占包含該實體的標注句子總數(shù)的百分比;準確率表示正確標注的三元組數(shù)占包含該實體的三元組數(shù)的百分比。實驗中根據(jù)250個實體得到了實體識別篩選標注語料中的1 024條語句,通過隨機抽樣計算,語料庫的總體回標成功率為76.7%,總體關系標注準確率為85.8%。

表4 標注質量評價統(tǒng)計

針對標注出的實體關系,進行如下統(tǒng)計展示。圖3表示每句話中包含不同三元組數(shù)目的句子數(shù);圖4反映句子集中包含各類重疊關系的數(shù)目及三元組總數(shù)。

圖3 三元組頻數(shù)統(tǒng)計

圖4 重疊關系頻數(shù)統(tǒng)計

3.3 信息抽取模型實驗

為了說明構建的語料庫的可用性,實現(xiàn)對軍事新聞中蘊含的作戰(zhàn)力量編成部署信息的抽取,該文使用信息抽取基礎模型DGCNN+self-attention[17]進行實驗。將構建好的語料庫按照7∶3的比例進行訓練集和驗證集的劃分,并選擇17 942條經過清洗后的語句作為測試集。評測采用傳統(tǒng)的召回率(R)、準確率(P)、F1值。模型實驗結果顯示,利用構建的語料庫訓練的基礎模型,其準確率達到95.98%,召回率達到91.50%,F(xiàn)1值為93.68%,效果較好。

3.4 語料庫結果可視化

為更好展示構建的語料庫效果,采用neo4j圖數(shù)據(jù)庫存儲并進行可視化。語料庫部分語句各關系可視化如圖5所示。

圖5 關系三元組可視化

以美國為例:如“美國”存在“美國-編成-美國特種作戰(zhàn)司令部”、“美國-配置-黃蜂級航空母艦”、“美國-執(zhí)行-護航”等三種關系,26個關系三元組。

4 結束語

該文描述了面向特定領域文本的重疊關系抽取語料庫構建工作。首先對爬取到的特定領域網絡文本進行分析,構建關系模式schema,然后利用命名實體識別模型對文本進行實體識別得到備選實體集,通過依存句法分析和特征詞聚類構造觸發(fā)詞詞典,最后基于實體集和觸發(fā)詞詞典進行語料自動回標,構建出目前規(guī)模較大的面向特定領域的實體重疊關系抽取語料庫。同時,探究了數(shù)據(jù)源的可用性和標注質量,語料總體的回標成功率為76.7%,總體關系標注準確率為85.8%,利用基礎重疊關系抽取模型進行實驗,實驗結果F1值達到93.68%。

文中的構建方法減少了人工標注的工作量,標注效率較快,質量較高。但是,由于網絡文本的冗雜,構建的語料庫仍存在部分實體和不常見實體無法識別,目標等關系數(shù)量相對較少,且包含的關系類型較少等問題。未來的工作中,將利用抽取模型進行迭代更新,改進標注質量,并且繼續(xù)完善標注體系,擴大標注規(guī)模,為后續(xù)特定領域的信息抽取、知識圖譜構建等工作奠定基礎。

猜你喜歡
特征詞三元組語料
基于Simhash改進的文本去重算法
TransP:一種基于WordNet中PartOf關系的知識圖譜嵌入方法
基于類信息的TF-IDF權重分析與改進①
面向低資源神經機器翻譯的回譯方法
基于卷積神經網絡的知識圖譜補全方法研究
K-VQA:一種知識圖譜輔助下的視覺問答方法
基于多特征語義匹配的知識庫問答系統(tǒng)
一種面向財務文本分類的TF-IDF改進算法
可比語料庫構建與可比度計算研究綜述
國內外語用學實證研究比較:語料類型與收集方法
白玉县| 沅陵县| 古丈县| 天气| 吉安市| 普宁市| 安溪县| 赫章县| 麦盖提县| 河津市| 南川市| 连南| 灯塔市| 庆安县| 九江县| 宜昌市| 芦溪县| 讷河市| 顺义区| 新疆| 长沙市| 咸宁市| 南乐县| 金山区| 奇台县| 孟州市| 兴化市| 澎湖县| 新沂市| 万源市| 扎赉特旗| 岚皋县| 海门市| 邵阳市| 綦江县| 平凉市| 吉水县| 南宁市| 秭归县| 永安市| 农安县|