国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于事件抽取技術(shù)的聽(tīng)證公開(kāi)文本挖掘方法研究*

2022-01-28 03:08:10丁思媛喬曉東張運(yùn)良
情報(bào)雜志 2022年1期
關(guān)鍵詞:論元標(biāo)簽文本

丁思媛 喬曉東 張運(yùn)良

(1.中國(guó)科學(xué)技術(shù)信息研究所 北京 100038;2.富媒體數(shù)字出版內(nèi)容組織與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室 北京 100038;3.北京萬(wàn)方數(shù)據(jù)股份有限公司 北京 100038)

近年來(lái),隨著開(kāi)放政務(wù)信息的日益增多,也隨著文本挖掘和自然語(yǔ)言處理技術(shù)不斷提升,從海量政府公開(kāi)文本中抽取出有價(jià)值的信息,并以結(jié)構(gòu)化的形式呈現(xiàn)出來(lái),成為研究熱點(diǎn)與難點(diǎn)。其中,聽(tīng)證是決策過(guò)程中的必要環(huán)節(jié),會(huì)議披露的相關(guān)資料是一類重要的政府公開(kāi)文件,通過(guò)收集特定議題中有價(jià)值的信息,能夠及時(shí)發(fā)現(xiàn)相關(guān)領(lǐng)域的熱點(diǎn)和重大研究進(jìn)展,例如通過(guò)政府設(shè)立的基金情況分析產(chǎn)業(yè)發(fā)展重心,通過(guò)企業(yè)的科技成果分析領(lǐng)域的研究熱點(diǎn)和前沿技術(shù)等。然而,現(xiàn)有對(duì)聽(tīng)證文本的研究更多采用傳統(tǒng)的內(nèi)容解讀與分析方法,信息獲取效率較低,無(wú)法滿足當(dāng)前從大規(guī)模聽(tīng)證文本語(yǔ)料中快速獲取有價(jià)值信息的需求。

基于此,本研究針對(duì)科技領(lǐng)域,圍繞利用聽(tīng)證過(guò)程中產(chǎn)生的各類文件,結(jié)合聽(tīng)證文本的特點(diǎn),探索一套框架來(lái)實(shí)現(xiàn)聽(tīng)證文本有價(jià)值信息的識(shí)別與抽取工作,以此推動(dòng)聽(tīng)證文本信息的利用,該方法的建立可為進(jìn)一步分析此類文本信息提供新思路。

1 相關(guān)研究

1.1聽(tīng)證文本的相關(guān)研究隨著開(kāi)放政務(wù)信息的日益增多,從海量的政府公開(kāi)文本中識(shí)別有價(jià)值的信息,成為研究熱點(diǎn)與難點(diǎn)。

從研究方法上看,現(xiàn)有研究對(duì)政府公開(kāi)文本信息的分析主要包括:a.基于內(nèi)容解讀的定性分析。此類研究主要通過(guò)專家解讀的方式把握政策文本的背景和思想,高度依賴專家的學(xué)習(xí)背景和專業(yè)程度。b.基于內(nèi)容分析的文本量化。此類研究以政策文本為樣本,將非結(jié)構(gòu)化政策文本轉(zhuǎn)換為數(shù)量表示資料,并用統(tǒng)計(jì)數(shù)字進(jìn)行描述和分析,其研究效果與信度很大程度上取決于研究設(shè)計(jì)。c.基于文獻(xiàn)計(jì)量的政策計(jì)量分析。此類研究采用數(shù)學(xué)、統(tǒng)計(jì)學(xué)等學(xué)科的計(jì)量方法,基于官方頒布的政策文獻(xiàn),通過(guò)文本的主題詞、發(fā)文機(jī)構(gòu)等研究主題分布、引文分析等,其研究未深入到內(nèi)容層面。d.基于社會(huì)網(wǎng)絡(luò)的政策網(wǎng)絡(luò)分析。此類研究構(gòu)建社會(huì)網(wǎng)絡(luò),通過(guò)分析其節(jié)點(diǎn)、屬性及關(guān)系揭示個(gè)體和群體特征,涉及的元素類型比較單一,且數(shù)據(jù)量較小。e.基于大數(shù)據(jù)的文本挖掘。此類研究運(yùn)用大數(shù)據(jù)思維,利用自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等方法,對(duì)文本進(jìn)行結(jié)構(gòu)解析和信息抽取,目前較缺乏針對(duì)政府公文的大數(shù)據(jù)分析和智能化處理技術(shù)[1]。

從涉及的研究對(duì)象來(lái)看,現(xiàn)有對(duì)政府公開(kāi)文本信息的研究主要集中于政府公文、工作報(bào)告、統(tǒng)計(jì)數(shù)據(jù)等。然而,政府公開(kāi)文本類型多樣,美國(guó)在《情報(bào)自由法》中規(guī)定,除了法律規(guī)定需要保密的事項(xiàng)外,所有政府機(jī)構(gòu)的書(shū)面版和電子版記錄都應(yīng)該公開(kāi)[2]。聽(tīng)證文本屬于政府公開(kāi)文本的重要部分,是一類重要的情報(bào)資源,對(duì)其進(jìn)行研究是有必要的。然而,現(xiàn)有對(duì)聽(tīng)證文本的研究方法集中于內(nèi)容解讀和文本量化,如Segal等[3]對(duì)1941年至1985年間有關(guān)軍人婦女的國(guó)會(huì)證詞進(jìn)行分析,總結(jié)了有關(guān)婦女在軍人中作用的主張政策的轉(zhuǎn)變。Hall等[4]針對(duì)太平洋西北地區(qū)鮭魚(yú)政策的幾次聽(tīng)證的100多名證人的證詞進(jìn)行了話語(yǔ)分析。此外,也有基于社會(huì)網(wǎng)絡(luò)的政策網(wǎng)絡(luò)分析,如Fisher等[5]將社交網(wǎng)絡(luò)分析應(yīng)用于國(guó)會(huì)聽(tīng)證中的氣候變化政治研究,重點(diǎn)關(guān)注證人之間的政治觀點(diǎn)的關(guān)系。張海洋[6]利用鋪平話語(yǔ)分析和基于網(wǎng)絡(luò)的內(nèi)容分析對(duì)有關(guān)中國(guó)空間發(fā)展議題的聽(tīng)證話語(yǔ)進(jìn)行解讀,并構(gòu)建觀點(diǎn)圖譜。

以上對(duì)聽(tīng)證文本的研究更多的依賴于人工標(biāo)注和篩選,對(duì)聽(tīng)證話語(yǔ)進(jìn)行分析和解讀,從而揭示聽(tīng)證詞中的主題、觀點(diǎn)和話語(yǔ)策略等,信息獲取效率較低。本研究運(yùn)用大數(shù)據(jù)思維,提出一套基于事件抽取技術(shù)的信息識(shí)別與抽取方法,滿足當(dāng)前從大規(guī)模聽(tīng)證文本語(yǔ)料中快速獲取有價(jià)值信息的需求。

1.2事件抽取技術(shù)相關(guān)研究事件抽取是信息抽取的一個(gè)子任務(wù),是從自然語(yǔ)言文本中抽取指定類型的事件信息,形成結(jié)構(gòu)化數(shù)據(jù)輸出的文本處理技術(shù)。

從抽取流程來(lái)看,事件抽取方法可以分為流水線抽取和聯(lián)合抽取兩大類,流水線抽取模式按照觸發(fā)詞識(shí)別、事件類型識(shí)別和事件要素識(shí)別的順序執(zhí)行,其中觸發(fā)詞識(shí)別和事件類型識(shí)別又可以合成為事件檢測(cè),而聯(lián)合抽取模式則將幾種任務(wù)聯(lián)合執(zhí)行,同時(shí)得到結(jié)果。

從抽取技術(shù)來(lái)看,事件抽取方法又有基于模式匹配的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。基于模式匹配的方法在特定領(lǐng)域可以取得比較好的效果,但是系統(tǒng)的可移植性較差,且模式的構(gòu)建費(fèi)時(shí)費(fèi)力,為解決此類問(wèn)題,Marco等[7]提出了一種領(lǐng)域無(wú)關(guān)的基于規(guī)則的事件抽取框架,Araki等[8]提出了一種能夠生成高質(zhì)量訓(xùn)練數(shù)據(jù)的遠(yuǎn)程監(jiān)管方法,均取得較好的改進(jìn)效果。基于機(jī)器學(xué)習(xí)的方法多借鑒文本分類的思想,將事件類型及事件元素的識(shí)別轉(zhuǎn)化成為分類問(wèn)題,其難點(diǎn)在分類器的構(gòu)造和特征的選擇上,Majumder等[9]提出了一種用于生物醫(yī)學(xué)文本事件提取的堆疊泛化模型,Liu等[10]使用概率軟邏輯模型以邏輯形式編碼全局信息,通過(guò)聯(lián)合局部信息和全局信息提高分類性能。之后,隨著深度學(xué)習(xí)的不斷發(fā)展,更多學(xué)者將輔助信息和深度學(xué)習(xí)方法混合使用進(jìn)行事件抽取,在基于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)中加入注意力機(jī)制、遠(yuǎn)監(jiān)督學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)、遷移學(xué)習(xí)等技術(shù)。

最近還有一些利用事件抽取技術(shù)分析非結(jié)構(gòu)化文本的工作。例如,Qiu等[11]從中文新聞中提取網(wǎng)絡(luò)攻擊信息。Taneeya等[12]提出一個(gè)基于深度學(xué)習(xí)的模塊化網(wǎng)絡(luò)攻擊事件信息提取管道。還有學(xué)者從公司公開(kāi)公告中抽取中文金融事件,對(duì)文學(xué)事件和生物醫(yī)學(xué)事件等進(jìn)行檢測(cè)[13-16]。這說(shuō)明事件抽取技術(shù)在特定文本信息抽取上有著明顯的效果。

綜上,事件抽取技術(shù)是當(dāng)前自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn),并且在標(biāo)準(zhǔn)語(yǔ)料庫(kù)上已經(jīng)做了大量的研究。但是這些方法未被運(yùn)用到聽(tīng)證文本的信息處理與分析中,未針對(duì)聽(tīng)證文本形成事件抽取任務(wù)的標(biāo)準(zhǔn)定義,也未形成抽取任務(wù)中所使用的預(yù)定義框架。如何結(jié)合聽(tīng)證文本的特點(diǎn),探索一套行之有效的抽取框架以全面、快速地獲取聽(tīng)證文本中與科技有關(guān)的知識(shí)內(nèi)容和有效信息值得深入探索。

2 有價(jià)值信息的界定

聽(tīng)證公開(kāi)文本篇幅長(zhǎng),內(nèi)容多,因此,應(yīng)該對(duì)文本中的信息進(jìn)行合理界定與分類,把有限的時(shí)間與精力用在研究更有價(jià)值的信息上。本研究對(duì)聽(tīng)證的基本流程和公開(kāi)文本類型進(jìn)行梳理,根據(jù)文本內(nèi)容特征界定其中有價(jià)值的信息,定義抽取任務(wù)。

2.1聽(tīng)證公開(kāi)文本的類型在國(guó)外議會(huì)立法中,聽(tīng)證主要分立法聽(tīng)證、監(jiān)督聽(tīng)證和調(diào)查聽(tīng)證三種類型,一個(gè)完整的聽(tīng)證流程包括[17]:a.公告。在決定舉行聽(tīng)證后,委員會(huì)主席提前公布聽(tīng)證的日期、地點(diǎn)、主題等信息。b.登記作證和邀請(qǐng)證人。委員會(huì)公告聽(tīng)證列表,證人報(bào)名簽字,最后委員會(huì)選擇合適的證人并發(fā)布正式邀請(qǐng)函。c.提交證詞副本。證人作證前需向委員會(huì)提供個(gè)人簡(jiǎn)歷和書(shū)面證詞副本,以及一份證詞披露的真實(shí)性說(shuō)明。d.準(zhǔn)備文件。委員會(huì)在舉行聽(tīng)證前和聽(tīng)證中需要為委員們準(zhǔn)備必要的文件,包括議題相關(guān)的背景資料及政策研究資料。e.公開(kāi)聽(tīng)證。除特殊原因外,公開(kāi)舉行聽(tīng)證,首先由委員會(huì)主任做開(kāi)場(chǎng)陳述,再由證人進(jìn)行陳述,證人陳述后,由委員針對(duì)證人進(jìn)行詢問(wèn),最后將聽(tīng)證的相關(guān)視頻和文本進(jìn)行公開(kāi)。

根據(jù)流程對(duì)聽(tīng)證公開(kāi)文本類型進(jìn)行梳理,見(jiàn)圖1。

圖1 聽(tīng)證公開(kāi)文本的類型

聽(tīng)證作為收集信息的重要渠道,其內(nèi)容的新穎性和信息的實(shí)時(shí)性表明其公開(kāi)文本具有較高的研究?jī)r(jià)值。分析聽(tīng)證公開(kāi)文本的內(nèi)容特征,可以發(fā)現(xiàn),議員開(kāi)幕詞、證人證詞、問(wèn)答記錄和聽(tīng)證會(huì)簡(jiǎn)報(bào)四類文本含有更多信息,且具有篇幅長(zhǎng),語(yǔ)義信息豐富,觀點(diǎn)鮮明,內(nèi)容概括度高等特點(diǎn),應(yīng)作為重點(diǎn)關(guān)注對(duì)象。

2.2有價(jià)值信息的界定與分類信息的獲取過(guò)程包括“發(fā)現(xiàn)信息—收集信息—判斷信息價(jià)值—提取信息”四個(gè)階段,其中,信息價(jià)值的判斷是提取有價(jià)值信息的重要前提和基礎(chǔ)。郭慧芳[18]認(rèn)為不同主體對(duì)同樣的信息價(jià)值存在較大差異,可以認(rèn)為信息的價(jià)值是一種主觀價(jià)值,受個(gè)體特性的影響。本文中涉及的有價(jià)值信息主要是指包含特定事件,即在某個(gè)特定時(shí)間和地域范圍發(fā)生的,涉及一個(gè)或多個(gè)參與者的事情或狀態(tài)的變化的信息,包含多種事件類型及其相應(yīng)的事件結(jié)構(gòu)。因此,本研究通過(guò)事件抽取的方式,分析聽(tīng)證文本以識(shí)別有價(jià)值信息的描述,并根據(jù)文本中的信息構(gòu)建其語(yǔ)義表示。

本研究以幾則聽(tīng)證文本為樣例,借助實(shí)例分析結(jié)果來(lái)歸納總結(jié)事件信息的類型。此外,由于本研究聚焦于科技領(lǐng)域,因此,進(jìn)一步參照文獻(xiàn)[19]對(duì)科技事件的分類,將聽(tīng)證文本中的有價(jià)值信息歸為以下幾類:a.稅收:政府的稅務(wù)變動(dòng);b.資助:政府和企業(yè)對(duì)某一項(xiàng)目、技術(shù)、產(chǎn)品或特定群體的投資和資助;c.合作:組織者協(xié)調(diào)企業(yè)間、政府各部門間以及政企間展開(kāi)的合作;d.組織設(shè)立:成立或解散各志愿者組織、協(xié)會(huì)、政府機(jī)構(gòu)和部門及其他社會(huì)組織;e.會(huì)議召開(kāi):召開(kāi)的各種會(huì)議;f.提議:提出的各種建議、意見(jiàn)、倡議、期望和政策提議等;g.政策頒布:政府頒布的各項(xiàng)政策、戰(zhàn)略、命令、法案法規(guī)、備忘錄、規(guī)則、標(biāo)準(zhǔn)和正式計(jì)劃等;h.項(xiàng)目啟動(dòng):包括已啟動(dòng)或計(jì)劃啟動(dòng)的各類科技項(xiàng)目;i.成果發(fā)布:政府、企業(yè)、科研人員等一系列的科技產(chǎn)出,包括產(chǎn)品、技術(shù)、其他專利等。

本研究將信息的主要要素歸為主體、客體、目的3個(gè)關(guān)鍵詞,以表示一個(gè)簡(jiǎn)單事件的邏輯結(jié)構(gòu)(見(jiàn)圖2),一個(gè)簡(jiǎn)單事件至少包含一個(gè)及以上的關(guān)鍵詞,其中主體和客體包含政府機(jī)構(gòu)、科技機(jī)構(gòu)、院校、企業(yè)、其它公私組織和個(gè)人在內(nèi)的各個(gè)實(shí)體。此外,設(shè)置了時(shí)間、地點(diǎn)等約束詞作為事件補(bǔ)充信息,并設(shè)計(jì)了各個(gè)事件類型的角色(見(jiàn)表1)。

圖2 簡(jiǎn)單事件邏輯模型

3 數(shù)據(jù)集的構(gòu)建

本研究以聽(tīng)證披露的5G科技相關(guān)資料為實(shí)證研究對(duì)象,選取2015年至2021年4月間與5G議題有關(guān)的18場(chǎng)聽(tīng)證的公開(kāi)文件(部分聽(tīng)證信息見(jiàn)表2),包括聽(tīng)證簡(jiǎn)報(bào)、議員開(kāi)幕詞、證人證詞和問(wèn)答記錄,并重點(diǎn)研究資助、提議、政策頒布、成果發(fā)布四種信息類型。

經(jīng)過(guò)數(shù)據(jù)清洗,共收集201篇聽(tīng)證文本,刪除文檔標(biāo)題、引用、證人介紹語(yǔ)、感謝語(yǔ)等無(wú)關(guān)內(nèi)容,僅保留正文部分,并按句子進(jìn)行切分,共得到14 117個(gè)句子,其中事件句有3 333條,包含345條資助事件句,399條提議事件句,621條政策頒布事件句,256條成果發(fā)布事件句。對(duì)以上四種類型的事件句進(jìn)行事件角色的論元標(biāo)注,最后得到6 799個(gè)標(biāo)記。將所有數(shù)據(jù)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,比例為8∶1∶1。數(shù)據(jù)集的統(tǒng)計(jì)情況見(jiàn)表3。

表3 事件分類與論元抽取數(shù)據(jù)集統(tǒng)計(jì)

4 事件檢測(cè)與論元抽取

4.1設(shè)計(jì)思路通過(guò)對(duì)聽(tīng)證文本內(nèi)容的分析,以及對(duì)含有事件的句子進(jìn)一步細(xì)致分析可以發(fā)現(xiàn):a.聽(tīng)證會(huì)證詞一般以演講稿的形式進(jìn)行描述,復(fù)雜句較多,信息量大,多運(yùn)用蘊(yùn)含較多信息的長(zhǎng)句,尤其是復(fù)合句的采用。b.由于證人陳述和詢問(wèn)時(shí)間一般控制在5分鐘內(nèi),且發(fā)言多為總結(jié)性話語(yǔ),主要表達(dá)觀點(diǎn)意見(jiàn),雖然聽(tīng)證文本篇幅較長(zhǎng),但提及的事件往往用一到兩句話進(jìn)行概括。c.需要抽取的事件句在文本中分布較為分散和稀疏,非事件句數(shù)與事件句數(shù)比值較大。因此,相對(duì)于全篇幅的事件抽取,以句子為單位即可滿足抽取要求。傳統(tǒng)的事件檢測(cè)任務(wù)往往先識(shí)別文本中的事件觸發(fā)詞,然后對(duì)觸發(fā)詞進(jìn)行分類,需要耗費(fèi)大量時(shí)間對(duì)觸發(fā)詞進(jìn)行標(biāo)注,鑒于本研究需要構(gòu)造自己的數(shù)據(jù)集,相比于傳統(tǒng)方法,無(wú)觸發(fā)詞的事件檢測(cè)更便于減少人工成本。此外,本研究意圖從事件類型和事件論元等多方面對(duì)事件信息進(jìn)行分析,為了有效減少訓(xùn)練過(guò)程中的錯(cuò)誤累積,相比于聯(lián)合抽取模式,流水線抽取模式更符合要求。

基于以上思路,本研究將抽取任務(wù)分為事件句識(shí)別、事件類型檢測(cè)和事件論元抽取三個(gè)階段。首先,根據(jù)定義的事件類型,采用雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional Gate Recurrent Unity, BiGRU)結(jié)合注意力機(jī)制[20](Attention Mechanism)來(lái)檢測(cè)句子中是否包含事件,并構(gòu)建候選事件句集合。其次,將句子的實(shí)體標(biāo)簽和角色標(biāo)簽嵌入輸入語(yǔ)料,采用長(zhǎng)短期記憶網(wǎng)絡(luò)(Long-Short Term Memory, LSTM)結(jié)合注意力機(jī)制[21]對(duì)候選事件句進(jìn)行事件類型檢測(cè),通過(guò)實(shí)施兩次分類任務(wù),緩解訓(xùn)練過(guò)程中產(chǎn)生的類不平衡問(wèn)題。最后,將句子的詞性標(biāo)簽和角色標(biāo)簽嵌入輸入語(yǔ)料,采用序列標(biāo)注的方式實(shí)現(xiàn)對(duì)事件論元的抽取。

4.2事件句識(shí)別方法設(shè)計(jì)本研究將內(nèi)容按標(biāo)點(diǎn)符號(hào)切分成句子,將其處理成多個(gè)句子的集合,給定包含N個(gè)句子{S1,S2,…,SN}的語(yǔ)料,每個(gè)句子賦予一個(gè)事件標(biāo)簽Y∈{0,1},其中1表示句子中含有事件(即含有上文定義的九類事件中的1個(gè)及以上),將其看成一個(gè)二分類任務(wù),通過(guò)預(yù)測(cè)每個(gè)句子的標(biāo)簽,篩選含有事件的句子,構(gòu)建候選事件句集合。該事件句識(shí)別模型BERT_BiGRU_att架構(gòu)見(jiàn)圖3。

圖3 事件句識(shí)別模型框架

a.輸入層:假設(shè)一個(gè)句子S有m個(gè)單詞,每個(gè)單詞有位置標(biāo)簽w,則輸入句子Sn={tokensw1,tokensw2,…,tokenswm},利用BERT詞向量模型將文本信息轉(zhuǎn)化成詞向量矩陣。

b.隱含層:使用BiGRU序列生成模型對(duì)文本深層次語(yǔ)義信息進(jìn)行特征提取,將正向和反向提取的文本深層次特征信息輸入到注意力機(jī)制層中,計(jì)算不同時(shí)刻詞向量的概率權(quán)重,再利用全連接神經(jīng)網(wǎng)絡(luò)整合特征提取層的信息進(jìn)行最終的特征提取。

c.輸出層:最后加入softmax層,通過(guò)sigmoid函數(shù)將全連接層提取到的特征進(jìn)行歸一化處理,得到事件類別標(biāo)簽值。

4.3事件類型檢測(cè)方法設(shè)計(jì)在事件檢測(cè)中,一個(gè)普遍現(xiàn)象是同一個(gè)句子中會(huì)存在多個(gè)事件,例如句子“Commission proposed the 5G Fund, which would make up to $9 billion in Universal Service Fund support available to carriers to deploy advanced 5G mobile wireless services in rural America”中包含“提議”和“資助”兩個(gè)事件類型,因此,這就意味著一個(gè)句子中存在0到多個(gè)事件類型標(biāo)簽。為解決多標(biāo)簽問(wèn)題,本研究將多標(biāo)簽分類任務(wù)轉(zhuǎn)化為多個(gè)二分類任務(wù),假設(shè)給定n個(gè)目標(biāo)事件類型{t1,t2,…,tn},則可以用0或1來(lái)表示一個(gè)事件句s是否包含一個(gè)事件類型t,如表4。

情境的選?。褐黝}同步。選用同一本教材,在同一教學(xué)周內(nèi),選取相同的情境,通過(guò)情境下的角色扮演,反復(fù)強(qiáng)化對(duì)話訓(xùn)練和詞句運(yùn)用,促進(jìn)融會(huì)貫通。

表4 多個(gè)二分類實(shí)例

為解決觸發(fā)詞缺失問(wèn)題,在Liu等[22]研究的基礎(chǔ)上,本研究通過(guò)補(bǔ)充實(shí)體類型標(biāo)簽和角色類型標(biāo)簽豐富句子的語(yǔ)義信息,從而提高事件句類型檢測(cè)性能。該事件類型檢測(cè)模型LSTM_att架構(gòu)見(jiàn)圖4。

圖4 事件類型檢測(cè)模型框架

a.輸入層:利用Stanford CoreNLP工具對(duì)給定的事件句的實(shí)體類型進(jìn)行解析,結(jié)果示例見(jiàn)圖5,本研究的角色標(biāo)注結(jié)果示例見(jiàn)圖6。假設(shè)一個(gè)類型為T的句子S有m個(gè)單詞,每個(gè)單詞有位置標(biāo)簽w,實(shí)體標(biāo)簽p,角色標(biāo)簽q,則輸入語(yǔ)料為{tokensw1,p1,q1,tokensw2,p2,q2,…,tokenswm,pm,qm,T},w,p,q∈[0,m],將單詞嵌入wi,實(shí)體標(biāo)簽嵌入pi,角色標(biāo)簽嵌入qi,利用Word2Vec詞向量模型將輸入的語(yǔ)料信息轉(zhuǎn)化成詞向量矩陣。

圖5 Stanford CoreNLP工具實(shí)體解析結(jié)果

圖6 事件角色標(biāo)注結(jié)果

b.隱含層:使用LSTM序列生成模型對(duì)文本深層次語(yǔ)義信息進(jìn)行特征提取,將正向和反向提取的文本深層次特征信息和事件類型信息輸入到注意力機(jī)制層中,再利用全連接神經(jīng)網(wǎng)絡(luò)整合特征提取層的信息進(jìn)行最終的特征提取。

c.輸出層:加入softmax層,通過(guò)sigmoid函數(shù)將全連接層提取得到的特征和事件類型特征進(jìn)行歸一化處理得到事件類別標(biāo)簽值。

4.4事件論元抽取方法設(shè)計(jì)事件抽取任務(wù)的目標(biāo)是通過(guò)給定目標(biāo)事件類型和角色集合,識(shí)別候選事件句中所有的目標(biāo)類型事件,并根據(jù)角色集合抽取事件對(duì)應(yīng)的各個(gè)論元。由于本研究定義的事件角色所對(duì)應(yīng)的論元類型包括實(shí)體,如機(jī)構(gòu)、時(shí)間、地點(diǎn)等,也包括名詞詞組和短語(yǔ),如“consumer education”“5G Fast Plan”“Spectrum Relocation Fund”等,這類詞組與命名實(shí)體相比在詞形上不具有特殊屬性。因此,本研究采用了一種融合角色特征和詞性特征的序列標(biāo)注方法實(shí)現(xiàn)對(duì)事件論元的抽取。該事件論元抽取模型BERT_LSTM架構(gòu)見(jiàn)圖7。

圖7 事件論元抽取模型框架

a.輸入層:由于本研究數(shù)據(jù)體量小,因此,可以將所有類型的事件句進(jìn)行統(tǒng)一的論元抽取,即將各類事件的主體、客體、目的3個(gè)邏輯關(guān)鍵詞都賦以角色標(biāo)簽“subject”“object”“purpose”,以此緩解數(shù)據(jù)量小的問(wèn)題,如“資助者(sponsor)”被標(biāo)記為“subject”,“接受者(recipient)”被標(biāo)記為“object”。利用Stanford CoreNLP對(duì)詞性進(jìn)行解析,最后得到詞性解析結(jié)果如圖8。假設(shè)一個(gè)類型為T的句子S有m個(gè)單詞,每個(gè)單詞有位置標(biāo)簽w,角色標(biāo)簽q,詞性標(biāo)簽r,則輸入語(yǔ)料為{tokensw1,q1,r1,tokensw2,q2,r2,…,tokenswm,qm,rm},w,q,r∈[0,m]。結(jié)合動(dòng)態(tài)詞向量表示的BERT模型將輸入的語(yǔ)料信息轉(zhuǎn)化成詞向量矩陣。

圖8 Stanford CoreNLP工具詞性解析結(jié)果

b.隱含層:轉(zhuǎn)換為綜合向量序列X={Xw1,q1,r1,Xw2,q2,r2, …,Xwm,qm,rm}之后,使用LSTM序列生成模型對(duì)文本深層次語(yǔ)義信息進(jìn)行特征提取。

c.輸出層:加入softmax層,通過(guò)sigmoid函數(shù)將特征進(jìn)行歸一化處理得到事件論元類別標(biāo)簽。

5 結(jié)果評(píng)測(cè)與分析

本研究三階段實(shí)驗(yàn)均通過(guò)人工標(biāo)注的數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練并測(cè)試,與現(xiàn)有模型的實(shí)驗(yàn)結(jié)果進(jìn)行比較驗(yàn)證模型的有效性,評(píng)測(cè)標(biāo)準(zhǔn)選擇精確率、召回率和F1值。然后,選取與5G議題有關(guān)的其它聽(tīng)證的公開(kāi)文件,并入初始數(shù)據(jù)集,使用前述方法分別進(jìn)行事件句識(shí)別、事件類型檢測(cè)和事件論元抽取,對(duì)所收集的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,并對(duì)結(jié)果進(jìn)行展示。

5.1結(jié)果評(píng)測(cè)選擇支持向量機(jī)(Support Vector Machines, SVM)[23]和因式分解雙線性多角度注意力機(jī)制(Factorized Bilinear Multi-aspect Attention Mechanism, FBMA)模型分別進(jìn)行事件句識(shí)別,作為對(duì)比以判斷BERT_BiGRU_att模型的有效性。其中,F(xiàn)BMA模型由Sneha等[24]提出,該模型在事件檢測(cè)任務(wù)中取得不錯(cuò)的效果。經(jīng)過(guò)實(shí)驗(yàn),BERT_BiGRU_att模型在事件句上的召回率為0.76,F(xiàn)1值為0.71,在非事件句上的精確率為0.92,F(xiàn)1值為0.90,達(dá)到較好的分類效果,可選擇作為最優(yōu)事件句識(shí)別模型,見(jiàn)表5。

表5 事件句識(shí)別測(cè)試集結(jié)果

由于BERT_BiGRU_att模型在第一階段的二分類效果較好,因此將其繼續(xù)運(yùn)用于多分類任務(wù)中,以判斷LSTM_att模型的有效性。經(jīng)過(guò)實(shí)驗(yàn),BERT_BiGRU_att模型在事件類型檢測(cè)上的精確率為0.67,召回率為0.66,F(xiàn)1值為0.66,LSTM_att模型的精確率為0.68,召回率為0.65,F(xiàn)1值為0.66,模型效果差異不大,可選擇作為最優(yōu)事件類型檢測(cè)模型,見(jiàn)表6。

表6 事件類型檢測(cè)測(cè)試集結(jié)果

此外,利用不加入詞性特征的基于BERT和CRF的BERT_CRF模型進(jìn)行論元抽取,判斷BERT_LSTM模型的有效性。經(jīng)過(guò)實(shí)驗(yàn),BERT_LSTM模型在事件論元抽取中的精確率為0.65,召回率為0.57,F(xiàn)1值為0.61。相比基準(zhǔn)模型有所提升,可選擇作為最優(yōu)事件論元抽取模型,見(jiàn)表7。

表7 事件論元抽取測(cè)試集結(jié)果

5.2特定論元的分析由于對(duì)事件論元進(jìn)行了細(xì)致的劃分與抽取,因此,可以對(duì)特定論元進(jìn)行統(tǒng)計(jì)與分析。

對(duì)抽取出的主體或客體進(jìn)行分析,發(fā)現(xiàn)存在多處共指現(xiàn)象,通過(guò)人工比較和判斷的方式找出同一實(shí)體的所有不同表達(dá)結(jié)果費(fèi)時(shí)費(fèi)力,因此,可以對(duì)其進(jìn)行相似度計(jì)算,主體間的相似程度越高,表達(dá)為同一實(shí)體的可能性也越高。本研究利用difflib標(biāo)準(zhǔn)庫(kù)計(jì)算文本差異,如經(jīng)過(guò)計(jì)算“FCC Mobility Fund”“FCCs Mobility Fund”“FCCs Mobility Fund Phase II”“Mobility Fund I”“Mobility Fund Phase I”“Mobility Fund Phase II”之間的相似度均超過(guò)0.6,代表同一實(shí)體“Mobility Fund”。

選取一個(gè)事件中出現(xiàn)的所有主體和客體,通過(guò)相似度計(jì)算快速查找同一實(shí)體的不同表述并進(jìn)行消歧處理,處理后的數(shù)據(jù)可以用來(lái)構(gòu)建共現(xiàn)網(wǎng)絡(luò)(見(jiàn)圖9),圖中節(jié)點(diǎn)越大表示該實(shí)體在不同事件中出現(xiàn)的次數(shù)越多,邊越寬表示兩個(gè)實(shí)體在不同事件中共同出現(xiàn)的次數(shù)越多,它們之間的關(guān)系強(qiáng)度也越大,箭頭由主體指向客體。由圖發(fā)現(xiàn):a.國(guó)會(huì)與FCC有強(qiáng)關(guān)聯(lián),F(xiàn)CC承擔(dān)著5G建設(shè)中的重要作用。b.一個(gè)實(shí)體既可以為一個(gè)事件主體,又可以為另一個(gè)事件的客體,如國(guó)會(huì)向FCC投資,F(xiàn)CC又將資金投入別的項(xiàng)目或機(jī)構(gòu),可用于分析和溯源資金的去向。c.網(wǎng)絡(luò)中獨(dú)立節(jié)點(diǎn)或連接數(shù)較少的節(jié)點(diǎn)說(shuō)明其出現(xiàn)頻次較低,但作為主客體同樣具有重要性,例如,Verizon,T-Mobile,CSMAC等,可以作為進(jìn)一步的研究對(duì)象。d.“congress”到“FCC”到“Connect America Fund”到“rural broadband”之間有一條連線,可以理解為國(guó)會(huì)聯(lián)合FCC提出了連接美國(guó)基金,該基金的一個(gè)重點(diǎn)項(xiàng)目是推動(dòng)美國(guó)農(nóng)村的無(wú)線和寬帶服務(wù),可見(jiàn),通過(guò)分析主客體之間的路徑,可以快速地了解機(jī)構(gòu)間的聯(lián)系以及事件的演化。

圖9 主體客體共現(xiàn)網(wǎng)絡(luò)

5.3特定事件的分析由于對(duì)事件類型進(jìn)行了統(tǒng)一劃分與識(shí)別,因此可以針對(duì)不同的事件類型進(jìn)行分析。

5.3.1 提議事件分析 通過(guò)LDA主題建模歸納提議中的主要話題[25],采用困惑度調(diào)節(jié)主題個(gè)數(shù)以確保模型的聚類效果。根據(jù)困惑度公式,當(dāng)主題數(shù)為13時(shí),困惑度達(dá)到最低。因此,需要訓(xùn)練得到包含13個(gè)主題的LDA主題模型。根據(jù)LDA主題的詞特征,發(fā)現(xiàn)5G議題下提議的主要內(nèi)容包括以下方面:a.提議關(guān)注5G基金和頻譜拍賣的相關(guān)政策。b.提議支持無(wú)線業(yè)務(wù)的發(fā)展并關(guān)注其應(yīng)用與選址問(wèn)題。c.提議支持政府對(duì)寬帶頻譜等基礎(chǔ)設(shè)施的進(jìn)一步部署。d.提議認(rèn)為應(yīng)該加強(qiáng)衛(wèi)星和移動(dòng)通訊技術(shù)的發(fā)展。e.提議支持政府加強(qiáng)對(duì)美國(guó)農(nóng)村的網(wǎng)絡(luò)建設(shè)。f.提議認(rèn)為政府應(yīng)繼續(xù)就5G進(jìn)行系列改革以確保美國(guó)在5G領(lǐng)域的領(lǐng)先地位。g.提議建議進(jìn)一步加強(qiáng)5G標(biāo)準(zhǔn)和法案的制定。h.提議關(guān)注授權(quán)的和非授權(quán)的商用頻譜。i.提議建議頻譜拍賣的資金用于農(nóng)村5G網(wǎng)絡(luò)服務(wù)。j.提議關(guān)注5G服務(wù)的提供者/消費(fèi)者利益。k.提議關(guān)注農(nóng)村交通服務(wù)和5G安全性。l.提議支持通過(guò)頻譜拍賣提供無(wú)線和寬帶建設(shè)和服務(wù)的基金。m.提議關(guān)注5G的基礎(chǔ)設(shè)施和技術(shù)發(fā)展。

5.3.2 資助事件分析 選取資助主體“congress”“commission”“FCC”“government”,按時(shí)間順序?qū)κ录腕w與金額進(jìn)行統(tǒng)計(jì)分析,見(jiàn)圖10。美國(guó)的《電信法》通過(guò)建立四個(gè)計(jì)劃來(lái)保證農(nóng)村和島嶼消費(fèi)者的服務(wù)支持,其中,連通美國(guó)基金于2018年提出第二階段將在未來(lái)十年每年投入19.8億美元,生命線計(jì)劃從2020年起年預(yù)算更改為23.85億美元,電子費(fèi)率計(jì)劃2.0版本(E-rate program)從2014年開(kāi)始將年度最高限度設(shè)定為41.5億美元,農(nóng)村醫(yī)療保健計(jì)劃從2016年醫(yī)療保健提供商對(duì)高速寬帶融資請(qǐng)求超過(guò)上限開(kāi)始,也由原先的每年4億美元提高到5.71億美元??梢?jiàn),美國(guó)在2012年開(kāi)始對(duì)已有基金進(jìn)行修訂或頒布新基金以支持5G發(fā)展,近兩年對(duì)通信領(lǐng)域的投入加大,并計(jì)劃分配十年內(nèi)的資金支持。

圖10 政府投資項(xiàng)目與金額

5.3.3 政策頒布事件和成果發(fā)布事件 以政策頒布事件和成果發(fā)布事件為例,分別選取事件對(duì)應(yīng)的所有客體,以及與客體對(duì)應(yīng)的主體、時(shí)間,進(jìn)行統(tǒng)計(jì)分析,見(jiàn)圖11??梢钥闯?,2017-2020年間國(guó)會(huì)提議了較多法案,例如,2017年的“New Deal Rural Broadband Act”“ AIRWAVES Act”“Spectrum Auctions Deposit Act”,2018年的“RAY BAUM'S Act”“Access Broadband Act”“5G FAST plan”等。此期間,成果產(chǎn)出也逐漸增多,例如,思科公司于2019年發(fā)布wi-fi6的可接入點(diǎn),2020年小型蜂窩的建設(shè)已初具規(guī)模,且此后幾年的目標(biāo)將繼續(xù)建設(shè)千萬(wàn)個(gè)蜂窩網(wǎng)絡(luò)。

圖11 政策頒布和成果發(fā)布展示

相比于已有對(duì)聽(tīng)證公開(kāi)文本的研究,使用預(yù)定義的事件框架對(duì)文本特定信息進(jìn)行抽取,并將該信息的核心內(nèi)容分解為事件的不同組成部分,不僅提高了大規(guī)模聽(tīng)證公開(kāi)文本信息抽取的效率,同時(shí)有利于進(jìn)行多維度的信息分析,并為知識(shí)圖譜、系統(tǒng)檢索等多種下游任務(wù)提供了基礎(chǔ)的結(jié)構(gòu)化數(shù)據(jù)。

6 結(jié)束語(yǔ)

本研究在聽(tīng)證公開(kāi)文本中有價(jià)值信息的通用性識(shí)別和抽取方法上做了一些研究。第一,對(duì)聽(tīng)證公開(kāi)文本的類型和內(nèi)容做了分析,界定并細(xì)分文本中有價(jià)值的信息。第二,采用事件抽取為主要技術(shù)手段,將有價(jià)值的信息定義為不同事件類型并設(shè)計(jì)相應(yīng)的事件角色,根據(jù)文本內(nèi)容特點(diǎn)提出了一種三階段式信息抽取方法。實(shí)驗(yàn)研究表明,該方法取得了一定的抽取效果,提高了大規(guī)模聽(tīng)證公開(kāi)文本信息抽取效率,為進(jìn)一步文本分析提供新思路。

本研究的抽取方法還存在一些問(wèn)題,特別是數(shù)據(jù)集規(guī)模較小和標(biāo)注數(shù)據(jù)的不足,后續(xù)研究將擴(kuò)展標(biāo)注其他五類事件的數(shù)據(jù),并引入半監(jiān)督學(xué)習(xí)方法減少對(duì)標(biāo)注數(shù)據(jù)的依賴。此外,后續(xù)將對(duì)事件之間的因果關(guān)系和順承關(guān)系抽取進(jìn)行研究,更好地用結(jié)構(gòu)化的方式呈現(xiàn)聽(tīng)證文本中的有效信息。

猜你喜歡
論元標(biāo)簽文本
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
成分重量和粵方言雙及物結(jié)構(gòu)的論元語(yǔ)序
基于論元結(jié)構(gòu)和題元指派對(duì)漢語(yǔ)處置義“把”字句的句法語(yǔ)義分析
標(biāo)簽化傷害了誰(shuí)
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
基于多進(jìn)制查詢樹(shù)的多標(biāo)簽識(shí)別方法
英語(yǔ)中動(dòng)構(gòu)式中施事論元句法隱含的認(rèn)知研究
汉寿县| 喜德县| 承德市| 隆林| 江永县| 滦平县| 漯河市| 寿阳县| 华坪县| 固阳县| 十堰市| 舞阳县| 和田县| 嘉定区| 潮州市| 凯里市| 贵南县| 伊金霍洛旗| 项城市| 喜德县| 浏阳市| 许昌市| 南昌市| 定襄县| 巍山| 宜宾市| 永城市| 虎林市| 外汇| 蒲江县| 庆元县| 和田市| 独山县| 禹州市| 台中市| 汤原县| 桐梓县| 繁峙县| 呼玛县| 临漳县| 台南县|