王華珍, 孫雨潔, 何霆, 陸炫羽, 劉曉聰
(華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 福建 廈門 361021)
2020年1月30日,世界衛(wèi)生組織(WHO)宣布,將新型冠狀病毒疫情列為國(guó)際關(guān)注的突發(fā)公共衛(wèi)生事件(PHEIC)[1].2020年3月11日,WHO表示,新冠肺炎疫情的爆發(fā)已經(jīng)構(gòu)成一次全球性的“大流行”.新冠病毒席卷全球,海外僑胞的生活也因此受到了極大影響.為貫徹習(xí)近平總書記關(guān)于僑務(wù)工作的重要論述,需要密切跟蹤疫情之下海外僑情的動(dòng)態(tài),充分借助互聯(lián)網(wǎng)開(kāi)展工作,增強(qiáng)底線意識(shí)和風(fēng)險(xiǎn)意識(shí),為黨和國(guó)家工作大局貢獻(xiàn)力量[2].涉僑突發(fā)事件一般是指在非中國(guó)境內(nèi)突然發(fā)生的,會(huì)給華人華僑造成或可能造成嚴(yán)重危害或損失,需要采取應(yīng)急處置措施,以應(yīng)對(duì)自然災(zāi)害、事故災(zāi)害、公共衛(wèi)生、社會(huì)安全、政治沖突等事件[3],其中包括僑情危機(jī)事件.因此,基于網(wǎng)絡(luò)媒體發(fā)布的僑情危機(jī)事件新聞來(lái)研究海外僑情危機(jī)狀況,具有重要的現(xiàn)實(shí)意義和理論價(jià)值.
目前,無(wú)論是社會(huì)科學(xué)領(lǐng)域還是工程技術(shù)領(lǐng)域,僑情危機(jī)事件的研究已成為一大熱點(diǎn).在社會(huì)科學(xué)領(lǐng)域,學(xué)者們主要關(guān)注危機(jī)事件概念辨析、危機(jī)事件構(gòu)成要素及分析、危機(jī)事件的影響、危機(jī)事件政府應(yīng)對(duì)策略等.如駱克任等[3]開(kāi)展的全球涉僑突發(fā)事件的危害等級(jí)研究,對(duì)涉僑突發(fā)事件類型及其信息要素進(jìn)行定義.在工程技術(shù)領(lǐng)域,學(xué)者們主要注重獲取話題的主要內(nèi)容、事件關(guān)系及變化趨勢(shì)的分析.如李弼程等[4]構(gòu)建了一種網(wǎng)絡(luò)話題智能引導(dǎo)的仿真推演系統(tǒng),該系統(tǒng)能夠在仿真推演的基礎(chǔ)上實(shí)施網(wǎng)絡(luò)輿論引導(dǎo),從而突破傳統(tǒng)的機(jī)械性引導(dǎo)方式.但僑情危機(jī)事件的研究仍處于起步階段,駱克任等[5]對(duì)海外涉僑突發(fā)事件的危機(jī)類別進(jìn)行定義,并開(kāi)展了實(shí)證研究,但其在進(jìn)行新聞要素抽取、危機(jī)等級(jí)判斷時(shí)未能實(shí)現(xiàn)自動(dòng)化和智能化,主要仍以人工分析為主,耗費(fèi)人力成本較高,效率較低.此外,目前尚缺乏針對(duì)僑情領(lǐng)域的智能信息處理系統(tǒng),難以對(duì)僑情危機(jī)狀態(tài)進(jìn)行高效、智能的分析和研究.
基于此,本文采用計(jì)算機(jī)技術(shù),對(duì)駱克任團(tuán)隊(duì)海外涉僑突發(fā)事件危機(jī)類別的識(shí)別過(guò)程進(jìn)行復(fù)現(xiàn),提出一種基于自動(dòng)化信息要素抽取的新聞事件類型識(shí)別方法,旨在對(duì)后疫情時(shí)代僑情新聞事件進(jìn)行智能危機(jī)類別劃分和事件信息數(shù)據(jù)展示.
提出的一種基于自動(dòng)化信息要素抽取的新聞事件類型識(shí)別方法,該方法的研究流程,如圖1所示.該方法的核心技術(shù)包括網(wǎng)絡(luò)爬蟲(chóng)和自然語(yǔ)言處理技術(shù)(NLP).
圖1 僑情危機(jī)事件分類研究流程
1.1.1 數(shù)據(jù)來(lái)源 中國(guó)僑網(wǎng)(http:∥www.chinaqw.com/)是由華聲報(bào)(電子版)社主辦的面對(duì)全球華僑華人提供綜合性信息服務(wù)的專業(yè)網(wǎng)站,作為中國(guó)內(nèi)地最大的僑務(wù)網(wǎng)絡(luò)信息平臺(tái),推出了同心戰(zhàn)“疫”信息服務(wù)平臺(tái),其內(nèi)容涵蓋全球六大洲際的實(shí)時(shí)海外僑胞新聞.因此,選擇2020年1月-8月的中國(guó)僑網(wǎng)同心戰(zhàn)“疫”信息服務(wù)平臺(tái)的新聞事件數(shù)據(jù)作為研究對(duì)象,篩選出正文字?jǐn)?shù)不少于200字的僑情事件新聞作為語(yǔ)料數(shù)據(jù).
1.1.2 獲取方式 網(wǎng)絡(luò)爬蟲(chóng)是一種依據(jù)搜索規(guī)則自動(dòng)解析網(wǎng)頁(yè)并獲取網(wǎng)絡(luò)中符合檢索要求的資源的獲取程序,可從海量信息中搜尋所需信息.網(wǎng)絡(luò)爬蟲(chóng)兼具獲取數(shù)據(jù)的精確性與高效性,彌補(bǔ)了傳統(tǒng)引擎檢索的不足,被應(yīng)用于自動(dòng)化新聞分析與管理領(lǐng)域.如朱琪[6]基于網(wǎng)絡(luò)爬蟲(chóng)技術(shù)開(kāi)發(fā)網(wǎng)絡(luò)輿情分析預(yù)警系統(tǒng);劉娜[7]以主題爬蟲(chóng)和文本分類技術(shù)為基礎(chǔ),設(shè)計(jì)并實(shí)現(xiàn)了冬奧會(huì)新聞文本采集及分類分析系統(tǒng).
中國(guó)僑網(wǎng)頁(yè)面中的新聞內(nèi)容是由js和模板動(dòng)態(tài)加載顯示的,而傳統(tǒng)爬蟲(chóng)技術(shù)擅長(zhǎng)獲取HTML頁(yè)面中的靜態(tài)部分內(nèi)容,從而無(wú)法直接對(duì)新聞?wù)倪M(jìn)行爬取.因此,通過(guò)python語(yǔ)言環(huán)境下的selenium庫(kù)調(diào)用Chrome瀏覽器驅(qū)動(dòng),借用Chrome的自動(dòng)代理框架控制瀏覽器的操作,從而直接在頁(yè)面獲取動(dòng)態(tài)加載后的新聞內(nèi)容.由于爬蟲(chóng)獲取的數(shù)據(jù)格式是純文本,屬于非結(jié)構(gòu)化數(shù)據(jù),因此,需要先將非結(jié)構(gòu)化文本按新聞標(biāo)題、新聞鏈接、發(fā)布時(shí)間、新聞?wù)牡冗M(jìn)行半結(jié)構(gòu)化存儲(chǔ),構(gòu)成語(yǔ)料數(shù)據(jù).
從中國(guó)僑網(wǎng)共獲取2020年1月-8月的僑情新聞數(shù)據(jù)3 432篇.為確保新聞敘述完整性,以便在后續(xù)新聞要素抽取時(shí)獲取完整信息,將獲取的3 432篇新聞的正文字?jǐn)?shù)進(jìn)行統(tǒng)計(jì),篩選后獲得3 277篇符合字?jǐn)?shù)要求的新聞.
1.2.1 事件及其要素的相關(guān)理論 事件是指在某個(gè)特定的時(shí)間和環(huán)境下發(fā)生的、由若干角色參與、表現(xiàn)出若干動(dòng)作特征的一件事情.事件抽取是將文本中描述的事件識(shí)別出來(lái)并提取事件中的各個(gè)信息要素的技術(shù).隨著人工智能技術(shù)的發(fā)展,利用計(jì)算機(jī)自動(dòng)抽取文本中的事件要素信息,實(shí)現(xiàn)事件自動(dòng)識(shí)別的方法,在輿情監(jiān)測(cè)、文本摘要、自動(dòng)問(wèn)答、事理圖譜自動(dòng)構(gòu)建等領(lǐng)域有著重要應(yīng)用.據(jù)此形成了一系列基于開(kāi)源公共數(shù)據(jù)集的事件抽取競(jìng)賽活動(dòng),如2005年成立的自動(dòng)內(nèi)容抽取(ACE)競(jìng)賽(簡(jiǎn)稱ACE2005).而在真實(shí)新聞事件中,新聞文本句式繁雜、表述多樣,這為事件抽取任務(wù)帶來(lái)了挑戰(zhàn).
根據(jù)具體的應(yīng)用場(chǎng)景和問(wèn)題焦點(diǎn),事件的信息要素定義標(biāo)準(zhǔn)和要素集合將呈現(xiàn)不同的形式.劉宗田等[8]將事件定義為六元組,包含動(dòng)作、對(duì)象、時(shí)間、環(huán)境、斷言和語(yǔ)言表現(xiàn);而ACE2005將事件的信息要素進(jìn)一步定義為事件類型、事件觸發(fā)詞、事件論元及論元角色.本研究采用ACE2005中的定義標(biāo)準(zhǔn),其中,事件觸發(fā)詞指的是事件發(fā)生的核心詞,通常為動(dòng)詞或名詞,如遇害、受傷;事件論元指的是事件的參與者,通常由人物、時(shí)間、地點(diǎn)、值等組成;論元角色指的是事件論元在事件中充當(dāng)?shù)慕巧缛宋飳?shí)體可劃分為攻擊者和受害者[9].
1.2.2 指標(biāo)體系的設(shè)計(jì) 《中華人民共和國(guó)突發(fā)事件應(yīng)對(duì)法》第3條所述的突發(fā)事件是指突然發(fā)生的,造成或可能造成嚴(yán)重社會(huì)危害,需要采取應(yīng)急處置措施以應(yīng)對(duì)的自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生事件和社會(huì)安全事件[10].上述定義是按照事件發(fā)生領(lǐng)域進(jìn)行劃分的.駱克任等[3]提出,涉僑突發(fā)事件主要是由政治矛盾、社會(huì)犯罪、意外事故和民族排斥等引發(fā)的危機(jī)事件,其劃分依據(jù)是造成危機(jī)事件的原由.而從危機(jī)事件造成的后果來(lái)劃分,將危機(jī)事件劃分為生命損失事件、財(cái)產(chǎn)損失事件、其他事件3種危機(jī)類型.
生命損失事件主要是指僑情突發(fā)事件中涉及海外僑胞生命損失的事件,包括但不限于人員死亡、受傷.定義生命損失事件的觸發(fā)詞包含死亡、死去、遇害等詞語(yǔ),論元角色包括受害者、工具、地點(diǎn).財(cái)產(chǎn)損失事件主要是指僑情突發(fā)事件中涉及海外僑胞財(cái)產(chǎn)損失的事件,包括但不限于搶劫財(cái)產(chǎn)、偷盜.定義財(cái)產(chǎn)損失事件的觸發(fā)詞包含偷竊、遺失、搶劫、詐騙等詞語(yǔ),論元角色包括受害者、方式、地點(diǎn).
如新聞描述:“在約翰內(nèi)斯堡,南部非洲齊魯同鄉(xiāng)總會(huì)會(huì)長(zhǎng)夫婦在下班途中,遭遇3名搶匪持槍械進(jìn)行武裝搶劫,不幸遇害身亡.”這條僑情危機(jī)新聞同時(shí)包含了生命損失事件和財(cái)產(chǎn)損失事件,其包含的事件類型及要素匯總,如表1所示.
表1 僑情危機(jī)新聞包含的事件類型及要素匯總
為了更準(zhǔn)確地劃分事件類型,制定了生命損失事件和財(cái)產(chǎn)損失事件的觸發(fā)詞詞典,如表2所示.該詞典使用中文突發(fā)事件語(yǔ)料庫(kù)(Chinese emergency corpus,CEC)并結(jié)合專家整理得到.
表2 事件觸發(fā)詞詞典
針對(duì)文中研究的僑情新聞數(shù)據(jù),不屬于生命損失事件和財(cái)產(chǎn)損失事件的其他類型事件統(tǒng)一視為其他事件.其他事件的觸發(fā)詞指的是排除表2列出的事件觸發(fā)詞,其他事件的論元不需要抽取.由表1展示的事件的觸發(fā)詞、論元、論元角色的定義及表2的事件觸發(fā)詞詞典,構(gòu)成了文中設(shè)計(jì)的僑情危機(jī)事件類型指標(biāo)體系.
從非結(jié)構(gòu)化的新聞?wù)奈谋局谐槿〕鰞S情危機(jī)事件要素,實(shí)現(xiàn)事件信息結(jié)構(gòu)化的相關(guān)技術(shù),進(jìn)而根據(jù)結(jié)構(gòu)化的事件信息數(shù)據(jù)識(shí)別出事件的類別,實(shí)現(xiàn)事件信息的可視化.由于事件各要素的屬性、范疇、性質(zhì)都不相同,需要分別研發(fā)不同事件要素的抽取技術(shù).
僑情事件新聞地點(diǎn)要素抽取研究能夠反映各個(gè)地區(qū)的移民安全狀況,為移民安全指數(shù)分析提供技術(shù)支持,對(duì)僑情類型識(shí)別具有重要的現(xiàn)實(shí)意義.采用深度學(xué)習(xí)模型和知識(shí)推理法實(shí)現(xiàn)地點(diǎn)要素抽取任務(wù).首先,對(duì)新聞?wù)暮托侣剺?biāo)題的文本運(yùn)行深度學(xué)習(xí)模型,抽取出地點(diǎn)實(shí)體詞匯;然后,采用知識(shí)推理法推理出地點(diǎn)的“地區(qū)-國(guó)家-大洲”三層次地理位置描述集.
2.1.1 地點(diǎn)抽取模型 地點(diǎn)要素抽取是自然語(yǔ)言處理常見(jiàn)的信息抽取任務(wù),相對(duì)應(yīng)的抽取理論和模型工具非常多.隨著人工智能深度學(xué)習(xí)的發(fā)展,將地點(diǎn)抽取問(wèn)題轉(zhuǎn)換成序列標(biāo)注問(wèn)題,再采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行端對(duì)端學(xué)習(xí)的方式一般能得到最好性能的模型,因此成為解決地點(diǎn)抽取任務(wù)的首選方案.李芳芳等[11]基于圖模型和膨脹卷積神經(jīng)網(wǎng)絡(luò),提出交通事件要素抽取算法,針對(duì)交通事件文本中的地點(diǎn)要素進(jìn)行了抽取.
文中選用的深度神經(jīng)網(wǎng)絡(luò)模型是結(jié)構(gòu)化預(yù)測(cè)模型,它是線性條件隨機(jī)場(chǎng)(Linear-chain CRF)的改良模型,能實(shí)現(xiàn)地點(diǎn)要素的抽取.結(jié)構(gòu)化預(yù)測(cè)模型優(yōu)化了傳統(tǒng)的以字符為單位進(jìn)行編碼的方式,在傳統(tǒng)標(biāo)注的基礎(chǔ)上加入Tri-gram特征,使高階預(yù)測(cè)變量之間的關(guān)系同樣能夠被捕捉[12].該模型由自然語(yǔ)言處理平臺(tái)BosonNLP提供,采用API接口方式進(jìn)行調(diào)用.BosonNLP平臺(tái)在分詞和詞性標(biāo)注中融合了半監(jiān)督學(xué)習(xí)的方式,即使用在大規(guī)模無(wú)標(biāo)注數(shù)據(jù)上的統(tǒng)計(jì)數(shù)據(jù)來(lái)改善有監(jiān)督學(xué)習(xí)中的標(biāo)注結(jié)果,使序列標(biāo)注的準(zhǔn)確率得到提升[13].針對(duì)新聞文本的特異性進(jìn)行參數(shù)調(diào)優(yōu),在最優(yōu)參數(shù)配置的條件下獲得新聞事件地點(diǎn)的抽取結(jié)果.
2.1.2 層次地理位置推理 僑情事件具有全球性,事件發(fā)生的地理信息可分別從地區(qū)、國(guó)家、大洲這三層次進(jìn)行描述,即地區(qū)是僑情事件地點(diǎn)的最小單元地理層面,大洲層面為最大單元地理層面.然而,僑情新聞具有本地化特點(diǎn),每篇新聞中抽取得到的地點(diǎn)信息要素難以在地理等級(jí)上做到統(tǒng)一,且文本中一般不會(huì)全部出現(xiàn)地區(qū)、國(guó)家、大洲的三層次地理信息.因此,需對(duì)抽取到的地理信息實(shí)體進(jìn)行知識(shí)推理,以同時(shí)獲取地區(qū)、國(guó)家和大洲的三層次地理信息.
首先,構(gòu)建“地區(qū)-國(guó)家”字典與“國(guó)家-大洲”字典;然后,利用python編程方式進(jìn)行知識(shí)推理,實(shí)現(xiàn)對(duì)每一條新聞的事件地點(diǎn)要素實(shí)體進(jìn)行地區(qū)、國(guó)家、大洲層面的歸類.若新聞中抽取到的地點(diǎn)實(shí)體為地區(qū),則自動(dòng)推理出該地點(diǎn)實(shí)體所隸屬的國(guó)家和大洲.由此,最后得到的新聞事件地點(diǎn)要素是“地區(qū)-國(guó)家-大洲”三層次地理位置描述集S={area,country,continent}.
采用詞典語(yǔ)義匹配法進(jìn)行事件觸發(fā)詞的抽取.首先,對(duì)新聞?wù)奈谋具M(jìn)行分詞處理,以篩選出候選觸發(fā)詞;然后,采用詞典語(yǔ)義匹配法計(jì)算出語(yǔ)義匹配的觸發(fā)詞.
2.2.1 分詞處理 分詞處理過(guò)程包括分句、分詞和詞性篩選.由于事件觸發(fā)詞一般為動(dòng)詞、名詞、動(dòng)名詞(表2),因此,需要篩選出動(dòng)詞、名詞、動(dòng)名詞并進(jìn)行詞頻統(tǒng)計(jì),從而獲得觸發(fā)詞候選列表,即
L1={(t1,s1),(t2,s2),…,(tN,sN)}.
(1)
式(1)中:t為篩選出的觸發(fā)詞;s為各詞詞頻;N為觸發(fā)詞數(shù)量.
設(shè)置篩選閾值si>1,獲得高頻觸發(fā)詞候選列表L2.考慮到新聞標(biāo)題作為新聞?wù)膬?nèi)容的高度概括,通常包含事件發(fā)生地點(diǎn)、事件主要人物、事件核心信息等要素,因此,對(duì)新聞標(biāo)題進(jìn)行觸發(fā)詞抽取處理,從而獲得標(biāo)題高頻觸發(fā)詞候選列表,把它與L2并集得到最終觸發(fā)詞候選列表L3.
2.2.2 詞典語(yǔ)義匹配 考慮到詞匯表達(dá)的多樣性和模糊性,如果對(duì)最終觸發(fā)詞候選列表L3和事件觸發(fā)詞詞典(表2)進(jìn)行關(guān)鍵詞匹配法,將無(wú)法全面準(zhǔn)確地抽取到事件所需要素信息,進(jìn)而影響到事件危機(jī)類型的判斷效果,因此,引入詞向量表示法,把相關(guān)各個(gè)詞匯表達(dá)成一階高維向量,在向量空間中計(jì)算詞匯之間的距離.研究證明,采用深度自然語(yǔ)言處理技術(shù),如word2vec[14],BERT[15]等,構(gòu)建的詞向量具有語(yǔ)義一致性,即兩個(gè)詞之間的向量距離越小,其語(yǔ)義相似性越強(qiáng).對(duì)最終觸發(fā)詞候選列表L3中的詞匯進(jìn)行BERT向量表達(dá),獲得觸發(fā)詞候選矩陣W,同時(shí),對(duì)事件觸發(fā)詞詞典(表2)的詞匯進(jìn)行BERT向量表達(dá),獲得觸發(fā)詞詞典矩陣D,其具體表達(dá)式為
W=[w1,w2,…,wk],
(2)
D=[d1,d2,…,dm].
(3)
式(2),(3)中:k為觸發(fā)詞候選矩陣W中候選觸發(fā)詞個(gè)數(shù);m為事件觸發(fā)詞詞典矩陣D中詞的個(gè)數(shù);d為事件觸發(fā)詞向量;w為候選觸發(fā)詞向量.
相似度計(jì)算采用余弦相似度算法計(jì)算,即通過(guò)計(jì)算候選觸發(fā)詞向量w與事件觸發(fā)詞向量d夾角的余弦值來(lái)判斷對(duì)應(yīng)詞向量的相似度.一般地,夾角越小,余弦值越大,兩個(gè)詞向量語(yǔ)義越相似.設(shè)向量維度為n,w與d的相似度sim的計(jì)算式為
(4)
運(yùn)用前述研究技術(shù),對(duì)爬蟲(chóng)獲取的3 277篇僑情事件新聞文本進(jìn)行地點(diǎn)要素抽取模型和事件類別識(shí)別的研究,前者的關(guān)鍵技術(shù)是地點(diǎn)要素抽取,后者的關(guān)鍵技術(shù)是觸發(fā)詞抽取.
3.1.1 地點(diǎn)要素抽取結(jié)果 對(duì)3 277篇僑情事件新聞實(shí)行地點(diǎn)要素抽取,其中,有3 059篇新聞文本成功實(shí)現(xiàn)了地點(diǎn)要素抽取,218篇新聞未能成功抽取地點(diǎn)要素.由于新聞描述的簡(jiǎn)略性,每篇新聞包含的地點(diǎn)實(shí)體不一定具有“地區(qū)-國(guó)家-大洲”三層次地理位置,因此,采用Linear-chain CRF抽取5 211個(gè)地理位置實(shí)體詞,其中,地區(qū)詞3 277個(gè),國(guó)家實(shí)體詞23個(gè),大洲實(shí)體詞34個(gè).針對(duì)這218篇新聞進(jìn)行人工語(yǔ)義分析,并進(jìn)行地點(diǎn)信息要素抽取,獲得新聞事件發(fā)生的地理要素實(shí)體.對(duì)地點(diǎn)要素抽取模型的性能進(jìn)行評(píng)估,得到模型的準(zhǔn)確率為96.67%,精確率為100.00%,召回率為93.35%,精確度和召回率的調(diào)和平均值(F1值)為96.56%.
3.1.2 “地區(qū)-國(guó)家-大洲”三層次地理位置推理結(jié)果 由地點(diǎn)要素抽取結(jié)果可知,3 277篇僑情事件新聞的“地區(qū)-國(guó)家-大洲”三層次地理位置實(shí)體集尚不完整,需要繼續(xù)采用知識(shí)推理獲得完整的三層次地理位置實(shí)體集.推理結(jié)果匯總為地區(qū)實(shí)體詞有2 485 個(gè),國(guó)家有2 977個(gè),大洲有3 277個(gè),考慮到向下推理路徑無(wú)法實(shí)現(xiàn)的局限性,地區(qū)和國(guó)家這兩個(gè)層次的地點(diǎn)將無(wú)法全部獲取.文中方法顯示了獲取每條新聞三層次地理位置信息要素的有效性,為后續(xù)的數(shù)據(jù)可視化奠定了基礎(chǔ).
3.1.3 地點(diǎn)要素抽取結(jié)果的可視化 收集的3 277篇僑情新聞中,各大洲危機(jī)事件的數(shù)量分布,如圖2所示.
圖2 各大洲危機(jī)事件的數(shù)量分布
由圖2可知:北美洲危機(jī)事件的總數(shù)目在6大洲中排行第一,是排行第二的亞洲的4倍;其次是歐洲、大洋洲;非洲和南美洲的危機(jī)事件總數(shù)并列最少.根據(jù)中國(guó)經(jīng)濟(jì)網(wǎng)報(bào)道[16],2020年6月11日,美國(guó)三大股指出現(xiàn)暴跌,北美經(jīng)濟(jì)受疫情影響極大.新冠疫情對(duì)北美洲國(guó)家的經(jīng)濟(jì)產(chǎn)生了極大沖擊,撼動(dòng)了北美資本主義國(guó)家政治及人文的發(fā)展,社會(huì)的穩(wěn)定性被打破,嚴(yán)重影響了北美僑胞的日常生活,大量危機(jī)事件也隨之而來(lái),使北美洲危機(jī)事件總數(shù)位居洲際第一.
為了評(píng)估文中提出的詞典語(yǔ)義匹配法對(duì)事件類型識(shí)別的智能化效果,需對(duì)算法結(jié)果進(jìn)行人工審核,以統(tǒng)計(jì)算法的準(zhǔn)確率.考慮到人工審核需要耗費(fèi)大量的人力和時(shí)間成本,選擇對(duì)3 277篇新聞數(shù)據(jù)進(jìn)行洲際等比例抽樣,獲得精簡(jiǎn)數(shù)據(jù)集,數(shù)據(jù)規(guī)模為369,再對(duì)精簡(jiǎn)數(shù)據(jù)集進(jìn)行事件類型識(shí)別研究.精簡(jiǎn)數(shù)據(jù)集的洲際分布情況,如表3所示.
表3 精簡(jiǎn)數(shù)據(jù)集的各大洲分布情況
3.2.1 事件類型識(shí)別結(jié)果 根據(jù)文中方法獲取到369篇新聞的事件類型,各大洲事件類型識(shí)別結(jié)果,如表4所示.
表4 各大洲事件類型識(shí)別結(jié)果
表4中:以北美洲為例,220條新聞中有35條新聞包含生命損失事件,118條新聞包含財(cái)產(chǎn)損失事件,70條新聞屬于其他事件,其中,有6篇新聞既包含生命損失事件,又包含財(cái)產(chǎn)損失事件.其他洲的事件類型識(shí)別結(jié)果也按照該規(guī)律進(jìn)行統(tǒng)計(jì).
3.2.2 事件類型識(shí)別結(jié)果的可視化 可視化的基礎(chǔ)維度包括月份、地理、事件類型,由此可以構(gòu)建事件類型月分布、涉事國(guó)家月分布、涉事洲際月分布.多維度統(tǒng)計(jì)項(xiàng)的相關(guān)指標(biāo),如表5所示.
表5 多維度統(tǒng)計(jì)項(xiàng)的相關(guān)指標(biāo)
用Excel的數(shù)據(jù)透視圖工具進(jìn)行數(shù)據(jù)可視化制作.數(shù)據(jù)透視表具有表格“透視”的能力,可以挖掘出數(shù)據(jù)中隱藏的關(guān)系,將紛繁的數(shù)據(jù)有序化,以供研究使用[17].將數(shù)據(jù)透視技術(shù)應(yīng)用到僑情危機(jī)狀況研究中,可以實(shí)現(xiàn)數(shù)據(jù)集、透視表、可視化圖形的實(shí)時(shí)聯(lián)動(dòng)反應(yīng),從而增強(qiáng)數(shù)據(jù)可視化的交互質(zhì)量.首先,將研究得到的369篇僑情事件新聞數(shù)據(jù)作為可視化的語(yǔ)料數(shù)據(jù)集;其次,根據(jù)月份、地理、事件類型等3種可視化的基礎(chǔ)維度,結(jié)合僑情事件新聞數(shù)據(jù)分析的需求,設(shè)計(jì)不同數(shù)據(jù)透視表的行字段、列字段和求和項(xiàng),從而得到多個(gè)(10個(gè))數(shù)據(jù)透視表;最后,將語(yǔ)料數(shù)據(jù)集與數(shù)據(jù)透視工作表創(chuàng)建關(guān)聯(lián),通過(guò)數(shù)據(jù)透視圖左側(cè)的切片器實(shí)現(xiàn)月份、地理、事件類型等3種維度下的數(shù)據(jù)透視圖.
全球危機(jī)事件概況可視化結(jié)果,如圖3所示.圖3中:左側(cè)為月份選取欄,使用者可以通過(guò)點(diǎn)選不同月份來(lái)獲知對(duì)應(yīng)月份的危機(jī)事件概覽結(jié)果,實(shí)現(xiàn)簡(jiǎn)單的交互功能;右側(cè)為可視化結(jié)果展示欄,通過(guò)柱狀圖的形式直觀地展示了對(duì)應(yīng)月份各大洲的危機(jī)事件總數(shù),并以折線圖的形式分別展示了各大洲生命損失事件和財(cái)產(chǎn)損失事件的計(jì)算分?jǐn)?shù),有利于各大洲不同類型危機(jī)事件的橫向比對(duì).
圖3 全球危機(jī)事件概況可視化結(jié)果
以3月份的全球概覽為例,危機(jī)事件數(shù)量最多的是北美洲,有35起.針對(duì)生命損失而言,亞洲的占比最高;而對(duì)于財(cái)產(chǎn)損失而言,亞洲的占比也最高.這說(shuō)明,雖然北美洲危機(jī)事件數(shù)量最多,但大多數(shù)應(yīng)該屬于其他事件類型.
新聞來(lái)源分析可視化結(jié)果,如圖4所示.圖4中:左側(cè)為大洲選取欄,使用者可以通過(guò)點(diǎn)選不同大洲來(lái)獲知對(duì)應(yīng)洲的危機(jī)事件來(lái)源分析結(jié)果,實(shí)現(xiàn)簡(jiǎn)單的交互功能;右側(cè)為可視化結(jié)果展示欄,通過(guò)餅狀圖展示了各個(gè)國(guó)家危機(jī)事件的總數(shù),并結(jié)合條形圖綜合展示了各國(guó)在不同月份發(fā)生危機(jī)事件的狀況.該可視化結(jié)合了地點(diǎn)要素抽取的結(jié)果,針對(duì)各大洲中各個(gè)國(guó)家每月報(bào)道的危機(jī)事件數(shù)量,在地理層面上進(jìn)行細(xì)分,更詳細(xì)地展示了各大洲危機(jī)事件的來(lái)源地.
圖4 新聞來(lái)源分析可視化結(jié)果
具體地,以亞洲為例,危機(jī)事件數(shù)量最多的國(guó)家為馬來(lái)西亞,有29起.馬來(lái)西亞的月分布也是比較密集的:2月9起;3月2起;4月5起;5月13起.
月份事件統(tǒng)計(jì)可視化結(jié)果,如圖5所示.使用者通過(guò)點(diǎn)選左側(cè)的月份,在右側(cè)以面積圖的形式更直觀地展示各國(guó)在對(duì)應(yīng)月份中的危機(jī)事件數(shù)量,同時(shí)以餅狀圖的形式展示對(duì)應(yīng)月份中各大洲的危機(jī)事件數(shù)量.以8月份為例,全球視角下危機(jī)事件數(shù)量最多的國(guó)家是美國(guó),有25起.
圖5 月份事件統(tǒng)計(jì)可視化結(jié)果
提出一種基于自動(dòng)化信息要素抽取的新聞事件類型識(shí)別方法,采用爬蟲(chóng)技術(shù)實(shí)現(xiàn)新聞數(shù)據(jù)獲取,極大程度地節(jié)省了人力查找、獲取數(shù)據(jù)的成本.在數(shù)據(jù)的處理部分,文中方法結(jié)合自然語(yǔ)言技術(shù)和語(yǔ)義詞典方法,對(duì)新聞文本進(jìn)行地點(diǎn)要素實(shí)體和觸發(fā)詞實(shí)體的智能抽取,實(shí)現(xiàn)事件類型的智能識(shí)別,省去了人工閱覽新聞內(nèi)容、手動(dòng)劃分的過(guò)程.對(duì)海外涉僑危機(jī)事件危機(jī)類別識(shí)別的推理方法涉及新聞實(shí)時(shí)爬取和新聞危機(jī)類別判定兩個(gè)過(guò)程,所涉及的時(shí)間復(fù)雜度也由這兩部分組成.其中,新聞爬取一般采用周期性定時(shí)爬取方式,而推理算法的時(shí)間復(fù)雜性為O(N)+O(N2),其中,O(N)為分詞復(fù)雜度;O(N2)為觸發(fā)詞字典語(yǔ)義匹配過(guò)程.最后,采用數(shù)據(jù)透視技術(shù)實(shí)現(xiàn)月份、地理、事件類型等三維度的數(shù)據(jù)聚合可視化,詳細(xì)展示了僑情危機(jī)的具體情況和變化過(guò)程,從而獲得僑情危機(jī)信息的多角度解析.綜上可知,文中方法能提升僑情分析的效率,且可進(jìn)行多維度的危機(jī)狀況信息可視化,有助于制定危機(jī)事件的應(yīng)對(duì)策略.
然而,文中方法對(duì)文本中暗含的事件地理位置信息無(wú)法實(shí)現(xiàn)自動(dòng)抽取,仍需要依靠人工進(jìn)行手動(dòng)提取地理信息要素,因此,后續(xù)工作可以深入研究語(yǔ)義挖掘相關(guān)的技術(shù),以提升隱含地理信息要素的抽取成功率.同時(shí),由于定義的觸發(fā)詞詞典數(shù)量有限,不能完全覆蓋該危機(jī)事件類型中的全部觸發(fā)詞,所以在后續(xù)工作中仍然需要不斷擴(kuò)充觸發(fā)詞詞典,以提高事件劃分的召回率.另外,關(guān)于新聞危機(jī)事件研究的最新發(fā)展現(xiàn)狀,如輿論引導(dǎo)、傳播策略與信息建構(gòu)等,并未見(jiàn)針對(duì)僑情領(lǐng)域的相關(guān)研究[18-20],這也是未來(lái)可繼續(xù)探索的方向.