彭博遠(yuǎn),彭冬亮,谷 雨,彭俊利
杭州電子科技大學(xué) 自動(dòng)化學(xué)院,杭州 310018
事件,一般來(lái)說(shuō)是指促使事物狀態(tài)和關(guān)系改變的條件[1]。重大事件,在國(guó)際政治關(guān)系研究領(lǐng)域通常指對(duì)國(guó)家(地區(qū))間政治關(guān)系產(chǎn)生巨大影響的事件,它能改善兩國(guó)(地區(qū))間的關(guān)系或直接導(dǎo)致兩國(guó)(地區(qū))關(guān)系的惡化[2],具體表現(xiàn)如中東地區(qū)恐怖襲擊事件,由朝核問(wèn)題引發(fā)的軍事事件等。由于重大事件的產(chǎn)生及發(fā)展對(duì)國(guó)家(地區(qū))間的穩(wěn)定有著不容忽視的影響,因此,如何有效地針對(duì)重大事件發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè)正成為當(dāng)下眾多學(xué)者研究的熱點(diǎn)問(wèn)題。
事件數(shù)據(jù)分析法,作為國(guó)際政治關(guān)系研究領(lǐng)域的經(jīng)典研究方法,被廣泛用于重大事件趨勢(shì)預(yù)測(cè)問(wèn)題的定量研究[3]。該方法主要包含四個(gè)步驟:確定事件消息來(lái)源、建立或選擇一個(gè)編碼系統(tǒng)、基于編碼系統(tǒng)對(duì)事件信息進(jìn)行量化賦值、計(jì)算賦值結(jié)果并進(jìn)行分析[4]。張萌等[5]采用事件數(shù)據(jù)分析法對(duì)2003年至2008年的石油價(jià)格與美國(guó)-伊朗間的沖突合作水平進(jìn)行了初步檢驗(yàn),有效實(shí)現(xiàn)對(duì)美伊關(guān)系的定量預(yù)測(cè)。閻學(xué)通[6]構(gòu)建了1950 年至2005年間中國(guó)與各個(gè)主要大國(guó)關(guān)系的事件數(shù)據(jù)庫(kù),并基于事件數(shù)據(jù)分析法對(duì)中美、中俄等國(guó)的雙邊關(guān)系的變化趨勢(shì)展開(kāi)預(yù)測(cè)研究。
近年來(lái),隨著信息技術(shù)的普及以及傳播媒介的多樣化發(fā)展,新聞報(bào)道數(shù)量呈現(xiàn)指數(shù)級(jí)增長(zhǎng)態(tài)勢(shì),這為重大事件趨勢(shì)預(yù)測(cè)研究提供了充足的數(shù)據(jù)基礎(chǔ)。然而,由于蘊(yùn)含于海量新聞報(bào)道中的重大事件在時(shí)間分布上表現(xiàn)出相關(guān)噪聲大、頻次稀疏、影響周期長(zhǎng)等特點(diǎn),利用傳統(tǒng)事件數(shù)據(jù)分析法人為進(jìn)行海量數(shù)據(jù)的篩選與分析顯然無(wú)法適應(yīng)當(dāng)前的時(shí)代需求。針對(duì)這一問(wèn)題,有學(xué)者開(kāi)始以跨學(xué)科視角對(duì)大數(shù)據(jù)背景下的重大事件趨勢(shì)預(yù)測(cè)問(wèn)題展開(kāi)研究,提出結(jié)合當(dāng)下人工智能相關(guān)技術(shù)進(jìn)行數(shù)據(jù)的輔助分析[7]。Hartman 等[8]利用2008 年新聞數(shù)據(jù)與神經(jīng)網(wǎng)絡(luò)對(duì)2010年利比里亞沖突進(jìn)行了高效預(yù)測(cè)。曹瑋等[9]以韓統(tǒng)一社網(wǎng)站整理的2006 年至2017 年間的新聞報(bào)道為語(yǔ)料,基于現(xiàn)有對(duì)朝研究的成果構(gòu)建了23 類朝核行為特征指標(biāo),在此基礎(chǔ)上建立關(guān)于朝鮮核行為的樸素貝葉斯預(yù)測(cè)模型。董青嶺[10]對(duì)印度恐襲事件相關(guān)報(bào)道中的因自變量進(jìn)行建模,利用反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN)有效地實(shí)現(xiàn)了對(duì)于這一問(wèn)題的趨勢(shì)預(yù)測(cè)。
然而,現(xiàn)有跨學(xué)科視角下的重大事件趨勢(shì)預(yù)測(cè)相關(guān)研究依舊未能擺脫傳統(tǒng)研究領(lǐng)域的思維束縛。在特征構(gòu)建上,普遍依賴領(lǐng)域?qū)<抑R(shí)人為構(gòu)建特征指標(biāo)。因此,這類方法在預(yù)測(cè)時(shí)效性與普適性上還存在相當(dāng)大的制約。
與重大事件的特性不同,社交媒體事件,具體表現(xiàn)如微博、推特等社交平臺(tái)所爆發(fā)的輿論熱點(diǎn)事件,往往具有受眾面廣、突發(fā)性強(qiáng)、持續(xù)周期短等特點(diǎn)[11]。因此,研究者針對(duì)這類事件進(jìn)行特征構(gòu)建與分析的過(guò)程中更注重方法的普適性與時(shí)效性。曾子明等[12]利用LDA(Latent Dirichlet Allocation)主題模型提取微博文本主題分布特征,融合情感特征和句式特征。結(jié)果表明,結(jié)合主題分布特征的AdaBoost模型能夠有效地實(shí)現(xiàn)對(duì)微博用戶情感傾向的分析。Pu 等[13]將LDA 與文本挖掘API 以及維基百科分類相結(jié)合,構(gòu)造出Wiki-LDA 以實(shí)現(xiàn)從推特?cái)?shù)據(jù)中挖掘用戶興趣特征的目的。
為克服大數(shù)據(jù)背景下重大事件趨勢(shì)預(yù)測(cè)研究在特征選擇上的局限性,本文提出一種融合語(yǔ)義與事件特征的重大事件趨勢(shì)預(yù)測(cè)方法。首先,在特征構(gòu)建上,提出利用主題模型構(gòu)建語(yǔ)義特征指標(biāo),利用模式指導(dǎo)下的事件抽取技術(shù)構(gòu)建事件特征指標(biāo),并將兩類指標(biāo)進(jìn)行特征融合;其次,對(duì)于主題模型LDA提取語(yǔ)義特征指標(biāo)存在的全局偏向性問(wèn)題,提出了一種改進(jìn)主題模型IDFLDA(Inverse Document Frequency Latent Dirichlet Allocation);最后,以朝鮮核行為趨勢(shì)預(yù)測(cè)為研究對(duì)象進(jìn)行方法驗(yàn)證,通過(guò)與基于專家知識(shí)構(gòu)建特征指標(biāo)的傳統(tǒng)方法進(jìn)行結(jié)果對(duì)比,驗(yàn)證了提出方法的可行性與有效性。
面向海量新聞數(shù)據(jù)的重大事件趨勢(shì)預(yù)測(cè),在具體實(shí)施過(guò)程中需要重點(diǎn)解決兩類問(wèn)題:首先是數(shù)據(jù)特征構(gòu)建與量化表示問(wèn)題,傳統(tǒng)做法采用領(lǐng)域?qū)<抑R(shí)人為選定特征指標(biāo),結(jié)合構(gòu)造特征將非結(jié)構(gòu)化的新聞數(shù)據(jù)進(jìn)行結(jié)構(gòu)化向量表示;其次是事件趨勢(shì)的量化問(wèn)題,即如何將具有籠統(tǒng)意義的重大事件趨勢(shì)進(jìn)行定量描述,當(dāng)前普遍做法是結(jié)合領(lǐng)域?qū)<抑R(shí)制定事件影響力量化公式,結(jié)合相關(guān)新聞報(bào)道與量化公式對(duì)各時(shí)間段上的趨勢(shì)分值進(jìn)行計(jì)算。
為解決傳統(tǒng)方法在特征選擇上的局限性問(wèn)題,本文受文獻(xiàn)[9]針對(duì)朝核行為預(yù)測(cè)研究的啟發(fā),結(jié)合當(dāng)下主流信息處理技術(shù),提出一種融合語(yǔ)義與事件特征的重大事件趨勢(shì)預(yù)測(cè)方法,方法流程如圖1所示。
圖1 融合語(yǔ)義與事件特征的重大事件趨勢(shì)預(yù)測(cè)模型
如圖1所示,該方法主要包括以下三個(gè)步驟:
步驟1數(shù)據(jù)獲取與趨勢(shì)量化。首先,結(jié)合網(wǎng)絡(luò)爬蟲(chóng)技術(shù)從官方新聞網(wǎng)站爬取事件相關(guān)報(bào)道,構(gòu)建專題新聞數(shù)據(jù)庫(kù);其次,借鑒該領(lǐng)域的傳統(tǒng)做法,結(jié)合專家知識(shí)確定統(tǒng)計(jì)時(shí)間片(日、周、月、年等)及事件影響力量化公式;最后,結(jié)合量化公式與采集的新聞數(shù)據(jù),對(duì)數(shù)據(jù)覆蓋各時(shí)間片下的重大事件趨勢(shì)值進(jìn)行計(jì)算以及趨勢(shì)等級(jí)標(biāo)注。
步驟2特征構(gòu)建與表示。首先,利用分詞、停用詞過(guò)濾等自然語(yǔ)言處理(Natural Language Processing,NLP)技術(shù)對(duì)爬取新聞報(bào)道進(jìn)行文本預(yù)處理;其次,利用主題模型對(duì)預(yù)處理數(shù)據(jù)進(jìn)行詞匯級(jí)特征抽取,構(gòu)建多組語(yǔ)義特征指標(biāo);再次,利用模式指導(dǎo)下的事件抽取技術(shù),從預(yù)處理數(shù)據(jù)中抽取事件要素特征(事件句、發(fā)起者、承受者、事件類型等)并基于抽取結(jié)果構(gòu)建事件特征指標(biāo);最后,將兩類特征指標(biāo)進(jìn)行特征級(jí)融合,基于融合特征,對(duì)各時(shí)間片內(nèi)的文本數(shù)據(jù)進(jìn)行向量化表示。
步驟3數(shù)據(jù)建模與趨勢(shì)預(yù)測(cè)。選定一個(gè)預(yù)測(cè)偏移量N,目標(biāo)時(shí)間片T,將第T-N至T-1 個(gè)時(shí)間片內(nèi)融合特征向量進(jìn)行決策級(jí)融合,將融合結(jié)果對(duì)齊至第T個(gè)時(shí)間片的標(biāo)注趨勢(shì)等級(jí)。最后,將經(jīng)過(guò)數(shù)據(jù)對(duì)齊操作后的數(shù)據(jù)集送入機(jī)器學(xué)習(xí)分類模型進(jìn)行參數(shù)訓(xùn)練。
模型測(cè)試時(shí),假定待預(yù)測(cè)的時(shí)間片為Tp,此時(shí)只需輸入Tp前N個(gè)時(shí)間片內(nèi)的原始新聞報(bào)道,經(jīng)過(guò)步驟2至3構(gòu)建相應(yīng)的預(yù)測(cè)特征向量。預(yù)測(cè)模型將輸出Tp下各重大事件趨勢(shì)等級(jí)的發(fā)生概率,其中最大概率對(duì)應(yīng)的趨勢(shì)等級(jí)為模型預(yù)測(cè)結(jié)果。
2.1.1 LDA主題模型
潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型是由Blei等[14]于2003年提出的一種概率語(yǔ)言模型。模型通過(guò)引入了文本主題分布思想,有效實(shí)現(xiàn)了對(duì)文本的降維表示,并在文本信息處理領(lǐng)域得到了廣泛的應(yīng)用[15]。
LDA 在結(jié)構(gòu)上可以描述為一個(gè)三層貝葉斯網(wǎng)絡(luò),分別為詞層、主題層、文檔層?;谶@樣假設(shè):每篇文檔可看作由一些隱含主題構(gòu)成,而每個(gè)主題又可看作由相關(guān)特征詞構(gòu)成[16],其拓?fù)浣Y(jié)構(gòu)如圖2所示。
圖2 LDA模型拓?fù)浣Y(jié)構(gòu)
LDA模型生成過(guò)程如下:
(1)對(duì)于所有的主題Z,根據(jù)參數(shù)設(shè)定為β的狄利克雷分布φ~Dir(β)得到各個(gè)主題上單詞的概率分布φ;
(2)根據(jù)參數(shù)設(shè)定為α的狄利克雷分布φ~Dir(α)得到文本的主題概率分布θ;
(3)基于主題集合Z服從的參數(shù)為θ的多項(xiàng)分布隨機(jī)選擇一個(gè)主題Zi;
(4)從主題Zi服從的詞項(xiàng)分布中選擇一個(gè)單詞wi作為生成文本中的一個(gè)詞。
由LDA模型生成過(guò)程可知,在模型眾多參數(shù)中,主題-詞概率分布φ和文本-主題概率分布θ是兩組十分重要的參數(shù),而針對(duì)這兩類參數(shù)的估計(jì),可以看作是LDA模型生成過(guò)程的逆過(guò)程。
相比于生成過(guò)程,LDA 參數(shù)估計(jì)是指在僅給定文本數(shù)據(jù)集的情況下,對(duì)模型未知參數(shù)進(jìn)行估計(jì)。目前較為流行的LDA模型參數(shù)估計(jì)方法為Gibbs采樣[17],首先對(duì)語(yǔ)料詞典中的每個(gè)特征詞的主題進(jìn)行初步采樣,接著基于各個(gè)特征詞的出現(xiàn)頻次進(jìn)行迭代計(jì)算,最終計(jì)算出相關(guān)參數(shù)的估計(jì)結(jié)果。Gibbs 采樣下LDA 模型參數(shù)φ和θ的計(jì)算公式如下所示:
其中,θm,k指在文檔m中第k個(gè)主題的分布概率,φk,t指詞項(xiàng)t在主題k中的分布概率,表示在文檔m中出現(xiàn)主題k的頻數(shù),表示在主題k下詞項(xiàng)t出現(xiàn)的頻數(shù),αk對(duì)應(yīng)于主題k下的狄利克雷先驗(yàn),βt對(duì)應(yīng)于詞項(xiàng)t下的狄利克雷先驗(yàn)。
結(jié)合LDA 模型參數(shù)估計(jì)思想,LDA 模型具備以無(wú)監(jiān)督的方式從文檔中提取主題與特征詞的能力。因此,在重大事件趨勢(shì)預(yù)測(cè)過(guò)程中,能夠很好地替代專家知識(shí),以海量新聞數(shù)據(jù)為驅(qū)動(dòng),進(jìn)行語(yǔ)義特征指標(biāo)的構(gòu)建。
2.1.2 基于IDFLDA的語(yǔ)義特征指標(biāo)構(gòu)建
當(dāng)LDA 應(yīng)用于文本建模或者文本特征抽取時(shí),實(shí)際上就是對(duì)文本數(shù)據(jù)的“隱性語(yǔ)義”進(jìn)行分析,即以無(wú)監(jiān)督學(xué)習(xí)的方式從文本中發(fā)現(xiàn)隱含于其中的“主題”[16]。然而,由于真實(shí)文本中的詞頻分布大都符合冪率分布,基于Gibbs采樣的LDA在進(jìn)行主題詞抽取時(shí),容易向高頻噪聲詞傾斜,這使得最終獲取主題與對(duì)應(yīng)特征詞的相關(guān)性降低[18]。以朝鮮相關(guān)報(bào)道為例,諸如“北韓”“朝鮮”這類特征詞,由于在事件相關(guān)報(bào)道中以很高的頻率出現(xiàn),在LDA參數(shù)估計(jì)的過(guò)程中,會(huì)因此被賦予很高的主題權(quán)重,但對(duì)于朝核問(wèn)題研究而言,這類詞并不具備很強(qiáng)的主題區(qū)分度,與其對(duì)應(yīng)的分配權(quán)重相矛盾。
針對(duì)LDA 在主題詞提取上存在偏向性的問(wèn)題,有很多學(xué)者進(jìn)行了相關(guān)改進(jìn)研究。彭云等[18]提出在LDA模型中嵌入詞語(yǔ)關(guān)聯(lián)、全局特征詞及主題情感隸屬語(yǔ)義先驗(yàn)知識(shí)來(lái)提升LDA 對(duì)特征詞、情感詞及其關(guān)系的識(shí)別能力。張小平等[17]利用高斯函數(shù)對(duì)特征詞加權(quán),以此優(yōu)化LDA 生成主題分布,使得改進(jìn)后的模型在主題表達(dá)和預(yù)測(cè)性能方面都有所提高。萬(wàn)紅新等[19]結(jié)合語(yǔ)義約束和時(shí)間關(guān)聯(lián),設(shè)計(jì)了一種主題詞鏈提取算法,有效提升了LDA模型的語(yǔ)義理解功能和主題捕捉能力。郝潔等[20]提出了一種詞加權(quán)LDA 算法WLDA,通過(guò)計(jì)算語(yǔ)料中詞匯與情感種子詞的距離,并結(jié)合吉布斯采樣對(duì)不同詞匯賦予不同權(quán)重,增強(qiáng)了具有情感傾向的詞匯在采樣過(guò)程中的影響,改善了主題間的區(qū)分性。
為了增強(qiáng)LDA 模型在局部主題詞上的捕獲能力,增加模型生成主題的判別力。本文提出一種加權(quán)單詞逆文檔頻率[21]的改進(jìn)主題模型IDFLDA,用于輔助當(dāng)前重大事件趨勢(shì)預(yù)測(cè)研究。首先,通過(guò)Gibbs 采樣生成詞-主題概率分布φ;接著,將詞項(xiàng)t在主題k上分布概率φk,t乘上詞項(xiàng)t在文檔數(shù)據(jù)集中的逆文檔頻率IDFt,計(jì)算結(jié)果φk,t*表示詞項(xiàng)t與主題k的相關(guān)性權(quán)重。以此弱化高頻噪聲詞在LDA 語(yǔ)義特征抽取過(guò)程中的干擾,增強(qiáng)抽取各個(gè)主題間的區(qū)分度,相關(guān)改進(jìn)公式如下所示:
其中,D表示文檔總數(shù),表示包含詞項(xiàng)t的文檔個(gè)數(shù)。
結(jié)合上述改進(jìn),本文針對(duì)重大事件相關(guān)新聞報(bào)道構(gòu)建語(yǔ)義特征指標(biāo)的具體實(shí)施步驟如下:
(1)對(duì)新聞?wù)Z料進(jìn)行分詞與停用詞過(guò)濾等預(yù)處理,構(gòu)建詞序列數(shù)據(jù)集。
(2)結(jié)合改進(jìn)模型IDFLDA 對(duì)詞序列數(shù)據(jù)集下文檔-主題、主題-詞分布進(jìn)行參數(shù)估計(jì)。
(3)根據(jù)參數(shù)估計(jì)結(jié)果φk,t*獲取多個(gè)主題,每個(gè)主題可看作由多個(gè)特征詞組成的詞團(tuán),并將生成主題(詞團(tuán))集合作為影響重大事件發(fā)展趨勢(shì)的語(yǔ)義特征指標(biāo)集合。
事件抽取技術(shù)作為信息抽?。↖nformation Extraction,IE)領(lǐng)域的三大關(guān)鍵技術(shù)之一,能夠從非結(jié)構(gòu)化的信息中抽取出用戶感興趣的事件[22]。其中,基于模式匹配規(guī)則的事件抽取技術(shù),通過(guò)結(jié)合領(lǐng)域先驗(yàn)知識(shí)定義的匹配規(guī)則以及NLP上游相關(guān)技術(shù)如分詞、詞性標(biāo)注,依存句法分析,命名實(shí)體識(shí)別等,能有效實(shí)現(xiàn)對(duì)文本數(shù)據(jù)的事件級(jí)特征抽取。
因此,本文利用基于模式匹配規(guī)則的事件抽取技術(shù)來(lái)輔助重大事件趨勢(shì)預(yù)測(cè)問(wèn)題的研究,通過(guò)結(jié)合事件要素抽取結(jié)果構(gòu)建相關(guān)特征指標(biāo),進(jìn)一步豐富文本特征表示。相關(guān)流程如圖3所示。
圖3 基于模式匹配的事件抽取流程
由圖3可知,基于重大事件相關(guān)報(bào)道構(gòu)建事件特征的實(shí)施步驟如下:
(1)按照一定規(guī)則構(gòu)建包括事件類型、事件觸發(fā)詞,實(shí)體間搭配關(guān)系的模式匹配規(guī)則庫(kù)。
(2)結(jié)合爬取新聞數(shù)據(jù),利用分詞、停用詞過(guò)濾,詞性標(biāo)注,命名實(shí)體識(shí)別等操作對(duì)讀入數(shù)據(jù)進(jìn)行預(yù)處理,將預(yù)處理結(jié)果與定義規(guī)則庫(kù)進(jìn)行模式匹配。
(3)若匹配成功,將匹配對(duì)應(yīng)的幾類事件要素(事件句、發(fā)生時(shí)間、事件所在地、發(fā)起者、承受者、匹配規(guī)則、事件類型)進(jìn)行存儲(chǔ),構(gòu)建事件抽取數(shù)據(jù)表。
(4)結(jié)合事件抽取數(shù)據(jù)表,對(duì)全時(shí)間段上各事件類型的發(fā)生頻次進(jìn)行統(tǒng)計(jì)。為增強(qiáng)構(gòu)建特征的泛化能力,設(shè)定一個(gè)頻次閾值,僅保留發(fā)生頻次大于設(shè)定閾值的高頻事件類型,所得高頻事件類型集合即為對(duì)應(yīng)重大事件相關(guān)報(bào)道的事件特征指標(biāo)集合。
結(jié)合獲取的語(yǔ)義特征指標(biāo)與事件特征指標(biāo),對(duì)各個(gè)時(shí)間片內(nèi)的新聞報(bào)道進(jìn)行向量化表示。
步驟1語(yǔ)義特征向量構(gòu)建。假設(shè)改進(jìn)模型IDFLDA主題數(shù)設(shè)為K,首先,對(duì)各時(shí)間片下的新聞數(shù)據(jù)進(jìn)行分詞與停用詞過(guò)濾,得到單個(gè)時(shí)間片下的詞序列文本數(shù)據(jù),并對(duì)捕獲主題(詞團(tuán))下所有特征詞在當(dāng)前詞序列文本數(shù)據(jù)下的詞頻(Term Frequency,TF)進(jìn)行計(jì)算;其次,遍歷所有主題(詞團(tuán)),將單個(gè)主題(詞團(tuán))下主題詞的TF 值進(jìn)行累加,累加和作為構(gòu)造的語(yǔ)義特征向量單個(gè)維度下的數(shù)值信息,由此獲取一個(gè)維度為K的特征向量;最后,對(duì)構(gòu)造向量進(jìn)行歸一化操作,歸一化結(jié)果即為對(duì)應(yīng)時(shí)間片下的最終語(yǔ)義特征向量。
步驟2事件特征向量構(gòu)建。首先,結(jié)合事件抽取數(shù)據(jù)表與高頻事件類型集合,統(tǒng)計(jì)各時(shí)間片下各高頻事件類型的出現(xiàn)頻次;其次,將單個(gè)高頻事件的頻次信息描述為構(gòu)造的事件特征向量單個(gè)維度下的數(shù)值信息,由此獲取一個(gè)向量維度等于高頻事件類型集合大小的特征向量;最后,對(duì)構(gòu)造向量進(jìn)行歸一化操作,歸一化結(jié)果即為對(duì)應(yīng)時(shí)間片下的事件特征向量。
步驟3特征融合。由于基于文檔詞匯級(jí)信息構(gòu)建的語(yǔ)義特征向量只能對(duì)各時(shí)間片下新聞報(bào)道的淺層語(yǔ)義分布特征進(jìn)行表示,缺乏對(duì)事件信息的具象描述。而基于高頻事件類型頻次特征構(gòu)造的事件特征向量恰好能對(duì)語(yǔ)義特征向量在特征表示上的不足進(jìn)行補(bǔ)充。因此,將單個(gè)時(shí)間片下構(gòu)造的兩類向量進(jìn)行首位拼接,在向量表示上進(jìn)行維度擴(kuò)充,實(shí)現(xiàn)特征級(jí)融合,以拼接向量作為單個(gè)時(shí)間片下的最終特征向量。
朝鮮核行為,具體表現(xiàn)為朝鮮射導(dǎo)、核試驗(yàn)等。作為一類地區(qū)重大事件,其產(chǎn)生與發(fā)展深刻影響著東北亞地區(qū)的安全局勢(shì)。因此,針對(duì)朝鮮核行為的未來(lái)趨勢(shì)進(jìn)行預(yù)測(cè)對(duì)國(guó)家戰(zhàn)略決策有著重大意義。
為驗(yàn)證本文提出方法的可行性,同時(shí)為了與基于專家知識(shí)構(gòu)造特征指標(biāo)的傳統(tǒng)做法[9]形成對(duì)比。本文以朝鮮核行為趨勢(shì)預(yù)測(cè)為研究對(duì)象,對(duì)提出的融合語(yǔ)義與事件特征的重大事件趨勢(shì)預(yù)測(cè)方法進(jìn)行驗(yàn)證分析。
鑒于朝核問(wèn)題的敏感性,國(guó)內(nèi)能夠獲取到的相關(guān)公開(kāi)新聞報(bào)道十分有限,主流的報(bào)道大多集中在韓國(guó)新聞網(wǎng)站且以韓文為主。為確保新聞數(shù)據(jù)來(lái)源的客觀性與時(shí)效性,同時(shí)為了更好地應(yīng)用中文NLP技術(shù)對(duì)新聞數(shù)據(jù)進(jìn)行分析,選擇韓國(guó)國(guó)際廣播電臺(tái)(KBS World Radio)北韓專題網(wǎng)頁(yè)(http://world.kbs.co.kr/service/contentslist.htm?lang=c&menu_cate=northkorea)新聞報(bào)道作為數(shù)據(jù)來(lái)源,利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)抓取2006年1月至2017年9月間的朝鮮相關(guān)中文報(bào)道共計(jì)4 255條。
借鑒相關(guān)領(lǐng)域?qū)Τ芯砍晒鸞9],以“月”作為統(tǒng)計(jì)時(shí)間片,確定如下所示事件影響力量化公式:
15枚中短程彈道導(dǎo)彈或潛射導(dǎo)彈=1枚遠(yuǎn)程或洲際導(dǎo)彈=1枚火箭=1次核試驗(yàn)=15分
結(jié)合量化公式與爬取新聞數(shù)據(jù),對(duì)各月的朝核行為趨勢(shì)值進(jìn)行計(jì)算。以2006年7月抓取報(bào)道為例,朝鮮于7 月5 日發(fā)射了 6 枚短程導(dǎo)彈,參照公式,標(biāo)記 2006 年 7月的朝核行為趨勢(shì)值為6。基于各月趨勢(shì)量化結(jié)果,繪制2006年1月至2017年9月朝核行為趨勢(shì)統(tǒng)計(jì)圖,結(jié)果如圖4所示。
根據(jù)圖4所示趨勢(shì)值的分布情況,對(duì)各月的重大事件趨勢(shì)進(jìn)行離散化表示。為與文獻(xiàn)[9]保持一致,本文將朝核行為劃分成三類趨勢(shì)等級(jí):無(wú)核行為(C1)、輕度核行為(C2)、重度核行為(C3),三類核行為對(duì)應(yīng)的分值區(qū)間分別為0、1~14、≥ 15。
圖4 2006年1月至2017年9月朝核行為趨勢(shì)統(tǒng)計(jì)圖
利用主題模型與事件抽取技術(shù)為新聞文本數(shù)據(jù)構(gòu)建特征指標(biāo)并進(jìn)行向量表示,具體實(shí)施包括三個(gè)部分:事件特征抽取與表示、語(yǔ)義特征抽取與表示、特征融合。第一部分,事件特征抽取與表示?;谑录渲骺腕w及觸發(fā)詞在句法結(jié)構(gòu)上搭配關(guān)系的不同,本文針對(duì)朝核問(wèn)題共定義了603個(gè)事件抽取匹配規(guī)則,對(duì)于給定任意規(guī)則,均有唯一的事件類型與之對(duì)應(yīng);同時(shí),對(duì)事件類型進(jìn)行編碼,共定義20大類,511個(gè)小類,結(jié)合匹配規(guī)則對(duì)新聞數(shù)據(jù)進(jìn)行事件句匹配,部分結(jié)果如表1所示。
由表1可以看出,定義規(guī)則能有效地對(duì)事件句所屬事件類型及主客體關(guān)系進(jìn)行識(shí)別。其中,SOURCE表示事件句發(fā)起者,TARGET 表示事件句承受者,SRCTGT表示事件句發(fā)起者、承受者為并列關(guān)系,EVTLOC 表示事件發(fā)生地點(diǎn)。
根據(jù)匹配規(guī)則,對(duì)抓取報(bào)道進(jìn)行事件要素的抽取。對(duì)于朝核問(wèn)題,本文定義了8 類抽取要素,分別為事件句所在新聞報(bào)道的全局ID(GLOBAL_ID)、事件句(EVENTSENTENCE)、事件類型編碼(EVENTCODE)、事件發(fā)生時(shí)間(PUBLISHTIME)、事件發(fā)起者(ACTOR1)、事件承受者(ACTOR2)、事件發(fā)起者所在國(guó)(ACTOR1-COUNTRY)、事件承受者所在國(guó)(ACTOR2COUNTRY),抽取結(jié)果共計(jì)14 247條,部分抽取結(jié)果如表2所示。
表1 部分事件句匹配結(jié)果
表2 部分基于模式模式匹配規(guī)則的事件要素抽取結(jié)果
結(jié)合表2所示的事件要素抽取結(jié)果,以事件發(fā)起國(guó)是否為朝鮮(北韓)作為判別條件,統(tǒng)計(jì)在全時(shí)間段上的高頻事件類型,保留事件類型的頻次閾值設(shè)為100,統(tǒng)計(jì)結(jié)果如表3所示。
表3 全時(shí)間段高頻事件類型統(tǒng)計(jì)
由表3可以看出,以朝鮮作為發(fā)起國(guó)的高頻事件類型集中描述了朝鮮單方面軍事行為與政治動(dòng)作,而以其他國(guó)家作為發(fā)起國(guó)的高頻事件類型則反映出相關(guān)國(guó)家對(duì)朝鮮軍事行為的反制措施與緩和手段,這與基于專家知識(shí)的對(duì)朝分析結(jié)果[9]相吻合。
基于各月新聞數(shù)據(jù)的事件抽取結(jié)果,對(duì)表3所示事件類型進(jìn)行頻次統(tǒng)計(jì),構(gòu)造出兩類事件特征向量:EventVec_Y(維數(shù)11)、EventVec_N(維數(shù)25),將兩類向量進(jìn)行加權(quán)拼接,得到各月新聞數(shù)據(jù)的事件特征向量EventVec(維數(shù)36)。
第二部分,進(jìn)行語(yǔ)義特征抽取與表示。結(jié)合獲取的新聞數(shù)據(jù)與事件要素抽取結(jié)果,以報(bào)道中是否包含以朝鮮為發(fā)起國(guó)的事件句作為約束條件,生成2類詞序列數(shù)據(jù)集,分別為WordsSeq1DataSe(t包含朝鮮作為發(fā)起國(guó)的事件句的所有新聞報(bào)道經(jīng)預(yù)處理得到的詞序列數(shù)據(jù)集)、WordsSeq2DataSe(t不包含朝鮮作為事件發(fā)起國(guó)的事件句的所有新聞報(bào)道經(jīng)預(yù)處理得到的詞序列數(shù)據(jù)集)。
分別以詞序列數(shù)據(jù)集WordsSeq1DataSet及Words-Seq2DataSet作為訓(xùn)練語(yǔ)料,利用改進(jìn)主題模型IDFLDA進(jìn)行語(yǔ)義特征指標(biāo)抽取。設(shè)置模型主題數(shù)K∈{10,15,20,25,30,35},模型系數(shù)a=50/K、β=0.01,對(duì)于單個(gè)特征指標(biāo)(主題)k,保留φk,t*最高的50個(gè)特征詞,模型迭代次數(shù)設(shè)為1 000,分別生成兩組大小為K的語(yǔ)義特征指標(biāo)集合。以K=15 的訓(xùn)練結(jié)果為例,部分特征指標(biāo)如表4、表5所示。
表4 基于WordsSeq1DataSet訓(xùn)練的部分特征指標(biāo)(K=15)
表5 基于WordsSeq2DataSet訓(xùn)練的部分特征指標(biāo)(K=15)
由特征抽取結(jié)果可以看出,表4中抽取特征指標(biāo)更多反映出朝鮮對(duì)外界刺激的一些反應(yīng),包括發(fā)射導(dǎo)彈、舉行會(huì)談等。其中,主題1、2、3 與文獻(xiàn)[9]中指標(biāo)10(核導(dǎo)力量)、指標(biāo)9(朝韓間的經(jīng)濟(jì)與人道主義互動(dòng))、指標(biāo)12(國(guó)際社會(huì)對(duì)朝鮮的刺激)相呼應(yīng);表5中抽取特征指標(biāo)則更多反映出外界對(duì)朝鮮的一些動(dòng)作,包括對(duì)朝援助、開(kāi)放工業(yè)園區(qū)等,其中主題1、2、3 分別與文獻(xiàn)[9]中指標(biāo)7(朝鮮半島統(tǒng)一和民族和解目標(biāo))、指標(biāo)15(朝鮮對(duì)國(guó)際社會(huì)的外交應(yīng)對(duì))、指標(biāo)21(朝鮮與外界的互動(dòng)交流)相呼應(yīng),對(duì)比結(jié)果進(jìn)一步驗(yàn)證了利用主題模型輔助提取重大事件特征指標(biāo)的可行性。
結(jié)合2.3節(jié)向量構(gòu)造方法及上述語(yǔ)義特征指標(biāo)集合,為各月的新聞數(shù)據(jù)構(gòu)建兩類語(yǔ)義特征向量(TopicVec1與TopicVec2),最后,將兩類向量進(jìn)行拼接,得到融合語(yǔ)義特征向量TopicVec(維數(shù)2K)。
第三部分,特征向量融合。將各月的語(yǔ)義特征向量TopicVec與事件特征向量EventVec進(jìn)行首尾拼接,得到相應(yīng)月份下融合向量表示。部分月份下的融合向量如表6所示。
表6 部分月份下融合向量
為便于與基于專家知識(shí)[9]構(gòu)建特征指標(biāo)的傳統(tǒng)做法形成對(duì)比,選擇預(yù)測(cè)偏移量為3 個(gè)月,并對(duì)獲取的向量數(shù)據(jù)集進(jìn)行錯(cuò)位對(duì)齊,構(gòu)建預(yù)測(cè)數(shù)據(jù)集時(shí)間跨度為2006 年 4 月至 2017 年 9 月。選擇 2006 年 4 月至 2017 年2 月的向量數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),2017 年3 月至9 月的數(shù)據(jù)作為測(cè)試數(shù)據(jù),最后利用樸素貝葉斯分類模型進(jìn)行參數(shù)訓(xùn)練。
當(dāng)主題模型參數(shù)K設(shè)置為15 時(shí),提出方法的整體表現(xiàn)最佳。以2017 年3 月朝鮮核行為趨勢(shì)預(yù)測(cè)結(jié)果為例,模型輸出朝鮮無(wú)核行為發(fā)生的概率為7.471 25E-7,發(fā)生輕度核行為的概率為0.999 9,發(fā)生重度核行為的概率為1.371 87E-8,由此判斷2017 年3 月朝鮮發(fā)生輕度核行為的可能性最大,這一預(yù)測(cè)結(jié)果與實(shí)際標(biāo)記結(jié)果相吻合。在全部用于預(yù)測(cè)的7個(gè)月中,有5個(gè)月預(yù)測(cè)正確,這一結(jié)果與基于專家知識(shí)構(gòu)建特征集的預(yù)測(cè)結(jié)果相當(dāng)。對(duì)比結(jié)果如表7所示。
最后,為進(jìn)一步驗(yàn)證本文方法的可行性與有效性,將 2006 年 4 月至 2017 年 9 月共計(jì) 138 個(gè)月的數(shù)據(jù)輸入訓(xùn)練好的樸素貝葉斯分類模型進(jìn)行檢驗(yàn),并與基于專家知識(shí)構(gòu)建特征指標(biāo)的全時(shí)間段趨勢(shì)預(yù)測(cè)結(jié)果進(jìn)行對(duì)比。
在測(cè)試時(shí)對(duì)比了6類不同的組合特征。其中,LDA-S與IDFLDA-S 表示僅利用LDA 或IDFLDA 訓(xùn)練抽取語(yǔ)義特征,LDA-C與IDFLDA-C表示以發(fā)起國(guó)作為約束條件,利用LDA 或IDFLDA 訓(xùn)練抽取的融合語(yǔ)義特征,EVENT-C 表示僅基于高頻事件類型構(gòu)建事件特征,IDFLDA-EVENT-C 表示利用IDFLDA 抽取的融合語(yǔ)義特征與事件特征構(gòu)建融合特征。在設(shè)定的不同主題數(shù)K∈{10,15,20,25,30,35}下,各組合特征在全時(shí)間段上的重大事件趨勢(shì)預(yù)測(cè)對(duì)比情況如圖5所示。
表7 測(cè)試月份上的預(yù)測(cè)結(jié)果對(duì)比(K=15)
圖5 各特征組合形式下全時(shí)間段朝核行為預(yù)測(cè)結(jié)果對(duì)比
對(duì)圖5對(duì)比結(jié)果進(jìn)行分析,得出以下幾點(diǎn)結(jié)論:
首先,無(wú)論是基于主題模型抽取的語(yǔ)義特征還是基于事件抽取技術(shù)抽取的事件特征,在單特征建模上的預(yù)測(cè)表現(xiàn)已經(jīng)能在很大程度上接近基于專家知識(shí)構(gòu)建特征的預(yù)測(cè)結(jié)果,驗(yàn)證了利用兩類特征構(gòu)建重大事件特征指標(biāo)的有效性。
其次,由基于主題模型進(jìn)行特征建模的預(yù)測(cè)結(jié)果可以看出,在其他參數(shù)保持一致的前提下,改進(jìn)模型IDFLDA 特征建模的預(yù)測(cè)結(jié)果相較于傳統(tǒng)LDA 表現(xiàn)更佳,驗(yàn)證了模型改進(jìn)的有效性。
最后,當(dāng)融合事件特征與基于IDFLDA抽取的語(yǔ)義特征時(shí),各主題數(shù)K下的全時(shí)間段的預(yù)測(cè)表現(xiàn)均優(yōu)于基于專家知識(shí)構(gòu)建特征的預(yù)測(cè)結(jié)果。當(dāng)K設(shè)為15 時(shí),預(yù)測(cè)結(jié)果最佳,在全部的138 個(gè)月中,本文方法能成功預(yù)測(cè)119個(gè)月的朝鮮核行為趨勢(shì)等級(jí),整體準(zhǔn)確率達(dá)到86.2%,結(jié)果充分論證了該方法的可行性與有效性。
本文針對(duì)基于海量新聞數(shù)據(jù)的重大事件趨勢(shì)預(yù)測(cè)研究在特征構(gòu)建上存在的局限性問(wèn)題,提出一種融合語(yǔ)義與事件特征的重大事件趨勢(shì)預(yù)測(cè)方法。在朝鮮核行為趨勢(shì)預(yù)測(cè)表現(xiàn)上,該方法在全時(shí)間段的整體預(yù)測(cè)準(zhǔn)確率達(dá)到86.2%,預(yù)測(cè)性能優(yōu)于依賴專家知識(shí)進(jìn)行特征集構(gòu)建的傳統(tǒng)預(yù)測(cè)方法,能有效進(jìn)行重大事件的趨勢(shì)預(yù)測(cè)。
該方法的局限性在于,首先,在利用主題模型進(jìn)行語(yǔ)義特征抽取時(shí),在參數(shù)K的選擇上,該方法存在一定的隨機(jī)性;其次,在對(duì)事件趨勢(shì)進(jìn)行量化時(shí),仍需借鑒專家知識(shí)確定事件影響力量化公式。如何在趨勢(shì)量化上實(shí)現(xiàn)自動(dòng)化以及通過(guò)何種手段自適應(yīng)確定主題模型參數(shù)K,實(shí)現(xiàn)真正意義上由數(shù)據(jù)驅(qū)動(dòng)的重大事件趨勢(shì)預(yù)測(cè)將是本文下階段工作的重點(diǎn)研究方向。