關(guān)莉莉
吉林電視臺(tái),吉林 長春 130021
加權(quán)信息論下的突發(fā)事件新聞主題抽取方法
關(guān)莉莉
吉林電視臺(tái),吉林 長春 130021
新聞媒體是傳遞信息的重要途徑,在突發(fā)事件發(fā)生后,人們往往希望能夠通過新聞及時(shí)了解到突發(fā)事件產(chǎn)生的緣由以及后續(xù)發(fā)展情況。為了能夠?qū)⑼话l(fā)事件新聞文本更好的分類,需要采取有效的主題抽取方法,而基于加權(quán)信息論的抽取方法,便得以產(chǎn)生并開始運(yùn)用于該項(xiàng)工作中。本文就加權(quán)信息論下的突發(fā)事件新聞主題抽取方法進(jìn)行了研究分析。
加權(quán)信息論;突發(fā)事件新聞;主題抽取方法
突發(fā)事件新聞文本中,主題詞出現(xiàn)的位置等都具有一定的特點(diǎn),通過加權(quán)信息論,能夠?qū)崿F(xiàn)對(duì)主題詞的精準(zhǔn)查找,考慮新聞文本主題本身所帶有的相關(guān)統(tǒng)計(jì)信息,從而實(shí)現(xiàn)對(duì)突發(fā)事件新聞的有效分類。因此,相關(guān)工作者在工作中,還應(yīng)積極分析基于加權(quán)信息論的主題抽取方法,并予以合理運(yùn)用,從而進(jìn)一步完善突發(fā)事件新聞分類體系,推動(dòng)新聞事業(yè)的快速發(fā)展。
突發(fā)事件主要是人們難以預(yù)測(cè)的、隨時(shí)隨地都有可能發(fā)生的、完全隨機(jī)的時(shí)間,而突發(fā)事件新聞,則是對(duì)這一類時(shí)間的新聞報(bào)道。突發(fā)事件的發(fā)生往往與人們的生活有密切關(guān)聯(lián),因而,人們對(duì)突發(fā)事件報(bào)道也十分關(guān)心。相關(guān)學(xué)者也針對(duì)人們?cè)诟鱾€(gè)階段的新聞關(guān)注熱點(diǎn),進(jìn)行了統(tǒng)計(jì)分析。本文選取了“煤礦爆炸”、“非洲埃博拉病毒疫情”以及“恐怖襲擊”三類新聞進(jìn)行闡述分析,從Web上獲取了各500篇語料。
經(jīng)過一系列的統(tǒng)計(jì)分析發(fā)現(xiàn),這幾類突發(fā)事件新聞文本具有兩方面特點(diǎn)。第一,在形式結(jié)構(gòu)上。突發(fā)事件新聞文本主要分為正文及標(biāo)題兩部分,標(biāo)題是對(duì)文本內(nèi)容、事件情況的充分概括,主要由突發(fā)事件的發(fā)生的地點(diǎn)、事件名稱以及帶來的影響組成,正文則是包含多個(gè)句子,闡明了信息的來源、突發(fā)事件的基本信息及其原因、后果等。且正文中的第一句話,往往就會(huì)直接表述本信息的來源,其他內(nèi)容則會(huì)在后續(xù)句子中進(jìn)行表述。第二,在文本長度上,通過對(duì)這幾類文本的統(tǒng)計(jì)分析,發(fā)現(xiàn)其標(biāo)題字?jǐn)?shù)平均在18-20字之間,相差不大,正文句數(shù)平均在7.43-11.95句,而字?jǐn)?shù)從100字到400字不等(如表1)。
表1 突發(fā)事件各類新聞文本統(tǒng)計(jì)分析數(shù)據(jù)
當(dāng)前對(duì)突發(fā)事件新聞主題進(jìn)行抽取,主要是通過對(duì)突發(fā)事件主題詞在文本主題方面的貢獻(xiàn)程度進(jìn)行分析,從而將其中貢獻(xiàn)最大的主題詞找出來。在加權(quán)算法的運(yùn)用中,主要是通過對(duì)主題詞在突發(fā)事件新聞文本中的位置、頻率以及不同文本間的引用關(guān)系等進(jìn)行計(jì)算,一些專家學(xué)者還能夠通過構(gòu)詞能力、特征字串、語言理解角度等進(jìn)行抽取。而據(jù)相關(guān)調(diào)查以及研究表明,基于加權(quán)信息論的突發(fā)事件新聞主體抽取,也能夠獲得良好的效果。詞在文本中的包含的信息量計(jì)算公式為H(wi)=-N(wi)×log p(wi)。其中,wi為突發(fā)事件新聞文本中的一個(gè)詞匯,文本用d表示,H(wi)表示該詞信息量,N(wi)為該詞出現(xiàn)頻率,p(wi)則為該詞概率分布。通過極大似然估計(jì)方法,對(duì)詞的概率分布進(jìn)行計(jì)算,公式為p(wi)=F(wi)×F。其中,F(xiàn)(wi)為訓(xùn)練文本中該詞出現(xiàn)的頻次,F(xiàn)則表示文本集中總詞頻數(shù)[1]。為了能夠結(jié)合主題詞的實(shí)際分布情況,還需基于加權(quán)信息論,將文本形式特征以及詞匯所處位置加入計(jì)算中。設(shè)Y為句權(quán)向量,Xi為詞位向量,且Y=(s1,s2,…,sj),Xi=(pi1,pi2,…,pik),sj為該詞在文本中j句的重要性因子,pik則為該詞在j句中出現(xiàn)的頻次,n為總句數(shù)。兩個(gè)向量的乘積,就是最終詞匯的位置權(quán)重,通過將其與信息論特征抽取方法結(jié)合,便能夠獲得最終結(jié)果。文本首句即標(biāo)題句,在主題中貢獻(xiàn)最大,權(quán)值最大,其次為第三、四,五句,再者為第二句消息來源,最后為其余句子,權(quán)值較小。
加權(quán)信息論下的突發(fā)事件新聞主題抽取方法應(yīng)用中,應(yīng)先進(jìn)行文本預(yù)處理。分詞并獲取詞集合,對(duì)一些語氣詞、介詞等詞匯進(jìn)行剔除,獲得候選詞集c(w1,w2,…,wm)。其次,需要進(jìn)行權(quán)威計(jì)算,對(duì)c中的所有詞匯按照上述方法進(jìn)行位置權(quán)重計(jì)算,并結(jié)合H(wi)值,計(jì)算出wi的總權(quán)重。最后,對(duì)所有詞的權(quán)重計(jì)算結(jié)果進(jìn)行排列,選取權(quán)值最大的幾個(gè)詞,組合成最終的主題。
為證明加權(quán)信息論下的突發(fā)事件新聞主題抽取方法的有效性,將這一方法與人工抽取方法一同運(yùn)用,并對(duì)所獲取結(jié)果進(jìn)行比較分析。選用“煤礦爆炸”類突發(fā)事件新聞100篇、“非洲埃博拉病毒疫情”類突發(fā)事件新聞100篇以及“恐怖襲擊”類突發(fā)事件新聞100篇,用于訓(xùn)練語料,同時(shí),每一類別中選出25篇文本作為測(cè)試語料。運(yùn)用兩種方式對(duì)新聞主題進(jìn)行抽取后發(fā)現(xiàn),“煤礦爆炸”文本中,有22篇結(jié)果一致,與人工抽取一致比率在88%,正確率在96%?!胺侵薨2├《疽咔椤蔽谋局校?3篇結(jié)果一致,比率在52%,正確率在36%,其主題偏離率較大的原因主要是文本本身結(jié)構(gòu)性較差、內(nèi)容分散。而在“恐怖襲擊”文本中,有21篇結(jié)果一致,比率在84%,正確率在88%。且據(jù)相關(guān)學(xué)者對(duì)加權(quán)信息論以及信息論下的主題抽取結(jié)果比較發(fā)現(xiàn),加權(quán)信息論下的突發(fā)事件新聞主題抽取方法的準(zhǔn)確度與人工抽取相比,明顯呈現(xiàn)出了提高趨勢(shì),由此,可見這一方法在主題抽取中的重要性及良好的效果。
本文基于突發(fā)事件新聞文本相關(guān)統(tǒng)計(jì)數(shù)據(jù),運(yùn)用加權(quán)信息論方法進(jìn)行主題抽取,并將抽取結(jié)果與人工抽取相比較,得出了這一方法具有良好性能的結(jié)果。相關(guān)工作人員也應(yīng)加強(qiáng)對(duì)這一方法的研究,并將其靈活運(yùn)用在其他文本中,以促進(jìn)當(dāng)前新聞?lì)I(lǐng)域相關(guān)技術(shù)方法的進(jìn)一步發(fā)展。
[1]韓永峰,許旭陽,李弼程,朱武斌,陳剛.基于事件抽取的網(wǎng)絡(luò)新聞多文檔自動(dòng)摘要[J].中文信息學(xué)報(bào),2012,1(1):58-66.
[2]夏華林,張仰森.基于規(guī)則與統(tǒng)計(jì)的Web突發(fā)事件新聞多層次分類[J].計(jì)算機(jī)應(yīng)用,2012,2(2):392-394.
[3]曹學(xué)艷,張仙,劉樑,方寬,段飛飛,李仕明.基于應(yīng)對(duì)等級(jí)的突發(fā)事件網(wǎng)絡(luò)輿情熱度分析[J].中國管理科學(xué),2014,3(3):82-89.
TP
A