国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)關(guān)鍵技術(shù)方案的輿情數(shù)據(jù)中心的研究

2020-11-02 07:59:46周奇印鑒張良均
現(xiàn)代計算機 2020年27期
關(guān)鍵詞:分詞文檔網(wǎng)民

周奇,印鑒,張良均

(1.廣東開放大學(xué)信息與工程學(xué)院,廣州 510630;2.中山大學(xué)數(shù)據(jù)科學(xué)與計算機學(xué)院,廣州 510630;3.廣州泰迪智能科技有限公司,廣州 510630)

0 引言

本平臺主要由兩個模塊組成:①通用模塊;②業(yè)務(wù)主題模塊。通用模塊部分主要提供輿情分析全流程(包括數(shù)據(jù)采集與監(jiān)控、數(shù)據(jù)解析、數(shù)據(jù)預(yù)處理、挖掘建模、結(jié)果展示等)功能點主鍵,用于支持后臺業(yè)務(wù)功能實現(xiàn)及前臺自定義實現(xiàn);業(yè)務(wù)主題模塊主要基于輿情資訊展開的一系列的數(shù)據(jù)采集監(jiān)控和分析挖掘任務(wù)。

1 文本采集與分析挖掘通用模塊設(shè)計

本模塊主要嵌入泰迪科技自主研發(fā)的輿情分析工具,可提供包括網(wǎng)頁數(shù)據(jù)爬取與監(jiān)控、網(wǎng)頁數(shù)據(jù)解析、文本數(shù)據(jù)預(yù)處理、文本分析與挖掘等自然語言處理功能?;诒灸K,一方面,前臺用戶可在沒有編程基礎(chǔ)的情況下,通過拖拽的方式進行操作,以流程化的方式進行功能主鍵連接,達到自定義并實現(xiàn)文本挖掘需求目的,另一方面,上述功能主鍵支持后期后臺業(yè)務(wù)功能開發(fā),節(jié)約時間與成本。本模塊的功能具體如表1所示。

表1 文本采集與分析挖掘通用模塊功能

本文主要對自動摘要技術(shù)、事件識別技術(shù)、事件脈絡(luò)梳理和情感分析技術(shù)關(guān)鍵技術(shù)進行分析研究

2 自動摘要技術(shù)設(shè)計

自動摘要技術(shù)指計算機自動從原始文本中提取簡單連貫的短文,以反映中心內(nèi)容。根據(jù)建設(shè)要求,對媒體報道文本采用該技術(shù),生成反映報道目的的文檔摘要,一方面可用于媒體新聞事件識別,即通過聚類技術(shù)結(jié)合報道摘要和報道的基本信息等,將同一事件的媒體報道進行歸并;另一方面有助于新聞事件的脈絡(luò)梳理,充分掌握事件的事態(tài)發(fā)展過程。

通常認為一篇文檔是由多個主題組織而成,因此,自動摘要技術(shù)采用聚類的方法,將同一主題下的句子進行聚集,進而選取每個主題的中心語句,組合生成適當(dāng)?shù)恼?。由此,媒體報道文本摘要的提煉主要有如圖1 中的三個過程。

圖1 文本自動摘要生成流程圖

2.1 文本預(yù)處理設(shè)計

對于每一個媒體報道文檔,首先利用文本處理方法進行句子拆分,而后基于中文分詞技術(shù)實現(xiàn)對句子的切分,并且標(biāo)注切分后詞匯的對應(yīng)詞性(如動詞、形容詞、時間詞、地名等)。根據(jù)詞性進行命名實體識別,即識別句子中特定意義的實體(如人名、地名、時間、專有名詞等),以便篩選出句子的主體信息。

一般而言,對于特定場景、行業(yè)、領(lǐng)域的文本,基于語料庫的分詞方法相對基于序列標(biāo)注的分詞方法具有更強的可伸縮性和準(zhǔn)確性,但前提是要求語料庫完整和齊全。由于媒體報道文本數(shù)據(jù)涉及各行業(yè),語料庫需有較好的完備性及適應(yīng)性,所以對報道語料庫的整理尤為重要。針對報道數(shù)據(jù),初步整理出按行業(yè)分類詞庫共18 個詞集、按情感極性劃分共7 個詞集,以及公開詞庫(如現(xiàn)代漢語詞典庫)等,如表2 所示。

2.2 中心語句選取

以上述進行預(yù)處理后的句子為粒度,運用基于語義的主題模型(如LDA),生成該篇報道文檔的若干主題;考慮句子在媒體報道文檔中的位置、包含關(guān)鍵詞數(shù)等因素,計算每個主題中各句子的重要性得分,以此選取各主題中心語句。以某報道內(nèi)容為例,經(jīng)過中心語句選取后的結(jié)果如圖2 所示。

表2 詞庫匯總

圖2

2.3 摘要生成

報道內(nèi)容以句子為粒度選取中心語句后,對于一個完整事件的敘述往往涵蓋了時間、地點、人物、起因、經(jīng)過、結(jié)果等信息。將各主題中心語句按時間、原文檔出現(xiàn)順序等因素,進行組合則生成連貫簡潔的媒體報道摘要。如上述某報道中心語句選取后,最終生成的摘要如圖3 所示。

圖3

3 事件識別技術(shù)設(shè)計

不同的國家和媒體機構(gòu)可以針對相同的事件進行報道,即同一件事情可能存在重復(fù)報道,因此,如何判別一份新的報道文檔是否為新的報道事件或與歷史報道劃分為同一媒體事件是進一步實現(xiàn)關(guān)聯(lián)分析、情感分析及趨勢預(yù)測的關(guān)鍵。一個最簡單且傳統(tǒng)的原理是通過文本的相似度進行判別。

文本的相似度計算常用的算法是基于空間向量模型(VSM)和余弦距離展開的,它把對文本內(nèi)容的處理簡化為向量空間中的向量運算,并且它以空間上的相似度表達語義的相似度,直觀易懂,已廣泛應(yīng)用于短文本相似度計算及檢索。但實際上,一個網(wǎng)絡(luò)媒體報道數(shù)據(jù)往往是一個長文本,存在許多描述事件外的冗余信息,影響基于TF-IDF 的空間向量模型的性能??紤]到這一因素,前文針對媒體報道文本進行自動摘要提取,整合出媒體所描述事件的關(guān)鍵信息,將長文本濃縮為短文本,提高事件識別的效率及精度。

媒體事件的識別包括了兩個部分:歷史報道同一事件劃分歸類和新數(shù)據(jù)流的新舊事件檢測,然而前者可以歸為后者的特殊情況。媒體事件檢測是對到達報道數(shù)據(jù)流判別是否屬于已知媒體事件,并對已知媒體事件進行延續(xù)和擴展,其基本實現(xiàn)過程如圖4 所示。

圖4 事件識別基本流程

(1)通過分句、分詞、主題提取等過程實現(xiàn)對歷史報道記錄及新報道記錄的自動摘要提取,并保存分詞結(jié)果;

(2)從分詞結(jié)果中提取出摘要語句的對應(yīng)部分,用于進一步構(gòu)建空間向量模型。

(3)去除分詞結(jié)果中的停用詞,并將剩余詞匯或短語作為空間模型的特征向量。

由于摘要濃縮的是報道事件的主要內(nèi)容,該過程不必如其他空間向量模型一般通過卡方檢測、信息增益等方法來實現(xiàn)文本特征的選擇。

(4)計算特征的TF-IDF 值進行標(biāo)準(zhǔn)化后作為各向量權(quán)重,構(gòu)建成空間向量模型。

TF:Term Frequency 即關(guān)鍵詞詞頻,是指一篇文章中關(guān)鍵詞出現(xiàn)的頻率,例如在一篇M 個詞的文章中有N 個該關(guān)鍵詞,則 TF=N∕M

IDF:Inverse Document Frequency 指逆向文本頻率,是用于衡量關(guān)鍵詞權(quán)重的指數(shù),由公式計算而得,其中D 為文章總數(shù),Dw 為關(guān)鍵詞出現(xiàn)過的文章數(shù)。

(5)基于余弦距離計算新文檔與任一舊文檔間的相似度。

(6)采用比較法進行結(jié)果判別:如果相似度值未超過預(yù)設(shè)閾值,則新報道數(shù)據(jù)獨立成為新事件;若相似度超過某一閾值,則將報道事件歸屬于與其相似度最高的事件作為屬于同一事件類,實現(xiàn)對事件的歸類于識別。

圖5 媒體事件識別示例

基于以上的事件檢測工作方法,我們就可以實現(xiàn)對報道進行實時事件更新,掌握媒體事件的最新動向。但實際上,上述相似度計算過程依據(jù)的是詞頻信息,兩個文檔的相似度取決于共同詞匯的數(shù)量,無法分辨自然語言的語義模糊性,詞語間的關(guān)聯(lián)性,后續(xù)需結(jié)合同義詞、潛在語意分析模型LAS、主題模型LDA 等算法進一步完善事件過程。

4 事件脈絡(luò)梳理設(shè)計

用戶想要了解一個熱點事件,需要瀏覽大量關(guān)于該媒體事件的報道,反復(fù)閱讀,費時費力。而“事件脈絡(luò)”技術(shù)可以抽取事件生命周期中各個重要發(fā)展階段的基本要素,并以時間為主線進行展現(xiàn)??梢蕴岣哂脩臬@取信息的效率,幫助用戶輕松了解整個事件的發(fā)展過程,并引導(dǎo)用戶進行深度閱讀。

事件脈絡(luò)梳理的目標(biāo)是:給出一個重要新聞的列表,這些重要新聞涵蓋了該新聞事件的各個重要階段的重要信息。

從事態(tài)發(fā)展來看,當(dāng)事件有重要進展的階段時,就會有一些高質(zhì)量的報道,而且報道也越多越集中。從這一角度出發(fā)使用基于時間片聚類的方法挖掘事件的主要階段。當(dāng)然媒體事件的報道質(zhì)量越好,覆蓋的時間窗口越長,對于挖掘脈絡(luò)也越有利?;跁r間片聚類的事件脈絡(luò)挖掘流程如圖6 所示。

圖6 基于時間片聚類的事件脈絡(luò)梳理流程

經(jīng)過事件識別后,數(shù)據(jù)庫中存儲管理的數(shù)據(jù)已經(jīng)可以直接使用于事件脈絡(luò)梳理挖掘,只需以檢索的方式抽取需要挖掘的事件報道。

4.1 報道集去噪

媒體事件報道具有時效性,通常而言,較權(quán)威的媒體網(wǎng)站對事件報道更具時效性,而一般性的小的媒體網(wǎng)站則會有一定的時間滯后性。例如同樣內(nèi)容的媒體報道,新華網(wǎng)在事件當(dāng)天23:10 就發(fā)布了,而一些小的網(wǎng)站很可能需要等到第二天10:00 才發(fā)布。這樣就會導(dǎo)致描述相同且屬于同一事件階段的報道,被劃分到不同的階段中去,從而影響到時間片聚類的階段劃分效果。

對于上述噪聲報道,依然可以以文本相似度的度量方法進行去重。如果兩篇媒體報道屬于對同一新聞信息點的報道或者是轉(zhuǎn)載與被轉(zhuǎn)載的關(guān)系,那么這兩篇文檔的相似度都會很高。因而,針對分析的媒體事件所對應(yīng)的報道集,計算其兩兩文檔之間的相似度,如果兩文檔相似度很高,就進行歸并,并以最早的那篇報道文檔作為代表,參加時間片聚類。

4.2 時間片聚類

對于每一個媒體報道,抽取其發(fā)布時間,然后按照報道的發(fā)布時間,把一個媒體事件集合內(nèi)的報道進行排列。把報道按照發(fā)布時間投影到時間軸上,如果事件有明顯的發(fā)展階段,根據(jù)前面的設(shè)想,就能在時間軸上看到一些新聞比較密集的區(qū)域,這些區(qū)域就是我們要獲取的事件的各個階段。

至于計算獲取密集時間片段的方法有若干,常見的聚類算法,如K-means、K-mediods,但是這類聚類算法需要事先確定事件發(fā)展階段數(shù),而我們也確實很難提前確定這個結(jié)果。因此,這里選擇了凝聚層次聚類算法,具體做法是:先把每一篇報道看成一個時間片段(點),然后每次合并距離最近的兩個片段,直到任意兩個片段之間的距離都大于預(yù)先設(shè)定的閾值。

4.3 代表報道的選取

通過時間片聚類的辦法,獲取到了事件的若干個進展以后,則要從每個進展的報道集合中,抽取出一篇代表報道,在以該報到的摘要對內(nèi)容進行概述。

對于如何提取事件階段的代表性報道,一般都會考慮如下因素:報道來源的網(wǎng)站是否權(quán)威,該報道的發(fā)布時間(在同一個片段內(nèi)而言),該報道是否有更多的轉(zhuǎn)載等等。

經(jīng)過上述步驟的處理,即可得到事件各個階段核心報道的摘要列表,進一步提取核心報道的發(fā)布時間,按照時間的先后順序排序,就是可以獲得該媒體事件的主要脈絡(luò)。本方法的關(guān)鍵技術(shù)在于時間片段聚類,對于報道之間的時間距離度量非常重要,常規(guī)的“自然時間距離”往往忽略了新聞報道在一天24 小時中各個小時報道數(shù)量的差異。因此,在實踐中對于“新聞時間距離”的度量可以結(jié)合不同時間段報道頻數(shù)給出綜合評定。

5 情感分析技術(shù)設(shè)計

網(wǎng)民情感分析主要基于前文劃分好的媒體事件,通過了解網(wǎng)民語句及用詞中表達的情緒,以此反映網(wǎng)民對媒體事件和國家政策的正面或負面看法。

情感傾向分析由兩個方面來衡量:一個情感傾向方向,一個是情感傾向度。

情感傾向方向也稱為情感極性,可以理解為網(wǎng)民對當(dāng)前媒體事件表達自身觀點所持的態(tài)度是正面(positive)、負面(negative)、中性(neutral)。例如“贊美”與“支持”同為褒義詞,表達正面情感,而“反對”與“譴責(zé)”就是貶義詞,表達負面情感。此外,正面情感詞還會受到情感修飾性詞的影響而改變情感傾向方向,如:“班農(nóng)叫囂搞砸‘一帶一路’顯然是不理性的行為”中“理性”原為正面情感詞,在“不”的修飾下表達了負面情緒。

情感傾向度是指網(wǎng)民對媒體事件表達正面情感或負面情感時的強弱程度,不同程度的情感狀態(tài)往往是通過不同的情感詞或修飾性詞等來體現(xiàn)。例如:“擁護”與“支持”都是表達正面情感,同為褒義詞。但是“擁護”遠比“支持”在情感表達程度上要強烈。同樣的,“譴責(zé)”在“強烈”的修飾下情感強度又會進一步增強。

通常在情感傾向分析研究中,為了判定網(wǎng)民情感狀態(tài),首先需要界定情感詞極性(正面、負面、中性),其次根據(jù)修飾詞等對每個情感賦予不同的權(quán)值來表達情感傾向度。例如,某媒體報道中提到:“一帶一路”對于對外貿(mào)易的長遠發(fā)展是極其有利的,“有利”表達了正面情感,而“極其”一詞強調(diào)了正面情感的高傾向度。

針對報道數(shù)據(jù),可進行網(wǎng)民情感觀點挖掘或情感傾向分析,簡要過程如圖7 所示。

圖7 情感得分獲取基本流程

5.1 分詞處理

此部分文本分詞處理的關(guān)鍵要點在于有足夠完善的分詞情感詞庫,包括有情感詞庫、情感否定修飾詞庫、情感程度修飾詞庫。

情感詞庫:自定義詞庫,確定情感傾向方向,有表達正面情感的詞典、表達負面情感的詞典;進行正面、逆面情感詞典的合并。

情感否定修飾詞庫:自定義常用否定詞庫(不、沒、無、非、莫、弗、毋、勿、未、否、別、無、休),其作用在于最終確定情感傾向方向。

情感程度修飾詞庫:自定義情感程度修飾性詞,并把程度副詞劃分六個等級,用于區(qū)分情感增強程度的差異。等級越高情感增強程度越大,如表3 所示。

表3 程度副詞等級表

5.2 情感定位

情感定位基于分詞結(jié)果進行組合判斷,第一步,需對網(wǎng)民的情感傾向方向做出準(zhǔn)確定位。首先要進行情感詞判定,再檢索其是否受否定限定詞修飾,方可最終準(zhǔn)確定位。

確定網(wǎng)民情感傾向度,這一步主要依賴情感程度修飾詞的度量,詳細過程如下:

第一步:網(wǎng)民情感傾向方向定位

情感詞初步定位:將分詞結(jié)果與情感詞庫進行匹配,匹配到正面情感詞時,將其情感賦值為一個正值;匹配到負面情感詞時,將其情感值賦值為一個負值;沒有匹配到情感值時,定位成中性,情感值為0。

否定修飾詞最終評定情感傾向方向:漢語中存在多重否定現(xiàn)象,即當(dāng)否定詞出現(xiàn)奇數(shù)次時,表示否定意思;當(dāng)否定詞出現(xiàn)偶數(shù)次時,表示肯定意思。按照漢語習(xí)慣,若每個情感詞前出現(xiàn)奇數(shù)個否定詞,則調(diào)整為相反的情感傾向方向,其情感值極性對調(diào),即正值調(diào)整為負值,負值調(diào)整為正值。

第二步:網(wǎng)民情感傾向度度量

經(jīng)過第一步的處理后,網(wǎng)民的情感傾向方向已經(jīng)確定,當(dāng)情感處于正面或者負面時,不同的網(wǎng)民可能存在情緒強弱的差異,即情感傾向度差異。而影響人情感傾向度的重要因素來源于其情感詞前的程度修飾副詞。搜索情感詞前是否出現(xiàn)程度副詞,若出現(xiàn)程度副詞則對情感值根據(jù)對應(yīng)程度副詞的等級(等級之間的粒度或者距離可以視具體情況做調(diào)整)進行調(diào)整情感強度,情感得分計算示例如圖8 所示。

圖8 情感得分計算示例

5.3 情感聚合

經(jīng)過上述流程即可獲取各網(wǎng)民情感得分情況。依據(jù)情感得分結(jié)果則可以對網(wǎng)民的總體情感進行分類,情感值為0 時,表示該類網(wǎng)民為情感中立人群;情感值為正時,該類網(wǎng)民為正面積極人群;情感值為負時,該網(wǎng)民為消極人群。針對消極人群可以進行深入剖析,分析網(wǎng)民消極反對的正真原因,有利于理解事件和政策背后更真實的受益或受損群體。

6 結(jié)語

關(guān)鍵字自動提取。基于文本挖掘算法,實現(xiàn)對文章關(guān)鍵字自動提取,為進一步實現(xiàn)基于關(guān)鍵字的檢索奠定基礎(chǔ)。

摘要自動提取。基于文本挖掘算法,自動提取文章摘要,實現(xiàn)文本內(nèi)容的精簡提煉,方便用戶快速預(yù)覽文本內(nèi)容。

基于相似度的事件歸納與識別?;谖臋n相似度計算結(jié)果,實現(xiàn)對多語言、多渠道,長時間的同一事件的歸納與識別,即對標(biāo)題或內(nèi)容有重復(fù)性或近似的信息自動歸類。

熱點識別。綜合不同渠道、地域的網(wǎng)民熱議度、傳播力、影響力等多個維度指數(shù),基于評價模型識別熱點文章或事件。

事件脈絡(luò)梳理及追蹤。梳理同一事件∕主題的發(fā)展脈絡(luò),實現(xiàn)對某個輿情事件的長時間的跟蹤監(jiān)控,便于隨時掌握事件發(fā)展動態(tài)。

傳播途經(jīng)分析。分析事件在各個主流媒體之間的參與轉(zhuǎn)載情況,從事件的傳播深度與傳播廣度的層面上剖析事件的影響力。

輿情監(jiān)控與預(yù)警。重點關(guān)注正面輿情(加強合作與交流)與極端反面輿情(尋求更多的解決與合作方案)并設(shè)定預(yù)警條件。對達到預(yù)警條件的輿情,支持站內(nèi)、短信、郵件等多種方式預(yù)警。

猜你喜歡
分詞文檔網(wǎng)民
有人一聲不吭向你扔了個文檔
結(jié)巴分詞在詞云中的應(yīng)用
智富時代(2019年6期)2019-07-24 10:33:16
網(wǎng)民低齡化 “小網(wǎng)蟲”的明天誰來守護
遵義(2018年20期)2018-10-19 07:15:06
有關(guān)公路,網(wǎng)民有話說
中國公路(2017年9期)2017-07-25 13:26:38
基于RI碼計算的Word復(fù)制文檔鑒別
值得重視的分詞的特殊用法
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
高考分詞作狀語考點歸納與疑難解析
不讓他人隨意下載Google文檔
電腦迷(2012年4期)2012-04-29 06:12:13
論英語不定式和-ing分詞的語義傳承
舒兰市| 礼泉县| 徐汇区| 如东县| 五大连池市| 晋江市| 大埔区| 鲁山县| 南投县| 东明县| 武强县| 巫山县| 谢通门县| 沁源县| 富锦市| 信丰县| 宁津县| 建始县| 瓮安县| 中卫市| 襄汾县| 井陉县| 刚察县| 宝鸡市| 登封市| 建阳市| 双鸭山市| 措美县| 荆州市| 开化县| 紫金县| 积石山| 灌阳县| 七台河市| 兴义市| 石景山区| 许昌市| 西充县| 临邑县| 烟台市| 安溪县|