国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)輿情主動(dòng)感知技術(shù)探析

2017-09-03 10:27:52鄭步青鄒紅霞
兵器裝備工程學(xué)報(bào) 2017年8期
關(guān)鍵詞:分詞輿情聚類

鄭步青,鄒紅霞,王 琳,王 楨

(裝備學(xué)院 a.研究生管理大隊(duì); b.信息裝備系, 北京 101416)

【信息科學(xué)與控制工程】

網(wǎng)絡(luò)輿情主動(dòng)感知技術(shù)探析

鄭步青a,鄒紅霞b,王 琳b,王 楨a

(裝備學(xué)院 a.研究生管理大隊(duì); b.信息裝備系, 北京 101416)

針對(duì)網(wǎng)絡(luò)輿情主動(dòng)感知技術(shù)研究的片面性和主動(dòng)感知界定的模糊性,對(duì)主動(dòng)感知技術(shù)進(jìn)行初步探析。按照輿情分析的主要流程,以信息獲取、處理和分析模塊為基礎(chǔ),從感知來源、感知內(nèi)容、感知方法3個(gè)方面對(duì)技術(shù)原理及難點(diǎn)進(jìn)行了探討;感知來源主要分為網(wǎng)頁感知、微博感知、論壇感知;感知內(nèi)容主要有語義感知和文本感知;感知方法主要有關(guān)聯(lián)感知和預(yù)測(cè)感知。對(duì)網(wǎng)絡(luò)輿情各方面的主動(dòng)感知技術(shù)進(jìn)行了框架性的描述。

網(wǎng)絡(luò)輿情;主動(dòng)感知技術(shù);來源感知;內(nèi)容感知;方法感知

隨著互聯(lián)網(wǎng)的發(fā)展和普及,網(wǎng)絡(luò)為人們提供了豐富的信息資源,網(wǎng)絡(luò)媒體已經(jīng)被公認(rèn)為繼報(bào)紙、廣播、電視之后的“第四媒體”。網(wǎng)絡(luò)成為反映社會(huì)輿情的主要載體和輿情傳播的重要平臺(tái)。網(wǎng)民可以在網(wǎng)絡(luò)上自由發(fā)表言論,從電子郵件、論壇、博客再到微博,形式多樣,渠道多種[1]。一方面,網(wǎng)絡(luò)的開放性和網(wǎng)民互動(dòng)形式的多樣性使得民意表達(dá)更加暢通。另一方面,由于網(wǎng)絡(luò)的虛擬性和缺少規(guī)則限制,導(dǎo)致網(wǎng)絡(luò)成為非法言論、非理智情緒的傳播渠道。同時(shí)隨著網(wǎng)絡(luò)數(shù)據(jù)飛速增長(zhǎng),信息主題的模糊性越來越明顯,多元化和非結(jié)構(gòu)化的數(shù)據(jù)使得傳統(tǒng)分析方法對(duì)網(wǎng)絡(luò)輿情事件的探索越來越困難[2],加強(qiáng)輿情提取信息的高效性和挖掘信息的準(zhǔn)確性顯得越來越重要。因此,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)輿情的主動(dòng)感知,進(jìn)行突發(fā)事件的評(píng)估預(yù)測(cè),成為當(dāng)前網(wǎng)絡(luò)輿情管理的必要手段,對(duì)主動(dòng)感知網(wǎng)絡(luò)輿情技術(shù)的研究也成為當(dāng)前關(guān)注的熱點(diǎn)。本文按照輿情分析的主要流程,分別從感知的來源、感知的內(nèi)容、感知的方法3個(gè)方面對(duì)主動(dòng)感知技術(shù)在網(wǎng)絡(luò)輿情上的應(yīng)用進(jìn)行探析。

1 主動(dòng)感知的引入

主動(dòng)感知是指通過建立模型,挖掘數(shù)據(jù)背后的語義關(guān)聯(lián),掌握輿情的演化規(guī)律,對(duì)輿情進(jìn)行一定的評(píng)估預(yù)測(cè),可為后期網(wǎng)民集群行為引導(dǎo)策略的制定提供一定的理論和實(shí)踐指引?!爸鲃?dòng)”是指在輿情研究上實(shí)現(xiàn)輿情的主動(dòng)獲取信息,根據(jù)得到的數(shù)據(jù)進(jìn)行態(tài)勢(shì)感知,探索其中的關(guān)系?!案兄笔侵笇?duì)輿情的了解和挖掘信息。主動(dòng)感知和搜索的區(qū)別在于搜索是只從網(wǎng)絡(luò)上收集信息,而不對(duì)信息進(jìn)行態(tài)勢(shì)分析,主動(dòng)感知不僅僅對(duì)數(shù)據(jù)進(jìn)行爬取,而且對(duì)數(shù)據(jù)進(jìn)行深度關(guān)系挖掘。

不同主體對(duì)信息的需求也不一樣,感知的內(nèi)容、方法也不相同。從主體來看,政府需要從信息中發(fā)現(xiàn)事件間的聯(lián)系,商家需要從中發(fā)現(xiàn)商品的火熱程度;從來源上來看,感知的路徑有網(wǎng)頁、微博、論壇等,其中所用的采集技術(shù)不一樣;從感知的方法來看,主要是對(duì)信息的關(guān)聯(lián)感知和預(yù)測(cè)感知等。

目前,在主動(dòng)感知方面的研究還有所欠缺,存在著對(duì)主動(dòng)感知分析片面、框架不完整、定義不明確等問題。當(dāng)前有從語義層面上對(duì)主動(dòng)感知技術(shù)研究,通過挖掘數(shù)據(jù)背后的語義關(guān)聯(lián),設(shè)計(jì)輿情事件的熱點(diǎn)主動(dòng)感知系統(tǒng)[2],也有以微博為信息源從分類技術(shù)層面對(duì)主動(dòng)感知進(jìn)行探索[3]。這些研究大多只從某一個(gè)側(cè)面對(duì)主動(dòng)感知技術(shù)加以分析,缺乏從輿情總層面來看待輿情和主動(dòng)感知的關(guān)系。

輿情分析的流程一般來說主要包括信息采集、信息處理和信息分析3個(gè)部分,針對(duì)這3個(gè)部分的功能和特點(diǎn),主動(dòng)感知技術(shù)涉及的具體內(nèi)容也有不同的表現(xiàn)。采集模塊主要是對(duì)不同來源的感知,來源主要分為網(wǎng)頁、微博、論壇等多個(gè)渠道,涉及到的技術(shù)包括爬取和抽取技術(shù),對(duì)不同來源的高效爬取與抽取是主動(dòng)感知的主要內(nèi)容。信息處理模塊主要是在內(nèi)容上對(duì)語義和文本的感知,涉及的技術(shù)包括語義識(shí)別和文本分類聚類技術(shù),對(duì)文本進(jìn)行有效處理是主動(dòng)感知的主要內(nèi)容。分析模塊主要是進(jìn)行數(shù)據(jù)挖掘,涉及的技術(shù)包括關(guān)聯(lián)性分析和評(píng)估預(yù)測(cè)等。對(duì)數(shù)據(jù)進(jìn)行深度挖掘,實(shí)現(xiàn)預(yù)測(cè)預(yù)警是主動(dòng)感知的主要內(nèi)容。圖1是反映輿情分析各個(gè)階段主動(dòng)感知的主要內(nèi)容。

圖1 輿情主動(dòng)感知技術(shù)圖

2 信息采集中的主動(dòng)感知技術(shù)

目前,主流媒體主要有網(wǎng)頁、微博、論壇、微信等,基于不同媒體的特征結(jié)構(gòu)不一樣,感知的內(nèi)容和感知所使用的技術(shù)也不一樣。

2.1 網(wǎng)頁感知

隨著網(wǎng)絡(luò)技術(shù)和應(yīng)用的飛速發(fā)展,新聞傳播機(jī)制的變革加快,閱讀網(wǎng)絡(luò)新聞己漸漸成為人們獲取信息的一個(gè)重要渠道。特別是在網(wǎng)絡(luò)新聞競(jìng)爭(zhēng)日趨激烈的今天,網(wǎng)絡(luò)新聞專題成了網(wǎng)絡(luò)媒體角逐的熱點(diǎn),如何提前感知重大新聞事件也成為研究熱點(diǎn)。

新聞網(wǎng)頁的特點(diǎn)是在報(bào)道后面通常會(huì)設(shè)有新聞跟帖,方便網(wǎng)民對(duì)報(bào)道直接評(píng)論。新聞數(shù)據(jù)有正文、標(biāo)題、出處、發(fā)布時(shí)間、相關(guān)新聞的鏈接等,網(wǎng)民的跟帖數(shù)據(jù)有跟帖人、跟帖內(nèi)容、跟帖人信息和跟帖人計(jì)算機(jī)網(wǎng)絡(luò)地址等。因此,網(wǎng)絡(luò)新聞專題是突發(fā)事件網(wǎng)絡(luò)輿情數(shù)據(jù)采集抽取的重要信息源。

在采集新聞網(wǎng)頁中的輿情信息時(shí),主要采用的抽取方法有[4]:基于規(guī)則的信息抽取方法和基于統(tǒng)計(jì)的信息抽取方法?;谝?guī)則的信息抽取是一個(gè)學(xué)習(xí)和應(yīng)用的兩階段過程[5],規(guī)則的學(xué)習(xí)和應(yīng)用規(guī)則獲取目標(biāo)信息。它的優(yōu)點(diǎn)在于抽取的效率和準(zhǔn)確率較高,缺點(diǎn)在于系統(tǒng)可移植性差?;诮y(tǒng)計(jì)的信息抽取是通過訓(xùn)練大量的樣本數(shù)據(jù)獲取模型參數(shù),可移植性較好,對(duì)領(lǐng)域知識(shí)的要求不高,但是抽取的準(zhǔn)確性較低[6]。

在新聞網(wǎng)頁感知中,提高采集的準(zhǔn)確率、克服不同網(wǎng)頁結(jié)構(gòu)帶來的規(guī)則差異、提高模板的可移植性是感知的研究方向。

2.2 微博感知

微博是基于人物節(jié)點(diǎn)之間社交關(guān)系的媒體,包括3個(gè)基本數(shù)據(jù)結(jié)構(gòu):用戶數(shù)據(jù)、用戶關(guān)系數(shù)據(jù)以及內(nèi)容數(shù)據(jù)?;谖⒉┑臄?shù)據(jù)海量、時(shí)效性強(qiáng)等特點(diǎn),較多輿情都是從微博上產(chǎn)生并快速發(fā)酵的,如何從大量、更新快的信息中感知輿情熱點(diǎn)成為重要研究課題。

微博數(shù)據(jù)的采集關(guān)鍵在于微博爬蟲的設(shè)計(jì)?;谖⒉﹦?dòng)態(tài)擴(kuò)展的數(shù)據(jù)結(jié)構(gòu),采用非分布式的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)顯然不適合數(shù)據(jù)的采集,因此基于Hadoop的分布式爬蟲成為爬蟲設(shè)計(jì)的主要選擇。微博爬蟲是一種自動(dòng)提取信息的程序,它的目標(biāo)在于從海量信息中采集需要的數(shù)據(jù),為輿情監(jiān)測(cè)或研究提供數(shù)據(jù)基礎(chǔ)。設(shè)計(jì)爬蟲需要考慮以下3個(gè)問題[7]:首先是選擇合理的渠道高效、快速的爬取各個(gè)維度的數(shù)據(jù);其次設(shè)計(jì)相適應(yīng)的去重策略,避免重復(fù)爬取相同的數(shù)據(jù);最后對(duì)于獲取的多維度數(shù)據(jù),需要采用合理的微博數(shù)據(jù)存儲(chǔ)策略。微博感知的主要內(nèi)容在于設(shè)計(jì)一個(gè)好的爬蟲,能快速采集到完整、有效的數(shù)據(jù)。

2.3 論壇感知

由于網(wǎng)絡(luò)論壇極強(qiáng)的交互性,網(wǎng)民可以隨時(shí)隨地在網(wǎng)絡(luò)社區(qū)中發(fā)表帖文,發(fā)表帶有個(gè)人觀點(diǎn)的各種信息,網(wǎng)絡(luò)論壇已經(jīng)成為信息時(shí)代網(wǎng)絡(luò)民意的集散地。目前,全國(guó)現(xiàn)有論壇網(wǎng)站130萬個(gè),影響全國(guó)網(wǎng)絡(luò)輿論走勢(shì)的網(wǎng)絡(luò)論壇有20多家。論壇的主動(dòng)感知有利于了解網(wǎng)民民意的趨向和態(tài)度,對(duì)社會(huì)穩(wěn)定有一定促進(jìn)作用。

論壇數(shù)據(jù)保存在后臺(tái)數(shù)據(jù)庫中,根據(jù)用戶提交的參數(shù),動(dòng)態(tài)從數(shù)據(jù)庫中讀取相關(guān)內(nèi)容生成網(wǎng)頁。論壇具有獨(dú)特的特點(diǎn)[8]:鏈接層次比較深;鏈接種類繁雜。論壇中除了帖子對(duì)應(yīng)的鏈接外,還有大量的外部鏈接;最后是內(nèi)容重復(fù)鏈接。論壇中往往存在大量鏈接不同但是指向是統(tǒng)一頁面的情況。這些特點(diǎn)給論壇的采集工作帶來巨大的困難。

論壇數(shù)據(jù)采集是一種特殊的Web信息采集[8]。采集的原理和Web采集相同,是通過Web頁面之間的鏈接關(guān)系,從Web上自動(dòng)獲取頁面信息,并且隨著鏈接不斷擴(kuò)展的過程。目前關(guān)于論壇采集的研究比較少,有提出基于版面擴(kuò)展的采集方法,也有提出基于URL分類的方法。論壇的感知需要不斷的克服論壇特點(diǎn)所帶來的難點(diǎn),對(duì)鏈接的識(shí)別增強(qiáng)算法的改進(jìn)。

目前,隨著微信等平臺(tái)的迅速發(fā)展,信息源的不斷擴(kuò)展,在對(duì)新型平臺(tái)進(jìn)行輿情感知時(shí),須對(duì)新的模板規(guī)則進(jìn)行學(xué)習(xí)訓(xùn)練,加強(qiáng)對(duì)傳統(tǒng)采集技術(shù)的改進(jìn)。

3 信息處理中的主動(dòng)感知技術(shù)

信息的處理包括對(duì)信息的語義和文本的處理,旨在將信息轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別的結(jié)構(gòu)化信息,并對(duì)其進(jìn)行分類處理。

3.1 語義感知

3.1.1 語義識(shí)別和分詞

語義識(shí)別和分詞是對(duì)抽取的信息里進(jìn)行詞義感知,達(dá)到信息預(yù)處理的效果。中文信息[9]主要是由字詞組成,由于字沒有相對(duì)固定的含義,因此,要對(duì)中文進(jìn)行信息識(shí)別就必須將信息拆分為一個(gè)個(gè)的詞。近年來,國(guó)內(nèi)眾多學(xué)者在中文分詞領(lǐng)域做了大量研究工作,取得了一定的研究成果。

到目前為止,中文分詞包括3類算法[10]:基于字符串匹配的分詞、基于理解的分詞、基于統(tǒng)計(jì)的分詞?;谧址ヅ涞姆衷~又叫做機(jī)械分詞方法,它是按照一定的策略將待處理的文本中由標(biāo)點(diǎn)符號(hào)分開的每句作為一個(gè)字符串,與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功,即識(shí)別出一個(gè)詞;基于理解的分詞是通過讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果; 基于統(tǒng)計(jì)的分詞方法只需對(duì)文本中的字組合頻度進(jìn)行統(tǒng)計(jì),達(dá)到分詞效果。

目前,分詞算法還沒有統(tǒng)一的標(biāo)準(zhǔn),由于中文中存在著歧義詞、同義詞等,不同句子會(huì)造成不同的含義,對(duì)分詞的精度產(chǎn)生一定的影響[11]。在語義識(shí)別感知上需要統(tǒng)一標(biāo)準(zhǔn),克服文字特點(diǎn)帶來的困難。

3.1.2 文本特征提取

文本特征感知是選擇特征、提取特征,進(jìn)行量化感知從而表達(dá)文本信息的過程。特征選擇[12]是從一組特征中選出一部分最有代表性的特征。特征提取可看作從文本空間到特征空間的一種映射或變換,它把從文本中抽取出來的特征詞進(jìn)行量化來表示文本的信息,通過抽象化文本使得電腦可識(shí)別存儲(chǔ)記憶。

特征的提取[13]一般是通過構(gòu)造一個(gè)特征評(píng)價(jià)函數(shù),把文本空間的數(shù)據(jù)投影到特征空間,得到在特征空間的值,然后根據(jù)特征空間的值對(duì)每個(gè)特征進(jìn)行評(píng)估,選擇值最高的若干個(gè)特征。常用的評(píng)估函數(shù)主要有文本頻率、互信息、信息增益、期望交叉熵、優(yōu)勢(shì)率、多類優(yōu)勢(shì)率、類別區(qū)分詞、文本證據(jù)權(quán)、基于詞頻差異的特征選取等。

在文本特征感知上,主要研究方向是處理向量高維度帶來的影響,通過降低特征空間的維數(shù),達(dá)到降低計(jì)算復(fù)雜度和提高分類的準(zhǔn)確率的目的。

3.2 文本感知

3.2.1 文本分類

文本分類是指在給定的分類體系下,根據(jù)文本的內(nèi)容將文本自動(dòng)分配到預(yù)先定義好的類別中。文本分類一般包括文本的表達(dá)、分類器的選擇與訓(xùn)練、分類結(jié)果的評(píng)價(jià)與反饋等過程[14]。通過文本分類技術(shù)可以對(duì)網(wǎng)絡(luò)上的海量文本數(shù)據(jù)進(jìn)行高效快速的整理,從中挖掘到用戶感興趣的相關(guān)信息,過濾用戶不需要的數(shù)據(jù),也便于后期對(duì)文本的檢索和處理。

目前,文本分類的方法[15]主要包括基于統(tǒng)計(jì)的文本分類方法、基于連接的分類方法、基于規(guī)則的文本分類方法。如表1所示是對(duì)各種分類方法的對(duì)比總結(jié)[16-18]。

隨著信息的表示形式越來越豐富,信息量越來越龐大,如何在大數(shù)據(jù)中對(duì)非結(jié)構(gòu)化文本進(jìn)行分類及提高各種分類方法的分類品質(zhì)成了研究重點(diǎn)。

3.2.2 文本聚類

文本聚類是數(shù)據(jù)挖掘的一個(gè)重要功能。文本聚類是采用某種方法將一個(gè)看似雜亂無章的文本集劃分成若干個(gè)組或者類的過程,并使得同一類別內(nèi)的文本都具有較大的關(guān)聯(lián)性或者相似度。

文本聚類算法可分為以下4類[19]:

1) 基于劃分的聚類,將n個(gè)文本劃分為k個(gè)簇,即將文檔進(jìn)行k個(gè)劃分,主要有K-means算法;

2) 基于層次的聚類,將文本集D劃分為k個(gè)不同層次的簇,形成新的聚類二叉樹;

3) 基于密度的聚類,如果文本集中的某個(gè)文本滿足最小閾值,則認(rèn)為該文本為密度中心,將在它密度范圍內(nèi)的其他文本歸類;

4) 基于網(wǎng)格的聚類,樣本空間由若干個(gè)單元組成的網(wǎng)格結(jié)構(gòu),進(jìn)行聚類操作時(shí),每個(gè)單元為最小操作對(duì)象,運(yùn)算時(shí)只考慮單元格的數(shù)量。

聚類感知作為一種無監(jiān)督的機(jī)器自動(dòng)學(xué)習(xí)方法,可以實(shí)現(xiàn)對(duì)大規(guī)模文本集的內(nèi)容概括、檢測(cè)垃圾郵件等功能,己成為文本信息組織、摘要的重要手段。

表1 分類技術(shù)對(duì)比總結(jié)

4 信息分析中的主動(dòng)感知技術(shù)

數(shù)據(jù)挖掘是輿情后期分析中必不可少的步驟,數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程[21],其中數(shù)據(jù)挖掘的主要功能[22]有數(shù)據(jù)總結(jié)、分類、聚類、關(guān)聯(lián)分析、預(yù)測(cè)、偏差分析。在輿情信息分析模塊中,主要是針對(duì)前期已處理好的數(shù)據(jù)進(jìn)行關(guān)聯(lián)性分析,進(jìn)行評(píng)估預(yù)測(cè)。主動(dòng)感知在數(shù)據(jù)挖掘上的應(yīng)用體現(xiàn)在關(guān)聯(lián)感知和預(yù)測(cè)感知兩個(gè)方面。

4.1 關(guān)聯(lián)感知

關(guān)聯(lián)感知是從數(shù)據(jù)背后發(fā)現(xiàn)事物之間可能存在的關(guān)聯(lián)或者聯(lián)系。對(duì)于商家,通過調(diào)查網(wǎng)絡(luò)信息中某類商品被討論的較多就可以發(fā)現(xiàn)這類商品的銷售程度;對(duì)于政府部門,通過挖掘信息之間背后隱藏的關(guān)系就可以順藤摸瓜發(fā)現(xiàn)事件爆發(fā)的源頭,抑制惡劣事件的蔓延。

關(guān)聯(lián)感知的原理[23]是尋找支持度和可信度分別大于用戶給定的最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。支持度是一個(gè)重要的度量,如果支持度很低,代表這個(gè)規(guī)則其實(shí)只是偶然出現(xiàn),基本沒有意義。因此,支持度通常用來刪除那些無意義的規(guī)則,而可信度則是對(duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。支持度和可信度描述了一個(gè)完整的關(guān)聯(lián)規(guī)則。較為經(jīng)典的關(guān)聯(lián)挖掘算法是Apriori,該算法先挖出所有的頻繁項(xiàng)集,然后產(chǎn)生關(guān)聯(lián)規(guī)則。

在全球一體化的今天,事件聯(lián)系越來越緊密,從一顆螺絲釘?shù)淖兓妥阋愿Q探社會(huì)發(fā)展的變化、經(jīng)濟(jì)的景氣程度,關(guān)聯(lián)感知的作用越來越明顯。關(guān)聯(lián)技術(shù)可以挖掘輿情各主體間的關(guān)系,從而得到更多信息,得到更為有效的判斷,為后期人們集群行為引導(dǎo)策略的制定提供一定的理論和實(shí)踐指導(dǎo)。目前,關(guān)聯(lián)感知的應(yīng)用較為廣泛,主要有銀行、金融數(shù)據(jù)分析、零售業(yè)、生物醫(yī)藥、入侵檢測(cè)和預(yù)防方面等[24]。

4.2 預(yù)測(cè)感知

從數(shù)據(jù)的走勢(shì)趨向預(yù)測(cè)事件下一步發(fā)生的狀況是預(yù)測(cè)感知主要目的。預(yù)測(cè)感知的主旨是預(yù)測(cè)模型,構(gòu)建預(yù)測(cè)模型是預(yù)測(cè)感知的主要內(nèi)容。

隨著研究的深入,預(yù)測(cè)模型越來越成熟可靠,大概可以分為兩類[25]:第一類是以現(xiàn)代科學(xué)技術(shù)和方法為主要研究手段而形成的預(yù)測(cè)模型,包括非參數(shù)回歸模型、KARIMA算法、基于小波理論的方法、基于多維分形的方法、譜分析方法、狀態(tài)空間重構(gòu)模型和多種與神經(jīng)網(wǎng)絡(luò)相結(jié)合的預(yù)測(cè)模型等,這類模型的共同特點(diǎn)是采用模型和方法,不追求嚴(yán)格意義上的數(shù)學(xué)推導(dǎo)和明確的物理意義,更重視對(duì)真實(shí)數(shù)據(jù)的擬合效果;第二類是以數(shù)理統(tǒng)計(jì)和微積分等傳統(tǒng)的數(shù)學(xué)和物理方法為基礎(chǔ)的預(yù)測(cè)模型,包括時(shí)間序列模型、卡爾曼濾波模型、參數(shù)回歸模型和指數(shù)平滑模型等。這類模型以數(shù)學(xué)推導(dǎo)公式對(duì)數(shù)據(jù)進(jìn)行模擬仿真,更重視結(jié)果的有效性。

隨著互聯(lián)網(wǎng)的快速發(fā)展,公眾在網(wǎng)絡(luò)上發(fā)表言論的活躍程度達(dá)到了前所未有的地步,對(duì)容易滋生社會(huì)輿情的輿情事件的發(fā)展態(tài)勢(shì)做出及時(shí)準(zhǔn)確的預(yù)測(cè)顯得越來越重要。數(shù)據(jù)挖掘中預(yù)測(cè)感知是實(shí)現(xiàn)主動(dòng)感知的重要功能,所建立的預(yù)測(cè)模型能夠判斷事件的走向趨勢(shì),為惡劣事件的蔓延提供解決的策略方案,有利于促進(jìn)社會(huì)的穩(wěn)定發(fā)展。

5 結(jié)論

互聯(lián)網(wǎng)的迅速發(fā)展使得網(wǎng)絡(luò)輿情成為一個(gè)重要的研究課題,本文對(duì)網(wǎng)絡(luò)輿情的主動(dòng)感知技術(shù)進(jìn)行初步探析,主要從信源的感知、內(nèi)容的感知、方法的感知三個(gè)方面闡明了主動(dòng)感知技術(shù)在網(wǎng)絡(luò)輿情上的應(yīng)用,為主動(dòng)感知技術(shù)的研究提供了一個(gè)通用性框架。隨著輿情研究的深入,對(duì)于輿情的需求也遠(yuǎn)遠(yuǎn)超過傳統(tǒng)的處理模式。在網(wǎng)絡(luò)輿情的研究中,針對(duì)不同主體的更高需求,將主動(dòng)感知技術(shù)運(yùn)用到輿情分析中,提高獲取信息的效率,增強(qiáng)數(shù)據(jù)挖掘的品質(zhì)。同時(shí)加強(qiáng)對(duì)輿情的自動(dòng)監(jiān)測(cè),實(shí)現(xiàn)輿情前的評(píng)估預(yù)測(cè),滿足不同主體對(duì)輿情的主動(dòng)感知需求。

[1] 劉毅.網(wǎng)絡(luò)輿情研究概論[M].天津:天津人民出版社,2007.

[2] 黃洪,劉增良,余達(dá)太,等.一種具有免疫特征的智能數(shù)據(jù)分類分級(jí)模型[J].兵工學(xué)報(bào),2010,31(12):1567-1572.

[3] 黃煒,姚嘉威.網(wǎng)絡(luò)輿情事件的主動(dòng)感知實(shí)踐[J].現(xiàn)代情報(bào),2015,35(10):7-11.

[4] 劉坤.基于微博的網(wǎng)絡(luò)輿情事件主動(dòng)感知研究[D].武漢:湖北工業(yè)大學(xué),2015.

[5] 史瑞芳.網(wǎng)頁正文信息抽取新方法[J].通訊世界,2015(19):210-211.

[6] 郭喜躍,何婷婷.信息抽取研究綜述[J].計(jì)算機(jī)科學(xué),2015,42(2):14-17.

[7] 王星.新聞網(wǎng)頁抽取技術(shù)的研究與實(shí)現(xiàn)[D].天津:河北工業(yè)大學(xué),2011.

[8] 羅一紓.微博爬蟲的相關(guān)技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013.

[9] 李恒訓(xùn),張華平,劉金剛.WWW論壇采集關(guān)鍵技術(shù)研究[J].微計(jì)算機(jī)信息,2010,26(24):106-107.

[10]馮晉,李春平.基于統(tǒng)計(jì)學(xué)和語義信息的中文文本主題識(shí)別技術(shù)[C]//全國(guó)搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會(huì),2005.

[11]WANG H,ZHU J,TANG S,et al.A New Unsupervised Approach to Word Segmentation[J].Computational Linguistics,2011,37(3):421-454.

[12]方興東 熊劍.網(wǎng)絡(luò)輿情藍(lán)皮書[M].北京:電子工業(yè)出版社,2015.

[13]馬力,劉惠福.一種改進(jìn)的文本特征提取算法[J].西安郵電大學(xué)學(xué)報(bào),2015,20(6):79-81.

[14]LEWIS DD.Feature selection and feature extraction for text categorization[C]//Proceedings of Speech and Natural Language Workshop,San Francisco,USA,1992.

[15]曹歡歡,林洋港,陳恩紅,等.文本分類方法:CN 101587493 B[P].2012.

[16]賈帆,馬燕,王節(jié),等.應(yīng)用Web技術(shù)的圖書管理系統(tǒng)[J].重慶理工大學(xué)(自然科學(xué)),2013(8):76-79.

[17]黃章樹,葉志龍.基于改進(jìn)的CHI統(tǒng)計(jì)方法在文本分類中的應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(11):136-140.

[18]賀科達(dá),朱錚濤,程昱.基于改進(jìn)TF-IDF算法的文本分類方法研究[J].廣東工業(yè)大學(xué)學(xué)報(bào),2016,33(5):49-53.

[19]沈競(jìng),蔣僑.DSTFA分布式短文本過濾算法[J].四川兵工學(xué)報(bào),2011,32(10):151-153.

[20]李春青.文本聚類算法研究[J].軟件導(dǎo)刊,2015(1):74-76.

[21]李元彬.數(shù)據(jù)挖掘技術(shù)在工程項(xiàng)目成本預(yù)測(cè)中的應(yīng)用[J].四川兵工學(xué)報(bào),2009,30(1):146-148.

[22]李健,劉治紅,蔣飛.一種基于智能視覺的群體性事件現(xiàn)場(chǎng)態(tài)勢(shì)感知技術(shù)[J].兵工自動(dòng)化,2015(6):60-65.

[23]郭海濤,段禮祥,閆春穎.數(shù)據(jù)挖掘方法綜述[C]//2009國(guó)際信息技與應(yīng)用論壇, 2009.

[24]閆昱潔,宋宇辰.淺談數(shù)據(jù)挖掘中的關(guān)聯(lián)分析[J].科技、經(jīng)濟(jì)、市場(chǎng),2015(2):138-139.

[25]高輝,王沙沙,傅彥.Web輿情的長(zhǎng)期趨勢(shì)預(yù)測(cè)方法[J].電子科技大學(xué)學(xué)報(bào),2011,40(3):440-445.

(責(zé)任編輯 楊繼森)

Analysis on Active Perception Technology of Network Public Opinion

ZHENG Buqinga, ZOU Hongxiab, WANG Linb, WANG Zhena

(a.Company of Postgraduate Management; b.Department of Information Equipment,Academy of Equipment, Beijing 101416, China)

Aiming at the one-sidedness of active perception technology research in network public opinion, and the ambiguity of active perception, this paper makes a preliminary analysis of active sensing technology. According to the main process of public opinion analysis, based on the information acquisition, processing and analysis module, the technical principle and difficulties are discussed from three aspects: perceived source, perceived content and perceived method. The perceived source is mainly divided into page perception, micro blogging perception and forum perception. The perceived content mainly has semantic perception and text perception. The perceived methods mainly have correlation perception and predictive perception. The active perception technology in all aspects of network public opinion makes a frame description of active perception technology.

network public opinion; active perception technology; perceived sources; perceived content; perceived method

2017-03-20;

2017-05-15

鄭步青(1993—),男,碩士研究生,主要從事輿情數(shù)據(jù)處理研究。

10.11809/scbgxb2017.08.028

format:ZHENG Buqing, ZOU Hongxia, WANG Lin, et al.Analysis on Active Perception Technology of Network Public Opinion[J].Journal of Ordnance Equipment Engineering,2017(8):131-135.

G201

A

2096-2304(2017)08-0131-05

本文引用格式:鄭步青,鄒紅霞,王琳,等.網(wǎng)絡(luò)輿情主動(dòng)感知技術(shù)探析[J].兵器裝備工程學(xué)報(bào),2017(8):131-135.

猜你喜歡
分詞輿情聚類
結(jié)巴分詞在詞云中的應(yīng)用
基于DBSACN聚類算法的XML文檔聚類
值得重視的分詞的特殊用法
輿情
輿情
輿情
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
微博的輿情控制與言論自由
衡水市| 北安市| 剑阁县| 沙湾县| 镇巴县| 城口县| 盐城市| 临夏市| 凤台县| 宾阳县| 阳高县| 庆云县| 阿图什市| 海盐县| 安阳县| 贵阳市| 南开区| 如东县| 苏尼特左旗| 石渠县| 崇信县| 琼中| 松桃| 武鸣县| 岳池县| 犍为县| 婺源县| 河北省| 凤庆县| 武义县| 彰化县| 舟山市| 拉萨市| 内乡县| 河北区| 宜兴市| 军事| 鄯善县| 福海县| 洛隆县| 岳阳市|