国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于熱點文件下載的網(wǎng)絡(luò)輿情信息挖掘方法研究

2014-04-29 11:19:37楊琳張德賢唐亞娟
中國新通信 2014年14期
關(guān)鍵詞:網(wǎng)絡(luò)輿情曲線

楊琳 張德賢 唐亞娟

【摘要】 網(wǎng)絡(luò)信息量的逐年增長,使得獲取網(wǎng)絡(luò)敏感的輿情信息并做出相應(yīng)的監(jiān)控處理變得十分重要,網(wǎng)絡(luò)輿情信息挖掘技術(shù)研究十分活躍。本文介紹輿情挖掘步驟及其核心算法,分析互聯(lián)網(wǎng)熱點文件下載曲線與網(wǎng)絡(luò)輿情發(fā)展曲線的關(guān)聯(lián),通過關(guān)聯(lián)關(guān)系對互聯(lián)網(wǎng)文件下載數(shù)據(jù)進(jìn)行信息挖掘,從中找出是否存在符合曲線發(fā)展規(guī)律的熱點文件,最終將文件的主題與當(dāng)時的網(wǎng)絡(luò)輿情信息進(jìn)行比對,對結(jié)果進(jìn)行驗證,為網(wǎng)絡(luò)輿情的監(jiān)測提出了一種新的方法。

【關(guān)鍵詞】 熱點文件 下載數(shù)據(jù) 曲線 網(wǎng)絡(luò)輿情 信息挖掘

隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息變得多樣化,網(wǎng)絡(luò)的虛擬性、隱蔽性、開放性等特點,使網(wǎng)絡(luò)輿情信息僅靠人工統(tǒng)計監(jiān)測更加困難。因此,如何從海量的網(wǎng)絡(luò)數(shù)據(jù)中自動提取數(shù)據(jù),成為國內(nèi)外學(xué)者研究的熱點。近年來,網(wǎng)絡(luò)輿情信息挖掘技術(shù)作為一種跨學(xué)科技術(shù)受到人們越來越多的關(guān)注,其應(yīng)用范圍被用于信息安全、主題跟蹤、熱點話題檢測與預(yù)警等方面。本文基于網(wǎng)絡(luò)輿情信息挖掘技術(shù),通過分析熱點文件發(fā)展曲線與輿情文件發(fā)展曲線的特點,對下載數(shù)據(jù)進(jìn)一步挖掘分析,為網(wǎng)絡(luò)輿情的監(jiān)測提供了一種新的參考。

一、信息挖掘步驟

首先介紹互聯(lián)網(wǎng)文件下載的網(wǎng)絡(luò)輿情信息挖掘的主要步驟,其流程圖如下:

圖1 網(wǎng)絡(luò)輿情信息挖掘流程

如上圖(圖1)所示,基于互聯(lián)網(wǎng)文件下載的網(wǎng)絡(luò)輿情信息挖掘共分3個步驟:樣本數(shù)據(jù)的準(zhǔn)備階段、樣本數(shù)據(jù)的訓(xùn)練階段、測試數(shù)據(jù)的挖掘階段,最終得到數(shù)據(jù)挖掘結(jié)果。下面針對各個階段的內(nèi)容進(jìn)行介紹[1]。

1.1 樣本數(shù)據(jù)準(zhǔn)備階段

采集一段時間內(nèi)的互聯(lián)網(wǎng)文件下載的數(shù)據(jù),并將其分為兩類:一類是包含輿情主題的熱點文件,它包含當(dāng)時相關(guān)的輿情主題,其發(fā)展曲線也和網(wǎng)絡(luò)輿情發(fā)展曲線類似。一類是普通下載文件,它是任何類型文件,其下載發(fā)展曲線較平穩(wěn),沒有熱點文件的特征。

1.2 樣本數(shù)據(jù)的訓(xùn)練階段

根據(jù)采集的樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘訓(xùn)練,形成訓(xùn)練集,該訓(xùn)練集將成為后續(xù)測試數(shù)據(jù)信息挖掘的分類評判標(biāo)準(zhǔn)。

1.3 測試數(shù)據(jù)信息挖掘階段

對大量的互聯(lián)網(wǎng)文件下載的數(shù)據(jù)進(jìn)行信息挖掘,分類的評判標(biāo)準(zhǔn)采用上一階段所生成的訓(xùn)練集,將所有測試數(shù)據(jù)進(jìn)行分類。信息挖掘過后對于每個互聯(lián)網(wǎng)下載文件將產(chǎn)生一個類型標(biāo)簽,代表該下載文件是屬于互聯(lián)網(wǎng)熱點文件還是普通下載文件。

二、網(wǎng)絡(luò)輿情信息挖掘技術(shù)

根據(jù)信息挖掘步驟,網(wǎng)絡(luò)輿情挖掘技術(shù)分為爬蟲技術(shù)、網(wǎng)頁解析技術(shù)、分類技術(shù)、聚類技術(shù)及數(shù)據(jù)處理技術(shù)。其中常用的分類技術(shù)有中心法(向量空間模型)、樸素貝葉斯分類、支持向量機(jī)(SVM)、K最近鄰算法(KNN)等。下面將主要介紹本文選用的KNN算法。

KNN 算法是一種非參數(shù)分類算法,現(xiàn)已廣泛應(yīng)用于數(shù)據(jù)挖掘的各種領(lǐng)域[2]。算法的基本思想可以簡單定義為:假定每一個類包含多個數(shù)據(jù)樣本,每個數(shù)據(jù)都有唯一的類標(biāo)記表示這些樣本屬于哪一個分類。通過計算待分類的樣本x與訓(xùn)練樣本中每個文本的相似度,找出與x最接近的k個樣本,然后根據(jù)這k個樣本的類別標(biāo)簽確定x的類別。

KNN算法的優(yōu)點:首先,原理簡單,易于實現(xiàn);其次,KNN雖遵守極限定理,但是待分類文本只與相近樣本有關(guān),因此很好的避免了樣本不平衡,同時相似度根據(jù)樣本的所有特征值計算,也減少了由于特征選擇不當(dāng)造成的誤差。

然而,KNN本質(zhì)上屬于一種懶惰的學(xué)習(xí)方法,當(dāng)數(shù)據(jù)分布不均勻、傾斜現(xiàn)象嚴(yán)重時,大類別樣本的特征參數(shù)出現(xiàn)的頻率增長,這會影響KNN分類的性能。同時,KNN的相似度需要對待分類樣本與訓(xùn)練樣本逐個計算,因此,距離機(jī)制是KNN算法實現(xiàn)的關(guān)鍵[3]。

三、基于熱點文件下載的相似度計算

直觀分析熱點文件下載曲線和網(wǎng)絡(luò)輿情發(fā)展曲線(如圖2),對兩條曲線進(jìn)行相似度計算,這里引入增長率、增長向量、曲線相似度的概念。

其中,上式中Rise(t1|t2)為從tl到t2這段時間的曲線增長率,Numt1為tl時間點的數(shù)量,Numt2為t2時間點的數(shù)量,通過計算增長率完成單純的增長情況的目的[4]。

3.2增長向量:在計算出兩條曲線每日的增長率后,以曲線的一個周期時間為向量的維數(shù)。從曲線圖(圖3)中可以看出,設(shè)定曲線的周期為30天,由此定義一條曲線的增長向量如下:

其中,上式中Rise(ti|tj)代表ti到tj這段時間的增長率,所以上式中增長率向量GN表示的是30天內(nèi)曲線的增長情況。

3.3曲線相似度:常用計算相似度的算法有余弦夾角、內(nèi)積、Jaccard系數(shù)等。余弦相似度就是簡單的對每個文檔的向量進(jìn)行單位化,然后進(jìn)行內(nèi)積計算,得出的結(jié)果可以嚴(yán)格控制在[0,1]之間,這不僅易于判斷,而且降低了處理較大數(shù)據(jù)的計算代價[5]。因此,余弦相似度在目前得到了廣泛的應(yīng)用。余弦夾角計算相似度的公式如下:

(I)

這里,DN代表熱點文件的曲線向量,RN代表網(wǎng)絡(luò)輿情的曲線向量。根據(jù)兩條曲線的相似度進(jìn)行計算,兩條曲線的增長向量如下:

DN = ( 5.0000, 2.3333, 1.0000, 1.5000, 0.6358, 0.5000, 0.3333, 0.3750, 0.2727, 0.2857, 0.3889, 0.1600, 0.0690, 0.0484, 0.0309, 0.0149, 0.0296, 0.0146, 0.0136, 0.0286, 0.0069, 0.0130, 0.0070, 0.0042, 0.0040, 0.0069, 0.0052, 0.0063, 0.0016);

RN = (4.0000, 1.4000, 0.7500, 0.4286, 0.3000, 0.2308, 0.1875, 0.0947, 0.6899, 0.8397, 0.5869, 0.4426, 0.3947, 0.3200, 0.2564, 0.0126, 0.0968, 0.0769, 0.0635, 0.0536, 0.0536, 0.0432, 0.0369, 0.0210, 0.0128, 0.0048, 0.0053, 0.0045, 0.0043)

計算得出熱點文件與網(wǎng)絡(luò)輿情文件的曲線相似度:

可以看出,兩條曲線在增長趨勢上有著很大的相似性,曲線發(fā)展趨勢大致相同,因此兩者間存在著相應(yīng)的聯(lián)系,通過對熱點文件數(shù)據(jù)進(jìn)行分析,可以判別出其相應(yīng)的輿情發(fā)展趨勢,對于輿情信息挖掘具有重要的作用。

3.4基于KNN算法及曲線相似度的改進(jìn),得到對熱點文件下載的網(wǎng)絡(luò)輿情挖掘算法的步驟如下:

(1)計算出待分類數(shù)據(jù)和樣本數(shù)據(jù)的距離,即曲線相似度,計算公式為公式(I)。

(2)在計算出的距離后找出10個離這個待分類數(shù)據(jù)最近的樣本數(shù)據(jù)。

(3)統(tǒng)計出這10個樣本數(shù)據(jù)大多屬于的分類。

(4)這個分類就是這個待分類樣本數(shù)據(jù)所屬的分類。

四、輿情挖掘?qū)嶒炁c結(jié)果

將輿情挖掘步驟與輿情挖掘算法應(yīng)用在WEKA平臺。WEKA集合大量機(jī)器學(xué)習(xí)算法,包括數(shù)據(jù)的預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。同時,實驗階段采用的是SQL Server2005。

下面利用測試數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,得到測試數(shù)據(jù)的各個分類標(biāo)簽,即該文件是屬于網(wǎng)絡(luò)輿情文件或者普通文件。從屬于網(wǎng)絡(luò)輿情文件的結(jié)果中找到屬于符合輿情發(fā)展類的數(shù)據(jù),查看其文件主題可以得到如下(表1):

可以看出,基于熱點文件下載所得的挖掘結(jié)果(表1)中,如“白靜事件”等均與2012年3月份的網(wǎng)絡(luò)輿情熱點(表2)相符,說明基于熱點文件下載數(shù)據(jù)可以挖掘出相應(yīng)輿情信息。將挖掘結(jié)果分析如下:

第一,能夠根據(jù)互聯(lián)網(wǎng)下載數(shù)據(jù)挖掘出正確的網(wǎng)絡(luò)輿情。這類網(wǎng)絡(luò)輿情可以通過互聯(lián)網(wǎng)下載數(shù)據(jù)挖掘得出,該類網(wǎng)絡(luò)輿情通過互聯(lián)網(wǎng)下載文件進(jìn)行傳播,人們對該文件下載以及上傳達(dá)到傳播的目的。

第二,不能根據(jù)互聯(lián)網(wǎng)下載數(shù)據(jù)挖掘出正確的網(wǎng)絡(luò)輿情。該類網(wǎng)絡(luò)輿情無法從互聯(lián)網(wǎng)下載數(shù)據(jù)中挖掘出來,例如表2中的“麥當(dāng)勞過期食品遭央視3.15曝光”等。其原因是這類輿情主要通過網(wǎng)頁傳播,一些新聞網(wǎng)站對其進(jìn)行大量報道,導(dǎo)致不能根據(jù)下載數(shù)據(jù)準(zhǔn)確的將其挖掘出來。

第三,根據(jù)互聯(lián)網(wǎng)下載數(shù)據(jù)挖掘出錯誤的網(wǎng)絡(luò)輿情結(jié)果。這類輿情的文件下載發(fā)展曲線雖然符合網(wǎng)絡(luò)輿情的發(fā)展,但并不是網(wǎng)絡(luò)輿情。如表1中“大偵探福爾摩斯2:詭影游戲.rmvb”等,它們屬于電影類文件,不能表現(xiàn)為網(wǎng)絡(luò)輿情主題,所以是錯誤的挖掘結(jié)果。其原因可能是由于某時刻的熱點電影類文件的突發(fā)出現(xiàn),但其數(shù)量較少,可進(jìn)行過濾操作。

五、結(jié)束語

在網(wǎng)絡(luò)輿情信息挖掘的技術(shù)的基礎(chǔ)上,本文結(jié)合熱點文件的下載與網(wǎng)絡(luò)輿情關(guān)聯(lián)的分析,歸納對比兩者發(fā)展曲線尋找其中關(guān)聯(lián),對KNN算法的距離公式進(jìn)行研究,使得更適用熱點文件下載的網(wǎng)絡(luò)輿情信息挖掘。針對采集的互聯(lián)網(wǎng)文件下載數(shù)據(jù),通過對熱點文件下載的進(jìn)一步挖掘,尋找其中的網(wǎng)絡(luò)輿情主題,分析最后的挖掘結(jié)果,為網(wǎng)絡(luò)輿情監(jiān)測提供了新的參考。

參考文獻(xiàn)

[1]吳健.基于Hadoop的上市公司輿情挖掘系統(tǒng)的研究與實現(xiàn)[D].電子科技大學(xué)2013

[2] Yang Y, An evaluation of statistical approaches to text categorization[J].Information Retrieval, 1999, 1(1): 76 -88

[3]周靖,劉晉勝.一種采用類相關(guān)度優(yōu)化距離的KNN算法[J].微計算機(jī)應(yīng)用.2010.第31卷-第11期

[4]鄭燕.基于增量學(xué)習(xí)的自適應(yīng)話題追蹤技術(shù)研究[D].山東師范大學(xué)2013

[5]劉恒文.基于網(wǎng)絡(luò)語義挖掘的輿情監(jiān)測預(yù)警研究[D].武漢理工大學(xué)2010

[6]周小麗.基于網(wǎng)絡(luò)爬蟲和Lucene索引的互聯(lián)網(wǎng)輿情監(jiān)測系統(tǒng)設(shè)計與實現(xiàn)[D].吉林大學(xué)2013

[7]衣波.網(wǎng)絡(luò)輿情信息的話題發(fā)現(xiàn)和追蹤技術(shù)的研究與應(yīng)用[D].廣東工業(yè)大學(xué)2013

[8]梁越嶺.互聯(lián)網(wǎng)輿情信息挖掘與群體行為分析[D].武漢理工大學(xué)2010

[9]唐勇.互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)的設(shè)計與實現(xiàn)[D].北京郵電大學(xué)2013

[10]周民.海量web輿情挖掘算法研究[D].電子科技大學(xué)2011

[11]曾奉堯.基于社會網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情挖掘技術(shù)與研究[D].電子科技大學(xué)2011

猜你喜歡
網(wǎng)絡(luò)輿情曲線
未來訪談:出版的第二增長曲線在哪里?
出版人(2022年8期)2022-08-23 03:36:50
幸福曲線
英語文摘(2020年6期)2020-09-21 09:30:40
沿平坦凸曲線Hilbert變換的L2有界性
網(wǎng)絡(luò)輿情事件的引導(dǎo)策略分析
數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情管理中的研究
“互聯(lián)網(wǎng)+”背景下高校平安校園建設(shè)研究
中國市場(2016年38期)2016-11-15 23:42:46
淺析網(wǎng)絡(luò)輿情治理
基于社會穩(wěn)定視角的網(wǎng)絡(luò)輿情預(yù)警機(jī)制構(gòu)建的思考
今傳媒(2016年9期)2016-10-15 22:02:52
突發(fā)事件網(wǎng)絡(luò)輿情的演化規(guī)律與監(jiān)控
夢寐以求的S曲線
Coco薇(2015年10期)2015-10-19 12:42:05
崇义县| 龙陵县| 建昌县| 全椒县| 宁蒗| 鹤峰县| 金湖县| 巫溪县| 辽源市| 万山特区| 苏尼特右旗| 平陆县| 福鼎市| 台中市| 廊坊市| 靖宇县| 襄城县| 酒泉市| 华池县| 永寿县| 桃园县| 子长县| 浠水县| 桐柏县| 缙云县| 荃湾区| 汝城县| 赣榆县| 尖扎县| 光山县| 南阳市| 错那县| 湖南省| 额济纳旗| 合川市| 文安县| 霞浦县| 南昌县| 阿拉善右旗| 巢湖市| 龙门县|