国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于情感分析的惡意發(fā)帖檢測(cè)方法研究

2014-04-23 05:06:24鄒明
電腦知識(shí)與技術(shù) 2014年7期
關(guān)鍵詞:聚類分類

鄒明

摘要:隨著移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來,針對(duì)各大網(wǎng)站產(chǎn)生的海量發(fā)帖信息,該文設(shè)計(jì)了一個(gè)惡意發(fā)帖檢測(cè)系統(tǒng),將海量的帖子進(jìn)行分析整理,找到惡意發(fā)帖信息。本系統(tǒng)采用文本情感分析和數(shù)據(jù)挖掘技術(shù),對(duì)互聯(lián)網(wǎng)中的帖子信息進(jìn)行分類整理,建立帖子庫(kù),接著對(duì)帖子進(jìn)行文本情感分析,聚類惡意發(fā)帖信息,最后采用SVM算法對(duì)惡意發(fā)帖進(jìn)行分類,識(shí)別出具體的惡意發(fā)帖并進(jìn)行預(yù)警處理,具有較高的實(shí)際應(yīng)用價(jià)值。

關(guān)鍵詞:惡意發(fā)帖檢測(cè);文本情感分析;SVM;分類;聚類

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)07-1403-04

隨著互聯(lián)網(wǎng)( Internet)的蓬勃發(fā)展,網(wǎng)絡(luò)作為一種新的媒介形式,已被人們廣泛使用。互聯(lián)網(wǎng)的發(fā)展過程“是一個(gè)時(shí)時(shí)處處有人參與的、不斷演化的、自適應(yīng)的、不斷涌現(xiàn)出新的整體特性的過程,是一個(gè)開放的、人在其中與社會(huì)系統(tǒng)緊密耦合的復(fù)雜巨系統(tǒng)[1]”,其業(yè)務(wù)流量自相似、拓?fù)浣Y(jié)構(gòu)無尺度等特性的發(fā)現(xiàn)為人們正確認(rèn)識(shí)和管理互聯(lián)網(wǎng)起到了重要作用。

網(wǎng)絡(luò)論壇是網(wǎng)絡(luò)輿論形成的一股重要力量,廣大網(wǎng)民通過網(wǎng)絡(luò)來表達(dá)觀點(diǎn),一旦遇到社會(huì)熱點(diǎn)問題,瞬間就能形成巨大網(wǎng)絡(luò)的輿論。網(wǎng)民通過“發(fā)帖”發(fā)表意見、參與輿論形成,與論壇網(wǎng)站共同構(gòu)成了人機(jī)結(jié)合的虛擬系統(tǒng)[2]。以網(wǎng)絡(luò)水軍為主體的惡意發(fā)帖能主導(dǎo)輿論走勢(shì),產(chǎn)生錯(cuò)誤的輿論導(dǎo)向以及消極的影響,所以對(duì)惡意發(fā)帖的檢測(cè)就顯得尤為重要。

本文通過對(duì)大量論壇發(fā)帖信息進(jìn)行收集分析,形成帖子庫(kù),并對(duì)帖子內(nèi)容進(jìn)行文本情感分析,產(chǎn)生惡意發(fā)帖聚類,接著使用支持向量機(jī)(SVM)對(duì)惡意帖子進(jìn)行分類,實(shí)時(shí)產(chǎn)生預(yù)警信息,并對(duì)發(fā)帖源頭進(jìn)行干預(yù)。

1 理論背景

基于情感分析的惡意發(fā)帖檢測(cè)系統(tǒng)的分析與研究中,涉及到的理論主要有三個(gè)方面,分別是數(shù)據(jù)挖掘技術(shù),文本情感分析和支持向量機(jī)。

1.1 數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘(Data Mining,DM)又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discover in Database,KDD),是目前人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的過程[3]。

數(shù)據(jù)挖掘的分類、聚類、關(guān)聯(lián)規(guī)則、預(yù)測(cè)算法能很好的應(yīng)用到惡意發(fā)帖的分析檢測(cè)與追蹤之中。主要處理如下:

1) 可以對(duì)帖子庫(kù)中的惡意帖子根據(jù)惡意的等級(jí)不同進(jìn)行分類處理;

2) 可以對(duì)惡意帖子進(jìn)行聚類分析,找出它們的團(tuán)伙關(guān)系;

3) 利用關(guān)聯(lián)規(guī)則,找出發(fā)帖人與不同帖子之間的關(guān)聯(lián)關(guān)系;

4) 利用預(yù)測(cè)技術(shù)預(yù)測(cè)出哪些發(fā)帖人有惡意發(fā)帖的趨勢(shì);

5) 利用帖子間的文本的近似的比對(duì),找出某個(gè)人多次改變手法發(fā)帖。

1.2 文本情感分類

文本情感分類是指通過挖掘和分析文本中的立場(chǎng)、觀點(diǎn)、看法、好惡等主觀信息,對(duì)文本的情感傾向做出類別判斷[4]。文本情感分析使用文本極性分析將帖子分為正面或負(fù)面,論壇發(fā)帖文本情感分析具體工作流程如圖1所示。

1) 觀點(diǎn)摘要。從一個(gè)或若干包含主觀性信息的文本文檔中概述出其中主觀性信息的主要內(nèi)容?;谟^點(diǎn)的摘要分為兩種,一種是單文檔摘要,另一種是多文檔摘要。

2) 文本極性分類。針對(duì)給定的文本,使用情感分類方法,識(shí)別其中主觀性信息的傾向是正面還是負(fù)面的。Naive Bayes、最大熵分類(Maximum Entropy Classification)和支持向量機(jī)是常用的情感分類方法。

3) 主觀和客觀識(shí)別或分類。識(shí)別文本是對(duì)事實(shí)的描述(客觀的文本)還是包含有意見、評(píng)價(jià)等主觀性信息(主觀性文本)。

1.3 支持向量機(jī)

支持向量機(jī)(SVM)是由Vapnik在1963年解決模式識(shí)別問題時(shí)提出了支持向量方法,這種方法從訓(xùn)練集中選擇一組特征子集,使得對(duì)特征子集的劃分等價(jià)于對(duì)整個(gè)數(shù)據(jù)集的劃分[5]。

SVM從線性可分情況下的最優(yōu)分類面發(fā)展而來,廣泛應(yīng)用于數(shù)據(jù)分類、手寫識(shí)別等領(lǐng)域。SVM考慮尋找一個(gè)滿足分類要求的超平面,并且使訓(xùn)練集中的點(diǎn)距離分類面盡可能的遠(yuǎn),也就是尋找一個(gè)分類面使它兩側(cè)的空白區(qū)域(Margin)最大。

3 系統(tǒng)功能分析

整個(gè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),包括網(wǎng)絡(luò)發(fā)帖采集系統(tǒng),網(wǎng)絡(luò)發(fā)帖傾向性分析,惡意發(fā)帖分析檢測(cè)引擎和惡意發(fā)帖分析監(jiān)測(cè)與監(jiān)控追蹤系統(tǒng),下面就四個(gè)系統(tǒng)的功能進(jìn)行分析。

3.1網(wǎng)絡(luò)發(fā)帖采集系統(tǒng)

網(wǎng)絡(luò)發(fā)帖采集系統(tǒng)主要功能是完成網(wǎng)絡(luò)發(fā)帖數(shù)據(jù)的實(shí)時(shí)采集整理,其中負(fù)責(zé)采集數(shù)據(jù)的是網(wǎng)絡(luò)爬蟲,其運(yùn)行具體步驟如下:

1) 用戶通過配置管理界面配置爬蟲的數(shù)據(jù)源、頁(yè)面解析邏輯、數(shù)據(jù)存取邏輯和高級(jí)設(shè)置,配置數(shù)據(jù)將保存在爬蟲配置數(shù)據(jù)庫(kù)中;

2) 用戶在數(shù)據(jù)抓取監(jiān)控界面開始運(yùn)行數(shù)據(jù)抓取任務(wù)時(shí),系統(tǒng)通過讀取頁(yè)面表中配置數(shù)據(jù)利用爬蟲裝配器組裝爬蟲執(zhí)行體,讀取高級(jí)配置爬蟲控制器為爬蟲執(zhí)行體分配執(zhí)行線程、URL隊(duì)列等運(yùn)行時(shí)參數(shù),爬蟲將在爬蟲控制器的管理下運(yùn)行,可進(jìn)行任務(wù)調(diào)度、定時(shí)執(zhí)行、自動(dòng)更新、實(shí)時(shí)監(jiān)控等操作;

3) 爬蟲抓取的數(shù)據(jù)將根據(jù)配置自動(dòng)保存到相應(yīng)數(shù)據(jù)庫(kù)中,用戶可以通過數(shù)據(jù)庫(kù)管理界面進(jìn)行查看、導(dǎo)出等操作。

3.2網(wǎng)絡(luò)發(fā)帖傾向性分析

網(wǎng)絡(luò)發(fā)帖傾向性分析主要文本情感分析的方法進(jìn)行帖子分析,因?yàn)橐粋€(gè)發(fā)帖主體可能在多個(gè)評(píng)論地點(diǎn)(論壇)上進(jìn)行評(píng)論,本系統(tǒng)在文檔情感分析的基礎(chǔ)上,結(jié)合語義傾向,基于LDA模型,使用SVM方法對(duì)惡意發(fā)帖進(jìn)行分類。其具體算法流程描述如下。

1) 文檔集合預(yù)處理。將每個(gè)文檔中的文本分割為句子,以句子為單位進(jìn)行詞性標(biāo)注,得到句子中每個(gè)詞的詞性。

2) LDA構(gòu)建。將句子集合中的每個(gè)句子當(dāng)作LDA模型中的文檔,為整個(gè)句子文檔集合建立一個(gè)LDA模型。

3) 主題重要度計(jì)算。根據(jù)LDA模型得到句子的主題分布和主題詞匯分布,計(jì)算每個(gè)潛在主題的重要度。

4) 句子重要度計(jì)算。根據(jù)主題重要度,結(jié)合主題詞分布和語義傾向,計(jì)算主題中每個(gè)句子的權(quán)重。

5) 語句排序。根據(jù)句子權(quán)重對(duì)句子進(jìn)行排序,如果權(quán)重相同,非停用詞在句子占比重大的排在前面。

6) 帖子分類。按照句子排序順序結(jié)果使用SVM方法對(duì)帖子的惡意情況進(jìn)行分類。

3.3惡意發(fā)帖分析檢測(cè)引擎

惡意發(fā)帖分析檢測(cè)引擎為本系統(tǒng)的核心,其主要包括以下功能:熱點(diǎn)識(shí)別能力、自動(dòng)分類、聚類分析、傾向性分析與統(tǒng)計(jì)、主題跟蹤、信息自動(dòng)摘要功能、截取證據(jù)、趨勢(shì)分析、突發(fā)事件分析、報(bào)警系統(tǒng)、統(tǒng)計(jì)報(bào)告。

惡意發(fā)帖分析檢測(cè)的核心技術(shù)在于惡意發(fā)帖分析檢測(cè)引擎,涉及最主要的技術(shù)包括文本分類、聚類、觀點(diǎn)傾向性識(shí)別、主題檢測(cè)與跟蹤等技術(shù)。惡意發(fā)帖分析檢測(cè)引擎是惡意發(fā)帖分析與檢測(cè)系統(tǒng)的核心,主要功能如下:

1) 熱點(diǎn)(敏感)話題識(shí)別與追蹤。利用關(guān)鍵詞布控和語義分析,識(shí)別敏感話題。

2) 情感傾向分析。對(duì)于每個(gè)話題,對(duì)每個(gè)發(fā)貼人發(fā)表帖子的觀點(diǎn)、傾向性(正負(fù)面、褒貶義)進(jìn)行分析與統(tǒng)計(jì)。

3) 主題跟蹤。分析新發(fā)表文章、貼子的話題是否與已有主題相同。

4) 帖子自動(dòng)摘要。對(duì)各類主題,各類傾向能夠形成自動(dòng)摘要。

5) 發(fā)帖趨勢(shì)分析。分析某個(gè)主題在不同的時(shí)間段內(nèi),網(wǎng)民的關(guān)注程度。

6) 突發(fā)事件分析。對(duì)突發(fā)事件進(jìn)行跨時(shí)間、跨空間綜合分析,獲知事件發(fā)生的全貌并預(yù)測(cè)事件發(fā)展的趨勢(shì)。

7) 實(shí)時(shí)預(yù)警。對(duì)突發(fā)事件、涉及敏感話題及時(shí)發(fā)現(xiàn)并發(fā)出預(yù)警信息。

8) 統(tǒng)計(jì)報(bào)告。根據(jù)輿情分析引擎處理后的結(jié)果庫(kù)生成報(bào)告,用戶可以瀏覽、檢索。根據(jù)指定條件對(duì)熱點(diǎn)話題、傾向性進(jìn)行查詢,提供決策支持。

3.4惡意發(fā)帖分析監(jiān)測(cè)與追蹤系統(tǒng)

惡意發(fā)帖分析監(jiān)測(cè)與追蹤系統(tǒng)主要是對(duì)指定網(wǎng)站的帖子進(jìn)行數(shù)據(jù)采集存儲(chǔ)到數(shù)據(jù)庫(kù)中,再對(duì)庫(kù)中的帖子情況進(jìn)行分析,實(shí)現(xiàn)實(shí)時(shí)監(jiān)測(cè)和追蹤。主要功能如下:

1) 對(duì)庫(kù)中的帖子提取關(guān)鍵詞,進(jìn)行文本傾向性分析。

2) 根據(jù)極性不一樣,利用分類算法為帖子指定不同的惡意等級(jí),并根據(jù)等級(jí)不一樣發(fā)布不同的預(yù)警信息。

3) 利用聚類算法對(duì)帖子實(shí)現(xiàn)自動(dòng)歸類,挖掘出發(fā)帖人之間的團(tuán)伙關(guān)系。

4) 文本近似度分析,發(fā)現(xiàn)改變手法多次發(fā)帖的發(fā)帖人。

5) 利用IP地址及發(fā)帖人之間的關(guān)系定位發(fā)帖人,實(shí)現(xiàn)對(duì)惡意發(fā)帖的檢測(cè)與追蹤。

帖子檢測(cè)是本系統(tǒng)的核心,即帖子按惡意度分級(jí),將一定級(jí)別的惡意帖子收集到一個(gè)庫(kù)中,然后進(jìn)行統(tǒng)計(jì),分為兩種情況:

1) 完全相同的人發(fā)帖(同一個(gè)人用一個(gè)賬號(hào)多次發(fā)帖和同一個(gè)人用多個(gè)賬號(hào)一次發(fā)帖,如果多個(gè)賬號(hào)發(fā)的是同一個(gè)帖子,那么應(yīng)該是同一個(gè)人)。

2) 類似的人發(fā)帖(一個(gè)人改變手法,多次發(fā)帖),或者可以看成是一個(gè)團(tuán)伙。

惡意帖子檢測(cè)流程如圖4所示。

建立惡意帖子庫(kù)后,利用相應(yīng)的字段信息,例如:發(fā)帖者,發(fā)帖網(wǎng)站,發(fā)帖者賬號(hào),帖子內(nèi)容,跟帖者,跟帖內(nèi)容。利用數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則挖掘技術(shù)以及其他技術(shù),實(shí)現(xiàn)如下功能。

1) 找出同一個(gè)賬號(hào)多次發(fā)出同一惡意帖子,進(jìn)而定位這個(gè)賬號(hào),進(jìn)行跟蹤,同IT部門和技術(shù)部門合作,找出發(fā)帖者的IP地址,確認(rèn)發(fā)帖者的位置和身份。

2) 直接根據(jù)發(fā)帖內(nèi)容進(jìn)行比對(duì),如果是內(nèi)容相同的帖子,來自于不同和和不同賬號(hào),根據(jù)這些賬號(hào)是否由同一個(gè)IP地址發(fā)出,確認(rèn)是否為同一個(gè)人用多個(gè)賬號(hào)發(fā)帖;如果IP不同就有可能是一個(gè)同伙或組織用多個(gè)賬號(hào)發(fā)出同一個(gè)帖子。

3) 根據(jù)內(nèi)容的相似度,找出類似的發(fā)帖,找出其賬號(hào)之間的關(guān)聯(lián),確定是否為一個(gè)人改變手法,多次發(fā)帖。

4) 找出惡意帖子庫(kù)中的跟帖關(guān)系,建立關(guān)系網(wǎng)絡(luò)圖,利用網(wǎng)絡(luò)理論中子圖發(fā)現(xiàn)和查詢技術(shù),找出密集型子圖,發(fā)現(xiàn)惡意發(fā)帖團(tuán)伙。

5) 根據(jù)密集子圖的密集程度和活躍程度,確定發(fā)帖信息的危害程度以及突發(fā)事件的可能性,以便及時(shí)預(yù)警。

4 結(jié)束語

本系統(tǒng)建立面向主題的、關(guān)鍵詞的、行業(yè)的、主流網(wǎng)絡(luò)平臺(tái)的惡意發(fā)帖信息的語料庫(kù);搭建了惡意發(fā)帖檢測(cè)分析平臺(tái),及時(shí)識(shí)別惡意發(fā)帖信息,使用網(wǎng)絡(luò)發(fā)帖分析檢測(cè)引擎,對(duì)惡意發(fā)帖信息進(jìn)行分析處理;制定通用的惡意發(fā)帖分級(jí)制度,建立惡意發(fā)帖監(jiān)控預(yù)警標(biāo)準(zhǔn)。建立惡意發(fā)帖控制處理平臺(tái),建立惡意發(fā)帖信息的追蹤和預(yù)警體系。系統(tǒng)運(yùn)行穩(wěn)定正常,具有良好的實(shí)際價(jià)值。

參考文獻(xiàn):

[1] 山秀明.互聯(lián)網(wǎng)復(fù)雜性研究進(jìn)展[J].北京郵電大學(xué)學(xué)報(bào), 2006,29 (1): 1-8.

[2] 謝新洲,肖雯.我國(guó)網(wǎng)絡(luò)信息傳播的輿論化趨勢(shì)及其所帶來的問題分析[J].情報(bào)理論與實(shí)踐,2006,29 (6) :645-649.

[3] Jiawei Han.數(shù)據(jù)挖掘概念與技術(shù)[M].北京.機(jī)械工業(yè)出版社,2012.

[4] 慧豐,譚松波,程學(xué)旗.基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J].中文信息學(xué),2007,21(6):88-94.

[5] Nello Cristianini等.支持向量機(jī)導(dǎo)論[M].北京.電子工業(yè)出版社.2004.

猜你喜歡
聚類分類
分類算一算
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
基于DBSACN聚類算法的XML文檔聚類
教你一招:數(shù)的分類
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
会理县| 邯郸县| 封开县| 广州市| 敦化市| 西乌珠穆沁旗| 盘锦市| 大理市| 扶余县| 门头沟区| 罗平县| 军事| 津市市| 远安县| 定结县| 房产| 饶河县| 富裕县| 内江市| 兖州市| 宜阳县| 东至县| 开原市| 同德县| 敦煌市| 饶平县| 通化县| 晋州市| 瓮安县| 长海县| 云龙县| 方城县| 姚安县| 闻喜县| 无为县| 潜江市| 子洲县| 白沙| 观塘区| 中西区| 马公市|