尚秋明
(中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心 北京市 100190)
當(dāng)今時(shí)代人們多數(shù)通過(guò)互聯(lián)網(wǎng)進(jìn)行聊天、交易等活動(dòng),信息技術(shù)的高速發(fā)展大大提高了信息傳遞效率,虛擬網(wǎng)絡(luò)中越來(lái)越多的有害信息不僅嚴(yán)重危害了網(wǎng)絡(luò)環(huán)境,擾亂了社會(huì)治安,還給網(wǎng)民帶來(lái)經(jīng)濟(jì)損失。因此,對(duì)互聯(lián)網(wǎng)有害信息監(jiān)管是當(dāng)前亟需解決的問(wèn)題。
隨著互聯(lián)網(wǎng)每時(shí)每刻產(chǎn)生的海量數(shù)據(jù),傳統(tǒng)的監(jiān)管方式在互聯(lián)網(wǎng)有害監(jiān)管方面存在效能低下、管理松散、數(shù)據(jù)難以共享等難題。隨著大數(shù)據(jù)技術(shù)不斷出現(xiàn),這一問(wèn)題逐漸得到一定程度的解決。目前應(yīng)用比較廣泛的數(shù)據(jù)挖掘算法主要有K-means、決策樹(shù)、Apriori等,其中K-means 算法運(yùn)行效率高、實(shí)現(xiàn)容易被廣泛應(yīng)用到數(shù)據(jù)挖掘中。本文就K-means 算法在互聯(lián)網(wǎng)違法信息監(jiān)管中應(yīng)用進(jìn)行研究。
K-means 算法核心思想是將某些相似的數(shù)據(jù)進(jìn)行分類后聚集在一起方法。該算法首先選取K 個(gè)中心點(diǎn),然后計(jì)算每個(gè)中心點(diǎn)到各種聚類群體之間的聚類,重新分配中心點(diǎn)。采用迭代方法進(jìn)行聚類中心劃分,直到中心點(diǎn)達(dá)到設(shè)置范圍,算法終止[1-2]??捎萌缦鹿竭M(jìn)行表達(dá):
式中:xi表示第j 個(gè)簇類中第i 個(gè)數(shù)據(jù);cj表示第j 個(gè)簇類中心點(diǎn)。
輿情監(jiān)管是互聯(lián)網(wǎng)有害信息管理重要內(nèi)容。梁曉賀[3]研究了網(wǎng)絡(luò)微博輿情問(wèn)題,提出了一種微博輿情主題發(fā)現(xiàn)超網(wǎng)絡(luò)模型及超邊相似算法,圖1 為該算法流程圖。
所設(shè)計(jì)的超邊相似度算法微博輿情監(jiān)控模型中假設(shè)輿情主題中網(wǎng)絡(luò)模型共計(jì)N 條超邊,用符號(hào)相似度計(jì)算方法為:
所設(shè)計(jì)的算法與K-means 算法融合后,通過(guò)仿真,結(jié)果表明所設(shè)計(jì)的算法在微博輿情監(jiān)控中能夠很快識(shí)別。
王林[4]針對(duì)復(fù)雜的微博熱點(diǎn)問(wèn)題,當(dāng)前所使用的K-means 算法在初始中心選點(diǎn)存在難點(diǎn)問(wèn)題,提出了一種基于MapReduce 的并行K-means 算法。該算法核心思想為使用MapReduce 中的map函數(shù)進(jìn)行對(duì)象到聚類中心距離計(jì)算,該過(guò)程中需要重新標(biāo)記聚類類別。Reduce 函數(shù)主要進(jìn)行Map 函數(shù)的中間結(jié)果計(jì)算,并形成一個(gè)簇類中心。仿真結(jié)果表明所改進(jìn)算法提高了K-means 算法精度,在輿情監(jiān)測(cè)管理中有重要作用。
田世海[5]為提高輿情監(jiān)管準(zhǔn)確率,將K-means 算法與NRL 結(jié)合融合在一起形成新的算法。該算法核心思想是通過(guò)概率事件進(jìn)行輿情監(jiān)管。假設(shè)每個(gè)輿情監(jiān)管事件中都包含兩個(gè)d 維向量,分別為表示節(jié)點(diǎn)作為其它相鄰節(jié)點(diǎn)的d 維向量??捎糜?jì)算公式表示。使用概率計(jì)算方法得到輿情關(guān)注概率為:將K-means 算法應(yīng)用到概率計(jì)算中得到,輿情事件分類為m 類,符號(hào)中心點(diǎn)用符號(hào)表示簇類劃分點(diǎn)數(shù),每個(gè)簇類代表每個(gè)輿情事件,事件之間相似度可用符號(hào)表示。中心點(diǎn)平均值計(jì)算方法為:。仿真結(jié)果表明所設(shè)計(jì)的算法能夠較快明確分組數(shù)量,聚類效果好。
圖1:基于超邊相似度算法微博輿情監(jiān)控算法
閆俊伢[6]對(duì)K-means 算法應(yīng)用到輿情監(jiān)管應(yīng)用進(jìn)行詳細(xì)分析,發(fā)現(xiàn)現(xiàn)有的K-means 算法在輿情挖掘中存在挖掘準(zhǔn)確率和穩(wěn)定性有待提升問(wèn)題。為解決這一問(wèn)題,提出了將遺傳算法與K-means 算法相結(jié)合?;谶z傳算法、K-means 算法相結(jié)合的聚類算法中使用浮點(diǎn)編碼規(guī)則進(jìn)行編碼;使用均勻變異算子進(jìn)行基因變異;適應(yīng)度計(jì)算方法為,E 表示誤差平方和,b 為常數(shù)。
徐建國(guó)[7]將改進(jìn)的K-means 算法應(yīng)用到高校輿情監(jiān)管中。當(dāng)前K-means 算法容易存在局部最優(yōu)問(wèn)題,在傳統(tǒng)的聚類算法中增加了相似度計(jì)算方法重新選取新的簇類中心。仿真結(jié)果表明所設(shè)計(jì)的算法相比傳統(tǒng)的K-means 聚類算法性能提升了8%。陳艷紅[8]研究了K-means 算法在高校輿情監(jiān)控中應(yīng)用,提出了將剩余的樣本與中心點(diǎn)進(jìn)行中心點(diǎn)選擇,仿真結(jié)果表明改進(jìn)算法能夠提高算法性能。
謝修娟[9]針對(duì)當(dāng)前K-means 算法初始聚類中心選取容易導(dǎo)致算法陷入局部最優(yōu)問(wèn)題,對(duì)K-means 算法進(jìn)行改進(jìn)。所設(shè)計(jì)的算法借用DBSCAN 密度算法進(jìn)行改進(jìn)。假定微博文檔集合符號(hào)初始聚類中心集合符號(hào)初始化聚類簇符號(hào)改進(jìn)K-means 算法偽代碼為:
Input:微博數(shù)據(jù)Output:違法信息監(jiān)督結(jié)果Step1:從數(shù)據(jù)庫(kù)中獲取微博文檔數(shù)據(jù)集b,根據(jù)初始類中心c,進(jìn)行聚類劃分Step2:更新聚類中心,清空聚類中心,進(jìn)行下一類操作Step3:重復(fù)Step1 和Step2,如果達(dá)到設(shè)置誤差函數(shù),跳轉(zhuǎn)到Step4;否則跳轉(zhuǎn)到Step1 Step4:輸出監(jiān)督結(jié)果。
研究結(jié)果表明所改進(jìn)的K-means 算法具運(yùn)行效率、準(zhǔn)確性、穩(wěn)定性指標(biāo)等到提高。
張壽華[10]針對(duì)網(wǎng)絡(luò)輿情熱點(diǎn)話題監(jiān)督提出了使用K-means 算法進(jìn)行挖掘。所構(gòu)建的輿情監(jiān)測(cè)模型中,關(guān)鍵詞提取計(jì)算方法為:
文檔聚類計(jì)算方法為:
(1)熱點(diǎn)新聞分析模型為:
式中:H(t)表示新聞熱度值;n 表示新聞數(shù)量;W(Si)表示新聞網(wǎng)站權(quán)重;表示新聞參與評(píng)論權(quán)重;pni表示新聞參與人數(shù);cni表示新聞評(píng)價(jià)人數(shù)。
(2)信息轉(zhuǎn)載模型為:
式中:H(t)表示話題論壇熱度值;n 表示話題數(shù)量;W(Si)表示話題的權(quán)重值;表示話題瀏覽次數(shù)和回復(fù)權(quán)重;pni表示話題參與人數(shù);cni表示話題評(píng)價(jià)人數(shù);W(ri)表示話題轉(zhuǎn)載次數(shù)權(quán)重。
應(yīng)用結(jié)果表明所設(shè)計(jì)的基于K-means 算法的話題聚類方法能夠很好進(jìn)行話題監(jiān)管。
互聯(lián)網(wǎng)違法信息監(jiān)管是當(dāng)前重點(diǎn)研究課題。汪黎嘉[11]詳細(xì)研究了K-means 算法在網(wǎng)絡(luò)有害信息監(jiān)管中應(yīng)用,所設(shè)計(jì)的算法包括:
(1)網(wǎng)絡(luò)信息初步篩選,計(jì)算方法為:
式中:S 表示互聯(lián)網(wǎng)信息可行度評(píng)價(jià)指標(biāo);Cc 表示信息變更次數(shù);Cl 表示信息變更閥值;Ft 表示互聯(lián)網(wǎng)信息訪問(wèn)次數(shù);Tt 表示違法信息訪問(wèn)時(shí)間。
呂飛[12]將改進(jìn)K-means 算法應(yīng)用到互聯(lián)網(wǎng)涉煙違法犯罪區(qū)域劃分研究。針對(duì)傳統(tǒng)的K-means 算法局部容易出現(xiàn)最優(yōu)情況,提出了使用概率方法尋找質(zhì)點(diǎn)。應(yīng)用結(jié)果表明所設(shè)計(jì)的算法能夠準(zhǔn)確識(shí)別煙草互聯(lián)網(wǎng)有害信息。
張玉峰[13]研究了有害信息的類型,包括色情信息、虛假信息、垃圾信息、網(wǎng)絡(luò)安全信息、文化侵略信息等。提出使用數(shù)據(jù)挖掘技術(shù)對(duì)有害信息挖掘。結(jié)果表明K-means 算法在有害信息分類中具有重要應(yīng)用前景。
本文詳細(xì)分析了K-means 算法在互聯(lián)網(wǎng)有害信息挖掘中應(yīng)用。當(dāng)前K-means 算法應(yīng)用到輿情監(jiān)管中發(fā)揮了重要作用,未來(lái)發(fā)展方向是結(jié)合大數(shù)據(jù)技術(shù)、神經(jīng)網(wǎng)絡(luò)算法,能夠提高算法準(zhǔn)確率。K-means算法應(yīng)用到有害監(jiān)管中具有重要作用,未來(lái)可發(fā)展到詐騙行為識(shí)別中。