国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于K-means算法的互聯(lián)網(wǎng)有害信息挖掘模型構(gòu)建

2021-06-16 16:43尚秋明
電子技術(shù)與軟件工程 2021年4期
關(guān)鍵詞:有害信息中心點(diǎn)結(jié)果表明

尚秋明

(中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心 北京市 100190)

當(dāng)今時(shí)代人們多數(shù)通過(guò)互聯(lián)網(wǎng)進(jìn)行聊天、交易等活動(dòng),信息技術(shù)的高速發(fā)展大大提高了信息傳遞效率,虛擬網(wǎng)絡(luò)中越來(lái)越多的有害信息不僅嚴(yán)重危害了網(wǎng)絡(luò)環(huán)境,擾亂了社會(huì)治安,還給網(wǎng)民帶來(lái)經(jīng)濟(jì)損失。因此,對(duì)互聯(lián)網(wǎng)有害信息監(jiān)管是當(dāng)前亟需解決的問(wèn)題。

隨著互聯(lián)網(wǎng)每時(shí)每刻產(chǎn)生的海量數(shù)據(jù),傳統(tǒng)的監(jiān)管方式在互聯(lián)網(wǎng)有害監(jiān)管方面存在效能低下、管理松散、數(shù)據(jù)難以共享等難題。隨著大數(shù)據(jù)技術(shù)不斷出現(xiàn),這一問(wèn)題逐漸得到一定程度的解決。目前應(yīng)用比較廣泛的數(shù)據(jù)挖掘算法主要有K-means、決策樹(shù)、Apriori等,其中K-means 算法運(yùn)行效率高、實(shí)現(xiàn)容易被廣泛應(yīng)用到數(shù)據(jù)挖掘中。本文就K-means 算法在互聯(lián)網(wǎng)違法信息監(jiān)管中應(yīng)用進(jìn)行研究。

1 K-means算法

K-means 算法核心思想是將某些相似的數(shù)據(jù)進(jìn)行分類后聚集在一起方法。該算法首先選取K 個(gè)中心點(diǎn),然后計(jì)算每個(gè)中心點(diǎn)到各種聚類群體之間的聚類,重新分配中心點(diǎn)。采用迭代方法進(jìn)行聚類中心劃分,直到中心點(diǎn)達(dá)到設(shè)置范圍,算法終止[1-2]??捎萌缦鹿竭M(jìn)行表達(dá):

式中:xi表示第j 個(gè)簇類中第i 個(gè)數(shù)據(jù);cj表示第j 個(gè)簇類中心點(diǎn)。

2 K-means算法在輿情監(jiān)測(cè)管理中應(yīng)用

輿情監(jiān)管是互聯(lián)網(wǎng)有害信息管理重要內(nèi)容。梁曉賀[3]研究了網(wǎng)絡(luò)微博輿情問(wèn)題,提出了一種微博輿情主題發(fā)現(xiàn)超網(wǎng)絡(luò)模型及超邊相似算法,圖1 為該算法流程圖。

所設(shè)計(jì)的超邊相似度算法微博輿情監(jiān)控模型中假設(shè)輿情主題中網(wǎng)絡(luò)模型共計(jì)N 條超邊,用符號(hào)相似度計(jì)算方法為:

所設(shè)計(jì)的算法與K-means 算法融合后,通過(guò)仿真,結(jié)果表明所設(shè)計(jì)的算法在微博輿情監(jiān)控中能夠很快識(shí)別。

王林[4]針對(duì)復(fù)雜的微博熱點(diǎn)問(wèn)題,當(dāng)前所使用的K-means 算法在初始中心選點(diǎn)存在難點(diǎn)問(wèn)題,提出了一種基于MapReduce 的并行K-means 算法。該算法核心思想為使用MapReduce 中的map函數(shù)進(jìn)行對(duì)象到聚類中心距離計(jì)算,該過(guò)程中需要重新標(biāo)記聚類類別。Reduce 函數(shù)主要進(jìn)行Map 函數(shù)的中間結(jié)果計(jì)算,并形成一個(gè)簇類中心。仿真結(jié)果表明所改進(jìn)算法提高了K-means 算法精度,在輿情監(jiān)測(cè)管理中有重要作用。

田世海[5]為提高輿情監(jiān)管準(zhǔn)確率,將K-means 算法與NRL 結(jié)合融合在一起形成新的算法。該算法核心思想是通過(guò)概率事件進(jìn)行輿情監(jiān)管。假設(shè)每個(gè)輿情監(jiān)管事件中都包含兩個(gè)d 維向量,分別為表示節(jié)點(diǎn)作為其它相鄰節(jié)點(diǎn)的d 維向量??捎糜?jì)算公式表示。使用概率計(jì)算方法得到輿情關(guān)注概率為:將K-means 算法應(yīng)用到概率計(jì)算中得到,輿情事件分類為m 類,符號(hào)中心點(diǎn)用符號(hào)表示簇類劃分點(diǎn)數(shù),每個(gè)簇類代表每個(gè)輿情事件,事件之間相似度可用符號(hào)表示。中心點(diǎn)平均值計(jì)算方法為:。仿真結(jié)果表明所設(shè)計(jì)的算法能夠較快明確分組數(shù)量,聚類效果好。

圖1:基于超邊相似度算法微博輿情監(jiān)控算法

閆俊伢[6]對(duì)K-means 算法應(yīng)用到輿情監(jiān)管應(yīng)用進(jìn)行詳細(xì)分析,發(fā)現(xiàn)現(xiàn)有的K-means 算法在輿情挖掘中存在挖掘準(zhǔn)確率和穩(wěn)定性有待提升問(wèn)題。為解決這一問(wèn)題,提出了將遺傳算法與K-means 算法相結(jié)合?;谶z傳算法、K-means 算法相結(jié)合的聚類算法中使用浮點(diǎn)編碼規(guī)則進(jìn)行編碼;使用均勻變異算子進(jìn)行基因變異;適應(yīng)度計(jì)算方法為,E 表示誤差平方和,b 為常數(shù)。

徐建國(guó)[7]將改進(jìn)的K-means 算法應(yīng)用到高校輿情監(jiān)管中。當(dāng)前K-means 算法容易存在局部最優(yōu)問(wèn)題,在傳統(tǒng)的聚類算法中增加了相似度計(jì)算方法重新選取新的簇類中心。仿真結(jié)果表明所設(shè)計(jì)的算法相比傳統(tǒng)的K-means 聚類算法性能提升了8%。陳艷紅[8]研究了K-means 算法在高校輿情監(jiān)控中應(yīng)用,提出了將剩余的樣本與中心點(diǎn)進(jìn)行中心點(diǎn)選擇,仿真結(jié)果表明改進(jìn)算法能夠提高算法性能。

謝修娟[9]針對(duì)當(dāng)前K-means 算法初始聚類中心選取容易導(dǎo)致算法陷入局部最優(yōu)問(wèn)題,對(duì)K-means 算法進(jìn)行改進(jìn)。所設(shè)計(jì)的算法借用DBSCAN 密度算法進(jìn)行改進(jìn)。假定微博文檔集合符號(hào)初始聚類中心集合符號(hào)初始化聚類簇符號(hào)改進(jìn)K-means 算法偽代碼為:

Input:微博數(shù)據(jù)Output:違法信息監(jiān)督結(jié)果Step1:從數(shù)據(jù)庫(kù)中獲取微博文檔數(shù)據(jù)集b,根據(jù)初始類中心c,進(jìn)行聚類劃分Step2:更新聚類中心,清空聚類中心,進(jìn)行下一類操作Step3:重復(fù)Step1 和Step2,如果達(dá)到設(shè)置誤差函數(shù),跳轉(zhuǎn)到Step4;否則跳轉(zhuǎn)到Step1 Step4:輸出監(jiān)督結(jié)果。

研究結(jié)果表明所改進(jìn)的K-means 算法具運(yùn)行效率、準(zhǔn)確性、穩(wěn)定性指標(biāo)等到提高。

張壽華[10]針對(duì)網(wǎng)絡(luò)輿情熱點(diǎn)話題監(jiān)督提出了使用K-means 算法進(jìn)行挖掘。所構(gòu)建的輿情監(jiān)測(cè)模型中,關(guān)鍵詞提取計(jì)算方法為:

文檔聚類計(jì)算方法為:

(1)熱點(diǎn)新聞分析模型為:

式中:H(t)表示新聞熱度值;n 表示新聞數(shù)量;W(Si)表示新聞網(wǎng)站權(quán)重;表示新聞參與評(píng)論權(quán)重;pni表示新聞參與人數(shù);cni表示新聞評(píng)價(jià)人數(shù)。

(2)信息轉(zhuǎn)載模型為:

式中:H(t)表示話題論壇熱度值;n 表示話題數(shù)量;W(Si)表示話題的權(quán)重值;表示話題瀏覽次數(shù)和回復(fù)權(quán)重;pni表示話題參與人數(shù);cni表示話題評(píng)價(jià)人數(shù);W(ri)表示話題轉(zhuǎn)載次數(shù)權(quán)重。

應(yīng)用結(jié)果表明所設(shè)計(jì)的基于K-means 算法的話題聚類方法能夠很好進(jìn)行話題監(jiān)管。

3 K-means算法在互聯(lián)網(wǎng)有害行為監(jiān)管中應(yīng)用

互聯(lián)網(wǎng)違法信息監(jiān)管是當(dāng)前重點(diǎn)研究課題。汪黎嘉[11]詳細(xì)研究了K-means 算法在網(wǎng)絡(luò)有害信息監(jiān)管中應(yīng)用,所設(shè)計(jì)的算法包括:

(1)網(wǎng)絡(luò)信息初步篩選,計(jì)算方法為:

式中:S 表示互聯(lián)網(wǎng)信息可行度評(píng)價(jià)指標(biāo);Cc 表示信息變更次數(shù);Cl 表示信息變更閥值;Ft 表示互聯(lián)網(wǎng)信息訪問(wèn)次數(shù);Tt 表示違法信息訪問(wèn)時(shí)間。

呂飛[12]將改進(jìn)K-means 算法應(yīng)用到互聯(lián)網(wǎng)涉煙違法犯罪區(qū)域劃分研究。針對(duì)傳統(tǒng)的K-means 算法局部容易出現(xiàn)最優(yōu)情況,提出了使用概率方法尋找質(zhì)點(diǎn)。應(yīng)用結(jié)果表明所設(shè)計(jì)的算法能夠準(zhǔn)確識(shí)別煙草互聯(lián)網(wǎng)有害信息。

張玉峰[13]研究了有害信息的類型,包括色情信息、虛假信息、垃圾信息、網(wǎng)絡(luò)安全信息、文化侵略信息等。提出使用數(shù)據(jù)挖掘技術(shù)對(duì)有害信息挖掘。結(jié)果表明K-means 算法在有害信息分類中具有重要應(yīng)用前景。

4 結(jié)語(yǔ)

本文詳細(xì)分析了K-means 算法在互聯(lián)網(wǎng)有害信息挖掘中應(yīng)用。當(dāng)前K-means 算法應(yīng)用到輿情監(jiān)管中發(fā)揮了重要作用,未來(lái)發(fā)展方向是結(jié)合大數(shù)據(jù)技術(shù)、神經(jīng)網(wǎng)絡(luò)算法,能夠提高算法準(zhǔn)確率。K-means算法應(yīng)用到有害監(jiān)管中具有重要作用,未來(lái)可發(fā)展到詐騙行為識(shí)別中。

猜你喜歡
有害信息中心點(diǎn)結(jié)果表明
Scratch 3.9更新了什么?
如何設(shè)置造型中心點(diǎn)?
上半年利用AI技術(shù)清理有害信息312.2億條
網(wǎng)絡(luò)有害信息的類型及治理措施
漢字藝術(shù)結(jié)構(gòu)解析(二)中心點(diǎn)處筆畫應(yīng)緊奏
尋找視覺(jué)中心點(diǎn)
冊(cè)亨縣雜交水稻引種試驗(yàn)
體育鍛煉也重要
女性體重致癌?
迁西县| 新绛县| 鄄城县| 昂仁县| 洱源县| 浠水县| 突泉县| 丽江市| 常山县| 阿瓦提县| 江津市| 泗洪县| 深圳市| 搜索| 肥西县| 南召县| 会理县| 会宁县| 大同市| 杨浦区| 瑞安市| 平和县| 交口县| 沁水县| 白朗县| 平塘县| 自贡市| 黑山县| 南涧| 隆安县| 永吉县| 正宁县| 九寨沟县| 仙游县| 嘉义县| 烟台市| 当雄县| 宽城| 泾川县| 尼勒克县| 乡宁县|