国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于融合聚類算法的電子商務(wù)產(chǎn)品垃圾評(píng)論識(shí)別研究

2020-03-10 02:56:00陸佳渙
智能物聯(lián)技術(shù) 2020年2期
關(guān)鍵詞:質(zhì)心聚類向量

柳 毅,錢 楓,顧 虎,陸佳渙

(1.杭州電子科技大學(xué)管理學(xué)院,浙江 杭州 310018;2.杭州市質(zhì)量技術(shù)監(jiān)督檢測(cè)院,浙江 杭州 310018)

0 引言

電子商務(wù)產(chǎn)品評(píng)論中往往會(huì)夾雜著垃圾評(píng)論,而且與占大部分的有效評(píng)論相比,在語(yǔ)義相似度上非常低(如與當(dāng)前產(chǎn)品無(wú)關(guān)的沒(méi)有利用價(jià)值評(píng)論或不包含任意觀點(diǎn)、難以辨別情感傾向的隨機(jī)文本)。Jindal和liu[1]在2007年最早提出垃圾評(píng)論識(shí)別問(wèn)題。垃圾評(píng)論識(shí)別研究的難點(diǎn)在于如何更有效地對(duì)評(píng)論文本、用戶等因素進(jìn)行特征挖掘或者表征學(xué)習(xí),進(jìn)而提高垃圾評(píng)論檢測(cè)的準(zhǔn)確性[2]。Li等人[3]從詞性特征角度,發(fā)現(xiàn)有效評(píng)論與垃圾評(píng)論在詞性特征上有較大的區(qū)別,分別呈現(xiàn)如下特點(diǎn):有效評(píng)論的文本中一般包含更多的名詞、形容詞、介詞、限定詞等,而垃圾評(píng)論的文本中往往包含更多的動(dòng)詞、副詞、代詞等。Mukherjee等人[4]在Yelp數(shù)據(jù)集上采用詞袋特征以及詞性特征,采用支持向量機(jī)作為分類器,發(fā)現(xiàn)在酒店及飯店領(lǐng)域數(shù)據(jù)集上的準(zhǔn)確率達(dá)到65.6%和67.8%。景亞鵬[5]首次嘗試采用深度學(xué)習(xí)算法識(shí)別垃圾評(píng)論,首先采用信息增益(IG)進(jìn)行特征選擇,然后分別采用普通神經(jīng)網(wǎng)絡(luò)、DBN-DNN網(wǎng)絡(luò)、LBP網(wǎng)絡(luò)三種算法進(jìn)行垃圾評(píng)論檢測(cè)實(shí)驗(yàn);在實(shí)驗(yàn)中,深度學(xué)習(xí)算法表現(xiàn)出更為優(yōu)異的性能,其在數(shù)據(jù)集上準(zhǔn)確率最高可以達(dá)到92.5%,優(yōu)于支持向量機(jī)89.6%的準(zhǔn)確率。Abbasi等人[6]使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)將評(píng)論文本轉(zhuǎn)換成詞向量,將表示文本的向量作為輸入特征進(jìn)行分類,取得了較好的實(shí)驗(yàn)效果。從語(yǔ)義表示學(xué)習(xí)角度,Lau等人[7]基于語(yǔ)義相似性計(jì)算,提出了語(yǔ)義語(yǔ)言模型,通過(guò)計(jì)算評(píng)論文本的語(yǔ)義相似度對(duì)垃圾評(píng)論進(jìn)行檢測(cè),該方法在實(shí)驗(yàn)中的AUC(Area under the Curve of ROC)值為99.87%,大幅度優(yōu)于支持向量機(jī)(SVM)的55.71%。譚文堂等[8]從元數(shù)據(jù)的角度,認(rèn)為評(píng)論的元數(shù)據(jù)為除文本內(nèi)容之外的特征,如發(fā)表時(shí)間、評(píng)論星級(jí)、用戶等級(jí)等,評(píng)論的元數(shù)據(jù)特征有助于識(shí)別垃圾評(píng)論。Al Najada H.等[9]研究者均進(jìn)行了將元數(shù)據(jù)特征運(yùn)用于垃圾評(píng)論檢測(cè)的實(shí)驗(yàn),結(jié)果表明加入元數(shù)據(jù)特征能夠有效提升對(duì)垃圾評(píng)論的識(shí)別準(zhǔn)確率。

本文將電子商務(wù)評(píng)論文本轉(zhuǎn)為向量,構(gòu)建領(lǐng)域性停用詞表,更好完成去停用詞操作,并基于無(wú)監(jiān)督學(xué)習(xí)的融合聚類算法[10]進(jìn)行垃圾評(píng)論識(shí)別。電子商務(wù)垃圾評(píng)論由于在語(yǔ)義上與有效評(píng)論距離較大會(huì)被分到主要簇之外,形成小簇或者離群點(diǎn),達(dá)到識(shí)別區(qū)分垃圾評(píng)論的目標(biāo)。然后通過(guò)Python爬蟲抓取蘇寧易購(gòu)上消費(fèi)類電子產(chǎn)品的評(píng)論數(shù)據(jù),實(shí)驗(yàn)驗(yàn)證本文提出的DBSCAN(Density-Based Spatial Clustering of Applications With Noise)和Mean Shift融合聚類算法提高對(duì)電子商務(wù)垃圾評(píng)論識(shí)別的準(zhǔn)確性。

1 電子商務(wù)產(chǎn)品垃圾評(píng)論識(shí)別算法

1.1 均值漂移(Mean Shift)

均值漂移算法通過(guò)迭代更新質(zhì)心的候選位置偏移量進(jìn)行漂移,這些侯選位置一般是所選定區(qū)域內(nèi)全部樣本的均值。并且這些候選位置在之后階段將被過(guò)濾以避免近似重復(fù),從而形成最終質(zhì)心集合。算法會(huì)自動(dòng)確定最終聚類數(shù)目,同時(shí)也可以指定初始質(zhì)心。參數(shù)帶寬(band width)是決定搜索區(qū)域大小的參數(shù)。圖1是Mean Shift算法質(zhì)心依據(jù)偏移量進(jìn)行漂移的過(guò)程示意圖。

圖1 Mean Shift漂移過(guò)程示意圖Figure 1 Process of Mean Shift

對(duì)于數(shù)據(jù)集X∈Rd中的某樣本點(diǎn)xi,其Mean Shift向量基本形式如式(1)所示。

其中,Sh指到點(diǎn)x的距離為h的高維球形區(qū)域,其定義如式(2)所示。

式(2)中假設(shè)在半徑為h的球形區(qū)域內(nèi)的每個(gè)點(diǎn)對(duì)點(diǎn)x的貢獻(xiàn)是一樣的。但是實(shí)際上這種貢獻(xiàn)與距離是相關(guān)的,即重要程度與距離是相關(guān)的?;谶@種情況,有研究者提出了加入核函數(shù)的漂移向量,即對(duì)每個(gè)區(qū)域內(nèi)的點(diǎn)加上了權(quán)重,改進(jìn)后的向量形式如式(3)所示。

其中,G(x)是核函數(shù)。核函數(shù)種類有很多,如常用的高斯核。Mean Shift算法的具體計(jì)算過(guò)程如表1所示。

表1 Mean Shift算法的具體計(jì)算過(guò)程Table 1 Calculation process of Mean Shift algorithm

1.2 DBSCAN

DBSCAN是通過(guò)尋找被低密度區(qū)域分隔的高密度區(qū)域來(lái)完成的聚類算法。一組彼此靠近的核心樣本和一組接近核心樣本的非核心樣本,組成一個(gè)簇。DBSCAN使用基于中心的方法來(lái)定義密度,然后根據(jù)基于中心的密度對(duì)點(diǎn)進(jìn)行分類。該方法將點(diǎn)分類為三種:核心點(diǎn)、邊界點(diǎn)和噪聲點(diǎn)。DBSCAN核心點(diǎn)(core samples)屬于高密度區(qū)域的樣本,如果在該點(diǎn)的給定領(lǐng)域內(nèi)點(diǎn)的數(shù)量超過(guò)閥值Minpts,則該點(diǎn)為核心點(diǎn)。領(lǐng)域由距離參數(shù)Eps決定,其中參數(shù)Eps和Minpts均由用戶指定。邊界點(diǎn)落在某個(gè)核心點(diǎn)的領(lǐng)域內(nèi),但其不是核心點(diǎn),并且可以落在多個(gè)核心點(diǎn)的領(lǐng)域內(nèi)。噪聲點(diǎn)是既不是核心點(diǎn)也不是邊界點(diǎn)的任何點(diǎn)。圖2形象說(shuō)明DBSCAN算法的核心點(diǎn)、邊界點(diǎn)、噪聲點(diǎn)這三類點(diǎn)的區(qū)別。

圖2 DBSCAN算法的核心點(diǎn)、邊界點(diǎn)、噪聲點(diǎn)Figure 2 The core,noise and boundary point of DBSCAN

DBSCAN算法可以描述為:任意兩個(gè)足夠靠近(兩者之間的距離小于距離參數(shù)Eps)的核心點(diǎn)將被放入同一個(gè)簇;然后與核心點(diǎn)足夠靠近的邊界點(diǎn)也將被放入核心點(diǎn)所在的簇中;如果一個(gè)邊界點(diǎn)與多個(gè)分屬不同簇的核心點(diǎn)靠近,則需要額外解決方法,最后噪聲點(diǎn)被丟棄。

表2給出了DBSCAN算法的細(xì)節(jié)和主要步驟。DBSCAN使用密度來(lái)定義簇,因此它對(duì)噪聲有較好的抗干擾能力,且能處理任意形狀和大小的簇。但是當(dāng)簇的密度變化很大,或者數(shù)據(jù)維度很高時(shí),效果會(huì)受到影響,因?yàn)檫@類數(shù)據(jù),其密度定義變得更困難。

表2 DBSCAN算法的主要步驟Table 2 Main steps of DBSCAN algorithm

1.3 Mean Shift-DBSCAN融合聚類算法

本文將Mean Shift和DBSCAN兩種聚類算法通過(guò)Stacking集成思想進(jìn)行組合,得到融合聚類算法,基于如下考慮:Mean Shift算法旨在發(fā)現(xiàn)一個(gè)樣本密度平滑的區(qū)域,優(yōu)點(diǎn)是該算法總是保證收斂,缺點(diǎn)就是它的初始質(zhì)心是隨機(jī)選擇的,而隨機(jī)帶來(lái)的就是選到合適初始質(zhì)心的概率非常低,即容易受到噪聲數(shù)據(jù)的影響,易陷入局部最優(yōu)。這種對(duì)初始質(zhì)心選取和噪聲點(diǎn)敏感的特性,與K-means類似。而一般數(shù)據(jù)集都混雜著一定量的噪聲,因此總會(huì)給Mean Shift帶來(lái)負(fù)面影響。同時(shí)不合適的初始質(zhì)心會(huì)造成需要更多的迭代次數(shù),因此Mean Shift的運(yùn)行時(shí)間通常較長(zhǎng)。

DBSCAN是將被低密度區(qū)域分隔的高密度區(qū)域視作簇,可以發(fā)現(xiàn)任何形狀的簇。但是該算法需要構(gòu)建一個(gè)相似度矩陣,比如使用稀疏矩陣,這個(gè)矩陣將消耗n2個(gè)浮點(diǎn)數(shù),因此在較大規(guī)模數(shù)據(jù)集上運(yùn)行時(shí)的內(nèi)存消耗是非常大的。

融合聚類算法思想可簡(jiǎn)單描述為:首先,人工選取規(guī)模較小、質(zhì)量較好的文本數(shù)據(jù)形成一個(gè)小批量數(shù)據(jù)集,接著用DBSCAN對(duì)該數(shù)據(jù)集進(jìn)行聚類,獲取聚類中心;然后,將從DBSCAN得到的中心作為Mean Shift的初始質(zhì)心進(jìn)行聚類,這樣就可以使Mean Shift避免面臨由于隨機(jī)選擇造成的找到合適初始質(zhì)心的概率特別低的情況,從而在很大程度上減少隨機(jī)選擇的初始質(zhì)心和噪聲點(diǎn)對(duì)其影響,提升聚類效果,提升運(yùn)行速度;最后,用該算法對(duì)整個(gè)數(shù)據(jù)集進(jìn)行聚類,垃圾評(píng)論會(huì)被標(biāo)記為離群點(diǎn)或者被劃分為一個(gè)個(gè)數(shù)量極少的獨(dú)立簇,實(shí)現(xiàn)對(duì)垃圾評(píng)論識(shí)別及清除的目標(biāo)。算法的具體步驟描述如表3所示,算法結(jié)構(gòu)如圖3所示。

表3 Mean Shift-DBSCAN融合聚類算法的具體步驟Table 3 Steps of Mean shift-DBSCAN fusion clustering algorithm

圖3 Mean Shift-DBSCAN融合聚類算法結(jié)構(gòu)Figure 3 Clustering ensemble algorithm structure

在融合聚類算法中,第一步是將評(píng)論數(shù)據(jù)集按評(píng)論文本長(zhǎng)度進(jìn)行分層。這樣做的主要原因是:電子商務(wù)產(chǎn)品評(píng)論有一個(gè)特點(diǎn),就是評(píng)論文本的句長(zhǎng)差異很大,有些很長(zhǎng),即詞的數(shù)量相對(duì)較多,有些很短,即詞的數(shù)量相對(duì)較少。這會(huì)導(dǎo)致在通過(guò)相加詞向量得到句向量的過(guò)程中,因?yàn)樵~數(shù)量的差異造成得到的句向量在語(yǔ)義距離上的偏離。如評(píng)論“續(xù)航能力一流,充電也快,滿意”、“電池續(xù)航:電池很強(qiáng)大,充電也快,穩(wěn)穩(wěn)當(dāng)當(dāng)?shù)囊惶鞗](méi)任務(wù)壓力”,兩條評(píng)論的評(píng)價(jià)對(duì)象都是電池,都是表達(dá)對(duì)電池的滿意。但是可能因?yàn)榈诙l評(píng)論的長(zhǎng)度大于第一條,使得兩個(gè)文本在通過(guò)余弦距離計(jì)算語(yǔ)義相似度時(shí)造成偏差。

融合后的聚類算法,相比原始Mean Shift,采用DBSCAN的聚類結(jié)果作為初始質(zhì)心,可以避免隨機(jī)選擇和噪聲點(diǎn)帶來(lái)的影響,并且提高它的運(yùn)行速度。相比原始DBSCAN,只對(duì)高質(zhì)量的小批量數(shù)據(jù)進(jìn)行聚類,避免DBSCAN的高內(nèi)存消耗情況,且利用到了它能區(qū)分各種形狀的簇和確定性特點(diǎn),即以相同順序輸入相同數(shù)據(jù)時(shí)總能得到相同的結(jié)果,也就是形成相同的簇。通過(guò)對(duì)DBSCAN和Mean Shift兩種算法的采長(zhǎng)補(bǔ)短,既能有效利用各個(gè)算法的長(zhǎng)處,又能避免兩個(gè)算法的缺陷,最終得到一定程度的性能優(yōu)化和聚類效果的提升。

2 實(shí)驗(yàn)與分析

2.1 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理

為驗(yàn)證融合聚類算法識(shí)別電子商務(wù)產(chǎn)品評(píng)論中的垃圾評(píng)論的能力,本文使用Python的Scrapy框架編寫爬蟲從蘇寧易購(gòu)網(wǎng)站上共抓取6萬(wàn)多條的電子產(chǎn)品評(píng)論數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)。首先需要在數(shù)據(jù)處理環(huán)節(jié)將評(píng)論文本中會(huì)對(duì)識(shí)別準(zhǔn)確率造成影響的詞去掉,如“蘋果手機(jī)”、“小米手機(jī)”中的“蘋果”、“小米”在語(yǔ)義上與電子類產(chǎn)品差距較大,會(huì)影響識(shí)別結(jié)果。針對(duì)這種情況,本文構(gòu)建了針對(duì)手機(jī)類產(chǎn)品評(píng)論文本的特有領(lǐng)域性停用詞表(如“超贊”、“蘋果”、“小米”、“非?!?、“續(xù)航”),以實(shí)現(xiàn)有效去停用詞處理。

本文將采用Word2Vec工具將文本轉(zhuǎn)換成詞向量,然后用預(yù)處理后的語(yǔ)料導(dǎo)入已初始化的Word2Vec進(jìn)行訓(xùn)練,得到一個(gè)有效的Word2Vec模型用于聚類前的文本轉(zhuǎn)詞向量任務(wù)。本文使用model.wv()來(lái)得到每個(gè)詞向量,再將其組成句向量。通過(guò)上述幾個(gè)步驟的處理,就把非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)換成了機(jī)器能夠識(shí)別處理的結(jié)構(gòu)化數(shù)據(jù),便于后續(xù)任務(wù)計(jì)算評(píng)論文本間語(yǔ)義距離來(lái)實(shí)現(xiàn)垃圾評(píng)論識(shí)別,實(shí)驗(yàn)用的評(píng)論數(shù)據(jù)部分展示如表4所示。

表4 爬蟲抓取部分有效/垃圾評(píng)論數(shù)據(jù)內(nèi)容Table 4 Spam/Real Reviews from E-commerceby Scrapy

2.2 實(shí)驗(yàn)過(guò)程及分析

為了說(shuō)明在聚類前將電子商務(wù)產(chǎn)品評(píng)論數(shù)據(jù)按句子長(zhǎng)度進(jìn)行分層的重要性,本實(shí)驗(yàn)先直接在數(shù)據(jù)集上執(zhí)行DBSCAN,得到的聚類結(jié)果如圖4所示(該圖為了更好的展示效果,選取部分?jǐn)?shù)據(jù)形成,完整數(shù)據(jù)集數(shù)量過(guò)多,無(wú)法進(jìn)行有效展示)。圖中有三種類型的點(diǎn):圓形大點(diǎn)、圓形小點(diǎn)、黑色方點(diǎn)。圓形大點(diǎn)表示核心點(diǎn),圓形小點(diǎn)表示邊界點(diǎn),黑色方點(diǎn)表示離群點(diǎn),即垃圾評(píng)論??梢钥吹綀D上有較多的黑色方點(diǎn),但是考慮到本文在展示用的數(shù)據(jù)集中只放入了一條垃圾評(píng)論,這樣的結(jié)果是存在問(wèn)題的。通過(guò)檢查結(jié)果,DBSCAN算法能把真的垃圾評(píng)論識(shí)別出來(lái),但是同時(shí)也把一些有效評(píng)論當(dāng)成垃圾評(píng)論做了錯(cuò)誤的分類。

圖4 原始數(shù)據(jù)的DBSCAN聚類結(jié)果圖Figure 4 DBSCAN clustering results of original data

針對(duì)這種情況,本文通過(guò)多次實(shí)驗(yàn),觀察實(shí)驗(yàn)結(jié)果的變化。多次試驗(yàn)的垃圾評(píng)論識(shí)別結(jié)果如圖5所示。

圖5是本文通過(guò)對(duì)參數(shù)Eps和min_samples多次取值,獲取的實(shí)驗(yàn)結(jié)果的分布圖。從圖中可以看到,在參數(shù)min_samples為4時(shí)保持不變。而參數(shù)Eps的取值從10到14增加過(guò)程中,錯(cuò)誤分類的數(shù)量在減少;而當(dāng)取值變成15時(shí),錯(cuò)誤數(shù)量在繼續(xù)減少,但是已經(jīng)不能區(qū)分真正的垃圾評(píng)論,也就是當(dāng)參數(shù)Eps取15時(shí),模型失去實(shí)際意義。然后在保持參數(shù)Eps為14,改變參數(shù)min_samples的取值時(shí),當(dāng)值由4變?yōu)?時(shí),錯(cuò)誤分類數(shù)量從10增加到了14;然后繼續(xù)增加參數(shù)min_samples的值,發(fā)現(xiàn)錯(cuò)誤分類數(shù)量并不隨之發(fā)生改變。直到增加到值為14,錯(cuò)誤分類數(shù)量增加到15,但接下去本實(shí)驗(yàn)一直增加到30,錯(cuò)誤分類數(shù)又都保持不變,但在這個(gè)過(guò)程中算法能一直保持對(duì)真正垃圾評(píng)論的識(shí)別。從上述實(shí)驗(yàn)過(guò)程中,可以推斷大概有80%~90%的有效數(shù)據(jù)是可以通過(guò)算法聚到一個(gè)簇中,剩下的可能因?yàn)槟承┰驅(qū)е屡c核心樣本的距離過(guò)遠(yuǎn),被定義為噪聲點(diǎn)。

圖5 原始數(shù)據(jù)多次融合聚類結(jié)果圖Figure 5 Clustering ensemblealgorithm results of original data

本文已通過(guò)構(gòu)建領(lǐng)域性停用詞表,刪除了容易因?yàn)檎Z(yǔ)義的不相關(guān)對(duì)準(zhǔn)確率造成影響的詞,因此可以確定還存在什么原因?qū)е抡Z(yǔ)義距離過(guò)遠(yuǎn)。通過(guò)對(duì)數(shù)據(jù)的詳細(xì)分析,發(fā)現(xiàn)評(píng)論文本的長(zhǎng)度存在巨大差異,猜測(cè)這可能是造成少部分?jǐn)?shù)據(jù)始終被錯(cuò)誤分類的原因。通過(guò)對(duì)文本長(zhǎng)度的分析,具體結(jié)果如圖6所示。

圖6 電子商務(wù)產(chǎn)品評(píng)論文本長(zhǎng)度分布圖Figure 6 Text length distribution of E-commerce product review

圖6顯示實(shí)驗(yàn)中使用的電子商務(wù)產(chǎn)品評(píng)論文本長(zhǎng)度集中在幾個(gè)區(qū)間段內(nèi)。因此推斷長(zhǎng)文本因?yàn)榉衷~后的詞量相較短文本更多,導(dǎo)致詞向量相加后,整個(gè)句向量與短文本句向量的空間距離開始偏離,不能再很好地表示原本的語(yǔ)義距離?;谶@個(gè)假設(shè),本文將數(shù)據(jù)按照文本長(zhǎng)短分別歸入以下五類:(0,25)、(25,50)、(50,75)、(75,100)、(100,+∞),然后再分別對(duì)每個(gè)區(qū)間內(nèi)的數(shù)據(jù)進(jìn)行聚類。經(jīng)過(guò)數(shù)據(jù)分層后再進(jìn)行聚類,模型能夠在驗(yàn)證集上正確分類,實(shí)驗(yàn)結(jié)果如圖7所示(第四幅小圖中左上角小黑方點(diǎn)是測(cè)試集中垃圾文本,其他小圖中的圓點(diǎn)是邊界點(diǎn),并非是噪聲點(diǎn))。

圖7 數(shù)據(jù)分層后融合聚類結(jié)果Figure 7 Clustering ensemblealgorithm results of layered data

通過(guò)將評(píng)論按句長(zhǎng)分層后,再執(zhí)行DBSCANMean Shift融合聚類算法能很大程度減少被錯(cuò)誤分類的情況,這樣得到的聚類結(jié)果更準(zhǔn)確。然后獲取每個(gè)層級(jí)聚類結(jié)果的核心點(diǎn),計(jì)算這些核心點(diǎn)的平均值,作為Mean Shift的初始質(zhì)心。實(shí)驗(yàn)結(jié)果表明,通過(guò)上述改進(jìn)后Mean Shift的錯(cuò)誤分類數(shù)同樣能夠得到可觀的減少,同時(shí)更重要的是運(yùn)行速度得到了極大提升。不同算法運(yùn)行時(shí)間對(duì)比如表5所示,表6展示了當(dāng)數(shù)據(jù)集為1500時(shí)的實(shí)驗(yàn)運(yùn)行結(jié)果。

表5 不同算法運(yùn)行時(shí)間對(duì)比Table 5 Running time comparison of different algorithms

表6 融合聚類算法與Mean Shift算法對(duì)比結(jié)果Table 6 Comparison of fusion clustering Algorithms and Mean Shift Algorithms

根據(jù)表6所示,融合聚類算法相比原始Mean-Shift算法在召回率上提升0.12,即能夠識(shí)別出數(shù)量更多的垃圾評(píng)論,說(shuō)明通過(guò)將DBSCAN聚類得到的均值中心作為初始質(zhì)心,可以減少M(fèi)ean Shift迭代次數(shù),并且很大程度上避免因隨機(jī)選擇初始質(zhì)心帶來(lái)的負(fù)面影響。

3 結(jié)語(yǔ)

本文提出了用于電子商務(wù)垃圾評(píng)論識(shí)別的Mean Shift-DBSCAN融合聚類算法,通過(guò)對(duì)大批量電子商務(wù)評(píng)論文本數(shù)據(jù)進(jìn)行分層,然后使用DBSCAN進(jìn)行聚類得到聚類中心,再將其作為Mean Shift的初始質(zhì)心,可以有效提高電子商務(wù)垃圾評(píng)論識(shí)別的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出的融合聚類模型的有效性,在運(yùn)行時(shí)間、識(shí)別垃圾評(píng)論等方面遠(yuǎn)超過(guò)Mean Shift,相比DBSCAN亦有一定程度的提升和改進(jìn)。

猜你喜歡
質(zhì)心聚類向量
重型半掛汽車質(zhì)量與質(zhì)心位置估計(jì)
向量的分解
基于GNSS測(cè)量的天宮二號(hào)質(zhì)心確定
聚焦“向量與三角”創(chuàng)新題
基于DBSACN聚類算法的XML文檔聚類
向量垂直在解析幾何中的應(yīng)用
基于改進(jìn)的遺傳算法的模糊聚類算法
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
一種海洋測(cè)高衛(wèi)星質(zhì)心在軌估計(jì)算法
航天器工程(2014年5期)2014-03-11 16:35:53
宝坻区| 洛南县| 新干县| 文昌市| 灌南县| 柯坪县| 驻马店市| 彰武县| 乡城县| 杭州市| 尉犁县| 迁西县| 大田县| 都安| 正阳县| 乐山市| 吉隆县| 府谷县| 文安县| 乌海市| 新宾| 平安县| 德钦县| 古蔺县| 滁州市| 兴安盟| 工布江达县| 改则县| 揭西县| 锡林郭勒盟| 井陉县| 沅江市| 抚顺县| 万宁市| 库伦旗| 仙桃市| 和政县| 辽中县| 石林| 顺平县| 惠来县|