国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于K-Medoids聚類的改進(jìn)KNN 文本分類算法

2014-12-20 06:56:16羅賢鋒祝勝林陳澤健袁玉強(qiáng)
關(guān)鍵詞:類別聚類分類

羅賢鋒,祝勝林,陳澤健,袁玉強(qiáng)

(華南農(nóng)業(yè)大學(xué) 信息學(xué)院,廣東 廣州510642)

0 引 言

文本分類的主要任務(wù)是在預(yù)先給定的類別標(biāo)記下,根據(jù)文本內(nèi)容來判斷其類別歸屬。目前文本分類算法包括樸素貝葉斯 (NB)[1]、支持向量機(jī) (SVM)[2]、K 最近鄰算法(KNN)[3]等。KNN 算法是由Cover和Hart于1967年提出的,有著穩(wěn)定性、魯棒性、高準(zhǔn)確率等優(yōu)點(diǎn)[4]。但正如文獻(xiàn) [4]中指出KNN 算法作為一種惰性算法,在分類階段,每個(gè)待分類文本都需要與所有訓(xùn)練樣本做相似度計(jì)算,從而找出K 個(gè)最近鄰,其時(shí)間復(fù)雜度與訓(xùn)練集的樣本數(shù)量成正比,因此在大樣本集下,分類速度會(huì)嚴(yán)重降低,缺少實(shí)用性。針對這一問題,目前主要在減小計(jì)算量方面做了一些相關(guān)研究[5-8],但它們在面對大數(shù)據(jù)時(shí),效果不是很理想。針對此現(xiàn)狀,提出了基于K-Medoids聚類的改進(jìn)KNN算法。實(shí)驗(yàn)結(jié)果表明,該改進(jìn)算法不僅能夠提高運(yùn)行效率,還能夠提高分類能力。

承認(rèn)、接納消極情緒的存在,與之好好相處,不要試圖將其趕走,不要一味地對抗,把消極情緒當(dāng)成來你家做客的人,好好招待它。當(dāng)它受到友好的接待,自然會(huì)滿意而安靜地離開。

1 K 最近鄰算法

KNN 算法以其簡單性、有效性而成為基于向量空間模型 (VSM)[9]的最好分類算法之一。文獻(xiàn) [9]指出VSM的主要思想是:假設(shè)文檔中的詞條是相互獨(dú)立的,跟詞條出現(xiàn)的位置無關(guān),將文檔映射為一組詞條相量 (T1,W1,T2,W2,……,T3,W3),其中,Ti為特征向量詞條,Wi為Ti的 權(quán) 重。

假定文本訓(xùn)練集為S,S 有N 個(gè)類別C1,C2,……,CN,S 的總文本數(shù)為M。在KNN 分類算法的訓(xùn)練階段,首先對文本訓(xùn)練集S 進(jìn)行分詞,接著對特征維數(shù)進(jìn)行降維,最后把訓(xùn)練集文本表示為特征向量:Di= {X1,X2,……,Xn}T(0<i≤M);在KNN 算法的分類階段,首先需要按照訓(xùn)練階段的過程將待分類文本D 表示為特征向量:D={X1,X2,……,Xn}T,再在文本訓(xùn)練集S 中找出與待分類文本D 最相似的K 個(gè)文本Di= {X1,X2,……,Xn}T(0<i≤K),以這K 個(gè)最近鄰文本的類別作為候選類別,最后計(jì)算待分類文本D 在這些類別里的隸屬度,從而把待分類文本D 歸屬到隸屬度最大的類別。KNN 算法的具體步聚如下:

步驟1 對文本訓(xùn)練集進(jìn)行分詞。

步驟2 對訓(xùn)練集文本的特征項(xiàng)進(jìn)行降維。

2) 目前,高職院校會(huì)展英語教材的語言和專業(yè)知識沒有達(dá)到有機(jī)結(jié)合:交際任務(wù)不切合實(shí)際,缺乏時(shí)效性;教材難度控制不夠;重難點(diǎn)不突出;缺少必要的語言技能練習(xí);沒有開發(fā)多媒體資源;內(nèi)容不適應(yīng)當(dāng)前經(jīng)濟(jì)發(fā)展的需要;中西方文化差異在工作流程中沒有體現(xiàn)。

1.以間質(zhì)結(jié)締組織增生為主。肝呈灰白色,發(fā)硬。由于間質(zhì)結(jié)締組織增生,使肝細(xì)胞受壓后呈現(xiàn)增生,形成結(jié)節(jié)狀隆起,肝臟表面不平整。

步驟5 利用向量夾角余弦公式來計(jì)算待分類文本D與訓(xùn)練集文本Di的相似度,公式為

步驟4 對待分類文本進(jìn)行步驟1 到步驟3 的處理工作。

3.2.2 嚴(yán)密觀察患者 護(hù)士應(yīng)經(jīng)常巡視病房,早發(fā)現(xiàn)、早防范有精神異動(dòng)患者,采取外緊內(nèi)松的管理模式,做好患者的心理疏導(dǎo),鼓勵(lì)患者參加適度的體育鍛煉、文娛活動(dòng)分散患者注意力,不讓患者存在自卑;精神異常發(fā)作時(shí)及時(shí)采取約束帶和暫時(shí)性的保護(hù)性隔離措施。

步驟6 選出與待分類文本D 最相似即sim (D,Di)最大的K 個(gè)文本作為文本D 的最近鄰。

步驟7 根據(jù)這K 個(gè)最近鄰,計(jì)算待分類文本D 在各個(gè)類別里的隸屬度。計(jì)算公式為

式中:δ(D,Cm)表示若待分類文本D 屬于類別Cm則值為1,否則為0,δ(D,Cm)的計(jì)算公式為

步驟8 選出隸屬度最大的類別Cm,并將待分類文本D 歸入到該類別Cm中。

今年復(fù)合肥總體價(jià)格高于去年同期,而且還高了不少。以45%硫基復(fù)合肥為例,較去年同期增長14%,原料尿素同比增長28%,磷酸一銨同比增長14%左右,氯化鉀同比增長6.4%,硫酸鉀同比增長17.6%。是什么原因?qū)е陆衲陱?fù)合肥價(jià)格如此之高?其主要原因有以下幾個(gè)方面:

2 基于K-Medoids聚類的改進(jìn)KNN 算法

雖然KNN 算法是一種經(jīng)典的文本分類算法,但它是一種懶惰算法,在分類階段具有明顯的缺點(diǎn):需要計(jì)算每個(gè)待分類文本與訓(xùn)練集所有樣本的相似度,時(shí)間復(fù)雜度與訓(xùn)練集樣本數(shù)成正比,當(dāng)面對著海量的訓(xùn)練樣本時(shí),KNN 算法的運(yùn)行速度將大幅下降,失去實(shí)用性。針對這個(gè)問題,提出使用聚類方法對訓(xùn)練集進(jìn)行刪減以減少計(jì)算開銷。在對訓(xùn)練集進(jìn)行裁剪的方法中,有利用K-means聚類算法來獲取簇心,從而實(shí)現(xiàn)對訓(xùn)練樣本進(jìn)行裁剪的方法[10];也有利用DBSCAN 聚類算法來確定類內(nèi)樣本分布,并根據(jù)樣本分布密度來進(jìn)行裁剪的方法[11]。但在K-means算法中,用均值方法來更新簇的中心值時(shí),會(huì)導(dǎo)致其產(chǎn)生的族類大小相差不大、對噪聲和孤立點(diǎn)數(shù)據(jù)非常敏感等缺點(diǎn)[12];在DBSCAN 算法中,需要多個(gè)參數(shù),這些參數(shù)的設(shè)置通常是依靠個(gè)人經(jīng)驗(yàn),難以確定。針對K-means和DBSCAN 聚類算法裁剪的不足,提出了一種基于K-Medoids聚類算法的KNN 分類器訓(xùn)練集裁剪方法。該方法首先利用K-Medoids聚類算法對訓(xùn)練集進(jìn)行聚類,從而得到類別分布結(jié)構(gòu),再根據(jù)待分類文本與各個(gè)簇心的距離來對訓(xùn)練集進(jìn)行裁剪,從而減少K 最近鄰算法的相似度計(jì)算量。

我國高鐵走出國家的形勢雖然良好,有著很大的潛力,但一些挑戰(zhàn)是不可避免的,激烈的競爭、國際形勢、未知的不利因素都是阻礙高鐵發(fā)展的重要因素。

2.1 K-Medoids聚類算法

聚類是一種把相似度較高的個(gè)體歸為一簇的方法,使得簇內(nèi)的個(gè)體相似度較高,簇間的個(gè)體相似度較低?;趧澐值木垲愃惴ň哂泻唵?、準(zhǔn)確等優(yōu)點(diǎn),其中K-Means和K-Medoids是經(jīng)典的基于劃分的聚類算法,文獻(xiàn) [13]指出K-Means算法本身的特點(diǎn)不適合多數(shù)生產(chǎn)實(shí)踐的聚類分析,因此基于K-Medoids算法的樣本裁剪研究很有必要。

(4)使用2.2節(jié)所講的裁剪方法對文本訓(xùn)練集S進(jìn)行裁剪,得到新的訓(xùn)練集Snew。

在做一些練習(xí)題的時(shí)候,教師可以引入競爭的機(jī)制,充分調(diào)動(dòng)學(xué)生的參與積極性。(1)擴(kuò)大練習(xí)面,要照顧到每一位學(xué)生。在學(xué)生練習(xí)過程中教師要不斷了解情況,根據(jù)不同層次的學(xué)生采取有針對性的措施,調(diào)動(dòng)他們的學(xué)習(xí)積極性,提高練習(xí)效率。(2)經(jīng)過一段時(shí)間的練習(xí),教師要篩選出有代表性的題目,做成卡片或結(jié)合實(shí)際,加強(qiáng)鞏固學(xué)生的知識,使其能夠穩(wěn)步提高。(3)對于計(jì)算有一些困難的學(xué)生,教師要弄清楚他們的問題出在哪里,要幫助他們有效地解決困難,努力消除學(xué)生心理上的負(fù)擔(dān),提高他們的自信心。

2.2 基于K-Medoids聚類的樣本裁剪方法

步驟4 在每個(gè)簇內(nèi)部順序選擇一個(gè)非簇心的文本對象Otmp,計(jì)算以O(shè)tmp為簇心的消耗代價(jià)Etmp,若Etmp<Ei,則表明聚類在收斂,用Otmp更新簇心Oi,繼續(xù)迭代,直到Ei小于Etmp且各個(gè)簇心不再發(fā)生變化為止,此時(shí)聚類結(jié)束。

步驟3 把訓(xùn)練集文本表示為特征向量。

假定文本訓(xùn)練集為S,S 有N 個(gè)類別C1,C2,……,CN,S 的總文本數(shù)為M。S 首先被K-Medoids聚類算法分為r個(gè)簇,記X 為各個(gè)簇的簇心,X∈S,sim(Di,Dj)為訓(xùn)練樣本Di和Dj的相似度,Simmin代表簇內(nèi)的各個(gè)樣本與簇心X 之間的相似度的最小值。則文本訓(xùn)練集S 就可以表示為以簇心X 為球心,Simmin為半徑的r個(gè)球體。

步驟1 對于文本訓(xùn)練集S,指定需要?jiǎng)澐殖蓃個(gè)簇,r=3×N。

患側(cè)手腫脹是腦卒中偏癱患者的常見并發(fā)癥之一,其發(fā)生率約為12.5%~70.0%[1]。水腫以手背部最為明顯,常波及手指和手掌[2]。如不及時(shí)干預(yù)不僅導(dǎo)致粘連、攣縮等手部功能障礙,且降低患者本人的生活自理能力、增加其與家人的生活負(fù)擔(dān)??祻?fù)治療早期干預(yù)有利于手腫脹的快速消退、減少并發(fā)癥,促進(jìn)手功能恢復(fù),提高患者的生活質(zhì)量。目前,針對腦卒中患手腫脹的報(bào)道大多針對中后期肩手綜合征導(dǎo)致的手腫治療[3],而對于其早期康復(fù)干預(yù)的報(bào)道較少。同時(shí)因氣壓治療及神經(jīng)肌肉電刺激治療水腫的機(jī)理不同,本研究將兩種治療方案疊加使用,探討其對改善重癥監(jiān)護(hù)室腦卒中患側(cè)手腫脹的患者肢體腫脹是否有疊加效果。

步驟2 為每個(gè)簇隨機(jī)選擇一個(gè)簇心Oi(0<i≤r)。

步驟3 計(jì)算文本訓(xùn)練集S 中的其它非簇心文本與這r個(gè)簇心的相似度,把它們歸給相似度最大的簇,同時(shí)統(tǒng)計(jì)以O(shè)i為簇心的消耗代價(jià)Ei和每個(gè)簇的最小相似度Simmin。

在KNN 算法的分類過程中,對于每個(gè)待分類文本D,它的類別C 是確定的,根據(jù)相似度計(jì)算公式得到的K 個(gè)最近鄰文本,一般也是屬于類別C 的,如果不是,也應(yīng)該是在類別C 的周圍。故可以假設(shè)如果只讓D 與類別C 的文本(包括類別C 附近的文本)計(jì)算相似度的話,則可以大大地減少計(jì)算量?;诖?,提出了基于K-Medoids聚類的樣本裁剪方法。

步驟5 計(jì)算待分類文本與每個(gè)簇心的相似度Sim(D,Oi),若Sim(D,Oi)<Simmin,表明這個(gè)待分類文本與這個(gè)簇內(nèi)的文本的相似度很低,所以把這個(gè)簇內(nèi)的文本裁剪掉,否則把這個(gè)簇內(nèi)的文本加入到分類運(yùn)算中去,從而得到新的訓(xùn)練集Snew。

2.3 基于K-Medoids聚類的改進(jìn)KNN 算法

在KNN 文本分類算法中,通過K-Medoids聚類將訓(xùn)練集分為多個(gè)簇,再挖掘文本訓(xùn)練集的類別分布結(jié)構(gòu),最后計(jì)算每個(gè)待分類文本與簇心的相似度,若得到的相似度小于該簇內(nèi)的最小相似度,則不把這個(gè)簇內(nèi)的訓(xùn)練集文本加入計(jì)算范圍,減少樣本數(shù)量,從而降低計(jì)算開銷。綜上所述,提出的基于K-Medoids聚類的改進(jìn)KNN 文本分類算法流程如下和流程如圖1所示。

圖1 基于K-Medoids算法的KNN 分類流程

(1)首先采用開源工具IKAnalyzer對中文文本進(jìn)行分詞、去停用詞等預(yù)處理。

(2)采用文檔頻率方法對特征維數(shù)進(jìn)行降維,設(shè)置最低文檔頻閥值為200。

(3)采用權(quán)重計(jì)算公式TFIDF來計(jì)算文本特征項(xiàng)的權(quán)重,從而得到文本的向量空間模型即特征向量,權(quán)重計(jì)算公式為:Wik=tfik×idfk,其中tfik表示特征項(xiàng)Tk在文本Di的詞頻,idfk表示特征項(xiàng)Tk出現(xiàn)的文檔頻率的反比。

K-Medoids算法[13]的思想是:對于數(shù)據(jù)集,首先需要指定劃分成多少個(gè)簇,即任意選擇K 個(gè)不同數(shù)據(jù)對象作為初始簇心Oi(0<i≤K),接著根據(jù)其它對象與每個(gè)簇心的相似度,把它們分配給相似度最大的簇,最后在每個(gè)簇內(nèi)部順序選擇一個(gè)非簇心的樣本對象Otmp,計(jì)算以O(shè)tmp為簇心的消耗代價(jià)Etmp,若Etmp<Ei,則表明聚類在收斂,用Otmp更新簇心Oi,繼續(xù)迭代,直到Ei小于Etmp且各個(gè)簇心不再發(fā)生變化為止,此時(shí)聚類結(jié)束。

(5)對于每個(gè)待分類文本D,根據(jù)第一節(jié)所講的KNN分類流程,對待分類文本D 進(jìn)行分類,實(shí)驗(yàn)中設(shè)置KNN算法中的參數(shù)K=20。

3 實(shí)驗(yàn)結(jié)果及分析

對提出的改進(jìn)方法進(jìn)行了實(shí)驗(yàn),設(shè)計(jì)如下實(shí)驗(yàn):實(shí)驗(yàn)環(huán)境 為Windows 7 64 位 操 作 系 統(tǒng)、CPU 為AMD A8-5600K、內(nèi)存為8G 和Eclipse集成開發(fā)工具,實(shí)驗(yàn)數(shù)據(jù)全部來自于復(fù)旦大學(xué)發(fā)布的分類語料庫,從中我們選取了一組一定規(guī)模的訓(xùn)練集及其對應(yīng)的測試集,它們的類別包括藝術(shù)、歷史、計(jì)算機(jī)、環(huán)境、農(nóng)業(yè)、經(jīng)濟(jì)和政治。訓(xùn)練集最小類別為歷史類,文本數(shù)為350篇,最大類別為環(huán)境類,文本數(shù)為450篇,文檔總數(shù)為2905;測試集最小類別為藝術(shù)類,文本數(shù)為280 篇,最大類別為環(huán)境類文本數(shù)為450篇,測試集文檔總數(shù)為2525篇。分類效果的評價(jià)指標(biāo)采用準(zhǔn)確率 (precision)、召回率 (recall)和F1 值,時(shí)間采用多次實(shí)驗(yàn)的平均值。

準(zhǔn)確率是指使用文本自動(dòng)分類算法分類的所有文本中與人工分類結(jié)果一致的文本所占的比率,其數(shù)學(xué)公式為

召回率是指用人工分類的所有文本中與使用文本自動(dòng)分類算法分類的文本一致所占的比率,其數(shù)學(xué)公式為

通常情況下準(zhǔn)確率和召回率兩者呈互補(bǔ)狀態(tài),單純提高一個(gè)指標(biāo)會(huì)導(dǎo)致另一個(gè)指標(biāo)下降。所以,需要一個(gè)指標(biāo)綜合考慮這2個(gè)因素,這就是F1值,其數(shù)學(xué)公式為

分別與傳統(tǒng)的KNN 算法和基于K-Means的改進(jìn)KNN算法進(jìn)行了比較,數(shù)據(jù)統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果見表1。

根據(jù)上述基礎(chǔ)地理單元?jiǎng)澐帧Ⅻc(diǎn)位風(fēng)險(xiǎn)評價(jià)、水稻產(chǎn)地土壤風(fēng)險(xiǎn)評價(jià)、稻米風(fēng)險(xiǎn)評價(jià)、水稻富集系數(shù)及土壤-稻米協(xié)同風(fēng)險(xiǎn)評價(jià)結(jié)果劃分風(fēng)險(xiǎn)評價(jià)單元,將研究區(qū)域內(nèi)稻田劃分成125個(gè)風(fēng)險(xiǎn)評價(jià)單元,其中,優(yōu)先保護(hù)類、安全利用類和嚴(yán)格管控類的評價(jià)單元分別有85個(gè)、38個(gè)和2個(gè)。按風(fēng)險(xiǎn)等級劃分,區(qū)域內(nèi)無、低、中、高風(fēng)險(xiǎn)單元分別有85個(gè)、30個(gè)、8個(gè)和2個(gè),未出現(xiàn)極高風(fēng)險(xiǎn)單元(圖5)。

表1可以看出,基于K-Medoids算法改進(jìn)的KNN 算法與傳統(tǒng)KNN 算法相比,不僅在分類速度上有所提高,而且在準(zhǔn)確率、召回率和F1 值上也有所提高,在各個(gè)類別的F1值下全面提高,平均提高了0.92;在各個(gè)類別的查準(zhǔn)率上只有在歷史類別上有所下降,平均提高了0.99%;在各個(gè)類別的查全率上,只在歷史、環(huán)境、農(nóng)業(yè)和經(jīng)濟(jì)這4 個(gè)類別上有所提高,平均提高了0.86%;但是在分類速度上提高了將近一倍,這樣的改進(jìn)效果是令人非常滿意的。從表1可以看出,基于K-Medoids算法改進(jìn)的KNN 算法與基于K-Means算法改進(jìn)的KNN 算法相比,不僅在平均查全率和平均F1值上表現(xiàn)得更好,也在速度上有所提升,原因是K-Means算法形成的簇類大小相差不大,導(dǎo)致平均裁剪數(shù)較多,比K-Medoids算法多出了2 3 1個(gè)文本,誤刪的機(jī)會(huì)也就更大。雖然K-Means算法裁剪的訓(xùn)練文本數(shù)較多,但K-Means算法在收斂時(shí)所花費(fèi)的時(shí)間比K-Medoids要長,所以在分類速度上K-Mediods 算法的表現(xiàn)要比KMeans算法上少花費(fèi)了99S。

表1 實(shí)驗(yàn)結(jié)果

4 結(jié)束語

針對KNN 算法的分類階段,需要計(jì)算待分類文本與文本訓(xùn)練集中所有文本的相似度,計(jì)算量大的特點(diǎn),提出了基于K-Medoids聚類算法的改進(jìn)KNN 方法,利用K-Medoids聚類算法來形成簇,再根據(jù)待分類文本與簇心的相似度來對訓(xùn)練集進(jìn)行合理裁剪以減少計(jì)算開銷。雖然樣本裁剪方法可以減少計(jì)算開銷,但不可避免地帶來了樣本信息的損失。如何更有針對性和更有效率地對樣本進(jìn)行裁剪,是我們今后需要進(jìn)行研究的方向。

[1]DAI Lei,MA Weidong,WANG Lingnan,et al.Weightbased naive Bayes classifier design and implementation [J].Information Studies:Theory & Application,2008,31 (3):440-442 (in Chinese).[代磊,馬衛(wèi)東,王凌楠,等.基于權(quán)重的樸素貝葉斯分類器設(shè)計(jì)與實(shí)現(xiàn) [J].情報(bào)理論與實(shí)踐,2008,31 (3):440-442.]

[2]QIN Yuping,AI Qing,WANG Xiukun,et al.Study on multi-subject text classification algorithm based on support vector machines [J].Computer Engineering and Design,2008,29 (2):408-410 (in Chinese). [秦玉平,艾青,王 秀 坤,等.基于支持向量機(jī)的兼類文本分類算法研究 [J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29 (2):408-410.]

[3]Zhang Minling,Zhou Zhihua.ML-KNN:A lazy learning approach to multi-label learning [J].Pattern Recognition,2007,40 (7):2038-2048.

[4]FENG Guohe,WU Jingxue.A literature review on the im-provement of KNN algorithm [J].Library and Information Service,2012,56 (21):97-100 (in Chinese).[奉國和,吳敬學(xué).KNN 分類算法改進(jìn)研究進(jìn)展 [J].圖書情報(bào)工作,2012,56 (21):97-100.]

[5]LI Kaiqi,DIAO Xingchun,CAO Jianjun,et al.High precision method for text feature selection based on improved ant colony optimization algorithm [J].Journal of PLA University of Science and Technology (Natural Science Edition),2010,11 (6):634-639 (in Chinese). [李凱齊,刁興春,曹建軍,等.基于改進(jìn)蟻群算法的高精度文本特征選擇方法 [J].解放軍理工大學(xué)學(xué)報(bào) (自然科學(xué)版),2010,11 (6):634-639.]

[6]YAN Peng,ZHENG Xuefeng,LI Mingxiang,et al.Feature selection method based on Bayes reasoning in two-class text classification [J].Computer Science,2008,35 (7):173-176 (in Chinese).[閆鵬,鄭雪峰,李明祥,等.二值文本分類中基于Bayes 推理的特征選擇方法 [J].計(jì)算機(jī)科學(xué),2008,35 (7):173-176.]

[7]WU Chunying,WANG Shitong.Improved KNN Web text classification method [J].Application Research of Computers,2008,25 (11):3275-3277 (in Chinese).[吳春穎,王士同.一種改進(jìn)的KNN Web文本分類方法 [J]計(jì)算機(jī)應(yīng)用研究,2008,25 (11):3275-3277.]

[8]ZHANG Xiaofei,HUANG Heyan.An improved KNN text categorization algorithm by adopting cluster technology [J].Pattern Recognition and Artificial Intelligence,2009,22 (6):936-940 (in Chinese).[張孝飛,黃河燕.一種采用聚類技術(shù)改進(jìn)的KN 文本分類方法 [J].模式識別與人工智能,2009,22 (6):936-940.]

[9]YAO Qingyun,LIU Gongshen,LI Xiang.VSM-based text clustering algorithm [J].Computer Engineering,2008,34(18):39-44 (in Chinese).[姚清耘,劉功申,李翔.基于向量空間模型的文本聚類算法 [J].計(jì)算機(jī)工程,2008,34(18):39-44.]

[10]LIU Haifeng,YAO Zeqing,SU Zhan,et al.A clusteringbased method for reducing the amount of sample in KNN text categorization on the category deflection [J].Microelectronics&Computer,2012,29 (5):24-28 (in Chinese).[劉海峰,姚澤清,蘇展,等.文本分類中基于K-means的類偏斜KNN樣本剪裁 [J].微電子學(xué)與計(jì)算機(jī),2012,29 (5):24-28.]

[11]GOU Heping,JING Yongxia,F(xiàn)ENG Baiming,et al.An improved KNN text categorization algorithm based on DBSCAN [J].Science Technology and Engineering,2013,13(1):1671-1815 (in Chinese). [茍和平,景永霞,馮百明,等.基于DBSCAN 聚類的改進(jìn)KNN 文本分類算法 [J].科學(xué)技術(shù)與工程,2013,13 (1):1671-1815.]

[12]HAN Xiaohong,HU Yu.Research of K-means algorithm[J].Journal of Taiyuan University of Technology,2009,40(3):236-239 (in Chinese).[韓曉紅,胡彧.K-means聚類算 法 的 研 究 [J].太 原 理 工 大 學(xué) 學(xué) 報(bào),2009,40 (3):236-239.]

[13]ZHANG Xueping,GONG Kangli,ZHAO Guangcai.Parallel KMedoids algorithm based on MapReduce[J].Journal of Computer Applications,2013,33 (4):1023-1025 (in Chinese). [張雪萍,龔康莉,趙廣才.基于MapReduce的K-Medoids并行算法[J].計(jì)算機(jī)應(yīng)用,2013,33 (4):1023-1025.]

猜你喜歡
類別聚類分類
分類算一算
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
教你一招:數(shù)的分類
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
論類別股東會(huì)
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
都江堰市| 镇宁| 肃南| 平原县| 彰化县| 桦甸市| 富民县| 金川县| 双鸭山市| 平顺县| 姚安县| 临沂市| 荔波县| 呼和浩特市| 普洱| 连山| 大庆市| 禄丰县| 安阳县| 微山县| 获嘉县| 苍山县| 嫩江县| 长治市| 房产| 潼关县| 革吉县| 连江县| 平山县| 印江| 沛县| 临清市| 凌云县| 乌鲁木齐市| 沂水县| 临桂县| 读书| 房产| 贵阳市| 赣榆县| 永年县|