国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

農(nóng)業(yè)信息分類中K-means與SVM的混合算法研究

2017-06-27 08:14趙新苗馮向萍
關(guān)鍵詞:訓(xùn)練樣本測(cè)度聚類

趙新苗,馮向萍,趙 濤

(新疆農(nóng)業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,新疆 烏魯木齊 830052)

農(nóng)業(yè)信息分類中K-means與SVM的混合算法研究

趙新苗,馮向萍,趙 濤

(新疆農(nóng)業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,新疆 烏魯木齊 830052)

隨著新疆農(nóng)業(yè)信息技術(shù)的不斷發(fā)展和農(nóng)村互聯(lián)網(wǎng)的廣泛普及,互聯(lián)網(wǎng)中海量的農(nóng)業(yè)相關(guān)知識(shí)和信息雖然為工作人員帶來(lái)了便利,但是與此同時(shí)也給信息檢索增加了難度。在對(duì)具有新疆特色的農(nóng)作物網(wǎng)頁(yè)信息分類研究的基礎(chǔ)上,提出并實(shí)現(xiàn)了K-means與SVM相結(jié)合的分類方法,以幫助農(nóng)業(yè)相關(guān)工作人員獲得更準(zhǔn)確有效的信息。該分類方法采用K-means對(duì)訓(xùn)練樣本進(jìn)行聚類以減少邊緣訓(xùn)練樣本,并應(yīng)用SVM對(duì)刪減后的訓(xùn)練集進(jìn)行訓(xùn)練。為減少訓(xùn)練集邊緣樣本、節(jié)省訓(xùn)練時(shí)間,還提出了兩種基于中心向量的邊緣樣本刪減方法,分別僅保留中心向量方法和保留中心向量臨近樣本。實(shí)驗(yàn)驗(yàn)證結(jié)果表明,所提出的方法均能夠同時(shí)有效地減少訓(xùn)練樣本和訓(xùn)練時(shí)間。

農(nóng)業(yè)信息;分類;聚類;邊緣樣本刪減

0 引 言

中共中央國(guó)務(wù)院在《關(guān)于積極發(fā)展現(xiàn)代農(nóng)業(yè)扎實(shí)推進(jìn)社會(huì)主義新農(nóng)村建設(shè)的若干意見(jiàn)》中明確提出:“推動(dòng)農(nóng)業(yè)信息數(shù)據(jù)收集整理規(guī)范化、標(biāo)準(zhǔn)化”[1]。根據(jù)“十二五”規(guī)劃中關(guān)于農(nóng)業(yè)方面提出的《全國(guó)農(nóng)業(yè)和農(nóng)村經(jīng)濟(jì)發(fā)展第十二個(gè)五年規(guī)劃》和《農(nóng)業(yè)科技發(fā)展規(guī)劃(2006-2020年)》[2]可以看出,在新時(shí)代到來(lái)之際,農(nóng)業(yè)要走信息化、科技化的道路[3]。

目前有很多學(xué)者對(duì)農(nóng)業(yè)搜索引擎進(jìn)行研究。例如,周鵬等就目前搜索引擎在專業(yè)特色領(lǐng)域中應(yīng)用度低的問(wèn)題,使用開(kāi)源的搜索引擎架構(gòu)Nutch搭建了農(nóng)業(yè)信息相關(guān)的搜索引擎[4]。熊金輝等根據(jù)目前農(nóng)業(yè)信息化發(fā)展的現(xiàn)狀,指出了建立搜索引擎是必要的[5]。王曉琴等則針對(duì)傳統(tǒng)搜索引擎專業(yè)性差和查準(zhǔn)率低等問(wèn)題,實(shí)現(xiàn)了基于Nutch的農(nóng)業(yè)垂直搜索引擎[6]。

搜索引擎抓取回來(lái)的數(shù)據(jù)很龐大且雜亂無(wú)章,因此對(duì)搜索引擎抓取的數(shù)據(jù)進(jìn)行有效的管理和分類勢(shì)在必行。關(guān)于文本分類的文獻(xiàn)較多,例如,Apte用決策樹(shù)技術(shù)來(lái)獲取分類器[7];Yang等提出了一種鄰近算法進(jìn)行分類[8];Lewis等采用了一個(gè)線性分類器[9];Cohen等設(shè)計(jì)了一種建立在權(quán)值更新基礎(chǔ)上的休眠專家算法[10]。

新疆農(nóng)作物在種類、種植方法、農(nóng)業(yè)政策和農(nóng)業(yè)科技上與其他地區(qū)都存在差異,但是卻沒(méi)有提供新疆農(nóng)作物相關(guān)的獨(dú)特的搜索引擎,所以建立新疆特有的農(nóng)作物信息檢索平臺(tái)顯得尤為重要。為此,根據(jù)《新疆農(nóng)村信息采集系統(tǒng)》功能需求,主要通過(guò)分析機(jī)器學(xué)習(xí)分類算法,設(shè)計(jì)農(nóng)業(yè)信息分類模型,以達(dá)到對(duì)搜索引擎采集的數(shù)據(jù)進(jìn)行正文內(nèi)容抽取和分類的目的。

1 相關(guān)算法

1.1 支持向量機(jī)

支持向量機(jī)(Support Vector Machine,SVM)方法的提出在很多領(lǐng)域應(yīng)用廣泛。它是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的新型學(xué)習(xí)方法。最大特點(diǎn)就是根據(jù)Vapnik結(jié)構(gòu)使風(fēng)險(xiǎn)達(dá)到了最小,提高了學(xué)習(xí)機(jī)的泛化能力[11]。通過(guò)以上幾個(gè)特點(diǎn)可以看出,SVM優(yōu)于其他一些算法,通過(guò)大量的研究表明支持向量機(jī)分類器是最優(yōu)越的分類器之一[12-13]。但是對(duì)于大規(guī)模的網(wǎng)頁(yè)分類數(shù)據(jù)而言,訓(xùn)練樣本龐大,SVM需要訓(xùn)練的時(shí)間很長(zhǎng)。

(1)支持向量機(jī)分類的過(guò)程。

SVM通過(guò)非線性變換,將輸入量映射到一個(gè)高維空間H上,在H中構(gòu)造最優(yōu)的分類超平面,進(jìn)而得到良好的泛化能力[14]。其詳細(xì)的算法步驟如下:

其中,di是由ai不為0而確定的支持向量;b=0.5(wd1+wd2)是分類閾值,d1和d2分別是兩個(gè)類中任意一個(gè)ai>0所對(duì)應(yīng)的樣本向量。

(2)將待分類向量d和支持向量di用核函數(shù)K(d,di)映射到線性空間。常用的核函數(shù)有:

①多項(xiàng)式核:[(d,di)+1]q,q∈自然數(shù)。

③兩層神經(jīng)網(wǎng)絡(luò)核:S(α(d,di)+t)。其中,S是sigmoid函數(shù),α和t是常數(shù)。

1.2K-means聚類算法

K-means算法是聚類分析中一種經(jīng)典的基于中心向量的聚類方法。該算法以其原理簡(jiǎn)單、收斂速度快以及適應(yīng)性強(qiáng)而得到廣泛應(yīng)用。

K-means算法核心思想是將n個(gè)數(shù)據(jù)對(duì)象劃分成k個(gè)聚類,生成的每個(gè)聚類滿足:同一聚類中的對(duì)象相似度較高,而不同聚類中的對(duì)象相似度較小,即類內(nèi)緊湊,類間獨(dú)立。

2 K-means和SVM結(jié)合分類算法

SVM的時(shí)間復(fù)雜度線性時(shí)為O(nd),非線性時(shí)為O(nd2),其中d為訓(xùn)練樣本數(shù),d為特征維度。所以隨著樣本數(shù)量和特征數(shù)量的增加,SVM的時(shí)間復(fù)雜度和空間復(fù)雜度也會(huì)增加。

K-means算法經(jīng)常以局部最優(yōu)結(jié)束,適合處理大數(shù)據(jù)集,特別是當(dāng)數(shù)據(jù)呈現(xiàn)球形分布時(shí)效果較好,但由于數(shù)據(jù)的分布往往是分散和不規(guī)則的,因此該方法聚類速度快,但準(zhǔn)確率低。

根據(jù)K-means算法聚類速度快和SVM算法準(zhǔn)確率高的特點(diǎn),將兩者結(jié)合起來(lái),既能提高訓(xùn)練速度,又能保證分類準(zhǔn)確率。針對(duì)這一問(wèn)題,提出了一種K-means和SVM相結(jié)合的分類模型。

2.1K-means與SVM結(jié)合的分類模型

具體流程如下:首先使用K-means對(duì)訓(xùn)練樣本進(jìn)行聚類,然后刪減掉邊緣訓(xùn)練樣本,使用這種方法對(duì)數(shù)據(jù)集進(jìn)行刪減,以達(dá)到準(zhǔn)確率基本不變并且提高分類模型速度的效果;然后使用SVM對(duì)刪減過(guò)的訓(xùn)練樣本進(jìn)行訓(xùn)練,并對(duì)測(cè)試樣本進(jìn)行分類測(cè)試。

2.2K-means方法刪減邊緣樣本

2.2.1 刪減邊緣樣本的原理

對(duì)于訓(xùn)練集中的某個(gè)樣本d來(lái)說(shuō),要么是第i類文本,要么是第i類和其他類交叉區(qū)域的文本,交叉區(qū)域的文本大多是多類別屬性的文本,還有不屬于任何類的文本,這些邊緣化的樣本在分類過(guò)程中不僅增加了訓(xùn)練過(guò)程的時(shí)間開(kāi)銷和計(jì)算開(kāi)銷,還會(huì)影響分類結(jié)果。因此對(duì)訓(xùn)練文本進(jìn)行刪減,刪除一些邊緣樣本以達(dá)到準(zhǔn)確率基本不變并減少訓(xùn)練時(shí)間和計(jì)算量的目的。

根據(jù)上述思想對(duì)所采用的K-means方法刪減邊緣樣本,提出了兩種基于中心向量的解決方法,即僅保留中心向量或者保留中心向量鄰近的文本作為訓(xùn)練樣本,并對(duì)其進(jìn)行實(shí)驗(yàn)驗(yàn)證。

2.2.2 保留中心向量

該方法將訓(xùn)練集向量表示后用K-means方法對(duì)每類的訓(xùn)練集聚類,聚類簇?cái)?shù)為n≤k≤m,即聚類簇?cái)?shù)大于1并且小于該類樣本數(shù)。因?yàn)槊總€(gè)簇的中心向量都是具有代表性的有用數(shù)據(jù),因此取每個(gè)簇的中心向量作為新的訓(xùn)練集,以達(dá)到減少訓(xùn)練樣本數(shù)的目的。

(1)讀入訓(xùn)練集。假設(shè)每類的聚類簇?cái)?shù)為k,隨機(jī)取出k個(gè)文本向量作為初始向量,其中1≤k≤m。

(2)將新到樣本歸納到距離最近的類中。

(1)

(4)重復(fù)上述步驟,直到收斂,取每類中每個(gè)簇的中心向量作為SVM的新訓(xùn)練集S1進(jìn)行訓(xùn)練。

(5)對(duì)生成的分類器進(jìn)行分類測(cè)試,如圖1所示。

圖1 保留中心向量的混合模型流程圖

2.2.3 保留中心向量臨近文本

(1)讀入訓(xùn)練集。假設(shè)每類的聚類簇?cái)?shù)為k,隨機(jī)取出k個(gè)文本向量作為初始向量,其中1≤k≤m。

(2)將新到文本歸納到距離近的類中。

(2)

(3)

(5)對(duì)生成的分類器進(jìn)行分類測(cè)試,如圖2所示。

圖2 保留中心向量周邊樣本流程圖

2.3 分類結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)

國(guó)際上通用的評(píng)價(jià)指標(biāo)有:查準(zhǔn)率(Precision)、查全率(Recall)和F1測(cè)度[15]。

(4)

(5)

其中,A表示樣本集中原本是正例,被模型判斷為正例的樣本數(shù);B表示樣本集中原本是正例,卻被模型判斷為反例的樣本數(shù);D表示樣本集中原本是反例,卻被模型判斷為正例的樣本數(shù)。

F1測(cè)度是對(duì)查準(zhǔn)率和查全率兩個(gè)指標(biāo)進(jìn)行加權(quán)和平均后形成的一個(gè)綜合指標(biāo)。

(6)

3 實(shí)驗(yàn)結(jié)果與分析

通過(guò)八爪魚(yú)采集器從中國(guó)農(nóng)業(yè)網(wǎng)(www.agronet.com.cn)、中國(guó)興農(nóng)網(wǎng)(www.xn121.com)、中國(guó)玉米網(wǎng)(www.chnym.com)、中國(guó)棉花網(wǎng)(www.cncotton.com)、葡萄網(wǎng)(http://grape.forestry.gov.cn)、中國(guó)小麥網(wǎng)(www.xiaomai.cn)、紅棗網(wǎng)(www.zao.com.cn)和核桃網(wǎng)(www.cnhetao.com)上抓取了21 450條相關(guān)網(wǎng)頁(yè)數(shù)據(jù)。

此處將對(duì)保留中心向量和保留中心向量周圍樣本的邊緣樣本刪減方法進(jìn)行對(duì)比實(shí)驗(yàn),若樣本太多訓(xùn)練時(shí)間會(huì)太長(zhǎng)。為了便于實(shí)驗(yàn),將從每類樣本中抽取500篇作為訓(xùn)練集,即總共有4 000篇文章作為實(shí)驗(yàn)樣本。

3.1 保留中心向量實(shí)驗(yàn)

實(shí)驗(yàn)中對(duì)每類訓(xùn)練樣本數(shù)為500的訓(xùn)練集進(jìn)行了聚類(即共4 000個(gè)訓(xùn)練樣本),具體如下:

(1)每類分別聚為100簇,并獲得每類100個(gè)中心向量作為該類新的測(cè)試集,共800個(gè)新測(cè)試樣本。

(2)每類分別聚為200簇,并獲得每類200個(gè)中心向量作為該類新的測(cè)試集,共1 600個(gè)新測(cè)試樣本。

(3)每類分別聚為300簇,并獲得每類300個(gè)中心向量作為該類新的測(cè)試集,共2 400個(gè)新測(cè)試樣本。

(4)每類分別聚為400簇,并獲得每類400個(gè)中心向量作為該類新的測(cè)試集,共3 200個(gè)新測(cè)試樣本。

(5)訓(xùn)練集分別保存在train(原訓(xùn)練集,僅使用SVM),train_100,train_200,train_300,train_400中,然后對(duì)這幾個(gè)訓(xùn)練集進(jìn)行訓(xùn)練和分類測(cè)試。

表1為僅使用SVM和改進(jìn)后的K-means&SVM混合模型在訓(xùn)練文本個(gè)數(shù)、F1測(cè)度以及訓(xùn)練時(shí)間上的對(duì)比。

表1 改進(jìn)前和改進(jìn)后實(shí)驗(yàn)結(jié)果對(duì)比

3.2 保留中心向量結(jié)果分析

如圖3所示,改進(jìn)前每類訓(xùn)練集樣本個(gè)數(shù)為500時(shí),僅使用SVM分類,F(xiàn)1測(cè)度大概為84%左右,訓(xùn)練時(shí)間為86 049 ms;當(dāng)把每類訓(xùn)練集聚類成100簇時(shí),F(xiàn)1測(cè)度大約為60%左右,訓(xùn)練時(shí)間下降為16 230 ms,F(xiàn)1下降明顯。原因是因?yàn)橛?xùn)練集樣本刪減個(gè)數(shù)太多導(dǎo)致F1測(cè)度直線下降,并且時(shí)間的下降速度快于F1測(cè)度的下降速度。

圖3 F1測(cè)度和訓(xùn)練時(shí)間隨樣本數(shù)增加的變化圖

當(dāng)每類訓(xùn)練集聚類成200~400簇時(shí),隨著樣本數(shù)量的上升,F(xiàn)1測(cè)度有所提升,但是訓(xùn)練時(shí)間也會(huì)出現(xiàn)翻倍增長(zhǎng)的趨勢(shì)。當(dāng)訓(xùn)練集聚為400簇時(shí),F(xiàn)1測(cè)度達(dá)到了80%左右,但時(shí)間的增長(zhǎng)速度明顯快過(guò)F1測(cè)度的增長(zhǎng)速度。

如圖4所示,訓(xùn)練時(shí)間隨著取得中心向量個(gè)數(shù)變化的時(shí)間差值如下所述:從每類100變?yōu)?00時(shí),時(shí)間差為10 718 ms;從每類200變?yōu)?00時(shí),時(shí)間差為8 637 ms;從每類300變?yōu)?00時(shí),時(shí)間差為10 525 ms;從每類400變?yōu)樵?00個(gè)訓(xùn)練樣本時(shí),時(shí)間差為39 939 ms。

圖4 隨著訓(xùn)練樣本增加的訓(xùn)練時(shí)間變化圖

從上述僅使用SVM和改進(jìn)后的時(shí)間差可以發(fā)現(xiàn),保留中心向量的邊緣樣本刪減法的確可以減少訓(xùn)練時(shí)間,訓(xùn)練樣本數(shù)和訓(xùn)練時(shí)間是成正相關(guān)的,而且隨著樣本數(shù)的增加,時(shí)間增加的幅度更大。

3.3 保留中心向量臨近樣本結(jié)果

實(shí)驗(yàn)中對(duì)每類訓(xùn)練樣本數(shù)為500的訓(xùn)練集進(jìn)行聚類(即共4 000個(gè)訓(xùn)練樣本),具體如下:

每類分別聚為100簇,并獲得每類以這100簇的中心向量為圓心,以所有樣本到該簇中心的平均距離為半徑的圓,作為該類新的測(cè)試集,據(jù)統(tǒng)計(jì)共2 652個(gè)新測(cè)試樣本。

表2為僅使用SVM、每類僅保留300個(gè)中心向量的K-means&SVM混合模型、每類取100中心向量臨近樣本的K-means&SVM混合模型在訓(xùn)練文本個(gè)數(shù)、F1測(cè)度以及訓(xùn)練時(shí)間上的對(duì)比。

表2 實(shí)驗(yàn)結(jié)果對(duì)比

3.4 保留中心向量臨近樣本分析

每類取100個(gè)簇的中心向量周圍的文本為訓(xùn)練集時(shí),訓(xùn)練集為2 652個(gè),F(xiàn)1測(cè)度為83%,訓(xùn)練時(shí)間為56 727 ms。

根據(jù)表2的實(shí)驗(yàn)結(jié)果可得:

(1)每類取100中心向量臨近樣本的K-means&SVM混合模型的訓(xùn)練樣本數(shù)比僅使用SVM的訓(xùn)練樣本數(shù)少1 348個(gè),訓(xùn)練時(shí)間比train少29 322 ms,但是F1測(cè)度僅比train少大約1%。

(2)每類取100中心向量臨近樣本的K-means&SVM混合模型的訓(xùn)練樣本數(shù)比每類僅保留300個(gè)中心向量的K-means&SVM混合模型的訓(xùn)練樣本數(shù)多252個(gè),但是訓(xùn)練時(shí)間比每類僅保留300個(gè)中心向量的K-means&SVM混合模型多21 142 ms,F(xiàn)1測(cè)度比train_300高大約3%。

總之,對(duì)訓(xùn)練集中邊緣樣本進(jìn)行刪減是以犧牲部分文本信息為代價(jià)的,過(guò)多的文本剪裁雖然可以節(jié)約計(jì)算開(kāi)銷,但是必然會(huì)引起準(zhǔn)確率的下降。上述方法的目的是刪除與中心向量較遠(yuǎn)的那些文本,因此在計(jì)算時(shí)間和準(zhǔn)確率之間會(huì)有適當(dāng)?shù)恼壑腥∩幔@種根據(jù)簇分布刪減邊緣樣本的方法,只要?jiǎng)h除數(shù)量適當(dāng),對(duì)分類結(jié)果產(chǎn)生的影響較小。

保留中心向量和保留中心向量鄰近樣本的方法各有優(yōu)缺點(diǎn):前者訓(xùn)練時(shí)間較快,但是F1測(cè)度較低;后者F1測(cè)度較高,但是訓(xùn)練時(shí)間相對(duì)較慢。但是兩種方法均可以起到準(zhǔn)確率基本不變、訓(xùn)練時(shí)間縮短的效果。

4 結(jié)束語(yǔ)

新疆農(nóng)業(yè)信息技術(shù)不斷加速發(fā)展,互聯(lián)網(wǎng)中海量的農(nóng)業(yè)相關(guān)信息雖然為工作人員帶來(lái)了便利,但與此同時(shí)也給信息檢索增加了難度。依據(jù)《新疆農(nóng)村信息采集系統(tǒng)》的需求,針對(duì)具有新疆特色的農(nóng)作物網(wǎng)頁(yè)信息進(jìn)行分類研究,幫助農(nóng)業(yè)相關(guān)工作人員獲得更準(zhǔn)確有效的信息。為此,提出并實(shí)現(xiàn)了K-means和SVM的農(nóng)業(yè)信息網(wǎng)頁(yè)分類模型。由實(shí)驗(yàn)結(jié)果及其分析可得:與僅采用SVM相比,保留中心向量和保留中心向量臨近文本的方法均可達(dá)到準(zhǔn)確率基本不變且提高分類的速度的目的;訓(xùn)練集的刪減程度需要加以控制,否則會(huì)直接影響到分類器的性能;采用的方法滿足大數(shù)據(jù)運(yùn)行的要求。

[1] 胡金有,張 健,游龍勇.我國(guó)農(nóng)業(yè)信息網(wǎng)站現(xiàn)狀分析[J].農(nóng)機(jī)化研究,2005(6):38-40.

[2] 黃建全,解翠平,黎 凌.新疆農(nóng)業(yè)信息化發(fā)展現(xiàn)狀與建議[J].新疆農(nóng)業(yè)科技,2013(5):1-4.

[3] 董婷婷,方 萍.淺議計(jì)算機(jī)在農(nóng)業(yè)中的應(yīng)用及前景[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2009(6):118-119.

[4] 周 鵬,吳華瑞,趙春江,等.基于Nutch農(nóng)業(yè)搜索引擎的研究與設(shè)計(jì)[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(3):610-612.

[5] 熊金輝,張海雷,余 波,等.中文農(nóng)業(yè)信息資源整合平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].中國(guó)農(nóng)學(xué)通報(bào),2005,21(12):407-410.

[6] 王曉琴,李書(shū)琴,景 旭,等.基于Nutch的農(nóng)業(yè)垂直搜索引擎研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(6):2239-2243.

[7] Velasco E,Thuler L C,Martins C A,et al.Automated learning of decision rules for text categorization[J].ACM Transactions on Information Systems,1994,12(3):233-251.

[8] Yang Y.Expert network:effective and efficient learning from human decisions in text categorization and retrieval[C]//International ACM SIGIR conference on research and development in information retrieval.Dublin,Ireland:ACM,1994:13-22.

[9] Lewis D D,Schapire R E,Callan J P,et al.Training algorithms for linear text classifiers[C]//International ACM SIGIR conference on research and development in information retrieval.[s.l.]:ACM,1999:298-306.

[10] Cohen W W,Singer Y.Context-sensitive learning methods for text categorization[J].ACM Transactions on Information Systems,2002,17(2):307-315.

[11] Andrew A M.An introduction to support vector machines and other kernel-based learning methods[J].AI Magazine,2000,32(8):1-28.

[12] 平 源.基于支持向量機(jī)的聚類及文本分類研究[D].北京:北京郵電大學(xué),2012.

[13] 羅 瑜.支持向量機(jī)在機(jī)器學(xué)習(xí)中的應(yīng)用研究[D].成都:西南交通大學(xué),2007.

[14] 蘇金樹(shù),張博鋒,徐 昕.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J].軟件學(xué)報(bào),2006,17(9):1848-1859.

[15] 宋楓溪,高 林.文本分類器性能評(píng)估指標(biāo)[J].計(jì)算機(jī)工程,2004,30(13):107-109.

Investigation onK-means and SVM Mixed Algorithm for Agriculture Information Classification

ZHAO Xin-miao,F(xiàn)ENG Xiang-ping,ZHAO Tao

(College of Computer and Information Engineering,Xinjiang Agricultural University,Urumqi 830052,China)

With the continuous development of Xinjiang agricultural information technology and the widespread popularity of rural Internet,the amount of relevant knowledge and information in Internet has been bringing lots of conveniences for people and difficulty for effective information retrieval at the same time.Based on the requirement analysis of Xinjiang Rural Information Acquisition System and aiming at categorization of the web pages which are about characteristic crops in Xinjiang to help display more accurate and effective agricultural information and reduce the number of training sets and save training time,a method combined with SVM and K-means has been proposed.Its main process contains clustering the training sets with K-means to delete edge samples and training the SVM on the new deleted training sets.Two methods of deleting edge samples and retaining neighbors of the centers have also been proposed.Experimental results show that these methods can decrease training samples and training time.

agricultural information;classification;clustering;edge samples reduction

2016-04-13

2016-07-28 網(wǎng)絡(luò)出版時(shí)間:2017-04-28

新疆維吾爾自治區(qū)科技計(jì)劃項(xiàng)目(2015X0108-1)

趙新苗(1990-),女,碩士研究生,研究方向?yàn)閿?shù)據(jù)庫(kù)技術(shù);馮向萍,副教授,通訊作者,研究方向?yàn)閿?shù)據(jù)庫(kù)技術(shù)及應(yīng)用。

http://kns.cnki.net/kcms/detail/61.1450.TP.20170428.1702.010.html

TP301.6

A

1673-629X(2017)06-0178-05

10.3969/j.issn.1673-629X.2017.06.037

猜你喜歡
訓(xùn)練樣本測(cè)度聚類
Rn上的測(cè)度雙K-框架
平面上兩個(gè)數(shù)字集生成的一類Moran測(cè)度的譜性
我國(guó)要素價(jià)格扭曲程度的測(cè)度
人工智能
數(shù)種基于SPSS統(tǒng)計(jì)工具的聚類算法效率對(duì)比
面向WSN的聚類頭選舉與維護(hù)協(xié)議的研究綜述
改進(jìn)K均值聚類算法
幾何概型中的測(cè)度
基于小波神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測(cè)研究
寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
哈巴河县| 吴川市| 海城市| 宜春市| 武义县| 陵川县| 临夏县| 夹江县| 杭锦后旗| 馆陶县| 营山县| 麻阳| 太仆寺旗| 双峰县| 红河县| 翼城县| 河南省| 盈江县| 旬邑县| 泸西县| 神农架林区| 华阴市| 高碑店市| 宁南县| 永嘉县| 斗六市| 白河县| 南溪县| 吉水县| 屏东县| 潮州市| 闻喜县| 大悟县| 左云县| 金乡县| 巴彦淖尔市| 黄龙县| 长岭县| 封丘县| 吉安县| 上杭县|