国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于K最近鄰樣本平均距離的代價(jià)敏感算法的集成

2019-09-04 10:14楊浩王宇張中原
計(jì)算機(jī)應(yīng)用 2019年7期
關(guān)鍵詞:集成

楊浩 王宇 張中原

摘 要:為了解決不均衡數(shù)據(jù)集的分類問題和一般的代價(jià)敏感學(xué)習(xí)算法無法擴(kuò)展到多分類情況的問題,提出了一種基于K最近鄰(KNN)樣本平均距離的代價(jià)敏感算法的集成方法。首先,根據(jù)最大化最小間隔的思想提出一種降低決策邊界樣本密度的重采樣方法;接著,采用每類樣本的平均距離作為分類結(jié)果的判斷依據(jù),并提出一種符合貝葉斯決策理論的學(xué)習(xí)算法,使得改進(jìn)后的算法具備代價(jià)敏感性;最后,對(duì)改進(jìn)后的代價(jià)敏感算法按K值進(jìn)行集成,以代價(jià)最小為原則,調(diào)整各基學(xué)習(xí)器的權(quán)重,得到一個(gè)以總體誤分代價(jià)最低為目標(biāo)的代價(jià)敏感AdaBoost算法。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的KNN算法相比,改進(jìn)后的算法在平均誤分代價(jià)上下降了31.4個(gè)百分點(diǎn),并且代價(jià)敏感性能更好。

關(guān)鍵詞:代價(jià)敏感;最大化最小間隔;樣本間距離;貝葉斯決策理論;集成

Abstract: To solve the problem of classification of unbalanced data sets and the problem that the general cost-sensitive learning algorithm can not be applied to multi-classification condition, an integration method of cost-sensitive algorithm based on average distance of K-Nearest Neighbor (KNN) samples was proposed. Firstly, according to the idea of maximizing the minimum interval, a resampling method for reducing the density of decision boundary samples was proposed. Then, the average distance of each type of samples was used as the basis of judgment of classification results, and a learning algorithm based on Bayesian decision-making theory was proposed, which made the improved algorithm cost sensitive. Finally, the improved cost-sensitive algorithm was integrated according to the K value. The weight of each base learner was adjusted according to the principle of minimum cost, obtaining the cost-sensitive AdaBoost algorithm aiming at the minimum total misclassification cost. The experimental results show that compared with traditional KNN algorithm, the improved algorithm reduces the average misclassification cost by 31.4 percentage points and has better cost sensitivity.

Key words: cost-sensitive; maximization of minimum interval; distance between samples; Bayesian decision-making theory; integration

0 引言

在機(jī)器學(xué)習(xí)研究過程中,經(jīng)常存在著樣本類別分布不均衡的情況,傳統(tǒng)的分類器注重于提高分類的準(zhǔn)確率,對(duì)不均衡數(shù)據(jù)集的分類結(jié)果更傾向于多數(shù)類[1],這種分類方式默認(rèn)兩種分類錯(cuò)誤的代價(jià)是相等的。然而在很多領(lǐng)域,比如入侵檢測、醫(yī)療診斷、欺詐檢測等,少數(shù)類的誤分類代價(jià)十分巨大,在此類情況中,人們主要關(guān)心少數(shù)類的分類準(zhǔn)確率。傳統(tǒng)的算法無法滿足此類數(shù)據(jù)的分類需要,于是代價(jià)敏感學(xué)習(xí)的思想被提出并廣泛應(yīng)用,代價(jià)敏感學(xué)習(xí)方法是解決不均衡數(shù)據(jù)集分類問題的一個(gè)重要方法[2]。代價(jià)敏感學(xué)習(xí)是指對(duì)不同的誤分類結(jié)果賦予不同的代價(jià),得到一個(gè)在對(duì)未知樣本進(jìn)行分類時(shí)誤分代價(jià)最小的分類器[3]。常見的誤分類代價(jià)包括基于類別的代價(jià)和基于樣本的代價(jià)。在基于類別的代價(jià)中,代價(jià)只與類別有關(guān),而在基于樣本的代價(jià)中,誤分類代價(jià)與每一個(gè)樣本有關(guān),在現(xiàn)實(shí)場景中,基于樣本的代價(jià)很難獲得,一般使用基于類別的代價(jià)。

一直以來,代價(jià)敏感學(xué)習(xí)算法在國際上都是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)。現(xiàn)有的代價(jià)敏感學(xué)習(xí)方法分為兩種[4]:一是基于特定算法的代價(jià)敏感學(xué)習(xí)方法,將優(yōu)化目標(biāo)變?yōu)榈玫狡谕鷥r(jià)最小的假設(shè)。例如在決策樹算法中使用代價(jià)敏感的葉節(jié)點(diǎn)分裂準(zhǔn)則以及代價(jià)敏感的剪枝策略[5]。二是代價(jià)敏感學(xué)習(xí)元方法,將使期望誤差率最小的學(xué)習(xí)算法轉(zhuǎn)變?yōu)榈玫狡谕鷥r(jià)最小的代價(jià)敏感學(xué)習(xí)算法,常見方法包括重采樣法[6]、閾值移動(dòng)法[7]、集成學(xué)習(xí)法[8]。這種方法具備良好的通用性,文獻(xiàn)[9]基于貝葉斯風(fēng)險(xiǎn)最小化原理提出了一種可以將任意的分類器算法轉(zhuǎn)化為代價(jià)敏感算法的MetaCost算法,根據(jù)樣本屬于每個(gè)類的概率及誤分類代價(jià)之積選取出分類代價(jià)最小的類別作為樣本分類結(jié)果,達(dá)到最小誤分代價(jià)。目前,一些常見的分類算法,如支持向量機(jī)(Support Vector Machine, SVM)、決策樹、神經(jīng)網(wǎng)絡(luò)和AdaBoost都有對(duì)應(yīng)的代價(jià)敏感算法[10-13]。MetaCost算法可以將傳統(tǒng)的分類算法轉(zhuǎn)化為代價(jià)敏感學(xué)習(xí)算法,并且適用于任何數(shù)目的樣本類別和任意代價(jià)矩陣。

但是,目前的代價(jià)敏感學(xué)習(xí)算法主要針對(duì)二分類問題,對(duì)于代價(jià)敏感的多分類問題的研究不多,一些常見的算法無法擴(kuò)展到多分類場景中。K最鄰近(K-Nearest Neighbor, KNN)分類算法作為一種成熟的算法,具有魯棒性、概念清晰等優(yōu)點(diǎn),算法以K個(gè)近鄰樣本的投票數(shù)來對(duì)未知樣本進(jìn)行分類,可以直接擴(kuò)展到多分類場景中。盡管KNN算法的優(yōu)勢十分明顯,但是它的缺點(diǎn)也不容忽視。KNN算法基于空間向量模型(Vector Space Model, VSM請(qǐng)補(bǔ)充VSM的英文全稱)模型,利用歐氏距離或余弦距離度量樣本的距離,但權(quán)重不變,這與實(shí)際情況不符,一種改進(jìn)的方法是加權(quán)KNN算法,根據(jù)樣本點(diǎn)之間的距離來分配權(quán)重,權(quán)重的大小隨距離的減小而增大[14]。同時(shí)KNN算法在K值的設(shè)定方面依賴于經(jīng)驗(yàn),存在著K值單一的情況,而Boosting算法可以集成多個(gè)具備不同K值的KNN分類器,有效解決了這一問題[15]。

針對(duì)上述問題,本文提出了一種用于不平衡數(shù)據(jù)集上的近鄰樣本刪減策略以及基于近鄰樣本間距的代價(jià)敏感(Cost Sensitive based on average Distance of K-Nearest Neighbor, CSD-KNN)算法,并在此基礎(chǔ)上對(duì)此算法按一定策略進(jìn)行集成。首先,針對(duì)多數(shù)類的邊界進(jìn)行選擇性刪減,在新的數(shù)據(jù)集上算法得到樣本點(diǎn)與K個(gè)近鄰樣本的距離,并計(jì)算出每一個(gè)類中樣本與測試樣本點(diǎn)之間的平均距離,以此作為輸入進(jìn)行代價(jià)敏感變換,得到期望代價(jià)最小的代價(jià)敏感分類器,最后在具備代價(jià)權(quán)重初值的AdaBoost算法上集成這種改進(jìn)后的算法,使之誤分代價(jià)最小。在UCI數(shù)據(jù)集上的測試結(jié)果表明改進(jìn)后算法的平均誤分代價(jià)更低。

1 近鄰樣本刪減策略

不均衡數(shù)據(jù)集會(huì)弱化分類器對(duì)少數(shù)類的分類效果,對(duì)樣本集的修改策略是重構(gòu)數(shù)據(jù)集,調(diào)整樣本分布,使得多數(shù)類與少數(shù)類的樣本比例趨于1∶1。已有成果表明對(duì)分類結(jié)果有較大影響的樣本處于樣本邊界[16],降低邊界處的多數(shù)類樣本密度比減少多數(shù)類的樣本數(shù)量更為切實(shí)有效。受支持向量機(jī)最大化最小間隔形式化目標(biāo)的啟發(fā),本文對(duì)多數(shù)類的邊界樣本進(jìn)行篩選,減小邊界處多數(shù)類樣本的密度,加大多數(shù)類與少數(shù)類的樣本間隔,降低分類結(jié)果受少數(shù)類樣本稀疏性的影響。

定義樣本與自身的距離為∞。算法的思想是:確保少數(shù)類樣本的最近鄰樣本仍為少數(shù)類,即遍歷少數(shù)類中的所有樣本,判斷其最近鄰樣本點(diǎn)是否屬于少數(shù)類,若不是,則刪除此樣本的最近鄰點(diǎn),并繼續(xù)對(duì)此樣本進(jìn)行判斷,直到此樣本點(diǎn)的最近鄰樣本也屬于少數(shù)類。

2 代價(jià)敏感的改進(jìn)算法——CSD-KNN

當(dāng)樣本被錯(cuò)分時(shí)會(huì)產(chǎn)生代價(jià),分為兩種情況:多數(shù)類誤分為少數(shù)類的代價(jià),以及少數(shù)類誤分為多數(shù)類的代價(jià)。當(dāng)樣本正確分類時(shí),代價(jià)值為0。傳統(tǒng)的學(xué)習(xí)算法默認(rèn)兩種誤分類情況是等價(jià)的,但是在實(shí)際情況中,兩者必須區(qū)分開來。代價(jià)敏感思想基于期望代價(jià)最小的原則對(duì)分類器作出調(diào)整。MetaCost方法根據(jù)樣本屬于每一類的概率與其對(duì)應(yīng)的誤分代價(jià)值之積,得到一個(gè)具有最小期望代價(jià)的分類結(jié)果。本文改進(jìn)了傳統(tǒng)KNN算法中每個(gè)樣本權(quán)重相等的弊端,基于每一類中近鄰點(diǎn)與樣本之間的平均距離將樣本的誤分代價(jià)值以函數(shù)的形式表現(xiàn)出來。假設(shè)待測樣本Xi與鄰近樣本Xj(j=1,2,…,K)的距離為dij,為了便于說明,這里的dij取歸一化后的數(shù)值,屬性的歸一化方法為:

將每一類中近鄰樣本與測試樣本之間的平均距離作為具體的自變量因子,通過對(duì)數(shù)函數(shù)的形式表示基于距離的代價(jià)函數(shù),距離越小,誤分代價(jià)值越大,并且隨著距離的縮小,樣本的誤分類代價(jià)值以指數(shù)形式上升。樣本屬性維度值w用來將對(duì)數(shù)函數(shù)的真數(shù)的值控制在0~1,避免出現(xiàn)負(fù)的代價(jià)值。通過樣本屬性維度值w樣本屬性維度值是希臘字母ω,還是英文字符w(式3中寫的是小寫w)?書寫需要統(tǒng)一。將對(duì)數(shù)函數(shù)的自變量取值范圍控制在0到1之間,避免函數(shù)值為負(fù)。樣本屬性維度值ω用來將對(duì)數(shù)函數(shù)的真數(shù)的值控制在0-1之間,避免出現(xiàn)負(fù)的代價(jià)值?,F(xiàn)改為:通過樣本屬性維度值ω將對(duì)數(shù)函數(shù)的自變量取值范圍控制在0-1,避免函數(shù)值為負(fù)。在這種思想的指導(dǎo)下構(gòu)造出基于距離的代價(jià)函數(shù)如下所示:

其中:m為某一類近鄰樣本點(diǎn)的個(gè)數(shù);α值為距離對(duì)樣本分類的影響因子,值越小表明距離對(duì)樣本分類結(jié)果影響越大;c為少數(shù)類與多數(shù)類誤分類代價(jià)的比重。

基于最小風(fēng)險(xiǎn)的貝葉斯決策的形式化目標(biāo)[17]為:

其中:R(yi|x)為樣本x分類到y(tǒng)i中的風(fēng)險(xiǎn)構(gòu)造函數(shù),F(xiàn)(yi,yj)為類別yi誤分為yj的代價(jià),P(yi|x)為樣本x屬于類別yi的后驗(yàn)概率。

定理1 在KNN算法中,若K為近鄰樣本的數(shù)量,m為樣本中某一類的總體數(shù)量,則樣本屬于該類的概率為m/K。

以樣本比例逼近概率:V為K個(gè)樣本點(diǎn)包圍的最小超球的體積,m為數(shù)據(jù)集中類別yi的個(gè)數(shù),得到類條件概率密度:

其中N為樣本總數(shù)。

因此得到符合貝葉斯決策理論的代價(jià)敏感算法——CSD-KNN,表現(xiàn)形式為:

根據(jù)文中描述的分類器,具體的實(shí)現(xiàn)過程如算法1所示。

3 集成代價(jià)敏感的CSD-KNN算法

Boosting算法的基本思想是對(duì)每一輪迭代得到的分類器賦予不同的權(quán)重,使得分類器更注重分類難度大的樣本,最終得到一個(gè)基分類器ht(x)的線性集合H(x)。計(jì)算方式為Ht+1(x)=Ht(x)+α*t*ht(x),下標(biāo)的書寫不規(guī)范,t和t+1是否應(yīng)該為下標(biāo),請(qǐng)明確?;貜?fù):修改正確傳統(tǒng)的Boosting算法的最大特點(diǎn)是隨著迭代次數(shù)的增長,分類錯(cuò)誤率以指數(shù)速度下降。將Boosting算法應(yīng)用到代價(jià)敏感學(xué)習(xí)中,可以得到以錯(cuò)分類代價(jià)最低為目標(biāo)的代價(jià)敏感分類器,代價(jià)敏感的Boosting算法是代價(jià)敏感學(xué)習(xí)方法中的一個(gè)重要組成部分。目前人們已經(jīng)提出了AdaCost、AdaC3[18-19]等代價(jià)敏感Boosting算法,但是這些算法通過啟發(fā)式策略向AdaBoost算法的加權(quán)投票因子中加入代價(jià)因子,有可能破壞算法的Boosting特性[20]。AdaBoost算法具備非對(duì)稱學(xué)習(xí)能力,在算法進(jìn)行迭代之前,根據(jù)樣本類別賦予樣本代價(jià)權(quán)重:

根據(jù)式(8)可以實(shí)現(xiàn)代價(jià)敏感的Boosting算法。本文對(duì)此過程進(jìn)行了改進(jìn),在賦予樣本初始化代價(jià)權(quán)重后,對(duì)代價(jià)敏感的基分類器進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果表明,集成改進(jìn)后的代價(jià)敏感算法,減小了總體誤分代價(jià),代價(jià)敏感性更好。

程序后

4 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)測試數(shù)據(jù)集為UCI官網(wǎng)上的公開數(shù)據(jù)集(http://archive.ics.uci.edu/ml/index.php),在其中選取了5個(gè)典型的不均衡的分類數(shù)據(jù)集,實(shí)驗(yàn)中將非數(shù)字型數(shù)據(jù)用數(shù)值表示,并對(duì)所有數(shù)據(jù)進(jìn)行歸一化處理,使之成為能夠被KNN算法加載的數(shù)據(jù)集。對(duì)每個(gè)數(shù)據(jù)集進(jìn)行了10折交叉法,每次取其中9個(gè)數(shù)據(jù)集作為樣本集,剩余1個(gè)數(shù)據(jù)集作為測試集,實(shí)驗(yàn)結(jié)果取其平均值。

4.1 度量標(biāo)準(zhǔn)

代價(jià)敏感的學(xué)習(xí)過程中,提高高代價(jià)樣本的分類準(zhǔn)確率顯得更為重要,通過對(duì)少數(shù)類的召回率(Recall)、平均誤分代價(jià)(AvgCost)和高代價(jià)錯(cuò)誤率(記為High-rate)進(jìn)行代價(jià)敏感性能比較,將多數(shù)類作為正例得到的混淆矩陣[21]如表1所示。

4.2 樣本重采樣實(shí)驗(yàn)

第一個(gè)實(shí)驗(yàn)是將數(shù)據(jù)集按照近鄰原則進(jìn)行刪減,降低多數(shù)類樣本的邊界密度,使得樣本分布趨于平衡。表2為樣本集刪減前后少數(shù)類的比重對(duì)比,其中的rate為少數(shù)類在整個(gè)樣本中所占的比重,Before、Later為數(shù)據(jù)刪減前后的樣本數(shù)與維數(shù)的向量表示。

實(shí)驗(yàn)過后,少數(shù)類的比重rate較原先的數(shù)據(jù)集提升了近17個(gè)百分點(diǎn),表2中的結(jié)果表明,刪減過后的樣本分布更加均衡,少數(shù)類和多數(shù)類的比例接近1∶1,近鄰刪減法可以有效降低多數(shù)類的樣本密度。

4.3 算法性能對(duì)比

在第二個(gè)實(shí)驗(yàn)中,將CSD-KNN算法與傳統(tǒng)的KNN和貝葉斯分類器進(jìn)行代價(jià)敏感性能比較,并綜合分析算法的分類準(zhǔn)確率。整個(gè)實(shí)驗(yàn)中的數(shù)據(jù)是以K=5,α=0.5,誤分代價(jià)比重c=3得出的數(shù)據(jù),其中CSD-KNN(new)表示在按近鄰策略刪減之后的樣本集上進(jìn)行性能分析的結(jié)果。表4中的衡量指標(biāo)為Recall值,少數(shù)類的召回率表示少數(shù)類的分類準(zhǔn)確率,Recall值越大,表示算法對(duì)少數(shù)類的分類精確率越高。

相比KNN算法下降了12.33個(gè)百分點(diǎn),對(duì)數(shù)據(jù)集應(yīng)用近鄰刪減法和代價(jià)敏感改進(jìn),算法的平均誤分代價(jià)下降了37.87個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的KNN算法和樸素貝葉斯算法相比,改進(jìn)后算法的代價(jià)敏感性能明顯優(yōu)于傳統(tǒng)算法。

從表4中可以直觀地看到,改進(jìn)后的算法對(duì)少數(shù)類的正確分類更為注重,具備更強(qiáng)的代價(jià)敏感特性。改進(jìn)后的算法是代價(jià)敏感的,并且根據(jù)KNN進(jìn)行近鄰刪減后的數(shù)據(jù)集也可以提升算法的代價(jià)敏感性。

從圖1中可以發(fā)現(xiàn),CSD-KNN算法是一種犧牲了部分分類準(zhǔn)確率達(dá)到對(duì)少數(shù)類的高召回率的代價(jià)敏感分類算法。相比KNN算法:改進(jìn)后的算法的分類準(zhǔn)確率降低了約6.4個(gè)百分點(diǎn),對(duì)于整體的分類效果影響不大;而對(duì)于少數(shù)類的召回率提高了約25.4個(gè)百分點(diǎn),性能明顯優(yōu)于傳統(tǒng)的KNN算法。同時(shí),基于樣本刪減策略的CSD-KNN算法可以有效提高算法的分類準(zhǔn)確率,相比KNN算法,改進(jìn)后算法的分類準(zhǔn)確率提升了約0.8個(gè)百分點(diǎn),同時(shí)召回率也明顯提升。實(shí)驗(yàn)證明,CSD-KNN算法具備代價(jià)敏感性,并且對(duì)于整體分類準(zhǔn)確率的影響也較小,而樣本刪減策略可以有效地減少分類錯(cuò)誤?;跇颖緞h減策略的CSD-KNN算法在性能上明顯優(yōu)于傳統(tǒng)的KNN算法。

4.4 CSD-KNN算法集成測試

在第3個(gè)實(shí)驗(yàn)中,集成算法在調(diào)整權(quán)重之前,給每個(gè)樣本賦予代價(jià)初值使得集成后的算法具備代價(jià)敏感性,將KNN算法與集成的KNN算法以及集成代價(jià)敏感的CSD-KNN算法進(jìn)行性能比較,分析對(duì)代價(jià)敏感的基學(xué)習(xí)器進(jìn)行集成能否得到代價(jià)敏感性能更好的集成算法,實(shí)驗(yàn)結(jié)果如圖2所示。

實(shí)驗(yàn)結(jié)果表明,對(duì)權(quán)重賦代價(jià)初值可以得到代價(jià)敏感的集成算法,而相比集成KNN算法,對(duì)CSD-KNN算法進(jìn)行集成的高代價(jià)錯(cuò)誤率降低了4.01個(gè)百分點(diǎn),證明對(duì)代價(jià)敏感的基分類器進(jìn)行集成,對(duì)于降低平均誤分類代價(jià)效果更好。

在整個(gè)實(shí)驗(yàn)中對(duì)于少數(shù)類的分類準(zhǔn)確率,改進(jìn)后的算法相比KNN算法提升了38.8個(gè)百分點(diǎn),同時(shí)在整體性能上也優(yōu)于原先的算法,而集成這種代價(jià)敏感的基分類算法使得算法的代價(jià)敏感性能更好,高代價(jià)錯(cuò)誤率降低了14.01個(gè)百分點(diǎn),平均誤分代價(jià)降低了31.35個(gè)百分點(diǎn)。

5 結(jié)語

在實(shí)際的應(yīng)用中,針對(duì)不同的類別情況賦予不同的代價(jià)顯得更為可行,代價(jià)敏感學(xué)習(xí)算法在對(duì)不均衡數(shù)據(jù)集進(jìn)行分類時(shí)性能實(shí)際意義明顯優(yōu)于傳統(tǒng)的分類算法。本文提出的CSD-KNN集成算法不僅提出了一種應(yīng)用于不均衡數(shù)據(jù)集的樣本刪減策略,同時(shí)還提出了一種代價(jià)敏感算法,通過不斷的迭代使得分類器的錯(cuò)分代價(jià)降至最低,相比KNN算法,本文算法的高代價(jià)錯(cuò)誤率和平均誤分代價(jià)都顯著降低了,同時(shí)整體分類性能更好。

需要指出,CSD-KNN算法在軟件缺陷預(yù)測、文本分類、聚類分析等諸多領(lǐng)域有著良好的效果,但是本文研究也存在不足之處,在進(jìn)行樣本選擇時(shí),壓縮樣本數(shù)量、選取典型樣本、大幅度減少樣本集數(shù)量將是下一階段的研究目標(biāo)。

參考文獻(xiàn) (References)

[1] 熊冰妍,王國胤,鄧維斌.基于樣本權(quán)重的不平衡數(shù)據(jù)欠抽樣方法[J].計(jì)算機(jī)研究與發(fā)展,2016,53(11):2613-2622.(XIONG B Y, WANG G Y, DENG W B. Under-sampling method based on sample weight for imbalanced data [J]. Journal of Computer Research and Development, 2016, 53(11): 2613-2622.)

[2] CHENG F, ZHANG J, WEN C. Cost-sensitive large margin distribution machine for imbalanced data classification [J]. Pattern Recognition Letters, 2016, 80: 107-112.

[3] CAO C J, WANG Z. IMCStacking: cost-sensitive stacking learning with feature inverse mapping for imbalanced problems [J]. Knowledge-Based Systems, 2018, 150: 27-37.

[4] PINAR T, LALE O, SINEM K, et al. A cost-sensitive classification algorithm: BEE-miner [J]. Knowledge-Based Systems, 2016, 95: 99-113.

[5] LOMAX S, VADERA S. A survey of cost-sensitive decision tree induction algorithms [J]. ACM Computing Surveys, 2013, 45(2): 16-50.

[6] 陳永輝,岳麗華.特征敏感的點(diǎn)云重采樣算法[J].小型微型計(jì)算機(jī)系統(tǒng),2017,38(5):1086-1090.(CHEN Y H, YUE L H. Point cloud resampling algorithm of feature-sensitivity [J]. Journal of Chinese Computer Systems, 2017, 38(5): 1086-1090.)

[7] 陳海鵬,申鉉京,龍建武.采用高斯擬合的全局閾值算法閾值優(yōu)化框架[J].計(jì)算機(jī)研究與發(fā)展,2016,53(4):892-903.(CHEN H P, SHEN X J, LONG J W. Threshold optimization framework of global thresholding algorithms using Gaussian fitting [J]. Journal of Computer Research and Development, 2016, 53(4): 892-903.)

[8] 李勇,劉戰(zhàn)東,張海軍.不平衡數(shù)據(jù)的集成分類算法綜述[J].計(jì)算機(jī)應(yīng)用研究,2014,31(5):1287-1291.(LI Y, LIU Z D, ZHANG H J. A survey of integrated classification algorithms for unbalanced data [J]. Application Research of Computers, 2014, 31(5): 1287-1291.)

[9] DOMINGOS P. MetaCost:a general method for making classifiers cost-sensitive[C]// Proceedings of the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 1999: 155-164.

[10] 周宇航,周志華.代價(jià)敏感大間隔分布學(xué)習(xí)機(jī)[J].計(jì)算機(jī)研究與發(fā)展,2016,53(9):1964-1970.(ZHOU Y H, ZHOU Z H. Cost sensitive large interval distribution learning machine [J]. Journal of Computer Research and Development, 2016, 53(9): 1964-1970.)

[11] BAHNSEN A C, AOUADA D, OTTERSTEN B. Example-dependent cost-sensitive decision trees [J]. Expert Systems with Applications, 2015, 42(19): 6609-6619.

[12] GHAZIKHANI A, MONSEFI R, YAZDI H S. Online cost-sensitive neural network classifiers for non-stationary and imbalanced data streams [J]. Neural Computing and Applications, 2013, 23(5): 1283-1295.

[13] 付忠良.多標(biāo)簽代價(jià)敏感分類集成學(xué)習(xí)算法[J].自動(dòng)化學(xué)報(bào),2014,40(6):1075-1085.(FU Z L. Multi-tag cost sensitive classification integrated learning algorithm [J]. Acta Automatica Sinica, 2014, 40(6): 1075-1085.)

[14] 王茜,楊正寬.一種基于加權(quán)KNN的大數(shù)據(jù)集下離群檢測算法[J].計(jì)算機(jī)科學(xué),2011,38(10):177-180.(WANG Q, YANG Z K. An outlier detection algorithm for big data sets based on weighted KNN [J]. Computer Science, 2011, 38(10): 177-180.)

[15] FREUND Y, IYER R, SCHAPIRE R, et al. An efficient boosting algorithm for combining preferences [J]. Journal of Machine Learning Research, 2003, 4 (6): 170-178.

[16] 胡小生,鐘勇.基于邊界樣本選擇的支持向量機(jī)加速算法[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(3):169-173.(HU X S, ZHONG Y. Support vector machine acceleration algorithm based on boundary sample selection [J]. Computer Engineering and Applications, 2017, 53(3): 169-173.)

[17] 蔣盛益,謝照青,余雯.基于代價(jià)敏感的樸素貝葉斯不平衡數(shù)據(jù)分類研究[J].計(jì)算機(jī)研究與發(fā)展,2011,48(增刊I):387-390.(JIANG S Y, XIE Z Q, YU W. Cost-sensitive naive Bayesian unbalanced data classification [J]. Journal of Computer Research and Development, 2011, 48(Suppl I): 387-390.)

[18] SUN Y, KAMEL M S, WONG A K, et al. Cost-sensitive boosting for classification of imbalanced data [J]. Pattern Recognition, 2007, 40(12): 3358-3378.

[19] SUN Y, WONG A K, WANG Y. Parameter inference of cost-sensitive boosting algorithms [C]// Proceedings of the 4th International Conference on Machine Learning and Data Mining in Pattern Recognition. Berlin: Springer, 2005: 21-30.

[20] 曹瑩,苗啟廣,劉家辰,等.具有Fisher一致性的代價(jià)敏感Boosting算法[J].軟件學(xué)報(bào),2013,24(11):2584-2596.(CAO Y, MIAO Q G, LIU J C, et al. Fisher consistent cost sensitive Boosting algorithm [J]. Journal of Software, 2013, 24(11): 2584-2596.)

[21] 周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2018:30-33.(ZHOU Z H. Machine Learning [M]. Beijing: Tsinghua University Press, 2018: 30-33.)

猜你喜歡
集成
寒地水稻種植機(jī)械化技術(shù)集成與推廣
淺談企業(yè)信息化系統(tǒng)集成
數(shù)字化監(jiān)控系統(tǒng)的企業(yè)應(yīng)用
民機(jī)強(qiáng)度試驗(yàn)室多臺(tái)液壓油源集成方案設(shè)計(jì)
溫室大棚自動(dòng)監(jiān)控系統(tǒng)的集成
對(duì)軍隊(duì)財(cái)務(wù)信息系統(tǒng)集成建設(shè)的思考
集成一體化智能熔點(diǎn)儀的研究
軍隊(duì)財(cái)務(wù)信息系統(tǒng)集成基礎(chǔ)分析
从江县| 清水县| 龙门县| 红原县| 嘉义市| 丁青县| 大竹县| 上饶县| 长汀县| 左权县| 西丰县| 酉阳| 灵山县| 景宁| 凤城市| 通州区| 广安市| 罗定市| 望都县| 阿城市| 常宁市| 普定县| 阳江市| 柳江县| 象山县| 军事| 东兴市| 木兰县| 正宁县| 麦盖提县| 泾阳县| 唐河县| 锦州市| 勐海县| 灵石县| 济阳县| 孟连| 海伦市| 郑州市| 辉县市| 汕尾市|