国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于遺傳算法的文本過(guò)濾模型及收斂性分析

2011-10-15 01:37:10朱振方劉培玉李少輝王乾龍
中文信息學(xué)報(bào) 2011年5期
關(guān)鍵詞:適應(yīng)度類別文檔

朱振方,劉培玉,李少輝,趙 靜,王乾龍

(1.山東師范大學(xué)信息科學(xué)與工程學(xué)院,山東濟(jì)南250014;2.山東省分布式計(jì)算機(jī)軟件新技術(shù)重點(diǎn)實(shí)驗(yàn)室,山東濟(jì)南250014)

文本信息過(guò)濾[1]是指在大量的文本數(shù)據(jù)流中尋找滿足特定用戶需求的文本的過(guò)程,當(dāng)前實(shí)現(xiàn)信息過(guò)濾的主要方法有合作過(guò)濾[2]和內(nèi)容過(guò)濾[3]兩類?;趦?nèi)容的文本信息過(guò)濾是目前信息過(guò)濾研究的熱點(diǎn),而基于內(nèi)容的信息過(guò)濾又分為基于統(tǒng)計(jì)的過(guò)濾方法和基于機(jī)器學(xué)習(xí)的過(guò)濾方法[3]。在基于機(jī)器學(xué)習(xí)的內(nèi)容過(guò)濾方法中,核心部分是過(guò)濾模板的構(gòu)建和更新。

1 相關(guān)背景

遺傳算法[4]自20世紀(jì)70年代產(chǎn)生以來(lái),很多機(jī)構(gòu)和研究人員對(duì)其進(jìn)行了廣泛而深入的研究,取得了很多重要的研究成果,并使其應(yīng)用領(lǐng)域迅速推廣到優(yōu)化、搜索、機(jī)器學(xué)習(xí)等各個(gè)方面,逐漸發(fā)展成為一種通過(guò)模擬自然進(jìn)化過(guò)程解決最優(yōu)化問(wèn)題的計(jì)算模型。

基于內(nèi)容的文本信息過(guò)濾是機(jī)器學(xué)習(xí)的重要組成部分,最早將遺傳算法應(yīng)用于機(jī)器學(xué)習(xí)是用來(lái)解決一些較為簡(jiǎn)單的學(xué)習(xí)問(wèn)題,例如,Holland和 Reitman提出的CS-1系統(tǒng)[5]中將遺傳算法首次應(yīng)用于求解迷宮問(wèn)題,Goldberg[6]則將遺傳算法應(yīng)用到工程控制中,這些研究產(chǎn)生了真正意義上的基于遺傳算法的機(jī)器學(xué)習(xí)(Genetic-based Machine Learning,GBML)。

研究中發(fā)現(xiàn),將遺傳算法引入到文本信息處理特別是中文文本信息過(guò)濾的研究很少,主要集中在應(yīng)用遺傳算法進(jìn)行特征選擇以及將遺傳算法應(yīng)用于生成模板的實(shí)際應(yīng)用。2000年,BURNS和 DANYLUK[7]首次將遺傳算法應(yīng)用到特征選擇,接著,PAN Li等[8]將基于遺傳算法的特征選擇引入到文本分類領(lǐng)域,此后很多研究者提出了多種改進(jìn)方案,文獻(xiàn)[9]也提出了一種自適應(yīng)遺傳算法并將其應(yīng)用到特征選擇中。

近年來(lái)遺傳算法在中文文本信息過(guò)濾中的應(yīng)用研究除了呂志龍[10]等人外,則就是作者所在課題組基于遺傳算法的文本分類和過(guò)濾模型的構(gòu)建及其改進(jìn)[11]。在呂志龍研究中,只是將遺傳算法應(yīng)用到模板優(yōu)化,并沒(méi)有直接應(yīng)用遺傳算法生成模板,而在作者所在課題組前期研究則著重于具體實(shí)現(xiàn),并沒(méi)有從理論上進(jìn)行相應(yīng)的證明。

本文針對(duì)應(yīng)用遺傳算法解決中文文本信息過(guò)濾問(wèn)題建立了相應(yīng)的問(wèn)題模型,并在理論上證明其可行性。同時(shí),還根據(jù)在實(shí)際應(yīng)用中存在的問(wèn)題,引入了自適應(yīng)策略解決應(yīng)用過(guò)程中存在的問(wèn)題。

2 問(wèn)題空間描述

文本信息過(guò)濾從一定程度上可以看作是一種二值文本分類,它將待過(guò)濾文本映射到一個(gè)合法文檔集或非法文檔集。上述過(guò)程可用形式化的數(shù)學(xué)語(yǔ)言表述如下:

對(duì)于每個(gè)<di,ci>∈D×C,其中D為待過(guò)濾文檔集,di為D中的一個(gè)文檔,C為類別集,C中含有兩個(gè)值c1和c2,分別為過(guò)濾文檔集和正常文檔集,判定其布爾值,若其為真(T),則文檔di屬于類別c1,否則(F)不屬于c2,文本信息過(guò)濾過(guò)程就是構(gòu)造函數(shù)α:D×C?{T,F}。

2.1 文本預(yù)處理

基于向量空間模型的信息過(guò)濾中,需要首先對(duì)訓(xùn)練文檔di進(jìn)行分詞,把di表示成一系列特征項(xiàng)序列c1c2c3…ck…cn,并對(duì)這些文本計(jì)算權(quán)重信息wk,從而形成按照類別劃分切詞和權(quán)重計(jì)算結(jié)果。

2.2 問(wèn)題編碼及初始種群生成

在遺傳算法尋優(yōu)過(guò)程中,需要將問(wèn)題空間進(jìn)行編碼,然后才能運(yùn)用遺傳算法計(jì)算。在中文文本信息過(guò)濾中,采用一種改進(jìn)的二進(jìn)制編碼方式。具體方式如下。

1)使用隨即發(fā)生器隨機(jī)產(chǎn)生一個(gè)二進(jìn)制序列,該二進(jìn)制序列長(zhǎng)短則代表基因串長(zhǎng)度;

2)將該二進(jìn)制序列同預(yù)處理后的類別切詞結(jié)果進(jìn)行邏輯與操作;

3)將計(jì)算結(jié)果作為問(wèn)題求解的一個(gè)個(gè)體,依次生成問(wèn)題空間的個(gè)體構(gòu)成初始種群。

由此生成的基因串長(zhǎng)度是有限的,這使得系統(tǒng)中不再需要專門的降維操作,編碼同時(shí)就等于同時(shí)實(shí)施了降維。

2.3 個(gè)體適應(yīng)度衡量

適應(yīng)度函數(shù)表明個(gè)體對(duì)環(huán)境適應(yīng)能力的強(qiáng)弱,不同問(wèn)題適應(yīng)度函數(shù)的定義方式不同。在求解中文文本信息過(guò)濾的遺傳算法計(jì)算過(guò)程中,最終要生成進(jìn)行內(nèi)容過(guò)濾的模板,該模板應(yīng)該是能夠代表類別空間的最佳個(gè)體,因此必然能夠與相同類別的待過(guò)濾文檔具有較大的相似度而與其他類別文檔具有較小相似度,因此在應(yīng)用中把個(gè)體之間的相似度作為適應(yīng)度函數(shù)是一種可取方案[11]。

而課題組在應(yīng)用過(guò)程中,通過(guò)實(shí)驗(yàn)驗(yàn)證和比較各種方案的基礎(chǔ)上[11],發(fā)現(xiàn)使用適應(yīng)度差的絕對(duì)值作為評(píng)價(jià)個(gè)體優(yōu)劣的標(biāo)準(zhǔn)更為恰當(dāng)。

定義1:個(gè)體間相似度

individual[i]、individual[j]表示遺傳算法中第i和第j個(gè)個(gè)體,weight[i]、weight[j]分別表示第i和第j個(gè)個(gè)體的權(quán)重。

定義2:平均相似度

其中g(shù)roup_size表示種群大小,其他變量同定義1。

3 收斂性分析

在遺傳算法收斂性分析方面,主要有模式定理[12]、隨機(jī)理論[13]以及動(dòng)力學(xué)原理[14]等幾個(gè)方面,王麗薇[15]等提出了一種應(yīng)用集合論的證明方法,本文將借鑒該方法分析上述優(yōu)化問(wèn)題的收斂性。

3.1 問(wèn)題歸約

中文文本信息過(guò)濾問(wèn)題在一定程度上屬于文本分類問(wèn)題,解決了文本分類問(wèn)題則文本信息過(guò)濾迎刃而解,但是多類別文本分類屬于多維空間判斷問(wèn)題,在多維空間上討論斂散性具有很大困難。因此,我們可以將中文文本信息分類和過(guò)濾問(wèn)題轉(zhuǎn)化到二維空間討論其斂散性。

3.2 相關(guān)定義

在該收斂性分析中,涉及以下幾個(gè)定義:

定義1:?jiǎn)栴}的解

設(shè)問(wèn)題空間為I,C={1,2…n}k是問(wèn)題解的一個(gè)編碼結(jié)果,針對(duì)C中的每一個(gè)可能解,在問(wèn)題空間I都有一個(gè)點(diǎn)與之對(duì)應(yīng)。反之不一定成立。

定義2:空間轉(zhuǎn)變函數(shù)

用f表示空間轉(zhuǎn)變函數(shù),稱為強(qiáng)度函數(shù),令其定義域?yàn)閱?wèn)題空間I,值域?yàn)槟繕?biāo)函數(shù)值域,則函數(shù)f可定義為一個(gè)映射I中的每一個(gè)點(diǎn)i,如果i對(duì)應(yīng)于一個(gè)解,則令 f(i)等于目標(biāo)函數(shù)在i點(diǎn)的值;否則,令 f(i)等于目標(biāo)函數(shù)的最小值。

通過(guò)空間轉(zhuǎn)變函數(shù)將問(wèn)題空間的解轉(zhuǎn)化為強(qiáng)度函數(shù) f的二維空間解集。在該二維空間集合上,我們可以定義相關(guān)類的定義,用以討論在二維空間集合上討論復(fù)雜問(wèn)題的斂散性。

定義3:類的概念

集合S稱為一個(gè)類當(dāng)且僅當(dāng)S?I,類S在種群POP的強(qiáng)度為類S在種群中所有個(gè)體平均強(qiáng)度;對(duì)于類S,如果存在 f(S,POP)≥f(POP,POP),則成為類S在種群中占優(yōu)勢(shì);如果類S在任何一個(gè)種群中都占優(yōu)勢(shì),則稱為S為一致類。如果存在強(qiáng)度函數(shù)值域V中的一點(diǎn)r,S包含且僅包含問(wèn)題空間中強(qiáng)度函數(shù)大于r的個(gè)體,即:

則S成為一個(gè)優(yōu)類。

定義4:一致類判定

類S是一致類當(dāng)且僅當(dāng)其是優(yōu)類。

之所以定義優(yōu)類,是因?yàn)橐恢骂惖目刹僮餍蕴疃x4給出了一個(gè)可操作的直觀方法。

3.3 收斂性假設(shè)

最優(yōu)解包含在任何優(yōu)類中,所有優(yōu)類的交集就是最優(yōu)解。由定義4可以看出,優(yōu)類等價(jià)一致類,因此,如果種群中一致類所占的比例不斷增加,則搜索空間縮小,其方向就是一致類交集的方向,理論上講遺傳算法能收斂到最優(yōu)解。

但是這種穩(wěn)定性很容易被破壞掉?;谶@個(gè)原因,如果遺傳過(guò)程能夠找到最優(yōu)解就要保證上述一致類集合不被代替或者消失,因此提出如下假設(shè):

收斂性假設(shè)

如果S為一致類,POP為種群,則對(duì)任意競(jìng)爭(zhēng)類S′,如果:

下面兩個(gè)條件則必有一個(gè)成立:

(1)S′中的個(gè)體均在S 中,即 S′∩POP?S;

(2)S′和S交集(即同屬于S′和S的的個(gè)體)強(qiáng)度均大于或者等于S′強(qiáng)度,即 f(S′,POP)≥f(S,POP)。

上述收斂假設(shè)中無(wú)論哪種情況發(fā)生,S′在下一代中都不會(huì)取代S,而只能一起獲得增長(zhǎng),這就保證了一直模式不會(huì)被其他類所取代。

從上面定義和假設(shè)中可以看出,在遺傳操作情況下,如果S在遺傳操作中是近乎封閉的,則類是穩(wěn)定的,那么也就能找到最優(yōu)解。如果不完全封閉的情況下就要考慮穩(wěn)定程度,穩(wěn)定性保證了類在遺傳操作中不會(huì)被取代,只有這樣的類才能在遺傳運(yùn)算中被傳遞,對(duì)遺傳算法才有意義。因此,在遺傳算法中我們只考慮這種類,而不穩(wěn)定類,即使它強(qiáng)度再高,也不能被遺傳進(jìn)化,我們不必考慮。

3.4 問(wèn)題收斂性分析

由上述可以得出這樣的收斂性結(jié)論:如果一致類具有穩(wěn)定性,遺傳算法就可以收斂到最優(yōu)解。任何問(wèn)題空間只要滿足這個(gè)條件,我們就認(rèn)為可以用遺傳算法進(jìn)行求解,并有希望獲得最優(yōu)解。

信息過(guò)濾特征項(xiàng)是從訓(xùn)練文檔中抽取的,而訓(xùn)練文檔是靜態(tài)的,這就決定了用遺傳算法求解信息過(guò)濾問(wèn)題是相對(duì)封閉的過(guò)程,通過(guò)本文第2節(jié)給出的基于遺傳算法的信息過(guò)濾模型,并結(jié)合本節(jié)相關(guān)定義我們可以認(rèn)為本文所給出的基于遺傳算法的信息過(guò)濾可以收斂。也就是說(shuō)從理論上來(lái)講本文所給出的模型是有效的。

4 應(yīng)用分析

課題組將遺傳算法應(yīng)用到網(wǎng)絡(luò)信息過(guò)濾中生成過(guò)濾模板,其主要原理在本節(jié)加以介紹。

4.1 訓(xùn)練集

訓(xùn)練文檔采用了復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系國(guó)際數(shù)據(jù)庫(kù)中心自然語(yǔ)言處理小組李榮陸整理中文文本分類語(yǔ)料,共9804篇文檔,分為 20個(gè)類別。其中文學(xué)、教育等11個(gè)類別其文檔數(shù)不超過(guò)100篇,計(jì)算機(jī)、環(huán)境、農(nóng)業(yè)、經(jīng)濟(jì)、政治以及體育等六個(gè)類別文檔數(shù)超過(guò)1000。由于算法最終要應(yīng)用于信息過(guò)濾,因此項(xiàng)目組又自行收集了暴力、色情兩個(gè)類別分別276和192篇文檔,共計(jì)八個(gè)類別7947篇文檔用于訓(xùn)練。訓(xùn)練文檔分布如表1所示:

表1 訓(xùn)練文檔分布

4.2 測(cè)試集

測(cè)試集則主要包括封閉測(cè)試集和開(kāi)放測(cè)試集。①封閉測(cè)試集:將復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系國(guó)際數(shù)據(jù)庫(kù)中心自然語(yǔ)言處理小組李榮陸整理的中文文本分類語(yǔ)料中不超過(guò)100篇文檔的11個(gè)類別共計(jì)502篇文檔與從訓(xùn)練集每個(gè)類別隨機(jī)抽取的50篇文檔組成訓(xùn)練集共計(jì)902篇測(cè)試文檔。②開(kāi)放測(cè)試集:中國(guó)科學(xué)院計(jì)算技術(shù)研究所譚松波整理的中文文本分類語(yǔ)料庫(kù)-T anCorpV1.0,該語(yǔ)料庫(kù)分為兩個(gè)層次,收集文本14150篇,第一個(gè)層次為12個(gè)類別,本文即從第一層次中與訓(xùn)練文檔相關(guān)的財(cái)經(jīng)、電腦、體育共三個(gè)類別中每個(gè)類別隨機(jī)選取200篇混合組成測(cè)試文檔。

4.3 開(kāi)發(fā)和運(yùn)行環(huán)境

預(yù)設(shè)種群規(guī)模大小為400,染色體數(shù)目為200,最大遺傳代數(shù)為1000,變異率和交叉率分別預(yù)先設(shè)置為0.015和0.6。相關(guān)實(shí)驗(yàn)在一臺(tái)方正PC上進(jìn)行,處理器為Intel(R)Core(TM)Duo CPU E7200@2.53HZ,內(nèi)存為2G,開(kāi)發(fā)環(huán)境為Visual Studio2005,開(kāi)發(fā)語(yǔ)言為C#。

4.4 考查參數(shù)

1)單類測(cè)試方案

目前信息過(guò)濾和文本分類中普遍使用的性能評(píng)估指標(biāo)為準(zhǔn)確率(Precision,簡(jiǎn)記為p)、召回率(Recall,簡(jiǎn)記為r)。對(duì)于文檔類中的每一個(gè)類別,使用列聯(lián)表(Contingency Table)來(lái)計(jì)算召回率和準(zhǔn)確率。表2為一個(gè)列聯(lián)表實(shí)例。

表2 單類列聯(lián)表(Contingency Table)

此時(shí),準(zhǔn)確率(precision)、召回率(recall)定義如下:

2)整體考查策略

上述列聯(lián)表只能對(duì)單個(gè)類別分類效果進(jìn)行評(píng)估,如果要對(duì)分類性能做一個(gè)全面評(píng)價(jià),通常引入宏平均[16]概念,其計(jì)算方式為對(duì)每個(gè)類計(jì)算 p和r值,然后對(duì)所有類求其平均值,即:

4.5 文本分類實(shí)驗(yàn)

為保證實(shí)驗(yàn)效果,試驗(yàn)中單詞切分部分應(yīng)用河北理工大學(xué)經(jīng)管學(xué)院呂震宇根據(jù)計(jì)算所漢語(yǔ)詞法分析系統(tǒng)ICTCLAS改編.net平臺(tái)下的SharpICTCLAS,該切詞程序理論準(zhǔn)確率為97.58%,模板生成應(yīng)用遺傳算法進(jìn)行訓(xùn)練。主要從文本分類和信息過(guò)濾兩個(gè)方面進(jìn)行比較。

4.5.1 在測(cè)試數(shù)據(jù)1上的測(cè)試

如表3所示,為本文所提出的方法在測(cè)試數(shù)據(jù)1上的各個(gè)類別準(zhǔn)確率。

表3 在測(cè)試數(shù)據(jù)1上的各類準(zhǔn)確率

在表3所示的實(shí)驗(yàn)數(shù)據(jù)中,經(jīng)分析可以發(fā)現(xiàn),在分類效果較差的兩種類別中,訓(xùn)練文檔中文章存在一些相似之處,如政治類別往往包含到經(jīng)濟(jì)、環(huán)境、農(nóng)業(yè)等因素,因此造成其準(zhǔn)確率較低。

為考查該方法分類效果,應(yīng)用了上述測(cè)試方法中的宏平均評(píng)價(jià)方式,經(jīng)計(jì)算,上述數(shù)據(jù)平均準(zhǔn)確率為=85.810,我們將該數(shù)據(jù)同近年來(lái)在Reuters-21578上的幾種基本方法進(jìn)行了比較,其比較數(shù)據(jù)如圖1所示。

圖1 改進(jìn)方法平均精度比較

上圖中,GA代表文中所敘述方法,NB表示Naive Bayes方法,DT表示 Decision Tree方法,KNN表示最近鄰分類方法,而SVM為支持向量機(jī),上述幾組數(shù)據(jù)[15]系近年來(lái)報(bào)道的在Reuters-21578語(yǔ)料的最好分類效果。

4.5.2 在測(cè)試數(shù)據(jù)2上的測(cè)試

上述實(shí)驗(yàn)數(shù)據(jù)中,該改進(jìn)的計(jì)算方法能夠取得較好的效果,但是,我們不能排除上述實(shí)驗(yàn)結(jié)果是在數(shù)據(jù)1的基礎(chǔ)上得到的,可能存在一定的過(guò)度擬合問(wèn)題,因此設(shè)計(jì)了應(yīng)用上述第二組測(cè)試數(shù)據(jù)進(jìn)行了進(jìn)一步測(cè)試,其分析數(shù)據(jù)如表4所示。

表4 在測(cè)試數(shù)據(jù)2上的準(zhǔn)確率比較

上述實(shí)驗(yàn)數(shù)據(jù)中,就準(zhǔn)確率來(lái)講,其中電腦財(cái)經(jīng)類與封閉測(cè)試雖然略有下降,但是相差不大,而體育類則具有較大差距,究其原因,分析訓(xùn)練文檔和測(cè)試文檔即可發(fā)現(xiàn),原訓(xùn)練文檔中有關(guān)體育類中均屬于體育理論研究,而測(cè)試文檔則來(lái)源于網(wǎng)絡(luò),因此二者具有較大差距。

4.5.3 信息過(guò)濾實(shí)驗(yàn)測(cè)試

鑒于研究目的在于應(yīng)用到基于內(nèi)容的信息過(guò)濾中,因此設(shè)計(jì)該試驗(yàn)將上述分類器應(yīng)用于網(wǎng)絡(luò)信息過(guò)濾的測(cè)試實(shí)驗(yàn)。試驗(yàn)中將實(shí)驗(yàn)室測(cè)試數(shù)據(jù)1劃分成了兩個(gè)大類,即合法文檔和非法文檔,其中的非法文檔由測(cè)試數(shù)據(jù)1中的色情和暴力文檔組成,而合法文檔則由其他六個(gè)類別隨機(jī)選取組成,實(shí)驗(yàn)數(shù)據(jù)構(gòu)成以及測(cè)試結(jié)果如表5所示。

表5 過(guò)濾效果測(cè)試統(tǒng)計(jì)數(shù)據(jù)

我們將上表中的過(guò)濾數(shù)據(jù)同文獻(xiàn)[18]進(jìn)行比較,本文中所給方法不論在哪個(gè)類別上,都明顯好于文獻(xiàn)[18]所給出的數(shù)據(jù),因此本文方法具有較好的過(guò)濾效果,同時(shí),從表中也可以看出,非法文檔等具有鮮明特色的類別具有更好的分類效果,而我們最終要過(guò)濾的就是該類不良信息,因此本文方法的應(yīng)用是有效的。

5 遺傳參數(shù)的自適應(yīng)調(diào)整

研究過(guò)程中發(fā)現(xiàn),遺傳算法進(jìn)化過(guò)程隨機(jī)性太大,而在前面進(jìn)化較慢而后面進(jìn)化太快,容易陷入局部最優(yōu),通過(guò)繪制適應(yīng)度變化曲線,我們也發(fā)現(xiàn),遺傳過(guò)程容易反復(fù),這使得局部最優(yōu)不可避免。

圖2給出了類別“體育”在遺傳算法運(yùn)行過(guò)程中適應(yīng)度值隨時(shí)間變化的曲線。

圖2 適應(yīng)度變化曲線

圖2可以看出,訓(xùn)練過(guò)程中相似度差越來(lái)越小,也就是說(shuō)適應(yīng)度值越來(lái)越大,即生成的個(gè)體越來(lái)越好,這也就從實(shí)驗(yàn)的角度證明了基于遺傳算法的方案的可行性。
但是,上圖中也發(fā)現(xiàn)選取的數(shù)據(jù)點(diǎn)中存在一個(gè)奇異點(diǎn),這就是說(shuō)在訓(xùn)練過(guò)程存在反復(fù)現(xiàn)象,這是因?yàn)檫z傳算法應(yīng)用過(guò)程中采用了固定交叉和變異操作,針對(duì)該問(wèn)題,很多研究者提出了自適應(yīng)修改策略[19]。

5.1 參數(shù)調(diào)整策略

課題組研究過(guò)程結(jié)合相關(guān)研究引入了一種改進(jìn)的變交叉率和變異率操作。

max_f itness,f itness[i]及max_gen分別是當(dāng)前代中最大適應(yīng)度值、待變異個(gè)體的適應(yīng)度值及預(yù)設(shè)的最大代數(shù),max_pm和min_pm分別是預(yù)設(shè)的最大變異率和最小變異率,t為當(dāng)前進(jìn)化代數(shù),pm為當(dāng)前代中個(gè)體的變異率。x和temp是中間計(jì)算變量 ,且

5.2 實(shí)驗(yàn)結(jié)果比較分析

該部分采用同4.2中實(shí)驗(yàn)結(jié)果相同的實(shí)驗(yàn)設(shè)置,其適應(yīng)度變化曲線圖3所示。

從圖3可以看出,適應(yīng)度曲線明顯比圖2具有更加明顯的收斂特性,該改進(jìn)策略是有效的。

6 結(jié)束語(yǔ)

論文通過(guò)分析遺傳算法以及中文文本信息過(guò)濾的特點(diǎn),從理論以及實(shí)驗(yàn)分析了其可行性,并結(jié)合實(shí)驗(yàn)中存在的問(wèn)題提出了遺傳算子的自適應(yīng)策略。理論以及實(shí)驗(yàn)分析均發(fā)現(xiàn),該方法能夠解決中文文本信息過(guò)濾問(wèn)題。

圖3 自適應(yīng)策略適應(yīng)度變化曲線

下一步主要針對(duì)基于遺傳算法網(wǎng)絡(luò)信息過(guò)濾模型進(jìn)行改進(jìn),提高其分類準(zhǔn)確率,同時(shí)考慮結(jié)合蟻群算法解決遺傳算法在后期存在的遺傳速度較慢、容易陷入局部最優(yōu)問(wèn)題。

[1]Belkin N.J.,Croft W.B.Information Filtering and Information Retrieval:Two Sides of the Same Coin[J]Communications of the ACM,1992,35(12):29-38.

[2]崔寶俠,任重,段勇.基于用戶興趣的電子商務(wù)推薦方法[J].沈陽(yáng)工業(yè)大學(xué)學(xué)報(bào),2009,31(5):573-576.

[3]方娟,梁文燦.一種基于協(xié)同過(guò)濾的網(wǎng)格門戶推薦模型[J].電子與信息學(xué)報(bào),2010,32(7):1585-1590.

[4]John H.Holland.Adaptation in Natural and Artificial System:an Introduction with Application to Biology,Control and Artificial Intelligence[M].Ann Arbor,U-niversity of Michigan Press,1975.

[5]John H.Holland.Adaptation in Natural and Artificial Systems:An Introductory Analysis with Applications to Biology,Control,and Artificial Intelligence[M].The M IT Press,1992.

[6]Goldberg D E.Genetic Algorithms is Search,Optimization,Machine Learning[M].Reading MA:Addison Wesley,1989,29-48.

[7]Burns,Danyluk.Feature Selection vs Theory Reformulation:A Study of Genetic Refinement of Knowledge-based Neural Networks[J].Machine Learning,2000,38,89-107.

[8]PAN Li,ZHENG Hong,ZHANG Zuxun,et al.Genetic Feature Selection for Texture Classification[J].Geospatial Information Science(Quarterly).2004,7(3):163-173.

[9]LIU Peiyu,ZHU Zhenfang,XU Liancheng,CHI Xuezhi.Optimization of a Subset of Features Based on Fuzzy Genetic Algorithm[C]//Proceedings 2009 IEEE International Symposium on IT in Medicine&Education,2009,2(2):933-937.

[10]呂志龍.基于遺傳算法的自適應(yīng)文本過(guò)濾方法的研究[D].哈爾濱:哈爾濱工程大學(xué),2007.

[11]ZHU Zhen-fang,LIU Pei-yu,ZHAO Li-na,et al.Research of Feature Weights Adjustment Based on Semantic Paragraphs Matching[J].ICIC Express Letters,2010,4(2):559-564.

[12]Holland J H.Adaptation in Natural and Artificial System:An Introductory Analysis with Application to Biology,Control,and Artificial Intelligence[M].2nd Edition,Cambridge,MA:MIT Press,1992:96-127.

[13]Christopher T.H.Baker,Evelyn Buckwar.Numeri

cal Analysis of Explicit One-Step Methods for Stochastic Delay Differential Equations[J].LMS Journal of Computation and Mathematics,2000,3:315-335.

[14]郭東偉,劉大有,周春光,等.遺傳算法收斂性的動(dòng)力學(xué)分析及其應(yīng)用[J].計(jì)算機(jī)研究與發(fā)展,2002,39(2):225-230.

[15]王麗薇,洪勇,洪家榮.遺傳算法的收斂性研究[J].計(jì)算機(jī)學(xué)報(bào),1996,19(10):794-797.

[16]Muhammad Arifur Rahman.Performance Evaluation for Question Classification by Tree Kernels using Support Vector Machines[J].Journal of Computers,2010,5(1):32-39.

[17]蘇金樹(shù),張博峰,徐昕.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J].軟件學(xué)報(bào),2006,17(9):1848-1859.

[18]朱振方,劉培玉,王金龍.一種基于語(yǔ)義特征的邏輯段落劃分方法及應(yīng)用[J].計(jì)算機(jī)科學(xué),2009,36(12):227-230.

[19]劉勝,趙紅.遺傳交叉和變異對(duì)種群多樣性的影響[J].控制與決策,2009,24(10):1535-1539.

猜你喜歡
適應(yīng)度類別文檔
改進(jìn)的自適應(yīng)復(fù)制、交叉和突變遺傳算法
有人一聲不吭向你扔了個(gè)文檔
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
基于空調(diào)導(dǎo)風(fēng)板成型工藝的Kriging模型適應(yīng)度研究
服務(wù)類別
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
論類別股東會(huì)
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
少數(shù)民族大學(xué)生文化適應(yīng)度調(diào)查
聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見(jiàn)肉類別
神农架林区| 屏南县| 邯郸市| 沛县| 聂荣县| 梅州市| 长春市| 噶尔县| 巴彦县| 渝中区| 章丘市| 白玉县| 高阳县| 广饶县| 巨野县| 郓城县| 广东省| 荔浦县| 阿坝县| 霍邱县| 淮滨县| 礼泉县| 大兴区| 浦县| 郯城县| 麻城市| 当涂县| 东乌珠穆沁旗| 凌海市| 六枝特区| 平阳县| 彰武县| 连平县| 曲沃县| 宁远县| 满洲里市| 青神县| 赤峰市| 哈尔滨市| 昌邑市| 肇庆市|