豆增發(fā) 高琳
摘要:針對(duì)生物醫(yī)學(xué)文本挖掘中有效特征選擇困難的問(wèn)題,提出了一種新的基于膜粒子群優(yōu)化和信息熵的文本特征選擇方法,該方法以文本信息熵總和為目標(biāo)函數(shù),以膜系統(tǒng)的層次結(jié)構(gòu)作為框架,以膜系統(tǒng)的消息傳遞機(jī)制作為進(jìn)化方向,以粒子群優(yōu)化進(jìn)化作為進(jìn)化規(guī)則,作為進(jìn)化規(guī)則的粒子群優(yōu)化算法,分別以局部搜索速率和全局搜索速率搜索得到文本信息熵最大的解,并在不同膜區(qū)域之間傳遞搜索結(jié)果,直到膜區(qū)域之間的消息傳遞結(jié)束或者達(dá)到限定的迭代次數(shù),實(shí)驗(yàn)結(jié)果表明,利用提出的方法對(duì)醫(yī)學(xué)文本特征進(jìn)行選擇后,對(duì)其進(jìn)行分類(lèi),能使分類(lèi)精確度和召回率分別提高2%和3%左右。
關(guān)鍵詞:膜系統(tǒng);粒子群優(yōu)化;生物醫(yī)學(xué)文本;特征選擇;信息熵