摘要:該文主要探討如何通過(guò)樸素貝葉斯算法對(duì)中文論壇中的文本信息進(jìn)行自動(dòng)分類,文中首先介紹了樸素貝葉斯算法的基本原理,并分析了該算法在文本分類中存在的不足之處,然后針對(duì)中文論壇的文本信息進(jìn)行研究,結(jié)合中文論壇文本的特點(diǎn)對(duì)樸素貝葉斯算法提出了兩點(diǎn)修正,給出了修正后的分類算法公式,最后介紹了如何借助Lucene開源框架、BerkeleyDB數(shù)據(jù)庫(kù)及IKAnalyzer分詞器等工具對(duì)修正樸素貝葉斯算法進(jìn)行技術(shù)實(shí)現(xiàn)。
關(guān)鍵詞:樸素貝葉斯;論壇文本;文本分類
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)32-7612-04
通過(guò)設(shè)計(jì)一種通用的網(wǎng)絡(luò)論壇的爬蟲程序可以將分散在互聯(lián)網(wǎng)各個(gè)角落的論壇信息有效地進(jìn)行聚合,為用戶提供統(tǒng)一的檢索接口[1],然而論壇爬蟲抓取的文本來(lái)自于不同主題的論壇版塊,數(shù)據(jù)量龐雜,因此,有必要對(duì)這些論壇文本進(jìn)行自動(dòng)分類,從而為論壇搜索引擎提供具有分類主題的查詢結(jié)果。目前文本自動(dòng)分類的主要有方法有:樸素貝葉斯法、K-最近鄰法、支持向量機(jī)、決策樹分類法等,其中樸素貝葉斯以算法簡(jiǎn)單高效并且具有嚴(yán)密的數(shù)學(xué)理論支撐而到了較為廣泛的應(yīng)用。但是樸素貝葉斯法假設(shè)條件屬性是彼此獨(dú)立,在文本分類中這就意味著指構(gòu)成文本的特征詞匯彼此相互獨(dú)立。該文結(jié)合論壇文本的特點(diǎn),探討了通過(guò)對(duì)特征屬性進(jìn)行加權(quán)來(lái)彌補(bǔ)樸素貝葉斯算法在論壇文本分類中的缺陷,并運(yùn)用java多線程技術(shù)和開源的Lucene索引框架來(lái)提升論壇文本的分類效率。
2 對(duì)樸素貝葉斯算法的修正
針對(duì)樸素貝葉斯算法的缺陷,已經(jīng)有許多研究者提出了改進(jìn)措施,例如:使用屬性相關(guān)性選擇來(lái)進(jìn)行屬性選擇獲得一個(gè)屬性子集,然后對(duì)這個(gè)屬性子集運(yùn)用樸素貝葉斯分類[2];考慮特征項(xiàng)在類內(nèi)和類間的分布情況,結(jié)合特征項(xiàng)之間的相關(guān)度來(lái)調(diào)整貝葉斯分類中條件屬性的權(quán)值[3];設(shè)計(jì)一種先“先抑后揚(yáng)”的方法去掉了對(duì)先驗(yàn)概率的計(jì)算,并在后驗(yàn)概率的計(jì)算中引入了一個(gè)放大系數(shù)[4],可見(jiàn)絕大多數(shù)研究者關(guān)注的是如何彌補(bǔ)特征詞的獨(dú)立性假設(shè)這一缺陷。
本文主要研究樸素貝葉斯算法在論壇文本中的應(yīng)用,該文所指的論壇文本是通過(guò)文獻(xiàn)1中所描述的論壇爬蟲程序獲取的來(lái)自各個(gè)論壇的帖子信息。由于論壇文本的主貼內(nèi)容往往以“短文本”的形式出現(xiàn)居多且包含較多的口語(yǔ)詞匯,在這種“短文本”中匹配特征詞匯表的詞也較少,往往導(dǎo)致類別識(shí)別失敗。論壇文本信息主要由帖子的標(biāo)題、主貼內(nèi)容、回帖內(nèi)容及帖子的狀態(tài)信息(如原帖發(fā)表時(shí)間、最后回帖時(shí)間、帖子瀏覽數(shù)、帖子回復(fù)數(shù)等)構(gòu)成。在對(duì)論壇文本進(jìn)行分類時(shí)應(yīng)該充分利用論壇的版塊信息、帖子標(biāo)題、回帖內(nèi)容進(jìn)行綜合判斷,為此本文提出以下的修改方案:
4 結(jié)束語(yǔ)
本文介紹了樸素貝葉斯算法的基本原理,分析了該算法在文本分類中存在的主要不足之處是了特征詞匯在待判定文檔中的位置信息以及特征詞匯之間的獨(dú)立性假設(shè)。通過(guò)對(duì)論壇文本信息的特點(diǎn)進(jìn)行研究,該文認(rèn)為在采用樸素貝葉斯算法進(jìn)行論壇文本分類時(shí)應(yīng)該在兩個(gè)方面進(jìn)行修改:一是結(jié)合帖子的標(biāo)題和類別的特征詞表,對(duì)類別概率P(Ci)進(jìn)行修正;二是根據(jù)每個(gè)特征詞在待判定文檔中出現(xiàn)的位置,對(duì)條件概率P(Xj|Ci)進(jìn)行修正。借助Lucene開源框架和BerkeleyDB數(shù)據(jù)庫(kù)等工具探究了如何在技術(shù)上對(duì)修正的樸素貝葉斯算法進(jìn)行實(shí)現(xiàn)。
參考文獻(xiàn):
[1] 唐勇.網(wǎng)絡(luò)爬蟲的設(shè)計(jì)[J].電腦知識(shí)與技術(shù),2012(8).
[2] 魏浩,丁要軍.基于屬性相關(guān)的樸素貝葉斯分類算法[J].河南科學(xué),2014(32).
[3] 饒麗麗,劉雄輝,張東站.基于特征相關(guān)的改進(jìn)加權(quán)樸素貝葉斯分類算[J].廈門大學(xué)學(xué)報(bào),2012(7).
[4] 邸鵬,段利國(guó).一種新型樸素貝葉斯文本分類算法[J].數(shù)據(jù)采集與處理,2014(7).
摘要:該文主要探討如何通過(guò)樸素貝葉斯算法對(duì)中文論壇中的文本信息進(jìn)行自動(dòng)分類,文中首先介紹了樸素貝葉斯算法的基本原理,并分析了該算法在文本分類中存在的不足之處,然后針對(duì)中文論壇的文本信息進(jìn)行研究,結(jié)合中文論壇文本的特點(diǎn)對(duì)樸素貝葉斯算法提出了兩點(diǎn)修正,給出了修正后的分類算法公式,最后介紹了如何借助Lucene開源框架、BerkeleyDB數(shù)據(jù)庫(kù)及IKAnalyzer分詞器等工具對(duì)修正樸素貝葉斯算法進(jìn)行技術(shù)實(shí)現(xiàn)。
關(guān)鍵詞:樸素貝葉斯;論壇文本;文本分類
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)32-7612-04
通過(guò)設(shè)計(jì)一種通用的網(wǎng)絡(luò)論壇的爬蟲程序可以將分散在互聯(lián)網(wǎng)各個(gè)角落的論壇信息有效地進(jìn)行聚合,為用戶提供統(tǒng)一的檢索接口[1],然而論壇爬蟲抓取的文本來(lái)自于不同主題的論壇版塊,數(shù)據(jù)量龐雜,因此,有必要對(duì)這些論壇文本進(jìn)行自動(dòng)分類,從而為論壇搜索引擎提供具有分類主題的查詢結(jié)果。目前文本自動(dòng)分類的主要有方法有:樸素貝葉斯法、K-最近鄰法、支持向量機(jī)、決策樹分類法等,其中樸素貝葉斯以算法簡(jiǎn)單高效并且具有嚴(yán)密的數(shù)學(xué)理論支撐而到了較為廣泛的應(yīng)用。但是樸素貝葉斯法假設(shè)條件屬性是彼此獨(dú)立,在文本分類中這就意味著指構(gòu)成文本的特征詞匯彼此相互獨(dú)立。該文結(jié)合論壇文本的特點(diǎn),探討了通過(guò)對(duì)特征屬性進(jìn)行加權(quán)來(lái)彌補(bǔ)樸素貝葉斯算法在論壇文本分類中的缺陷,并運(yùn)用java多線程技術(shù)和開源的Lucene索引框架來(lái)提升論壇文本的分類效率。
2 對(duì)樸素貝葉斯算法的修正
針對(duì)樸素貝葉斯算法的缺陷,已經(jīng)有許多研究者提出了改進(jìn)措施,例如:使用屬性相關(guān)性選擇來(lái)進(jìn)行屬性選擇獲得一個(gè)屬性子集,然后對(duì)這個(gè)屬性子集運(yùn)用樸素貝葉斯分類[2];考慮特征項(xiàng)在類內(nèi)和類間的分布情況,結(jié)合特征項(xiàng)之間的相關(guān)度來(lái)調(diào)整貝葉斯分類中條件屬性的權(quán)值[3];設(shè)計(jì)一種先“先抑后揚(yáng)”的方法去掉了對(duì)先驗(yàn)概率的計(jì)算,并在后驗(yàn)概率的計(jì)算中引入了一個(gè)放大系數(shù)[4],可見(jiàn)絕大多數(shù)研究者關(guān)注的是如何彌補(bǔ)特征詞的獨(dú)立性假設(shè)這一缺陷。
本文主要研究樸素貝葉斯算法在論壇文本中的應(yīng)用,該文所指的論壇文本是通過(guò)文獻(xiàn)1中所描述的論壇爬蟲程序獲取的來(lái)自各個(gè)論壇的帖子信息。由于論壇文本的主貼內(nèi)容往往以“短文本”的形式出現(xiàn)居多且包含較多的口語(yǔ)詞匯,在這種“短文本”中匹配特征詞匯表的詞也較少,往往導(dǎo)致類別識(shí)別失敗。論壇文本信息主要由帖子的標(biāo)題、主貼內(nèi)容、回帖內(nèi)容及帖子的狀態(tài)信息(如原帖發(fā)表時(shí)間、最后回帖時(shí)間、帖子瀏覽數(shù)、帖子回復(fù)數(shù)等)構(gòu)成。在對(duì)論壇文本進(jìn)行分類時(shí)應(yīng)該充分利用論壇的版塊信息、帖子標(biāo)題、回帖內(nèi)容進(jìn)行綜合判斷,為此本文提出以下的修改方案:
4 結(jié)束語(yǔ)
本文介紹了樸素貝葉斯算法的基本原理,分析了該算法在文本分類中存在的主要不足之處是了特征詞匯在待判定文檔中的位置信息以及特征詞匯之間的獨(dú)立性假設(shè)。通過(guò)對(duì)論壇文本信息的特點(diǎn)進(jìn)行研究,該文認(rèn)為在采用樸素貝葉斯算法進(jìn)行論壇文本分類時(shí)應(yīng)該在兩個(gè)方面進(jìn)行修改:一是結(jié)合帖子的標(biāo)題和類別的特征詞表,對(duì)類別概率P(Ci)進(jìn)行修正;二是根據(jù)每個(gè)特征詞在待判定文檔中出現(xiàn)的位置,對(duì)條件概率P(Xj|Ci)進(jìn)行修正。借助Lucene開源框架和BerkeleyDB數(shù)據(jù)庫(kù)等工具探究了如何在技術(shù)上對(duì)修正的樸素貝葉斯算法進(jìn)行實(shí)現(xiàn)。
參考文獻(xiàn):
[1] 唐勇.網(wǎng)絡(luò)爬蟲的設(shè)計(jì)[J].電腦知識(shí)與技術(shù),2012(8).
[2] 魏浩,丁要軍.基于屬性相關(guān)的樸素貝葉斯分類算法[J].河南科學(xué),2014(32).
[3] 饒麗麗,劉雄輝,張東站.基于特征相關(guān)的改進(jìn)加權(quán)樸素貝葉斯分類算[J].廈門大學(xué)學(xué)報(bào),2012(7).
[4] 邸鵬,段利國(guó).一種新型樸素貝葉斯文本分類算法[J].數(shù)據(jù)采集與處理,2014(7).
摘要:該文主要探討如何通過(guò)樸素貝葉斯算法對(duì)中文論壇中的文本信息進(jìn)行自動(dòng)分類,文中首先介紹了樸素貝葉斯算法的基本原理,并分析了該算法在文本分類中存在的不足之處,然后針對(duì)中文論壇的文本信息進(jìn)行研究,結(jié)合中文論壇文本的特點(diǎn)對(duì)樸素貝葉斯算法提出了兩點(diǎn)修正,給出了修正后的分類算法公式,最后介紹了如何借助Lucene開源框架、BerkeleyDB數(shù)據(jù)庫(kù)及IKAnalyzer分詞器等工具對(duì)修正樸素貝葉斯算法進(jìn)行技術(shù)實(shí)現(xiàn)。
關(guān)鍵詞:樸素貝葉斯;論壇文本;文本分類
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)32-7612-04
通過(guò)設(shè)計(jì)一種通用的網(wǎng)絡(luò)論壇的爬蟲程序可以將分散在互聯(lián)網(wǎng)各個(gè)角落的論壇信息有效地進(jìn)行聚合,為用戶提供統(tǒng)一的檢索接口[1],然而論壇爬蟲抓取的文本來(lái)自于不同主題的論壇版塊,數(shù)據(jù)量龐雜,因此,有必要對(duì)這些論壇文本進(jìn)行自動(dòng)分類,從而為論壇搜索引擎提供具有分類主題的查詢結(jié)果。目前文本自動(dòng)分類的主要有方法有:樸素貝葉斯法、K-最近鄰法、支持向量機(jī)、決策樹分類法等,其中樸素貝葉斯以算法簡(jiǎn)單高效并且具有嚴(yán)密的數(shù)學(xué)理論支撐而到了較為廣泛的應(yīng)用。但是樸素貝葉斯法假設(shè)條件屬性是彼此獨(dú)立,在文本分類中這就意味著指構(gòu)成文本的特征詞匯彼此相互獨(dú)立。該文結(jié)合論壇文本的特點(diǎn),探討了通過(guò)對(duì)特征屬性進(jìn)行加權(quán)來(lái)彌補(bǔ)樸素貝葉斯算法在論壇文本分類中的缺陷,并運(yùn)用java多線程技術(shù)和開源的Lucene索引框架來(lái)提升論壇文本的分類效率。
2 對(duì)樸素貝葉斯算法的修正
針對(duì)樸素貝葉斯算法的缺陷,已經(jīng)有許多研究者提出了改進(jìn)措施,例如:使用屬性相關(guān)性選擇來(lái)進(jìn)行屬性選擇獲得一個(gè)屬性子集,然后對(duì)這個(gè)屬性子集運(yùn)用樸素貝葉斯分類[2];考慮特征項(xiàng)在類內(nèi)和類間的分布情況,結(jié)合特征項(xiàng)之間的相關(guān)度來(lái)調(diào)整貝葉斯分類中條件屬性的權(quán)值[3];設(shè)計(jì)一種先“先抑后揚(yáng)”的方法去掉了對(duì)先驗(yàn)概率的計(jì)算,并在后驗(yàn)概率的計(jì)算中引入了一個(gè)放大系數(shù)[4],可見(jiàn)絕大多數(shù)研究者關(guān)注的是如何彌補(bǔ)特征詞的獨(dú)立性假設(shè)這一缺陷。
本文主要研究樸素貝葉斯算法在論壇文本中的應(yīng)用,該文所指的論壇文本是通過(guò)文獻(xiàn)1中所描述的論壇爬蟲程序獲取的來(lái)自各個(gè)論壇的帖子信息。由于論壇文本的主貼內(nèi)容往往以“短文本”的形式出現(xiàn)居多且包含較多的口語(yǔ)詞匯,在這種“短文本”中匹配特征詞匯表的詞也較少,往往導(dǎo)致類別識(shí)別失敗。論壇文本信息主要由帖子的標(biāo)題、主貼內(nèi)容、回帖內(nèi)容及帖子的狀態(tài)信息(如原帖發(fā)表時(shí)間、最后回帖時(shí)間、帖子瀏覽數(shù)、帖子回復(fù)數(shù)等)構(gòu)成。在對(duì)論壇文本進(jìn)行分類時(shí)應(yīng)該充分利用論壇的版塊信息、帖子標(biāo)題、回帖內(nèi)容進(jìn)行綜合判斷,為此本文提出以下的修改方案:
4 結(jié)束語(yǔ)
本文介紹了樸素貝葉斯算法的基本原理,分析了該算法在文本分類中存在的主要不足之處是了特征詞匯在待判定文檔中的位置信息以及特征詞匯之間的獨(dú)立性假設(shè)。通過(guò)對(duì)論壇文本信息的特點(diǎn)進(jìn)行研究,該文認(rèn)為在采用樸素貝葉斯算法進(jìn)行論壇文本分類時(shí)應(yīng)該在兩個(gè)方面進(jìn)行修改:一是結(jié)合帖子的標(biāo)題和類別的特征詞表,對(duì)類別概率P(Ci)進(jìn)行修正;二是根據(jù)每個(gè)特征詞在待判定文檔中出現(xiàn)的位置,對(duì)條件概率P(Xj|Ci)進(jìn)行修正。借助Lucene開源框架和BerkeleyDB數(shù)據(jù)庫(kù)等工具探究了如何在技術(shù)上對(duì)修正的樸素貝葉斯算法進(jìn)行實(shí)現(xiàn)。
參考文獻(xiàn):
[1] 唐勇.網(wǎng)絡(luò)爬蟲的設(shè)計(jì)[J].電腦知識(shí)與技術(shù),2012(8).
[2] 魏浩,丁要軍.基于屬性相關(guān)的樸素貝葉斯分類算法[J].河南科學(xué),2014(32).
[3] 饒麗麗,劉雄輝,張東站.基于特征相關(guān)的改進(jìn)加權(quán)樸素貝葉斯分類算[J].廈門大學(xué)學(xué)報(bào),2012(7).
[4] 邸鵬,段利國(guó).一種新型樸素貝葉斯文本分類算法[J].數(shù)據(jù)采集與處理,2014(7).