樸素貝葉斯分類算法的設(shè)計與分析

2019-05-24 14:13王陽周云才

電腦知識與技術(shù) 2019年11期

王陽周云才

摘要：隨著信息技術(shù)的日益發(fā)展，特別是信息技術(shù)應(yīng)用的日漸普及，電子文本信息數(shù)量急劇增加。如何對這些文本數(shù)據(jù)做有效的管理和高效的利用是目前信息技術(shù)領(lǐng)域所面臨的一項重大挑戰(zhàn)。文本分類是目前對電子文本進行管理的一種常用方法和是基本步驟。目前在信息過濾、信息檢索、數(shù)字圖書館等方面對文本分類是應(yīng)用非常廣泛，同時需求也在與日俱增。貝葉斯分類算法，由于有貝葉斯理論作為理論支撐，分類過程可追溯，具有諸多優(yōu)點，被眾多文本處理專家所喜愛?；谪惾~斯方法的分類器的研究和應(yīng)用，目前已經(jīng)是模式識別和數(shù)據(jù)挖掘等領(lǐng)域的研究熱點。本文主要是對貝葉斯分類模型進行了分析與實現(xiàn)。

關(guān)鍵詞：文本挖掘；文本分類；概率分布；貝葉斯分類；分析與實現(xiàn)

中圖分類號：TP311 文獻標(biāo)識碼：A

文章編號：1009-3044（2019）11-0206-03

1 引言

文本分類技術(shù)的研究目標(biāo)就是實現(xiàn)自動化的文本分類，用來到降低分類成本、改善分類效率等目的。作為信息檢索和文本信息管理的技術(shù)基礎(chǔ)，文本分類技術(shù)有著非常廣泛的應(yīng)用前景。

2 國內(nèi)外研究現(xiàn)狀

國內(nèi)文本分類的起步可以認為是在1981年，由侯漢清首先對計算機在文獻分類工作中應(yīng)用作了探討。國內(nèi)的主流高校包括清華大學(xué)在內(nèi)的多個重點高校都在從事該領(lǐng)域的研究，目前已經(jīng)進入到自動化分類階段，其中中科院開發(fā)的智多星中文文本分類器是目前來說比較好用的中文文本分類器。

樸素貝葉斯分類器是目前公認的一種簡單有效的概率分類方法，在某些領(lǐng)域中表現(xiàn)出很好的性能。在樸素貝葉斯分類方法中，有一個“獨立性假設(shè)”：即實例的屬性之間是相互獨立的。在這個獨立性假設(shè)，使得樸素貝葉斯方法特別適合處理屬性個數(shù)很多的任務(wù)，而文本分類恰恰就是屬于這種多屬性的分類任務(wù)。Friedman等人提出了一種新的樹狀結(jié)構(gòu)模型TAN（Tree Augmented Naive），其基本思路是通過對素貝葉斯中的獨立性假設(shè)條件進行放松，借鑒貝葉斯網(wǎng)中表示依賴關(guān)系的方法擴展樸素貝葉斯的結(jié)構(gòu)，使得能夠存在屬性間的依賴關(guān)系，但對其表示依賴關(guān)系的能力進行限制，使學(xué)習(xí)模型成為可能。

3 算法主要簡介

3.1思想簡介

樸素貝葉斯法（Naive Bayesian Model，NBM）是基于貝葉斯定理與特征條件獨立假設(shè)的分類模型方法，和決策樹模型相比，樸素貝葉斯分類器有著堅實的數(shù)學(xué)理論基礎(chǔ)和比較穩(wěn)定的分類效率。其分類過程如下：

（1）將每一個數(shù)據(jù)樣本用一個n維特征向量d={x1，x2，...，xn}表示，分別是n個屬性d1，d2，...，dn樣本的n個度量值。

3.3.5結(jié)果輸出

代碼結(jié)果的輸出主要是通過java集合Collections自帶的sort方法，對得到的結(jié)果進行排序，比較各個結(jié)果的大小，并對其進行排序，選擇可能性最大的類別進行輸出。由于貝葉斯算法的是根據(jù)概率的可能性大小來選擇所屬類別，根據(jù)貝葉斯算法得到的分類結(jié)果不一定是正確分類，只是可能性最大的分類。

4 總結(jié)

簡單的貝葉斯分類采用簡單的貝葉斯假設(shè)，即假設(shè)一組數(shù)據(jù)中任何兩個數(shù)據(jù)之間的出現(xiàn)概率計算都是相互獨立。簡單貝葉斯模型在實際應(yīng)用中，不僅對貝葉斯網(wǎng)絡(luò)構(gòu)建的復(fù)雜性以指數(shù)級的速度降低，同時在諸多領(lǐng)域，在不同于假定條件的情況下，簡單貝葉斯分類算法也有著極強的魯棒性和高效性。

本文細致分析了貝葉斯在文本分類中的應(yīng)用，分析了貝葉斯分類的數(shù)學(xué)模型，以及其中涉及到的關(guān)鍵算法都做了詳細分析，完成了貝葉斯文本分類的系統(tǒng)的設(shè)計與實現(xiàn)。但是由于時間有限，分類系統(tǒng)還存在有缺陷，例如本系統(tǒng)的文本分類不支持多分類功能，這部分功能在今后的工作中將對其進行持續(xù)性的改進。

參考文獻：

[1]王雙成，苑森森.具有丟失數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)研究[J].軟件學(xué)報，2004，15（7）：1042-1048.

[2]黃解軍，萬幼川，潘和平.貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)及其應(yīng)用研究[J].武漢大學(xué)學(xué)報（信息科學(xué)版），2004，29（4）：315-318.

[3]陳劍敏.基于Bayes方法的文本分類器的研究與實現(xiàn)[J].重慶大學(xué)，2007.

[4]于瑞萍.中文文本分類相關(guān)算法的研究與實現(xiàn)[J].西北大學(xué)，2007.

[5] 王雙成.混合貝葉斯網(wǎng)絡(luò)隱藏變量學(xué)習(xí)研究[J].計算機學(xué)報，2005，28（9）：1564-1569.

[6] 邢永康，馬小平.統(tǒng)計語言模型綜述[J].計算機科學(xué)，2003，30（9）：22-26.

[7] 張曉引，岳麗華.改進的 Native Bayes方法[J].中國科學(xué)技術(shù)大學(xué)學(xué)報，1999，29（1）.

[8]龐劍峰.基于向量空間模型的自反饋的文本分類系統(tǒng)的研究和實現(xiàn)[J].中國科學(xué)院， 2001.

[9]魯晨光.廣義信息論研究[M].合肥：中國科技大學(xué)出版社，1993.

[10]Jiawei Han，Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京：機械工業(yè)出版社，2001.

[11]黃營著，吳立德，石崎洋之等.獨立于語種的文本分類方法[J].中文信息學(xué)報，2010，14（6）：1-7.

[12]卜東波，白碩，李國杰.聚類/分類中的粒度原理[J].計算機學(xué)報，2002，25（8）：810-816.

[13]李榮陸.文本分類及其相關(guān)技術(shù)研究[J].上海復(fù)旦大學(xué)，2004，4.

[14]邊肇棋，張學(xué)工.模式識別（第二版）[M].北京清華大學(xué)出版社，2000.

[15]李東，張湘輝.中文軟件漢語分詞研究與應(yīng)用[R].微軟中國研究開發(fā)中心，2002.

【通聯(lián)編輯：梁書】

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

樸素貝葉斯分類算法的設(shè)計與分析