国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)

2016-11-02 23:40:10姜利群
電腦知識與技術(shù) 2016年23期
關(guān)鍵詞:文本分類

姜利群

摘要:網(wǎng)絡(luò)答疑系統(tǒng)是現(xiàn)代教育技術(shù)擴展課堂教學的一個重要舉措。采用樸素貝葉斯分類算法,開發(fā)了Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng),它輔助教師進行答疑解惑,并能對學生的問題進行分類并反饋給教師,由此幫助教師改進課堂教學。

關(guān)鍵詞: 樸素貝葉斯;中文分詞;文本分類;網(wǎng)絡(luò)答疑反饋系統(tǒng)

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2016)23-0206-03

Abstract: Using network answering system as an extension of classroom teaching is a major development of modern educational technology. A network answering and feedback system for Java curriculum is developed based on the naive Bayesian classification algorithm. It will assist the teacher with online question-and-answer and also classify the questions and provide feedback on how to improve the classroom instruction.

Key words: Naive Bayes; Chinese words segmentation; text classification; network answering system

隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和完善,大學教學中的答疑環(huán)節(jié)常常利用網(wǎng)絡(luò)答疑系統(tǒng)實現(xiàn),這給面對學生數(shù)量大的課程提供了很大方便,是重要的大學教學輔助手段。但是,很多課程的網(wǎng)絡(luò)答疑系統(tǒng)也僅用于輔助答疑解惑,還沒有考慮如何從學生的問題帖子中進一步挖掘出學生的學習信息。

我們利用多年的Java語言程序設(shè)計課程教學經(jīng)驗和積累的學生問題帖子、技術(shù)論壇中收集的知識點的各類帖子,開發(fā)了基于樸素貝葉斯分類算法的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng),該系統(tǒng)不僅實現(xiàn)了輔助答疑功能,同時具有“反饋”功能,它通過文本分類將學生的問題帖子所屬的Java課程的知識點進行歸類、統(tǒng)計,并反饋給教師,輔助教師調(diào)整后續(xù)課程的教學導向、教學內(nèi)容、教學方式和方法等,以幫助教師更進一步提高教學效果。

本文主要介紹網(wǎng)絡(luò)答疑反饋系統(tǒng)的反饋功能部分的實現(xiàn)方法與技術(shù)。

1 反饋系統(tǒng)需求及架構(gòu)

1.1 系統(tǒng)需求

如何在教學過程中及時地把握學生學習過程中遇到的問題,獲取足夠的信息用以改進教學,對提高教學質(zhì)量十分重要。因此,教育信息的挖掘處理是當前教學過程中需要迫切解決的問題,有必要使用技術(shù)上的手段來解決知識的智能分類,提高對知識整理的效率,減少搜索成本。

基于上述需求,Java課程網(wǎng)絡(luò)答疑系統(tǒng)需要加入反饋功能,就是對問題進行文本分類,根據(jù)問題的類型將其劃分到相應(yīng)的語義類別中,最終反饋給教師。

1.2 知識點分類設(shè)計

本文采用基于Lucene全文檢索并基于詞典的中文分詞技術(shù)設(shè)計答疑系統(tǒng)的搜索引擎[1] [2]。在分類算法中,利用比較經(jīng)典的樸素貝葉斯分類算法,對問題進行文本分類。

系統(tǒng)是以Java課程在線答疑系統(tǒng)學生提問帖子文本分類為實際應(yīng)用背景進行設(shè)計的。Java課程的知識點被分成21個大類,如表1所示。

1.3 文本分類設(shè)計

文本分類過程是建立從待分類帖子文本到知識點類別空間的映射。分類系統(tǒng)分為訓練階段和分類階段。訓練階段構(gòu)造特征集合和訓練分類器數(shù)據(jù)。分類階段是根據(jù)特征集合與分類器對未分類的帖子文本進行分類,并將分類的結(jié)果存入數(shù)據(jù)庫。

整個文本分類的執(zhí)行過程如下:

(1)收集Java課程按照知識點分的原始語料庫;

(2)對語料庫文本進行分詞、停用詞過濾等預處理;

(3)對已預處理的數(shù)據(jù)進行特征降維,構(gòu)造訓練集的特征矩陣;

(4)訓練分類器,將訓練的結(jié)果保存到集合中;

(5)根據(jù)訓練好的分類器對學生所發(fā)的帖子文本進行樸素貝葉斯分類,并將分類結(jié)果更新回帖子數(shù)據(jù)表的類別字段中。

文本分類整體框架如圖1所示。

2 樸素貝葉斯文本分類模型

2.1 樸素貝葉斯分類器

以貝葉斯定理為基礎(chǔ)的樸素貝葉斯分類器模型是基于概率統(tǒng)計的分類模型,由于該方法在速度和效率上很有優(yōu)勢,被廣泛地應(yīng)用[3]。

分類過程如下[4][5][6]:

2.2 樸素貝葉斯分類實現(xiàn)方法

3 系統(tǒng)實現(xiàn)及結(jié)果分析

3.1 數(shù)據(jù)準備

本系統(tǒng)為Java知識點每個類別收集了60篇文檔,每個文檔都是該知識點的描述、定義、疑問解答等內(nèi)容,能夠提供足夠的信息用于分類。

原始數(shù)據(jù)格式比較隨意,數(shù)據(jù)中帶有較多的無用標識符,需要進一步對語料庫原始數(shù)據(jù)進行預處理,過程包括分詞、停用詞處理等, 預處理過程如圖2所示。

原始數(shù)據(jù)經(jīng)過預處理模塊后,文本最后會被表示成獨立詞語的集合,其中虛詞和無意義詞均通過停用詞方式去除,這樣就可以方便計算機進行識別與計算。

3.2 特征提取

3.3 樸素貝葉斯分類器實現(xiàn)

樸素貝葉斯分類器模塊涉及樣本的訓練和分類兩個部分。在文本樣本訓練階段,由經(jīng)過預處理與特征提取后的特征詞集合計算每個特征詞的先驗概率和條件概率,構(gòu)成分類器的參數(shù)。進行文本分類時利用樸素貝葉斯公式計算相應(yīng)文本的后驗概率,選取最大后驗概率的類別作為該文本的類別。

利用樣本數(shù)據(jù)進行特征詞提取后的訓練和分類過程的模塊結(jié)構(gòu)如圖4所示。

從圖5看到,答疑反饋系統(tǒng)與一般的答疑系統(tǒng)相比只是多了一個問答文本的分類處理。系統(tǒng)對于每一條存到數(shù)據(jù)庫的問題帖子文本都有一個分類,對于檢索不到的答案,學生需要發(fā)表新問題,教師對新問題進行回答后對問和答文本進行分類,分類結(jié)果能夠確定該問題屬于哪個知識點,然后在數(shù)據(jù)表中標識該知識點即可。標識完畢后,學生就可以再通過關(guān)鍵字檢索的方式檢索到該答案。通過批量的方式對問題帖子文本進行分類,確定問題的類別,從而縮小問題的搜索范圍,提高系統(tǒng)的性能。

3.4 答疑反饋信息柱形圖

系統(tǒng)將學生各類問題帖子的百分比用答疑反饋信息柱形圖給出,如圖5所示。教師通過答疑反饋信息柱形圖可以直觀地看出學生在哪些知識點學得比較好,哪些知識點上學習問題比較多,輔助教師調(diào)整教學計劃。

3.5 實驗結(jié)果與分析

限于篇幅,這里僅進行準確率分析。準確率定義如下:

本文所用的訓練語料庫是21個一級知識點文本類,每類有文檔60個,一共有文檔1260個。帖子問答文本來源于在線答疑反饋系統(tǒng)的學生提問的問答帖子文本,每類個數(shù)在25至36之間。

系統(tǒng)評估了特征提取前后系統(tǒng)的分類準確率,如圖6所示。

從圖6可以看出增加了特征提取之后樸素貝葉斯分類的準確率有比較明顯的提高。采用樸素貝葉斯算法的平均分類準確率約為87%,增加文本特征提取方法后的平均正確率達到89%左右。由于本系統(tǒng)中采集的訓練樣本數(shù)據(jù)較少,對分類的準確度會有一定影響,隨著訓練樣本集的增加,系統(tǒng)的置信度也會提高,使得訓練樣本更能突出類別信息,分類的準確率也會提高。

4 結(jié)論

網(wǎng)絡(luò)答疑反饋系統(tǒng)采用樸素貝葉斯文本分類算法能夠比較準確的實現(xiàn)文本的分類,加入特征提取模塊后分類的準確率有一定的提高,分類的速度較好,完全可以應(yīng)用于各種文本分類場合。Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)在實際教學中使用后對教師了解學生學習信息、提高教學效果有很大的幫助。

參考文獻:

[1] 高琰,谷士文,譚立球,費耀平. 基于Lucene的搜索引擎設(shè)計與實現(xiàn)[J]. 微機發(fā)展,2004,14(10):42-44.

[2] 王志嘉,薛質(zhì).一種基于Lucene 的中文分詞的設(shè)計與測試[J].信息技術(shù),2010(12).

[3] 王國才.樸素貝葉斯分類器的研究與應(yīng)用[D].重慶:重慶交通大學,2010.

[4] 劉彧.基于貝葉斯理論的文本分類技術(shù)的研究與實現(xiàn)[D].長春:吉林大學,2009.

[5] 章舜仲,王樹梅,黃河燕.詞間相關(guān)性在貝葉斯文本分類中的應(yīng)用研究[J].計算機工程與應(yīng)用,2009,45(16): 159-161.

[6] 史瑞芳.貝葉斯文本分類器的研究與改進[J].計算機工程與應(yīng)用,2009,45(12):147-148.

[7] 周茜,趙明生,等.中文文本分類中的特征選擇研究[J].中文信息學報,清華大學,2004-3.

猜你喜歡
文本分類
基于稀疏編碼器與集成學習的文本分類
基于樸素貝葉斯的Web文本分類及其應(yīng)用
基于組合分類算法的源代碼注釋質(zhì)量評估方法
基于貝葉斯分類器的中文文本分類
基于蟻群智能算法的研究文本分類
基于K—means算法的文本分類技術(shù)研究
文本分類算法在山東女子學院檔案管理的應(yīng)用
科技視界(2016年24期)2016-10-11 09:36:57
不同情境下中文文本分類模型的表現(xiàn)及選擇
基于內(nèi)容的英語錄音教材標注研究與應(yīng)用
多核SVM文本分類研究
軟件(2015年5期)2015-08-22 08:02:45
哈巴河县| 水富县| 南川市| 柞水县| 昌都县| 宁津县| 南木林县| 威信县| 出国| 博白县| 宁武县| 盱眙县| 房产| 奉贤区| 监利县| 阿克陶县| 维西| 育儿| 马龙县| 德昌县| 河源市| 三亚市| 靖西县| 庆安县| 宜川县| 南雄市| 浙江省| 冀州市| 北碚区| 平陆县| 吉首市| 汤原县| 惠水县| 安陆市| 仁怀市| 航空| 孝义市| 安龙县| 嵊州市| 平凉市| 黄大仙区|