丁晟春 王小英 劉夢露
〔摘 要〕及時準(zhǔn)確地對輿情信息進行主題分類,不僅能實時了解輿情動態(tài)變化,還能為預(yù)判輿情發(fā)展趨勢、輿論引導(dǎo)建立基礎(chǔ)。本文提出一種基于本體和加權(quán)樸素貝葉斯的網(wǎng)絡(luò)輿情主題分類方法,通過使用本體將領(lǐng)域知識和領(lǐng)域文本特征融入分類過程中。將該方法應(yīng)用到動物衛(wèi)生領(lǐng)域輿情主題分類中,分類結(jié)果精確度為0.9402,Marco_F1達到0.9339。通過與樸素貝葉斯(NB)和THUCTC兩種方法的對比實驗,證明本文提出的基于本體和加權(quán)樸素貝葉斯的分類方法有效且具有可行性,但是領(lǐng)域本體的概念、關(guān)系的完備程度會影響分類的效率。
〔關(guān)鍵詞〕網(wǎng)絡(luò)輿情;主題分類;本體;加權(quán)樸素貝葉斯
DOI:10.3969/j.issn.1008-0821.2018.08.002
〔中圖分類號〕G254.1 〔文獻標(biāo)識碼〕A 〔文章編號〕1008-0821(2018)08-0012-06
〔Abstract〕Timely and accurate classification of public opinions can not only understand the dynamic changes of public opinions in real time,but also can establish the foundation for the development trend of public opinions and the guidance of public opinions.In this paper,a topic classification method based on ontology and Weighted Naive Bayes was proposed,which integrated domain knowledge and domain text features into the classification process by using ontology.Applying this method to the topic classification for animal health-related public opinions,and the accuracy and Marco_F1 of experiment were respectively 0.9402 and 0.9339.Compared with the two methods of Naive Bayes and THUCTC,it was proved that the proposed classification method based on ontology and weighted naive Bayes was effective and feasible.The completeness of concepts and relationships in domain ontology could affect the efficiency of classification.
〔Key words〕network public opinion;topic classification;ontology;Weighted Naive Bayes
隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們交流和獲取信息的主要途徑,越來越多的人習(xí)慣于在網(wǎng)絡(luò)上發(fā)表自己的觀點和看法。從“表哥”到“柴靜蒼穹之下”,從“天津大爆炸”到“青島大蝦”,從“山東疫苗事件”到“魏則西事件”,一起起網(wǎng)絡(luò)輿情事件,掀起了網(wǎng)絡(luò)議論高潮。輿論的此起彼伏,引導(dǎo)著網(wǎng)民的左右搖擺,在一定程度促進“相關(guān)部門”迅速解決問題的同時,也消耗著了大量的社會資源和管理成本。為了使相關(guān)部門能夠在海量網(wǎng)絡(luò)輿情信息中更好地引導(dǎo)輿情發(fā)展方向和及時作出有效預(yù)警,需要對網(wǎng)絡(luò)輿情主題進行分類。
現(xiàn)有研究大都以文本分類方法進行全領(lǐng)域輿情信息的分類,而針對某個具體領(lǐng)域內(nèi)的輿情信息細分類研究很少。領(lǐng)域內(nèi)輿情信息分類是一個二次分類問題,文本的類間內(nèi)容相似度極高,而且訓(xùn)練集數(shù)據(jù)分布和媒體關(guān)注度都可能造成類共用特征詞的分布不均。傳統(tǒng)的文本分類方法通常是基于特征詞的詞頻進行分類,沒有考慮到?jīng)]有考慮到詞語間的語義關(guān)系和待分類文本所在的具體領(lǐng)域。所以在特定領(lǐng)域中,僅使用傳統(tǒng)的文本分類算法不能取得較好的分類結(jié)果。因此,本文針對領(lǐng)域內(nèi)輿情提出一種基于本體和加權(quán)樸素貝葉斯的分類方法,將領(lǐng)域內(nèi)知識和領(lǐng)域文本特征加入到分類過程中,以提高領(lǐng)域內(nèi)輿情信息的分類效果。
1 相關(guān)工作
1.1 輿情主題分類研究現(xiàn)狀
當(dāng)前輿情主題分類研究主要是使用文本分類算法對輿情信息內(nèi)容進行分類。常用的文本分類算法有:支持向量機(Support Vector Machine,SVM)、k最近鄰(k-Nearest Neighbor,KNN)、樸素貝葉斯(Native Bayes,NB)、決策樹(Decision Tree)和Rocchio等。Jian Xu等研究了一種在Hadoop平臺中基于樸素貝葉斯算法的網(wǎng)絡(luò)輿情分類方法[1]。張宸等利用Hadoop平臺可并行處理分布式數(shù)據(jù)存儲的優(yōu)良特性,提出了HSVM_WNB分類算法,通過MapReduce進程完成并行網(wǎng)絡(luò)輿情信息的分類處理[2]。馬海兵等利用KNN和SVM兩種方法對網(wǎng)絡(luò)輿情安全應(yīng)用中主題分類問題展開研究[3]。吳堅等利用隨機森林分類算法構(gòu)建文檔決策樹對網(wǎng)絡(luò)輿情信息進行了分類研究[4]。馬海群等使用神經(jīng)網(wǎng)絡(luò)方法建立微博數(shù)據(jù)安全相關(guān)話題的分類系統(tǒng),以及時有效地掌握公眾對于數(shù)據(jù)安全話題的動態(tài)[5]。
還有部分研究將文本分類算法和其他方法相結(jié)合,以此加入特定領(lǐng)域輿情特征和彌補傳統(tǒng)文本分類方法缺乏語義信息的缺點。林偉結(jié)合微博書寫時口語化、時代化、含表情等特點,提出基于改進N-Gram的微博的多特征項提取算法,并提出基于聚類的KNN分類模型實現(xiàn)微博信息的分類[6]。B Sriram等通過對用戶的個人資料和帖子中特定領(lǐng)域特征的提取,有效地將文本預(yù)定義為一組泛型類,實現(xiàn)了Twitter上的信息分類[7]。夏華林等提出一種基于規(guī)則與統(tǒng)計相結(jié)合的Web突發(fā)事件新聞多層次自動分類方法,首先提取類別關(guān)鍵詞形成規(guī)則庫,然后利用分類規(guī)則將突發(fā)事件分成4大類,再使用樸素貝葉斯分類方法將各大類突發(fā)事件新聞進行細分,形成了基于規(guī)則與統(tǒng)計的兩層分類模型[8]。崔爭艷結(jié)合《知網(wǎng)》本體庫,將關(guān)鍵詞映射到語義概念,并用語義KNN分類算法實現(xiàn)對微博信息的分類[9]。朱平等針對SVM分類方法缺乏對概念語義的處理這一缺點,提出一種集成本體和SVM的文本分類方法[10]。
1.2 加權(quán)樸素貝葉斯分類器
樸素貝葉斯算法是已知先驗概率,計算待分類文本X屬于各個類別Ci的條件概率,根據(jù)先驗概率P(Ci)和條件概率P(X|Ci)計算后驗概率P(Ci|X),選擇后驗概率最大的類別作為X的最終所屬類別。樸素貝葉斯算法由于運算時間快、簡單易行而廣泛運用在文本分類中,但其所依賴的特征獨立假設(shè)往往不成立。為了降低特征獨立假設(shè)對份分類器性能的影響,學(xué)者們提出將各種特征加權(quán)算法與樸素貝葉斯分類器相結(jié)合,對不同的特征根據(jù)其分類重要性賦予不同的權(quán)值,將樸素貝葉斯擴展為加權(quán)樸素貝葉斯(Weighted Naive Bayes,WNB)[11-13]。加權(quán)樸素貝葉斯計算公式如下:
樸素貝葉斯分類算法是一種統(tǒng)計學(xué)的分類方法,沒有考慮到?jīng)]有考慮到詞語間的語義關(guān)系和待分類文本所在的具體領(lǐng)域。而本體是對于“概念化”的明確表達,可以描述或表達某一領(lǐng)域知識的一組概念或術(shù)語。本體在文本分類中可以作為背景知識提供語義信息,也可以用來添加主題詞擴充特征向量,提高分類效率。目前,已有很多學(xué)者使用本體進行了文本分類研究[14-16]。因此,本文通過本體為加權(quán)樸素貝葉斯分類算法提供領(lǐng)域知識,同時降低類共用特征詞的分布不均造成的影響,實現(xiàn)領(lǐng)域內(nèi)輿情的高效分類。
2 方 法
2.1 方法框架
基于本體和加權(quán)樸素貝葉斯的分類方法主要分為本體構(gòu)建、文本預(yù)處理、特征提取和文本分類幾個部分,方法框架如圖1所示。
1)本體構(gòu)建:依據(jù)領(lǐng)域輿情信息形成領(lǐng)域本體的基本框架,提取出框架內(nèi)所有的概念,并定義概念與概念間的關(guān)系,選擇合適的本體構(gòu)建方法對領(lǐng)域本體進行編碼和形式化。目前大部分的本體構(gòu)建都需要領(lǐng)域?qū)<业膮⑴c,本體在使用過程中也需要不斷完善和優(yōu)化。
2)文本預(yù)處理:包括分詞、詞性標(biāo)注和去除停用詞,以去除對分類不起作用的噪音詞語。對于特定領(lǐng)域文本,使用通用的分詞系統(tǒng)進行分詞,其準(zhǔn)確率較低。因此,將領(lǐng)域本體實例加入到分詞工具中以提高分詞的準(zhǔn)確率。
3)特征提?。何谋绢A(yù)處理后得到的是高維稀疏的特征向量,選擇合適的特征提取算法來降低向量空間維數(shù),從而簡化計算提高文本處理的速度和效率。
4)文本分類:使用樸素貝葉斯對訓(xùn)練集數(shù)據(jù)進行訓(xùn)練,得出類先驗概率P(Ci)和特征項的類條件概率P(X|Ci),將領(lǐng)域本體加入到分類器分類過程中對測試集進行分類,最后對分類結(jié)果進行評測和分析。
2.2 特征提取
特征抽取是在不破壞文本內(nèi)容的情況下盡量減少所需處理的單詞,以此來降低向量空間維數(shù),從而簡化計算提高文本處理的速度和效率,特征選擇準(zhǔn)確與否對文本分類至關(guān)重要。常用的文本特征選擇方法有:文檔頻率(Document Frequency,DF)、互信息(Mutual Informal,MI)、信息增益(Information Gain,IG)和卡方檢驗(Chi-square Test)。這些方法的基本思想都是對每一個特征計算某種統(tǒng)計度量值,然后設(shè)定一個閾值y,把度量值小于y的特征過濾掉,剩下的即認為是有效特征[16]。
本文使用卡方檢驗方法進行文本特征提取,卡方檢驗是用來度量特征項wk與類Ci之間的相關(guān)程度,若wk對于Ci類的CHI值越高,則表示wk與Ci類的相關(guān)性越大,攜帶的類別信息更多,計算公式如下:
2.3 方法流程描述
輸入:訓(xùn)練集、測試集
輸出:文本類別
Step 1:將領(lǐng)域本體實例信息加入到分詞工具中對訓(xùn)練集和測試集文本進行分詞,并為領(lǐng)域內(nèi)不同頂層概念下的專用詞語自定義詞性對分詞后的文本進行詞性標(biāo)注,根據(jù)具體領(lǐng)域信息使用停用詞表、正則表達式和詞性標(biāo)注去除噪音數(shù)據(jù);
Step 2:使用特征提取方法對經(jīng)過文本預(yù)處理的訓(xùn)練集文本進行特征降維,對測試集文本使用特征提取后的特征詞進行表示,并篩選出特征詞中類相關(guān)性大且在各類中均有出現(xiàn)的詞語;
Step 3:依據(jù)待分類文本特性選擇多變量伯努利模型或多項式模型對訓(xùn)練集文本進行訓(xùn)練,得出類先驗概率P(Ci)和特征項的類條件概率P(X|Ci);
Step 4:通過詞性標(biāo)注判斷測試集文本中是否包含類特有概念的詞語,如果包含則輸出該類的類別,進入Step 9,否則進入Step 5;
Step 5:判斷測試集文本中包含多類共用概念的詞性標(biāo)注,包含進入Step 7,不包含進入Step 6;
Step 6:對測試數(shù)據(jù)執(zhí)行加權(quán)樸素貝葉斯分類,以輸出結(jié)果作為該文本類別,進入Step 9;
Step 7:通過概念的屬性值判斷測試集數(shù)據(jù)的所屬類別,進入Step 9,不能使用概念屬性判斷類別的文本進入Step 8;
Step 8:對測試數(shù)據(jù)執(zhí)行加權(quán)樸素貝葉斯分類,以輸出結(jié)果作為該文本類別,進入Step 9;
Step 9:輸出文本類別。
方法的Step 6和Step 8都進行了加權(quán)樸素貝葉斯計算,權(quán)重的計算公式(4)所示。但是兩個加權(quán)樸素貝葉斯分類面向的詞語是不同的。Step 6是對文本中所有詞語進行加權(quán)樸素貝葉斯計算,而Step 8使用排除Step 2中篩選出的特征詞后的詞語進行計算。這是因為進入Step 8的文本在內(nèi)容上具有極高的相似度,使用類相關(guān)性大且在各類中均有出現(xiàn)的詞語進行加權(quán)計算會因訓(xùn)練集文本和媒體關(guān)注度導(dǎo)致的特征詞分布不均對分類結(jié)果產(chǎn)生影響。
TF(wk|Ci)+1∑ni=1TF(wk|Ci)+2(4)
其中,TF(wk|Ci)表示特征詞wk在類Ci中出現(xiàn)的次數(shù),∑ni=1TF(wk|Ci)表示在所有類中特征詞wk出現(xiàn)的總數(shù),為了避免TF(wk|Ci)的值為0對該值進行估計。
3 實驗與結(jié)果分析
目前,動物衛(wèi)生領(lǐng)域輿情信息多集中在新聞和論壇中,林綱指出新聞標(biāo)題擔(dān)負引導(dǎo)讀者進一步閱讀的責(zé)任,是對新聞事件的高度概括,是新聞文本主題的精華體現(xiàn)[18]。因此,本部分選取新聞標(biāo)題數(shù)據(jù)進行動物衛(wèi)生領(lǐng)域輿情主題分類實驗。
3.1 動物衛(wèi)生領(lǐng)域輿情信息分析
3.1.1 動物衛(wèi)生領(lǐng)域輿情信息類別定義
本課題組多次參與動物衛(wèi)生和流行病學(xué)的調(diào)研,在充分了解中國動物衛(wèi)生與流行病學(xué)中心對動物衛(wèi)生領(lǐng)域輿情監(jiān)測的實際需求及防控關(guān)注點的基礎(chǔ)上,將動物衛(wèi)生領(lǐng)域輿情信息分為動物衛(wèi)生安全、公共衛(wèi)生安全和動物源性食品安全3個類別。
1)動物衛(wèi)生安全指只涉及動物自身的衛(wèi)生事件,如:“臺灣云林再傳禽流感,近3萬只肉雞被撲殺”,“新疆巴州輪臺縣發(fā)生一起小反芻獸疫疫情”,“死亡畜禽處理刻不容緩:寧波動物無害化處理廠已收運處理死亡畜禽近90噸”;
2)公共衛(wèi)生安全則是指由動物源性病原體導(dǎo)致的人感染病例、非正常死亡和環(huán)境污染的衛(wèi)生事件,如:“江西今年以來報告H7N9病例37例,死亡13人”、“湖北宜昌約百頭死豬拋尸長江岸邊,惡臭熏天”;
3)動物源性食品安全是指以動物為原料的食品安全事件,如肉品非法加工、凍品走私和瘦肉精使用等,“黑心攤販牛血中添加福爾馬林保鮮,兩年售出60噸”。
3.1.2 動物衛(wèi)生領(lǐng)域新聞輿情信息特征分析
本文對動物衛(wèi)生領(lǐng)域新聞標(biāo)題進行文本特征分析發(fā)現(xiàn):①不同新聞網(wǎng)站對該領(lǐng)域新聞的描述方式相對統(tǒng)一;②動物衛(wèi)生安全和公共衛(wèi)生安全兩類新聞標(biāo)題的描述方式基本相同,標(biāo)題中都會指出發(fā)生安全事件的地點和疫病名稱,例如:“深圳龍崗兩活禽市場檢出H7N9禽流感病毒”、“上海確診1例人感染H7N9”,由此也可以看出這兩類的新聞內(nèi)容相似度極高;③動物源性食品安全類新聞標(biāo)題則會描述食品安全事件發(fā)生的地點和事件內(nèi)容,如:“東莞市動監(jiān)所查處一批偽造檢疫證明凍肉”、“北京:四季風(fēng)味豬頭肉,檢出瘦肉精”,動物源性食品安全類新聞標(biāo)題的描述統(tǒng)一性不高,但是與前兩類內(nèi)容差異較大。
3.1.3 動物衛(wèi)生領(lǐng)域新聞輿情自動分類的難點分析
由上述分析可以看出動物衛(wèi)生領(lǐng)域新聞自動分類存在3個難點:1)本文研究的是動物衛(wèi)生領(lǐng)域新聞文本的二次分類問題,也就是待分類文本都屬于動物衛(wèi)生領(lǐng)域,文本內(nèi)容的相似度高;2)動物衛(wèi)生安全類和公共衛(wèi)生安全類的描述方式基本相同,差異僅在于患病群體,內(nèi)容區(qū)分度?。?)同時由于訓(xùn)練集數(shù)據(jù)內(nèi)容分布不均和媒體對部分動物疫病的高度關(guān)注導(dǎo)致某些詞語在某個類別特別集中,例如在前兩類作為類別關(guān)鍵詞的“禽流感”、“H7N9”等。
3.2 數(shù)據(jù)集
動物衛(wèi)生領(lǐng)域的新聞報道多出現(xiàn)在我國農(nóng)業(yè)部、獸醫(yī)局和各地畜牧獸醫(yī)局等政府官方網(wǎng)站,或是人民網(wǎng)、新華網(wǎng)、中新網(wǎng)等影響力大受眾多的新聞網(wǎng)站,還有像國際畜牧網(wǎng)、食品伙伴網(wǎng)(論壇)、食品論壇、食品科技網(wǎng)等動物衛(wèi)生領(lǐng)域從業(yè)人員比較關(guān)注的網(wǎng)站。
本文從新華網(wǎng)、環(huán)球網(wǎng)、中國新聞網(wǎng)等網(wǎng)站抓取了2017年1月至2017年6月期間國內(nèi)外動物衛(wèi)生領(lǐng)域新聞,共計5 578條。將抓取的新聞標(biāo)題數(shù)據(jù)進行人工分類標(biāo)注,訓(xùn)練集和測試集數(shù)據(jù)分布如表1所示。
3.3 動物衛(wèi)生領(lǐng)域本體構(gòu)建
根據(jù)動物衛(wèi)生領(lǐng)域輿情信息的分類類別,本文所構(gòu)建的領(lǐng)域本體主要涉及動物疫病、食品添加劑、獸藥(飼料)3部分,下面以動物疫病本體為例進行描述。
首先通過對《一二三類動物疫病釋義》、百度百科、新聞報道對動物疫病的信息描述,總結(jié)歸納出動物疫病本體的頂層概念:病原學(xué)、流行病學(xué)、臨床表現(xiàn)、防治。但僅依靠頂層概念不能提供足夠的信息來描述動物疫病知識,所以在動物衛(wèi)生領(lǐng)域?qū)I(yè)人員的指導(dǎo)下描述頂層概念的內(nèi)部結(jié)構(gòu),抽象出相關(guān)的擴展概念。經(jīng)過以上兩個步驟所得動物疫病本體中的部分等級、非等級關(guān)系及部分屬性如下:
1)病原:包含病毒、原蟲、真菌、細菌……;
2)流行病學(xué):包含地理分布、多發(fā)時間、傳播途徑、感染群體……;
3)臨床表現(xiàn):包含潛伏期、體溫、病程、發(fā)病率、死亡率、患病癥狀、并發(fā)癥……;
4)防治:防疫級別、切斷傳播途徑、控制傳染源、保護易感群體……。
本文根據(jù)2016年世界動物衛(wèi)生組織(Office International Des Epizooties,OIE)公布的動物疫病名錄、我國農(nóng)業(yè)部2008年修訂的《一、二、三類動物疫病病種名錄》和中國動物衛(wèi)生與流行病學(xué)中心較為關(guān)注的疫病,以及常用食品添加劑和獸藥(飼料)創(chuàng)建了317個動物衛(wèi)生領(lǐng)域本體實例。
與全領(lǐng)域的新聞文本不同,動物衛(wèi)生領(lǐng)域新聞輿情作為特定領(lǐng)域,使用通用的分詞系統(tǒng)進行分詞,其準(zhǔn)確率較低。因此,本文將動物衛(wèi)生領(lǐng)域本體實例和動物衛(wèi)生領(lǐng)域常用固定詞語加入到中科院ICTCLAS分詞工具中以提高分詞的準(zhǔn)確率。對動物衛(wèi)生領(lǐng)域本體實例,如動物疫病名稱、疫病病毒名稱、食品添加劑名稱等建立兩種自定義詞性,如表2所示。
3.4 實驗結(jié)果及分析
本文使用樸素貝葉斯(NB)、清華大學(xué)自然語言處理實驗室推出的基于支持向量機的中文文本分類工具包THUCTC[19]和基于本體和加權(quán)樸素貝葉斯(OWNB)3種方法進行分類實驗,并使用精確度(Accuracy)和宏平均(Macro-Averaging)來衡量其的性能,總體實驗結(jié)果、分類實驗結(jié)果如表3、表4、圖3和圖4所示。
由表3可以看出,本文提出的基于本體加權(quán)樸素貝葉斯分類算法在動物衛(wèi)生領(lǐng)域輿情分類實驗中取得了不錯的分類效果,精確率達到0.9402,Marco_F1達到了0.9339,較NB和THUCTC分類結(jié)果有較大的提升,由此可以說本文提出的分類方法是有效的。
之所以能取得較好的實驗結(jié)果,主要包含以下原因:
1)3類文本中都可能出現(xiàn)標(biāo)注為“/disease”的詞語,而且“禽流感”、“H7N9”等動物疫病名稱的分布不均導(dǎo)致前兩類很多文本被錯分。使用所有詞語進行加權(quán)計算不能很好地的區(qū)分動物衛(wèi)生安全和公共衛(wèi)生安全類,僅使用名詞進行分類計算可以更好地判斷衛(wèi)生事件的受眾是人還是動物,也排除共用動詞(例如:“感染”、“擴散”、“出現(xiàn)”等)的干擾,以此提高了動物衛(wèi)生安全類的準(zhǔn)確率和公共衛(wèi)生安全類的召回率。在動物衛(wèi)生領(lǐng)域分類流程的基礎(chǔ)上加入權(quán)重,突出了各類特征詞在每一類的重要程度,使分類效果得到進一步提升。
2)由于動物源性食品安全分類新聞內(nèi)容與前兩類差距較大,通過使用該類特有概念的詞語,將該類文本與其他兩類區(qū)分開,同時OWNB方法減少了前兩類錯分到該類的數(shù)據(jù),提高了其準(zhǔn)確率。
對未分類正確的文本進行分析后發(fā)現(xiàn):本文提出的方法對動物衛(wèi)生領(lǐng)域本體及其屬性值的完備性有較大的依賴。本文引入的動物衛(wèi)生知識本體中僅包含OIE公布的動物疫病名錄和《一、二、三類動物疫病病種名錄》中的疫病,在未分類正確的文本中就出現(xiàn)了不包含在上述兩個名錄中的疫病。這不僅對文本分詞造成影響,也弱化了本文分類方法的作用。
4 總 結(jié)
本文利用領(lǐng)域本體將領(lǐng)域知識和領(lǐng)域文本特征加入到分類過程中,結(jié)合加權(quán)樸素貝葉斯分類算法提出了適合于領(lǐng)域輿情信息的分類方法。通過與樸素貝葉斯和THUCTC的對比實驗可以看出本文提出的分類算法較其他算法有了明顯提升。但是,本研究僅將領(lǐng)域本體的概念加入到分類中,沒有對本體概念間的關(guān)系進行使用。后續(xù)筆者還將就還將就上述不足對對分類方法進行不斷的完善,并選擇其他領(lǐng)域輿情信息進行實證分析,提高分類的準(zhǔn)確性,為更好地引導(dǎo)網(wǎng)絡(luò)輿情發(fā)展方向和及時做出有效預(yù)警奠定基礎(chǔ)。
參考文獻
[1]Jian Xu,Bin Ma.Study of Network Public Opinion Classification Method Based on Naive Bayesian Algorithm in Hadoop Environment[J].Applied Mechanics and Materials,2014,3009(519).
[2]張宸,韓夏.大數(shù)據(jù)環(huán)境下基于SVM-WNB的網(wǎng)絡(luò)輿情分類研究[J].統(tǒng)計與決策,2017,(14):45-48.
[3]馬海兵,畢久陽,邱君瑞.網(wǎng)絡(luò)輿情安全應(yīng)用中主題分類方法的研究與實現(xiàn)[J].現(xiàn)代情報,2012,32(4):8-13.
[4]吳堅,沙晶.基于隨機森林算法的網(wǎng)絡(luò)輿情文本信息分類方法研究[J].信息網(wǎng)絡(luò)安全,2014,(11):36-40.
[5]馬海群,王今.基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)安全話題文本分類研究——以新浪微博為例[J].圖書館,2017,(5):36-39.
[6]林偉.基于多特征提取的中文微博輿情分類研究[J].中國人民公安大學(xué)學(xué)報:自然科學(xué)版,2016,22(4):53-56.
[7]Sriram B,F(xiàn)uhry D,Demir E,et al.Short Text Classification in Twitter to Improve Information Filtering[C]// International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2010:841-842.
[8]崔爭艷.基于語義的微博短信息分類[J].現(xiàn)代計算機:專業(yè)版,2010,(8):18-20.
[9]夏華林,張仰森.基于規(guī)則與統(tǒng)計的Web突發(fā)事件新聞多層次分類[J].計算機應(yīng)用,2012,32(2):392-394.
[10]朱平,范少輝,岳永德.一種集成本體和SVM的文本分類方法[J].江西理工大學(xué)學(xué)報,2012,33(1):68-72.
[11]Webb G I,Pazzan MJ.Adjusted Probability Naive Bayesian Induction[C]//Proceedings of the 11th Australian Joint Conference on Artificial Intelligence.1998:285-295.
[12]Kim S B,Rim H C,Yook D,et al.Effective Methods for Improving Naive Bayes Text Classifiers[C]// PRICAI 2002:Trends in Artificial Intelligence,Pacific Rim International Conference on Artificial Intelligence,Tokyo,Japan,August 18-22,2002,Proceedings.DBLP,2002:414-423.
[13]Zhang H,Sheng S.Learning Weighted Naive Bayes with Accurate Ranking[C]//Proceedings of the 4th IEEE International Conference on Data Mining,2004:567-570.
[14]Song M H,Lim S Y,Kang D J,et al.Automatic Classification of Web Pages based on the Concept of Domain Ontology[C]// Asia-Pacific Software Engineering Conference.IEEE Computer Society,2005:645-651.
[15]張穎,王文杰,史忠植.基于本體的文本分類方法[J].計算機仿真,2009,26(5):103-106,178.
[16]韋婷婷,聶登國,王駒,等.基于領(lǐng)域本體的文本分類方法[J].計算機工程,2012,38(15):62-65.
[17]代六玲,黃河燕,陳肇雄.中文文本分類中特征抽取方法的比較研究[J].中文信息學(xué)報,2004,(1):26-32.
[18]林綱.網(wǎng)絡(luò)新聞文本結(jié)構(gòu)的語法特征[J].社會科學(xué)家,2010,(7):155-157.
[19]孫茂松,李景陽,郭志芃,等.THUCTC:一個高效的中文文本分類工具包.2016.
(責(zé)任編輯:馬 卓)